mÉtodo computacional para la identificaciÓn de … · 2.1.4 máquinas de ectoresv de soporte...

60

Upload: lengoc

Post on 12-Oct-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓNDE PROTEÍNAS SECRETADAS POR VÍA NO CLÁSICA

DANIEL RESTREPO-MONTOYA

Código: 299714

Tesis presentada como requisito parcial para obtener el título de

MSC. EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

INGENIERÍA DE SISTEMAS

Director:ING.LUIS FERNANDO NIÑO. PHD.

Profesor Asociado.Ingeniería de Sistemas

Codirector:MANUEL ALFONSO PATARROYO. M.D. PH.D.

Fundación Instituto de Inmunología de Colombia �FIDIC�.

UNIVERSIDAD NACIONAL DE COLOMBIAFACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS E INDUSTRIALBOGOTÁ

2010

Page 2: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Aprobada por la Facultad de Ingeniería en cumplim-iento de los requisitos exigidos para otorgar el títulode: MSc. en Ingeniería de Sistemas y Com-putación � Ingeniería de Sistemas

Ing.Luis Fernando Niño. PhD.Director de la Tesis

Manuel Alfonso Patarroyo. M.D. Ph.D.Codirector

Leonardo Mariño Ramirez. Ph.D.Jurado

Germán J. Hernández P. Ph.D.Jurado

Universidad Nacional de ColombiaBogotá, Enero de 2010

Page 3: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

RESUMEN

MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE PROTEÍNASSECRETADAS POR VÍA NO CLÁSICA

por

DANIEL RESTREPO-MONTOYAMSc. en Ingeniería de Sistemas y Computación en Ingeniería de Sistemas

UNIVERSIDAD NACIONAL DE COLOMBIA

Director: Ing.Luis Fernando Niño. PhD.

Este trabajo propuso un método computacional innovador para la clasi�cación de proteínas secretadaspor vía no clásica. De forma especí�ca se presenta una aproximación novedosa tanto en la comprensióny uso de los métodos basados en aprendizaje de máquina como en la solución a un problema complejopreviamente reportado por la comunidad cientí�ca. La nueva metodología fue validada con datos eval-uados experimentalmente superando las aproximaciones previamente reportadas para la clasi�caciónde proteínas que cumplen con esta condición. Así mismo, se proponen transformaciones innovadoras apartir de procesos e�caces, reportando excelentes resultados, lo cual se ve re�ejado de manera directaen el área de las ciencias de la vida a nivel mundial, abriendo un espacio único para el Departamentode Ingeniería de Sistemas.

Page 4: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

ABSTRACT

COMPUTATIONAL METHOD FOR THE CLASSIFICATION OF NON CLASSICALSECRETED PROTEINS

por

DANIEL RESTREPO-MONTOYAMSc. en Ingeniería de Sistemas y Computación en Ingeniería de Sistemas

UNIVERSIDAD NACIONAL DE COLOMBIA

Advisor: Ing.Luis Fernando Niño. PhD.

This work proposed novel computational method for classifying Gram-positive proteins that are se-creted via the nonclassical secretory pathway, denoted as SIG+SVM: secretion independent Gram-positive supported vector machine. SIG+SVM implements novel approaches, both in the use andunderstanding of Kernel methods as well as for the solution of a biological problem. It is composedby 4 Kernel-based classi�ers (frequencies, dipeptides, physicochemical factors and PSSM), each ofwhich is based on di�erent vectorial representations obtained by applying di�erent amino acid se-quence transformations to the input data. The method performed better than previously reportedapproaches proposed for classifying nonclassically secreted proteins when being tested with an exper-imentally validated protein dataset.

Page 5: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

RECONOCIMIENTOS

Agradezco a la Facultad de Ingeniería de la Universidad Nacional de Colombia por permitir que unBiólogo hiciera parte de sus estudiantes de posgrado.

Al soporte y la buena actitud de los profesores Luis Fernando Niño, Fabio González, Yoan Pinzón,Elizabeth León y Jonatan Gómez del departamento de Ingeniería de Sistemas e Industrial.

A la Fundación Instituto de Inmunología de Colombia �FIDIC� y en especial a Manuel ElkinPatarroyo por su constante interés en este trabajo y porque no ha perdido la maravillosa capacidadde preguntar.

A mis compañeros y pacientes profesores Juan Carlos Galeano, Camilo Pino, David Becerra, WilsonSoto, Isabel Mahecha, Edwin Niño, Miguel Dussan, Oscar Sánchez y Leonardo Bobadilla.

A todo el equipo de trabajo del Laboratorio en Sistemas Inteligentes �LISI�.Al soporte recibido del grupo de investigación �ALGOS-UN�.Agradezco especialmente a Juan Carlos Galeano, Camilo Pino, Nora Martínez y María Ximena

Cárdenas por todos los aportes a aparte de los recibidos en el desarrollo de este trabajo.A Hackney-UK, Los Rickshaws, Jorge Salcedo, Rena Amaya, las 4 cuerdas y Delavil por cruzarce

en mi camino.

vii

Page 6: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

DEDICATORIA

A la hortelana y el pescador

ix

Page 7: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Contenido

Contenido x

Lista de Figuras xii

Lista de Tablas xiii

1 Introducción 1

1.1 Justi�cación del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.1 Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 Objetivos especí�cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3 Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.4 Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Fundamentos y problemas 5

2.1 Aprendizaje de Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.1 Representación de la información . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1.1 Vectores basados en características . . . . . . . . . . . . . . . . . . . . 82.1.1.2 Vectores basados en similitud . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 Métodos de Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1.3 Selección del Kernel y su correspondiente modelo . . . . . . . . . . . . . . . . . 10

2.1.3.1 Funciones Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.3.2 Funciones Polinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.3.3 Funciones Gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.3.4 Normalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.4 Máquinas de Vectores de Soporte (SVM) . . . . . . . . . . . . . . . . . . . . . 112.1.4.1 C-SVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.4.2 nu-SVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.5 Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Identi�cación y localización de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2.1 Secreción de proteínas en bacterias . . . . . . . . . . . . . . . . . . . . . . . . . 142.2.2 Secreción de proteínas por vía no clásica . . . . . . . . . . . . . . . . . . . . . . 152.2.3 Secreción por vía clásica en otros grupos biológicos . . . . . . . . . . . . . . . . 16

3 Trabajo previo (otros autores) 19

3.1 Métodos entrenados para el reconocimiento de proteínas secretadas por vía no clásica 193.1.1 SecretomeP 2.0 server, clasi�cador para bacterias Gram-positivas . . . . . . . . 193.1.2 Conjuntos de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.3 Construcción de vectores para el entrenamiento . . . . . . . . . . . . . . . . . . 203.1.4 Construcción y evaluación del modelo de SecretomeP 2.0 . . . . . . . . . . . . 20

x

Page 8: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

4 Métodos y proceso exploratorio 23

4.1 Diseño experimental del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2 Conjunto de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.1 Proceso de selección de los conjuntos de entrenamiento . . . . . . . . . . . . . . 25

4.2.2 Método de ajuste de los conjuntos de entrenamiento y exploración . . . . . . . 25

4.2.3 Conjunto positivo y negativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2.4 Conjunto de exploración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3 Diseño de vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3.1 Construcción y normalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3.2 Vectores de composición de aminoácidos (frecuencias) . . . . . . . . . . . . . . 26

4.3.3 Vector de dipéptidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3.4 Vector de factores estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3.5 Vector PSSM (PSI-BLAST) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.3.6 Procesamiento de vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.4 Exploración de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.4.1 Parámetros explorados de las funciones de Kernel . . . . . . . . . . . . . . . . . 32

4.4.1.1 Funciones Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.1.2 Funciones Polinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.1.3 Funciones Gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.2 Entrenamiento de la Máquina de Vectores de Soporte y rangos de la exploraciónde parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.2.1 C-SVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4.2.2 nu-SVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.5 Validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5 Resultados y evaluación 35

5.1 Frecuencias y vectores a partir de los conjuntos de entrenamiento . . . . . . . . . . . . 35

5.2 Pruebas de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.3 Pruebas de exactitud para todas las variables . . . . . . . . . . . . . . . . . . . . . . . 37

5.4 Mejores clasi�cadores para cada tipo de vector . . . . . . . . . . . . . . . . . . . . . . 37

5.5 Curva ROC para los mejores clasi�cadores . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.6 Diagrama de resultados para la clasi�cación del conjunto independiente de proteínassecretadas por vía no clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6 Discusión de resultados 41

7 Conclusiones y recomendaciones 45

Publicaciones 46

Bibliografía 47

xi

Page 9: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Lista de Figuras

2.1 Clasi�cación de las vías de secreción reportadas para bacterias Gram-positivas. . . . . . . 15

2.2 Estructura de péptidos conocidos presentes en bacterias Gram-positivas. . . . . . . . . . 16

4.1 Modelo de conceptos y requerimientos fundamentales para el diseño de SIG+SVM. . . . . 24

4.2 Diagrama de selección de conjuntos de entrenamiento y exploración. . . . . . . . . . . . . 26

5.1 Comparación de las distribuciones de frecuencia de aminoácidos de los conjuntos de entre-namiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3 Diagrama de clasi�cación para las proteínas identi�cadas por los diferentes tipos de clasi-�cadores desarrollados y contrastados con SecretomeP 2.0. . . . . . . . . . . . . . . . . . 40

xii

Page 10: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Lista de Tablas

2.1 Clasi�cación de la representación de los vectores construidos para los clasi�cadores. . . . 8

4.1 Puntajes de los factores de los aminoácidos. . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.3 Ejemplo artici�cial de una matriz PSSM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.5 Matriz para la normalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.7 Matriz normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.9 Matriz resultante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1 Número de características por vector construido . . . . . . . . . . . . . . . . . . . . . . . 36

5.2 Resultados de los mejores experimentos y variables por tipo de vector optimizando C-SVC. 36

5.3 Resultados de los mejores experimentos y variables por tipo de vector optimizando nu-SVC. 37

5.4 Mejores resultados para la variable exactitud de los diferentes tipos de vectores. . . . . . 37

5.5 Mejores clasi�cadores para cada vector con sus variables. . . . . . . . . . . . . . . . . . . 38

xiii

Page 11: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 1

Introducción

En la actualidad, los métodos de aprendizaje de máquina han permitido clasi�car información biológicade diversas maneras, como es el caso de la localización de proteínas en membrana y/o en diferentescompartimentos subcelulares y de acuerdo a sus correspondientes mecanismos de secreción. Paratal �n, diferentes tipos de herramientas predictivas han sido empleadas en diversos problemas de labiología computacional tales como las Redes Neuronales Arti�ciales (de su sigla en inglés: ANNs), losmodelos ocultos de Markov (de su sigla en inglés: HMMs) y las máquinas de Vectores de Soporte (desu sigla en inglé: SVM) [110]. La característica común de los anteriores métodos es que todos utilizandatos de entrada como referencia al problema para construir su modelo de representación, permitiendoajustar gradualmente sus parámetros de libertad a partir de los conjutos de entrada y basado en estos,producir diferentes representaciones de manera generalizada [43][75].

Entendiendo la capacidad de los métodos computacionales para la clasi�cación y el tipo de proble-mas que se presentan en biología, diferentes problemáticas se han intentado solucionar desarrollandoalgoritmos de clasi�cación a partir de información biológica, uno de los casos más exitosos está rela-cionado con la idea de poder predecir la localización subcelular de una proteína que aporta informaciónimportante en la identi�cación de blancos para el descubrimiento de nuevas drogas y particularmentepara el desarrollo de vacunas [119][47][42]. Por esta razón, la predicción computacional de estas proteí-nas ha sido tarea importante de la bioinformática y una gran variedad de herramientas de clasi�caciónbasadas en principios estadísticos han sido desarrolladas en las últimas tres décadas [110][75].

Para solucionar el problema de clasi�cación de secreción y localización de proteinas, se han desar-rollado dos aproximaciones, la primera basada en características y la segunda de predicción general olocalización; para el primer caso, el objetivo directo ha estado relacionado con la identi�cación de losmotivos en secuencia que son responsables de los procesos de secreción y se ha utilizado en proteínassecretadas por vía clásica (SignalP 3.0 [11]) y para el segundo caso, el objetivo ha consistido en extraerlos per�les generales de subestructuras en secuencia y con estos construir algoritmos de predicción(SecretomeP 2.0 [8][9]).

A partir de los métodos anteriormente descritos y teniendo en cuenta el crecimiento exponencialde información, se requieren cada día de más herramientas que esten en capacidad de catalogar ysintetizar datos que alimenten los procesos de anotación biológica, relacionando secuencias (nucleótidosy aminoácidos) con las estructuras y sus funciones biológicas [60]. En 1986, Gunnar von Heijne [57]publicó el primer método predictivo para la identi�cación de sitios de hidrólisis �Cleavage� en lasecuencia señal, desde entonces un conjunto amplio de métodos y aproximaciones diferenciales se hanimplementado intentando resolver los problemas intrínsecos de la clasi�cación, tanto de la localizacióncomo de la identi�cación de los mecanismos de transporte de proteínas, partiendo de la composicióny estructura de los aminoácidos que conforman la secuencia. En la última década y con respecto alas diversas metodologías basadas en aprendizaje de máquina, la literatura reporta a las máquinas devectores de soporte como un método efectivo para el reconocimiento de patrones de manera supervisada[134][114][106][20].

1

Page 12: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Este proyecto se centró en la problematica de secreción por vía no clásica, que para el caso debacterias sólo pudo corroborarse experimentalmente hasta 2003 [9], identi�cando proteínas secretadasde Mycobacterium tuberculosis que a partir de la ruta de secreción no estaban siendo afectadas porinhibidores para el reconocimiento experimental [127]. A la fecha, únicamente se ha reportado unaherramienta para la predicción de proteínas secretadas por vía no clásica en bacterias Gram-positivas(SecretomeP 2.0 [9]), lo que da sustento a la aproximación de este proyecto proponiendo un métodonuevo para identi�car proteínas secretadas por vía no clásica.

La propuesta inicial de este trabajo consistió en realizar una busqueda exhaustiva de información,identi�cando los métodos de Kernel que estuvieran más explorados por la comunidad cientí�ca, escalarlos datos originales y realizar las tranformaciones adecuadas para construir los vectores. Además, seutilizaron las funciones de Kernel (lineal, polinomial y gaussiana), se empleó la técnica de validacióncruzada para encontrar el mejor parámetro C y γ para entrenar el algoritmo con todo el conjuntode datos, se identi�caron los mejores parámetros y se propusieron 4 métodos con principios similarespero vectores diferentes para la clasi�cación de proteínas secretadas por vía no clásica.

Este documento está organizado de la siguiente manera: en la primera parte se incluye la justi�-cación, los objetivos, las observaciones y di�cultades generales. En la segunda parte se tratan aspectosgenerales del aprendizaje de máquina y sus implicaciones en bioinformática, identi�cando y plante-nado el problema biológico a solucionar. En la tercera parte,se presentan las técnicas previamentepublicadas que pretenden resolver el problema planteado de identi�cación de proteínas secretadas porvía no clásica, haciendo especial énfasis en el clasi�cador especí�co SecretomeP 2.0 [9], frente al cualse está proponiendo una alternativa metodológica de clasi�cación. En la cuarta parte se muestra yejempli�ca el proceso de exploración y la metodología planteada como propuesta alterna para solu-cionar el problema de clasi�cación de proteínas secretadas por vía no clásica. En la quinta parte sepresentan los resultados de la exploración. En la sexta parte se realiza una discusión de los resultadosy �nalmente, en la septima y última parte se plantean las conclusiones.

1.1 Justi�cación del proyecto

La clasi�cación de proteínas a partir del reconocimiento de diferentes patrones identi�cados sobre lasecuencia de aminoácidos, ha permitido la extracción automática de información de gran valor biológi-co. Esto se deriva de la implementación de métodos basados en aprendizaje estadístico que han sidoimplementados y se encuentran disponibles a la comunidad cientí�ca para la predicción de proteínas.Entre estos métodos se encuentra SignalP 3.0 [11], Gpos-Ploc [117], PA-SUB [83], PSORTb [46] en-tre otros, los cuales reportan resultados aceptables en la identi�cación de mecanismos de secreción ylocalización de proteínas a partir de secuencias de aminoacidos [104].

A partir de la información publicada se han identi�cado señales intrínsecas (tales como motivos osecuencias señal) que gobiernan el transporte y localización de las proteínas en las células de bacteriasGram-positivas [15]. En este sentido, la mayoría de los métodos predictivos están orientados hacia laidenti�cación de proteínas secretadas por vía clásica o a reportar la localización subcelular donde seubica la misma, mientras que para la predicción de proteínas secretadas por vía no clásica (proteínasque aparentemente no poseen secuencia señal) sólo existe un método reportado [9]. Este proyectoimplementó un modelo computacional para la identi�cación, a partir de secuencias, de proteínassecretadas por vía no clásica basado en la teoria de los métodos de Kernel (funciones de Kernel y SVM),ya que se consideran como un método robusto para la clasi�cación, tanto por sus características, comoa partir de una medida de similitud.

1.1.1 Objetivo general

Desarrollar un modelo computacional para la identi�cación de proteínas secretadas por vía no clásicaa partir de secuencias de aminoácidos.

2

Page 13: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

1.1.2 Objetivos especí�cos

• Formular un modelo para la identi�cación de proteínas secretadas por vía no clásica basado encaracterísticas.

• Formular un modelo para la identi�cación de proteínas secretadas por vía no clásica basado ensimilitud.

• Proponer un modelo para la identi�cación a partir de proteínas secretadas por vía no clásica apartir de secuencias de aminoácidos.

• Implementar el modelo propuesto basado en similitud y características.

• Validar el modelo propuesto mediante experimentación y comparar su desempeño con otrosmodelos.

1.1.3 Observaciones

En el desarrollo de este trabajo y con respecto a la etapa de construcción de los conjuntos de entre-namiento se logró lo siguiente:

1. La metodología para la construcción del conjunto positivo de la aproximación de nuestros clasi�-cadores está basada en lo reportado por Bentsen y colaboradores [8][9]. Esta aproximación partede la identi�cación de proteínas secretadas por vía clásica, a las cuales se les extrae el mecanismode exporte de la secuencia (primera región entre la posición 21 y la posición 55 de la cadenade aminoácidos) y la información restante es utilizada para extraer subestructuras posiblementerelacionadas con la secreción.

2. El tamaño de la muestra para construir los clasi�cadores fue obtenida rigurosamente, maxi-mizando la evidencia experimental de la información para entrenar el clasi�cador aún con datosde alta dimensionalidad y con ruido (secuencias entre 50 y 10.000 aminácidos). De igual forma,se aplicaron técnicas para evitar la redundancia y se ajustó tanto el conjunto de entrenamientocomo el de exploración �nal con una identidad inferior al 25%.

3. Al método de clasi�cación desarrollado se le dio el nombre de SIG+SVM �Sec-IndependentGram-Positive Support Vector Machine�. Este método presenta 4 tipos de clasi�cadores basadosen el vector utlizado como entrada del modelo.Ingeniería

1.1.4 Limitaciones

Entre los aspectos que pueden restringir el alcance de los resultados de este proyecto se destacan lossiguientes:

1. El número de muestras en el conjunto de datos para la clase positiva fue reducido (82 proteínas>25% identidad), por lo cual fue necesario emplear una aproximación indirecta para reconocercaracterísticas intrínsecas en las proteínas que se secretan, tal como lo reporta Bentdsen ycolaboradores [8, 9], y así de esta manera, poderlas clasi�car, lo cual hace compleja la capacidadpredictiva de las técnicas de aprendizaje estadístico.

2. El conjunto de datos que pertenece a la clase �proteínas secretadas por vía no clásica� presentóinconsistencias en los reportes experimentales reportados en la base de datos Swissprot, porlo cual estos datos no fueron utilizados para entrenar los clasi�cadores. Sin embargo, se real-izó una exploración directa probando este conjunto de datos con los métodos propuestos paracontrastarlos con la capacidad de clasi�cación de SecretomeP 2.0 [9].

3

Page 14: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 2

Fundamentos y problemas

De manera general, los métodos de aprendizaje de máquina presentan usualmente dos pasos en losprocedimientos utilizados para realizar clasi�cación de secuencias de proteínas. El primero correspondea la transformación de la secuencia primaria de proteínas en un vector de características de longitud�ja, y en la segunda etapa, los vectores se introducen en los métodos de aprendizaje para aprendery posteriormente realizar la predicción. En la primera etapa de desarrollo, los métodos de prediccióncomputacional utilizaban la secuencia primaria de la proteína, empleando únicamente vectores decomposición basados en el umbral de clases y por medio de métodos de análsis discriminante conuna de�nición simple de distancia, se realizaban los procesos de clasi�cación. Algunos ejemplos de lasdistancias utilizadas corresponden a la distancia Euclidiana [91], la distancia de Hamming [76] y ladistancia de Mahalanobis [34].

Posteriomente y teniendo en cuenta lo anterior, se utilizaron nuevos métodos predictivos utilizandoalgoritmos de clasi�cación más complejos, pero con el mismo tipo de representación de los vectores,dentro de estos se encuentran los algoritmos �maximun component coe�cient principle� [144], �Leastcorrelation angle� [33], �Fuzzy clustering� [145], �ANN� [87], �Vector decomposition� [41], �The compo-nent coupled geometric classi�cation� [30], �Bayesian classi�cation� [140] y de manera más reciente las�SVM� [19] y �LogitBoosting� [96]. Uno de los detalles más notables con respecto al progreso entre losdiferentes algoritmos correspondió al efecto de emparejamiento entre los aminoácidos como lo reportaChou en 1995 [26].

En trabajos recientes se han mejorado los métodos de predicción de clases a partir de representa-ciones alternativas de las secuencias; entre las metodologías reportadas se encuentran las funciones deautocorrelación basadas en la energía de residuos no enlazantes [21], composición de polipéptidos [85]y la composición de dominios funcionales [29]. Basados en las recomendaciones de Kurgan y Homaeian[80] y Kedarisetti y colaboradores [72] se debe deben tener en cuenta y evitar los siguientes problemas:

1. Frecuentemente los algoritmos anteriormente descritos son únicamente probados con conjuntospequeños a los que no se les practican procedimientos de ajuste de sus conjuntos de entrenamientoy validación, obteniendo resultados sesgados (entrenamiento con datos muy similares).

2. Al publicar nuevos métodos no se realizan comparaciones con�ables contrastantes con otrosmétodos anteriormente publicados.

3. El uso de diferentes tipos de representación de las secuencias es muy restringido.

2.1 Aprendizaje de Maquina

Los métodos de aprendizaje de máquina pueden ser divididos en supervisados, semi-supervisados yno supervisados. Se dice que el aprendizaje es supervisado cuando a un algoritmo de aprendizaje se leproporciona un conjunto de ejemplos junto a la clase a la que pertenecen, y se prueba en un conjunto

5

Page 15: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

de datos en los que no se conocen las clases a las que pertenecen. Para el caso de la identi�caciónde secuencias, se construyó una herramienta bajo la teoría de aprendizaje supervisado siguiendo susparámetros, por esta razón no se dan detalles sobre el aprendizaje semi-supervisado y no supervisado[25][129].

Las técnicas anteriormente descritas, se han empleado extensivamente en el área de la bioinfor-mática y particularmente en el análisis de datos y clasi�cación, debido a que poseen ventajas talescomo: robustez, �exibilidad y e�ciencia, por lo cual, los métodos estadísticos convencionales en algunoscasos han sido sustituidos y en otros complementados, porque, en general se basan en presuncionesmuy fuertes que limitan su campo de acción y la signi�cancia de sus resultados [12]. Para resolverproblemas de clasi�cación, inicialmente se realiza una partición del espacio de entrada, restringido auna muestra y se aplican técnicas de aprendizaje computacional tales como SVM , ANN , Naive Bayes,árboles de decisión, K vecinos mas cercanos KNN , entre otras [39].

La aplicación de estas técnicas se efectúa en los procesos de �ltrado, selección de características yen los pasos de minería de datos de las diferentes fuentes de información, así como en el desarrollo desistemas de clasi�cación. En estos pasos se incorporan herramientas estadísticas de análisis de datos yheurísticas que permiten el tratamiento y �ltrado de la gran cantidad de información disponible [99].

El requisito fundamental para que los métodos predictivos sean e�cáces, consiste en que el conjuntode datos con el que se les entrene sea idóneo. En otras palabras, la selección del conjunto de datos esmuy importante para la construcción del método de predicción. Se debe tener en cuenta que aunque setenga un algoritmo so�sticado, si el conjunto de entrenamiento es pobre, sólo se obtendrán resultadosregulares [93]. Por otro lado, la aproximación a la predicción de la localización subcelular de proteínaspor medio de máquinas de aprendizaje se ha venido implementando en los últimos años a partir de laidea, ya con�rmada, de que estos sistemas de predicción automática son con�ables para el análisis desecuencias y se pueden escalar según las necesidades, teniendo en cuenta el tamaño de la informaciónque suele manipularse (genes y proteínas) y las condiciones actuales en las que ésta es generada [60].

En los últimos años, la biología ha logrado generar y caracterizar información de manera económicay en gran volumen, lo cual ha desencadenado la necesidad de desarrollar métodos cada vez más e�-cientes para la representación, almacenamiento, procesamiento, análisis y extracción de conocimiento,generando de manera paralela, tanto el desarrollo de ténicas de extracción de información como demetodologías de gran nivel. De este conjuto de métodos, los métodos de Kernel, han obtenido en menosde 10 años un amplio reconocimiento y popularidad en los problemas relacionados con la clasi�cacióny análisis de datos de alta dimensionalidad o de gran complejidad [136]. Al respecto, los primerosinvestigadores en explorar estas ténicas en los problemas biológicos fueron Mukherjee y colaboradoresen 1998 [88], Haussler y colaboradores en 1999 [56] y Jaakkola y colaboradores en 1999 [62].

Basados en resultados anteriores se han reportado dos motivaciones para considerar a las SVM enla biología computacional como una técnica adecuada para la clasi�cación de información. La primeraestá relacionada con el hecho de que muchos de los problemas biológicos presentan alta dimensionalidady sus datos presentan ruido. Sin embargo, las SVM han sido reconocidas como un método estable aúncon este tipo de condiciones en comparación a otros métodos de aprendizaje de máquina. La segundamotivación que se contrasta con con la mayoría de los métodos de aprendizaje de máquina, es quelas SVM pueden utilizar datos no vectoriales como por ejemplo grafos como entrada del modelo ycomportarse de manera adecuada según el problema y el objetivo establecido para el mismo [95].

En los métodos de aprendizaje existe un concepto fundamental que debe sustentar la metodologíade investigación que se plantee y es el hecho de que se deben buscar métodos que resuelvan losproblemas de�nidos de la manera más simple posible, sin perder la precisión, lo cual implica que unsistema de aprendizaje debe poder realizar búsquedas dentro de un espacio de información pequeño,bajo la de�nición de hipótesis simples. Como se está de�niendo un espacio pequeño, recorrerlo no debegenerar problemas para que así el investigador pueda, según sus necesidades, ampliar los espacios debúsqueda y, complejizando las hipótesis de investigación, se puedan ajustar de�ciencias metodológicas[59].

Para el problema que se presenta en este trabajo, juegan un papel fundamental la selección delos conjuntos de entrenamiento, las diferentes representaciones de los mismos como vectores de en-

6

Page 16: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

trada para los clasi�cadores, así como los métodos de Kernel y sus diferentes clases, que básicamentese derivan de modelos probabilísticos. En este sentido es fundamental tener presente que el objeti-vo primordial que describen los métodos de Kernel está de�nido por la cercanía entre dos objetoscuando estos pueden compartir subestructuras raras pero comunes para los dos [135]. Por otro la-do, es importante tener en cuenta que tal y como lo establece Vert [136], el proceso para decidirque metodología emplear generalmente resulta de la relación entre el desempeño del clasi�cador y lacapacidad computacional.

2.1.1 Representación de la información

Un problema fundamental en bioinformática se encuentra directamente relacionado con la manera enque los datos se representan como objetos en el espacio. Este requerimiento se hace necesario parasolucionar problemas tanto de clasi�cación como de agrupamiento. Por ejemplo, en el caso de lassecuencias de proteínas, estas presentan longitudes variables que hacen difícil lograr representarlascomo vectores, pero pueden ser representadas como grafos [17] ó a partir de anotaciones que implicaninformación biológica tal como su función, permitiendo así construir representaciones homogéneas másfáciles de procesar [101].

Uno de los mayores obstáculos reconocidos en los procesos rigurosos de análisis estadístico sobreinformación biológica, se encuentra directamente relacionado con la manera como las moléculas estánrepresentadas. A este problema se le conoce como �problema de métrica en secuencia� y se asocia ala problemática del uso directo de códigos alfabéticos debido a que las letras carecen de una métricaimplícita natural para su comparación. Por ejemplo, el aminoácido leucina (L) es más similar conrespecto a sus propiedades �sicoquímicas a la valina (V) que lo que la leucina es a la alanina (A).Sin embargo, la distancia alfabética entre estas letras no re�eja una relación directa por la estructuradel alfabeto. Esto hace que el uso nominal de variables a partir de secuencias resulte en una notableperdida de resolución e información con respecto a las propiedades �sicoquímicas de los aminoácidoscuando estos son comparados [5].

Por otro lado, para incrementar la representacion de los datos, se pueden utilizar diferentes fuentesque den información referente a éstos. En la medida en que se incrementan tanto la cantidad como lacalidad de las fuentes de información referente a los datos, se facilita el proceso de toma de decisiones yen consecuencia la precisión de los resultados. Por el contrario, en muchos casos la representacion de losdatos es diferente de los objetos, lo cual implica que no pueden ser representados signi�cativamentede la misma manera, y causa pérdida en la información. En el proceso de representación de losdatos, la idea abstracta de puntos en el espacio se puede asociar a pensar en los datos como objetosque representan conjuntos de características derivadas de las medidas estimadas para cada uno [7].Como lo de�nen Archley y colaboradores [5], para el caso especí�co de secuencias de proteínas, suconformación está compuesta por largas cadenas alfabéticas más que por arreglos de valores numéricos,lo cual signi�ca que en ausencia de una métrica natural implícita para comparar este tipo de datosalfabéticos, se inhibe el uso de sos�sticados análisis estadísticos para el estudio de las secuencias, susestructuras y aspectos funcionales [5].

En estudios previos, diferentes autores como Atchley y colaboradores [4], han trabajado directa-mente en los problemas relacionados con la métrica en secuencia, aportando diferentes maneras pararesolver el problema. En algunos casos se han construido índices cuantitativos �ad hoc� para resumirla variabilidad de los aminoácidos, pero estos métodos generalizan sólo una parte del total de la vari-abilidad de los atributos de los aminoácidos [51]. Actualmente, la comunidad cientí�ca por medio deluso de la teoría de la información ha aceptado caracteres alfabéticos, por ejemplo aplicando análisis deentropia e información mutua, para describir la variabilidad y covarianza entre los sitios donde estánlos aminoácidos [77].

7

Page 17: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Table 2.1: Clasi�cación de la representación de los vectores construidos para los clasi�cadores.

VectoresCaracterística de la

representaciónDe�nición Frecuencias Dipéptidos Factores PSSM

Secuencial [32][31]. Serie sucesiva de códigosde aminoácidos acorde aun determinado orden.

X

No secuencial odiscreto [32][31].

Conjunto de númerosdiscretos.

X X X

Variables�sicoquímicas y

propiedades biológicas[82][5].

Transformación de lassecuencias por sus

variables �sicoquímicas.

X X

Estructuras derivadasde secuencia [82].

Implica la composiciónextraida en frecuencias

de los K-meros.

X X X

Similitud [66][31]. Información evolutivaimplicita en larepresentación

X

2.1.1.1 Vectores basados en características

Los vectores de características se obtienen de la extracción directa de variables a partir de la secuenciamisma y su estructura. Por ejemplo, los porcentajes de composición de los 20 aminoácidos forman elconjunto de parámetros del vector [38]. En este trabajo se encuentran incluidos en esta categoría losvectores de frecuencias, dipéptidos y factores y sus características generales se pueden observar en latabla.

2.1.1.2 Vectores basados en similitud

Existen diferentes métodos basados en similitud que permiten a partir de una proteína, construirper�les mediante procesos comparativos y con transformaciones matemáticas, construir vectores quelas representen. Dos de las ténicas más reconocidas correponden al método de construcción de per�lesde familias de proteinas [52] y a PSI-BLAST [2]. Este último incorpora información relacionada con lacomposición de aminoácidos, la posición especí�ca de sustituciones y la información correspondientea los residuos conservados evolutivamente [2], lo anterior se ve representado en la matriz PSSM (desu sigla en inglés: Position-speci�c scoring matrix) con la que se construye el vector PSSM y suscaracterísticas generales se pueden observar en la tabla 2.1.

Se considera la conversión de la matriz al vector PSSM como uno de los métodos más satisfacto-rios para representar las secuencias, básicamente porque que a partir de secuencias homólogas de altasimilitud permite detectar secuencias homólogas con baja similitud (homólogos remotos). El procesose describe como un proceso de contraste entre la proteína candidata contra un conjunto de proteínasrelacionadas que identi�ca el algoritmo PSI-BLAST. Este tipo de esquema produce modelos gener-ativos en el sentido en que construye un modelo a partir del conjunto de proteínas relacionadas yconsecuentemente evalúa la manera en la que el modelo representa a la proteína candidata [102].

8

Page 18: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

2.1.2 Métodos de Kernel

Las funciones de Kernel están inscritas dentro de un marco para el análisis de patrones por mediode métodos de aprendizaje estadístico que presentan dos módulos claramente de�nidos según Shawe-Taylo y Cristianini [116]. El primero esta relacionado directamente con la función de Kernel y estableceun mapeo tácito de los datos de entrada en un nuevo espacio denominado espacio de características,también conocido como el espacio de Hilbert. Este mapeo está implícitamente establecido por mediode una función de�nida sobre pares de datos del espacio de entrada en los reales y que, cumpliendocon ciertas propiedades, constituyen el producto punto de los datos de entrada en el espacio decaracterísticas. El segundo, se re�ere directamente a la adaptación de las técnicas de aprendizajeestadístico en función de los productos punto de los datos, que generalmente se toman en un principiocomo problemas lineales y se plantean luego como problemas duales. De esta manera se puedenexpresar de manera lineal como combinaciones de productos punto, a partir de los datos de entrada[101].

Scholkopf y colaboradores [112] reportan que los métodos de Kernel tienen las siguientes propiedades:

• Están en capacidad de desacoplar el algoritmo de aprendizaje de la representación de los datos,tomando la matriz de productos punto en el espacio de las características obtenidas por mediode la función de Kernel, lo que afecta directamente la complejidad algorítmica de la técnicahaciéndola no dependiente de la dimensionalidad del espacio de características.

• La capacidad conocida como �Kernel Trick� que se re�ere a que los datos que sean obtenidos declases que no son linealmente separables en el espacio original, pueden formar clases linealmenteseparables en el espacio de características embebido.

Los métodos disponibles para construir modelos computacionales asociados a la clasi�cación de pro-teínas pueden ser de�nidos teniendo en cuenta las siguientes características protéicas: composición deaminoácidos (métodos basados en el orden) y presencia de péptido señal (metodologías híbridas queusan diferentes fuentes de información como la homología y que se soportan con técnicas probabilís-ticas) [111]. Para el entrenamiento de modelos predictivos se debe enfatizar en la comprensión de lasdiversas características de las proteínas y en la interacción apropiada de los datos, lo que debe con-ducir a ajustar las anotaciones obtenidas para la información que se quiera identi�car. Por otro lado,estas características están sujetas a los ambientes en los cuales las proteínas funcionan, controlandosu acceso y disponibilidad para interactuar con otras moléculas [115].

Un paso fundamental en el proceso de uso de las funciones de Kernel se basa en la elección de lamedida de similitud. La gran mayoría de los algoritmos utilizados para clasi�cación son lineales, entreellos las SVM, lo cual implica que las clases no pueden ser siempre separadas de manera lineal y obligaa utilizar métodos más complejos, tales como las funciones de Kernel que permiten cambiar la manerade representar los datos. Las funciones de Kernel utilizan los vectores de entrada en vez de utilizar lascoordenadas de los vectores en el espacio para calcular matrices de similitud. En consecuencia, si unamatriz de�ne las similitudes de manera coherente, ésta se considera como una matriz de Kernel [99].

Una de las grandes ventajas de las funciones de Kernel se encuentra directamente relacionadacon la facilidad para combinar datos, ya que la representación de los mismos es independiente de suestructura, debido a que para todos los objetos se utilizan vectores de similitud. Esto permite quesi se tienen datos a partir de diferentes fuentes relacionadas al mismo objeto, fácilmente se puedancombinar sus funciones. Otra gran ventaja es que con este método también se pueden utilizar medidasde similitud no lineales, permitiendo que los objetos sean mapeados en un espacio implícito de�nidode mayor dimensión, en el cual una separación lineal es posible.

En el proceso de decisión acerca de que tipos de Kernel se deben tener en cuenta, existen dosrecomendaciones reportadas por Vert [136]:

1. No existe una función de Kernel que de manera universal sea considerada como la mejor.

2. La escogencia de la función de Kernel depende del objetivo de la aplicación.

9

Page 19: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

En muchos casos aplicados, los Kernels para clasi�cación no lineal proveen mayor precisión, pero aúnasi, los clasi�cadores lineales presentan varias ventajas. Una de ellas es que estos métodos ofrecenun proceso de entrenamiento simple que se puede escalar bien, a partir del número de ejemplos[14]. Por otro lado y en general, los Kernels aplicados en bioinformática se pueden clasi�car en trestipos: los Kernels de evaluación real de datos, los Kernels para secuencias y los métodos desarrolladosde manera especí�ca como el PSSM-Kernel [102], entre otros. En el primer caso, generalmente losejemplos que representan un conjunto de datos son vectores con una dimensionalidad. Los más comunescorresponden a las funciones lineal, polinomial y gaussiana. En el segundo caso, los Kernels másfrecuentes corresponden a los que describen el contenido l-mer Spectrum Kernel [81], los Kernel queusan información posicional Weighted Degree WD Kernel [121] y otros Kernels en secuencias talescomo el Local Alignment Kernel, entre otros [137][7]. Para efectos de este trabajo se utilizaron losmétodos de Kernel lineal, polinomial y gaussiano.

De manera concluyente, se debe tener en cuenta que el área que comprende tanto la parte teóricacomo práctica y los fundamentos tanto de las funciones de Kernel como de las SVM se encuentra enpleno desarrollo y aún existen detalles pendientes por profundizar, relacionados directamente con laintegración de diferentes funciones de Kernel, así como también en la generación de nuevos métodosmás generales que sean positivamente de�nidos. Lo anterior sugiriere que los desarrollos teóricos estánprogresando de manera rápida a la par con las necesidades aplicadas [136].

2.1.3 Selección del Kernel y su correspondiente modelo

En el proceso de selección del Kernel, sus parámetros y la variable C de la margen suave, se debetener en cuenta que la escogencia es completamente independiente de los ejemplos utilizados para laevaluación del desempeño del método, ya que de lo contrario se podría sobreestimar la precisión delclasi�cador para los datos nunca antes vistos por el modelo de clasi�cación planteado. Para evitarlo anterior, se debe dividir el conjunto de entrenamiento en varias partes, tanto para entrenar comopara evaluar y ajustar la SVM, y así obtener un clasi�cador que esté en capacidad de clasi�car lasclases correspondientes sin perder la generalización. En el mismo sentido, técnicas como la validacióncruzada N − fold pueden ayudar si las partes del conjunto de entrenamiento son muy pequeñas paraobtener una medida de con�anza del desempeño de la predicción [129].

2.1.3.1 Funciones Lineales

Se conocen como el método de Kernel más básico y se de�nen:

K(x, y) = x · y (2.1)

Cuando se utiliza esta función de Kernel, el espacio de los vectores y el espacio de características esel mismo [141].

En un proceso de selección de funciones de Kernel, este tipo de función normalmente se utiliza comoprimera medida y posteriormente, se aplican métodos más complejos. Este método se ha empleadoen diferentes herramientas bioinformáticas presentando resultados excelentes, especialmente cuandola dimensionalidad de los datos de entrada al modelo es grande y el número de ejemplos es pequeño[7][44].

2.1.3.2 Funciones Polinomiales

Este método presenta la siguiente función y se de�ne:

K(x, y) = (1 + x · y)p (2.2)

De manera implícita, el tipo de función mapea los datos de entrada en un espacio de característicascon una dimensionalidad O(Dp). Se debe tener precaución con este tipo de función porque por su

10

Page 20: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

�exiblidad en el manejo de las variables se puede facilitar negativamente el sobreentrenamiento enconjuntos de gran dimensionalidad con un bajo número de ejemplos [7][44].

2.1.3.3 Funciones Gaussianas

También conodido como Radial basis function − RBF . Este método presenta la siguiente función:

K(x, y) =e

− | x− y |22σ2 (2.3)

Se debe tener precaución con este tipo de función porque por su �exiblidad en el manejo de lasvariables se puede facilitar negativamente el sobreentrenamiento en conjuntos de gran dimensionalidadcon un bajo número de ejemplos [7][44].

2.1.3.4 Normalización

Los clasi�cadores de margen amplio se caracterizan porque son sensibles a la manera como las car-acterísticas son escaladas, lo cual hace que sea esencial el proceso de normalización de los datos. Lanormalización puede ser aplicada en diferentes etapas del proceso, por ejemplo sobre las caracterís-ticas de entrada o a la altura del Kernel (normalización en el espacio de características) o en ambassituaciones. Cuando las características son medidas en diferentes escalas y presentan diferentes rangosde valores posibles, es conveniente escalar los datos a un rango común. Los procesos de normalizaciónhacen que los resultados di�eran considerablemente cuando se utilizan las funciones lineales, polino-miales y gaussianas. En general, los procesos de normalización se asocian directamente con mejorasen el desempeño tanto en Kernels lineales como no lineales, acelerando los procesos de convergenciacuando se entrenan los clasi�cadores [7].

2.1.4 Máquinas de Vectores de Soporte (SVM)

Dentro de las técnicas basadas en aprendizaje con Kernels, se destaca el método de clasi�cacióndenominado SVM, que funciona mediante la búsqueda de un hiperplano óptimo de separación, que sede�ne en el espacio de características y que determina el margen de separación óptimo de los datos, porlo cual maximiza la capacidad de generalización del patrón detectado; este hiperplano de separaciónse entrena por medio de programación cuadrática [36].

Muchos de los problemas en biología computacional se deben soportar por medio de predicciones.Las SVM y las funciones de Kernel son muy efectivas para solucionar este tipo de problemas, yaque presentan gran precisión y gran capacidad para conjuntos de datos grandes y de gran dimensión,aparte de que están en capacidad de modelar de manera �exible datos a partir de fuentes diversas [7].

La manera más simple de abordar los problemas de clasi�cación es hacerlo de manera binaria,intentando discriminar objetos representados en dos categorías: positiva (+) y negativa (-). Las SVMestán basadas en dos conceptos para resolver este problema. El primero, es el margen amplio deseparación y el segundo se conoce como los métodos de Kernel. La base de la primera está motivadapor la clasi�cación de puntos en dos dimensiones.

Es importante establecer que a pesar de los esfuerzos que se han realizado para desarrollar algorit-mos e�caces, el efecto de la selección de las características en la precisión de las SVM para clasi�caraún genera debates. En algunos casos se reportan resultados positivos en la selección de características,mientras que en otros estudios se concluye que la selección de características de manera automática,con procesos como la eliminación de características de manera recursiva RFE , actualmente no mejoranla precision de las SVM. La relevancia de los algoritmos para la selección de características es un áreade investigación en curso [136].

Por otro lado, el proceso de entrenamiento de las SVM incluye fundamentalmente conocer a pro-fundidad las características y el comportamiento de los conjuntos de entrenamiento; la selección delas funciones de Kernel adecuadas con sus correspondientes parámetros y su proceso de regularizaciónpara el parámetro C en el caso c-SVC y nu en el caso nu-SVC [146].

11

Page 21: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

2.1.4.1 C-SVC

Este tipo de SVM se encuentra dentro de la distribución de LIBSVM [24], fue propuesto por Cortés ycolaboradores en 1995 [36]. Dado un conjuto de entrenamiento de los pares de las instancias etiquetadas(xi, yi), i = 1, ..., l donde xiRny y∈ {1,−1}l ←la SVM requiere una solución para el problema deoptimización dado y se de�ne:

mínω,b,ξ

1

2ωTω + C

l∑i=l

ξi (2.4)

yi(ωTφ(xi) + b ≥ 1− ξi

ξi≥0

La SVM encuentra un hiperplano lineal de separación con el máximo margen en un espacio demás dimensionalidad. Siendo C > 0 el parámetro de penalización utilizado para el error, la funciónde decisión se de�ne:

sgn(

l∑i=1

yiαiK(xi, x) + b) (2.5)

2.1.4.2 nu-SVC

Este tipo de SVM también se encuentra dentro de la distribución de LIBSVM [24] propuesta porCortés y colaboradores en 2001 [113]. El parámetro v ∈ (0, 1) al igual que el límite superior sobre lafracción en los errores de entrenamiento y el límite inferior en la fracción de los vectores de soporte.Proporcionando vectores de entrenamiento xi ∈ Rn, i = 1, ..., l en dos clases y el vector y ∈ Rl talque yi =∈ {1,−1}. La forma primal se de�ne:

mínω,b,ξ

1

2ωTω − ϑρ+

1

l

l∑i=1

ξi (2.6)

yi(ωTφ(xi) + b ≥ ρ− ξi

ξi ≥ 0 , ρ ≥ 0

La función de decisión es:

sgn(

l∑i=1

yiαi(K(xi, x) + b) (2.7)

2.1.5 Evaluación

Los métodos de predicción pueden llevarse a cabo estableciendo los parámetros del umbral de maneradependiente o independiente, cada método tiene sus limitaciones. Se pueden calcular cuatro parámet-ros dependientes del umbral: sensibilidad, especi�cidad, precisión y el coe�ciente de correlación deMatthews (MCC) para analizar el desempeño de la validación cruzada y evaluar la precisión para pre-decir las secuencias independientes del conjunto de datos. A continuación se describen los parámetros(VP: verdadero positivo, FN: falso negativo, VN: verdadero negativo y FP: falso positivo)

Sensibilidad(Sn) =V P

V P + FNx100 (2.8)

12

Page 22: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

La sensibilidad corresponde al porcentaje de proteínas que se predicen correctamente como secre-tadas o verdaderos positivos, como se muestra en la ecuación 2.8.

Especificidad(Sp) =V N

V N + FPx100 (2.9)

La especi�cidad corresponde al porcentaje de proteínas no secretadas predichas correctamentecomo no secretadas, como se muestra en la ecuación 2.9.

Precision =V P + V N

V P + V N + FP + FNx100 (2.10)

La precisión está relacionada con el porcentaje de proteínas predicho correctamente como proteínassecretadas por vía no clásica y no secretadas, del número total de secuencias de proteínas, como semuestra en la ecuacíon 2.10.

MCC =(V PxV N)− (FPxFN)√

(V P + FP )(V P + FN)(V N + FP )(V N + FN)(2.11)

Cuando el MCC corresponde a �1� signi�ca que la predicción obtenida es perfecta mientras que�0� implica que la predicción se dá de manera completamente aleatoria. La ecuación está de�nida en2.11.

Establecer el umbral de los clasi�cadores es muy útil para el proceso de toma de decisiones, sin em-bargo, éste falla en el momento de re�ejar el desempeño del clasi�cador independiente del umbral. Pararesolver este problema existen diferentes métodos que calculan el umbral independiente del desempeño,entre estos, una de las metodologías de medida más ampliamente usadas corresponde a las curvas ROC�ReceiverOperatingCharacteristic� [120]. Este tipo de medida se obtiene de gra�car todos los valoresde sensibilidad (fracción que corresponde a los verdaderos positivos) en el eje y contra los valores desu equivalente de especi�cidad en el eje x (fracción que corresponde a los falsos positivos). El área pordebajo de la curva ROC se reconoce como AuROC �Area under Receiver Operating Characteristic� yes considerada como un índice fundamental porque aporta una medida única sobre el umbral totalindependiente de la exactitud. Para el caso de la ROC, si el valor es igual o menor a 0.5, los puntajesde las dos clases no di�eren mucho, mientras que valores cercanos a 1.0 indican que no se presentansolapamientos entre las distribuciones de los grupos de puntajes [49][1].

La ventaja de utilizar la curva ROC es que provee soporte tanto estadístico como grá�co paracaracterizar el desempeño de los clasi�cadores, permitiendo así, establecer su comportamiento bajodiferentes condiciones de cambio, tales como los costos de una errada clasi�cación o la distribuciónde clases, y tienen la capacidad de ser plenamente informativas, más que una medida de desempeñosimple. Sin embargo, la variabilidad de los datos usados para construir los métodos generan problemasa la hora de realizar modelos comparativos, por esta razón es recomendable que los algoritmos puedanser evaluados con conjuntos de validación bien controlados a partir de protocolos de comparaciónestandar. Es importante también aclarar que el análisis ROC caracteriza los rangos potenciales delos algoritmos más no el desempeño como tal del clasi�cador. Por esta razón, es fundamental evaluarsimultneamente el desempeño de los clasi�cadores, incluyendo otros métodos de evaluación y medidadentro de los procesos de la investigación [120].

Como parte del proceso de ajuste para la construcción del modelo predictivo, se debe tener encuenta que un modelo sin un adecuado proceso de validación, puede simplemente generar hipótesisde manera azarosa. El proceso de validación se debe realizar de manera objetiva a partir de criteriosy procesos para evaluar y sustentar el modelo construido. Se debe tener en cuenta que para podersustentar la capacidad de un modelo es fundamental tener presentes dos conceptos: el poder discrim-inante y su calibración. El primero, está directamente asociado con la manera como el modelo mismoestá en capacidad de separar las clases para las que se construyó, mientras que en el segundo ca-so, la calibración está directamente relacionada con la manera como el modelo predictivo realiza suspredicciones sobre un nuevo conjunto de datos [124].

13

Page 23: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

2.2 Identi�cación y localización de proteínas

Dentro del conjunto de proteínas que se secretan, se encuentran las proteínas de membrana, las ex-tracelulares y las ancladas a membrana ubicadas de manera extracelular, entre otras. Estas realizandiferentes funciones para la célula o el organismo, pero para llegar a localizarse en el compartimentocelular donde desempeñan su función, se deben dar procesos diferenciales que van desde métodosde transporte de pequeñas moléculas hasta rutas altamente complejas con procesos de señalizaciónintrínseca en secuencia. Gran parte de los esfuerzos en la actualidad con esta problemática se concen-tran en comprender cómo funcionan estos sistemas de transporte. En los últimos años, la identi�caciónde proteínas ubicadas a nivel de membrana ha permitido direccionar parte de las investigaciones enel desarrollo de drogas, desarrollando productos que presentan efectos especí�cos sobre este tipo deproteínas [74][42].

El primer estudio publicado de secreción por vía no clásica en bacterias reporta la secreción dela glutamina sintetasa (GlnA) de la bacteria Gram-positiva Mycobacterium tuberculosis. Por variosaños, ha sido reconocido que éste organismo secreta proteínas antigénicas que carecen de péptidoseñal, característica fundamental para el reconocimiento de proteínas secretadas por vía clásica, locual evidencia la necesidad e importancia de desarrollar nuevas y mejores aproximaciones al análisispara analizar problemática [55].

El caso explícito y como ejemplo de proteínas que se han reportado para M tuberculosis comosecretadas por vía no clásica, está el mecanismo de translocación del sistema SNM (Snm1 �Rv3870�,Snm2 �Rv3871� and Snm3 �3877�) [123]. En la actualidad, la cantidad de proteínas reportadas comosecretadas por vía no clásica hacen de este evento un problema interesante de caracterizar, teniendoen cuenta que ya se ha podido identi�car que la mayoría de los factores de virulencia generalmente sesecretan por medio de sistemas especializados independientes de la vía de secreción clásica [70][130].

2.2.1 Secreción de proteínas en bacterias

El transporte y la localización de la mayoría de las proteínas de los procariotes, que en este casocorreponde al origen de las proteínas utilizadas para construir el clasi�cador, se produce a través de unacascada de acontecimientos dirigidos por la presencia de una secuencia señal o por el reconocimientode motivos que puedan encontrarse incluidos dentro de la misma; las proteínas procesadas de estaforma son comunmente referidas como proteínas secretadas por vía clásica [86][75]. Por otro lado, sede�ne �exporte� como el proceso de localización de proteínas no citoplasmáticas dentro de la envolturacelular en contaste con la de�nición de �secreción� que esta directamente relacionado con proteínasextracelulares que se encuentran afuera o en la pared externa de la bicapa lipídica [40][98].

En bacterias Gram-positivas, la secreción de proteínas se puede clasi�car al menos en 4 difer-entes destinos: el citoplasma, la membrana citoplasmática, la pared celular y el medio extracelular.Estas localizaciones son el resultado de diferentes procesos tales como la síntesis de proteínas quetiene lugar en el citoplasma, pero para que las proteínas realicen sus procesos funcionales deben sertransportadas a la pared o a través de ésta por medio de un mecanismo conocido como translocación.Para el caso de la secreción por vía clásica, la translocación de proteínas se realiza por la síntesisdel precursor de las proproteínas [22][100]. En general, las proproteínas son inicialmente reconocidascomo factores objetivo a ser transportados a la membrana, donde son translocadas a través de loscanales proteináceos, removiendose el péptido señal y dependiendo de sus características estructuralesy funcionales localizandolas en la pared celular o extracelularmente [132].

La ruta de secreción sec dependiente ha sido bien de�nida en bacterias y se encarga de transportarprecursores no plegados [132]. El substrato de transporte conserva la estructura de la secuencia lo-calizada en la región amino-terminal, la cual está caracterizada por la presencia de 3 regiones: en elextremo amino-terminal se encuentra una región positivamente cargada (Región N), seguida por unaregión hidrofóbica (Región H) y una última región polar hacia el extremo carboxi-terminal (RegiónC), lo anterior se puede observar en la �gura 2.2 [18]. La SPasa remueve proteolíticamente la secuencia

14

Page 24: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figura 2.1: Clasi�cación de las vías de secreción reportadas para bacterias Gram-positivas.

En la �gura 2.1, modi�cada de Zhou y colaboradores [147] se presenta la clasi�cación de rutas. Lasproteínas se pueden dividir en dos subgrupos: (i) con extremo anclado hidrofóbicamente (anclaje-N),(ii) con extremo anclado hidrofóbicamente C-terminal, (anclaje-C), (iii) con anclaje lipídico covalente,(iv) anclada a pared celular covalente/no covalente, (v) secretada (de�nidas como secretada Sec/Tate hidrolisada por la señal peptidasa I) y (vi) secretada por vía no clásica, reconocida como una vía desecreción menor [37][131]. Según la clasi�cación de SwissProt, las proteínas pueden categorizarse así:en citoplasma, de membrana (multi-transmembranal, con anclaje N/C), de pared celular (ancladasLPxTG) y en el medio extracelular (anclaje lipídico, secretada, parecida a bacteriocinas) [147].

señal y esta modi�cación permite que la proteína cambie al estado maduro y se ancle a la membranacitoplasmática [109].

Aparte del sistema de secreción sec dependiente existen otros sistemas de transporte como el detranslocación Tat y el de transporte Lipobox. Para el caso de la ruta Tat �Twin arginine translo-cation pathway� se han realizado amplios estudios en Escherichia coli y el trasporte de proteínasplegadas que presentan el motivo consenso �S/T-RR-x-FLK� en el extremo de la región N-terminal[108][97][9]. El transporte de lipoproteínas ocurre a partir del reconocimiento de la secuencia consensollamada �lipobox� presente en la región carboxi-terminal de la secuencia señal. El lipobox dirige elprocesamiento de la pro-lipoproteína a un estado maduro y sirve como anclaje sobre la super�cie dela célula [69]. El motivo en secuencia está de�nido como �[LVI][ASTVI][GAS]C� [105][100].

2.2.2 Secreción de proteínas por vía no clásica

La secreción de proteínas bacterianas implíca que mecanismos complejos de translocación transportenproteínas a través de las membranas bacterianas de manera activa. Dada la complejidad de este tipode sistemas de secreción, no es sorprendente que constantemente se descubran nuevos mecanismos de

15

Page 25: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figura 2.2: Estructura de péptidos conocidos presentes en bacterias Gram-positivas.

En la �gura 2.2, modi�cada de Zhou y colaboradores [147] se presenta la estructura de los péptidosseñal conocidos y asociados a diferentes vías de translocación. La estructura completa de los peptidosseñal Tat y sec-dependientes se conserva de manera consecutiva para las regiones N, H y C. La regiónN es el incio de la proteína que contiene residuos cargados positivamente. La región H sigue a la regiónN y corresponde a la subcadena consecutiva de residuos hidrofóbicos y presenta una helice-α en lamembrana. La region C contiene la señal para la hidrólisis por parte de la señal peptidasa. Dentro delas señales de retención de hidrólisis se incluye la SPasa I tipo �AxAA� [131], el lipobox tipo �L-x-x-C�para el sitio de hidrólisis de la SPasa II [125] y el substrato de clivaje Tat �AxA� [122]. El motivo tipo�LPxTG� es un tipo de señal C-terminal que está involucrada en enlaces covalentes de las proteínasal peptidoglicano de la pared celular. Los péptidos señal de las proteínas objetivo en los casos desecreción menor no siguen la estructura N-H-C [133][58].

secreción. Así, las proteínas experimentalmente identi�cadas como secretadas, pero para las cualesno se ha identi�cado el mecanismo o ruta de secreción, se reconocen como proteínas secretadas demanera no clásica. Es importante resaltar que muchas de las proteínas que son secretadas por las víasalternativas se encuentran directamente asociadas con procesos de patogenicidad, lo que las convierteen un objetivo fundamental de identi�cación para poder caracterizarlas y conocer más de sus procesosbiológicos [10].

Por otro lado, es importante tener en cuenta que existen muchos mecanismos de secreción porcaracterizar, lo cual evidencia problemas tanto experimentales como de análisis computacional parapoder identi�car nuevos mecanismos y rutas. Finalmente, se considera que de manera genérica laclasi�cación �secreción por vía no clásica� no se debe considerar como un único mecanismo de secreción[92].

2.2.3 Secreción por vía clásica en otros grupos biológicos

En contraste con la secreción de proteínas en procariotas (grupo biológico al cual pertenecen las bac-terias), en células eucariotas las proteínas secretadas de manera no clásica (proteínas secretadas porvía no clásica por medio del retículo endoplasmático/Golgi-independiente) fueron descubiertas hace

16

Page 26: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

aproximadamente 15 años, pero el mecanismo molecular y la identidad de los componentes implicadosen este proceso no han sido aún completamente dilucidados. Mas allá de resolver los problemas direc-tos relacionados con la biología celular, los análisis moleculares de estos procesos poseen un alto gradode importancia desde la perspectiva biomédica, pues estas rutas de exportación se consideran funda-mentales para comprender muchos de los procesos celulares en inmunología, tales como el mecanismode acción de las las citoquinas proin�amatorias, los factores de crecimiento, los componentes de lamatriz extracelular que regulan la diferenciación celular, su proliferación y apoptosis, proteínas viralesy proteínas presentes en la super�cie de parásitos que puedan estar potencialmente asociadas conprocesos de infección al hospedero [9].

17

Page 27: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 3

Trabajo previo (otros autores)

3.1 Métodos entrenados para el reconocimiento de proteínas secretadas

por vía no clásica

Se han construido diferentes métodos predictivos para determinar que una proteína se secreta porvía no clásica tales como SecretomeP 1.0 (entrenado con proteínas de mamíferos) [8], SecretomeP 2.0(entrenado con proteínas de mamíferos y bacterias Gram-positivas y Gram-negativas) [9] y SRTPRED(entrenado con proteínas de mamíferos) [50]. Únicamente la versión de SecretomeP 2.0 ha sido entre-nada con proteínas pertenecientes a bacterias y de manera independiente, por lo cual se escogió estaherramienta para contrastar nuestros resultados, teniendo en cuenta la versión entrenada con proteínasde bacterias Gram-positivas que está disponible al público y fue desarrollada por uno de los gruposde inmunoinformática más reconocidos del mundo el Center forBiological SequenceAnalysis, CBSperteneciente a Technical University of Denmark , DTU . Dentro de los diferentes métodos para lapredicción de localización e identi�cación de proteínas y sus vías transporte se reconocen dos tipos demétodos, el primero es reconocido como basado en características y el segundo se reconoce como lospredictores generales [47].

3.1.1 SecretomeP 2.0 server, clasi�cador para bacterias Gram-positivas

Está de�nido como un método para la identi�cación de proteínas que se secretan de manera indepen-diente de la ruta de secreción clásica. En el trabajo de Bendtsen y colaboradores [9], se identi�caron33 proteínas de bacterias Gram-positivas reportadas para 2005 que se habían ubicado de maneraextracelular sin presencia del péptido señal. Se aplicaron métodos para la identi�cación de patronessobre las secuencias para ver si se podían identi�car motivos especí�cos con la intención de identi�carnuevas rutas de translocación Los autores reportan que no identi�caron patrones característicos en elconjunto de datos, lo que permite concluir que evidentemente este grupo de proteínas son secretadasde manera novedosa y que el problema de su identi�cación estaba abierto a 2005 [9] y permanceabierto a 2009 [10].

3.1.2 Conjuntos de entrenamiento

Como lo reportan Jensen y colaboradores [64], el paso crucial en el desarrollo de un método de predic-ción radica en obtener un conjunto de entrenamiento. Bendtsen y colaboradores [8][9], describieronque para la construcción del conjunto positivo se identi�có un número considerable de proteínas querepresentaban a la clase a clasi�car. En este caso, se realizó una búsqueda de proteínas que estuvier-an reportadas como secretadas por vía no clásica, pero desafortunadamente no lograron obtener unconjunto de proteínas lo su�cientemente amplio que cumpliera con esta condición, lo cual los condujoa plantear la hipótesis de la identi�cación indirecta de características comunes entre las proteínassecretadas, esto es, que asumiendo que no sólo por la identi�cación de los mecanismo explícitos (el

19

Page 28: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

péptido señal) se pueden clasi�car clases, plantearon la extracción en secuencia del péptido señal(primera región entre la posición 22 a 55 de aminoácidos implicada en la secreción por vía clásica)y con la secuencia resultante aplicar métodos de extracción de patrones comunes como evidencia desecreción para poder identi�car proteínas secretadas por vía no clásica. Bajo esta aproximación, seidenti�caron proteínas correpondientes a los grupos biológicos por clasi�car (proteínas de mamíferos,bacterias Gram-positivas y Gram-negativas) que fueron reportadas como secretadas por vía clásica yles extrajeron manualmente la región objetivo involucrada con el patrón reconocido como el �péptidoseñal� para que las mismas fueran secretadas.

Las proteínas fueron obtenidas de la base de datos SwissProt 44.0. Para las bacterias Gram-positivas, de los grupos biológicos Firmicutes y Actinobacteria. En el artículo de Bendtsen y colabo-radores [9] se reporta la extracción de 690 proteínas ubicadas extracelularmente (conjunto positivo) y1.084 ubicadas en el citoplasma (conjunto negativo). Posteriormente, extrajeron del conjunto las se-cuencias que estuvieran reportadas por anotación como �fragmentos�. El proceso para realizar el ajustede la redundancia estuvo basado en el concepto del criterio de similitud estructural [84] y reportanque obtuvieron un conjunto �nal de 152 proteínas positivas y 140 proteínas negativas.

3.1.3 Construcción de vectores para el entrenamiento

Los autores de SecretomeP 2.0 [9] reportan en el artículo que siguieron las metodologías propuestasen Bendtsen y colaboradores 2004 [8] y Jensen y colaboradores [65][63][64], utilizando como entradapara el entrenamiento diferentes combinaciones de características previamente reportadas (de�nidaspor los autores anterioremente mencionados). La selección de características como entrada para elmodelo parte del análisis discriminante de las categorías funcionales y de las clases de enzimas. Lascaracterísticas fueron: el coe�ciente de extinción, el promedio de hidrofobicidad, el número de resid-uos negativos, el número de residuos positivos, las O-glicosilaciones, las S/T-fosforilaciones, las Y-fosforilaciones, las N-glicosilaciones, las regiones ricas en PEST (secuencias de polipéptidos ricas enProlina �P�, ácido glutámico �E�, Serina �S� y Treonina �T� que las convierte en proteínas de rápidadestrucción), la estructura secundaria, la localización subcelular, las regiones de baja complejidad, elpéptido señal y las helices transmembranales. Varias de estas características (9 en total) están basadasen las prediciones obtenidas a partir de diferentes métodos computacionales y algoritmos basados enaprendizaje de máquina tales como NetNGlyc [53](entrenado con proteínas humanas), NetOGlyc[54](entrenado con proteínas de mamíferos), NetPhos [16] (entrenado con proteínas de eucariotas),PSIPRED [66](entrenado con proteínas de origen múltiple), SEG �lter [142] (método computacionalpara diferenciar proteínas globulares de no globulares), SIGNALP [94](entrenado con proteínas eu-cariotas y procariotas), PSORT [90](entrenado con proteínas eucariotas y procariotas) y TMHMM[78](entrenado con proteínas de origen múltiple).

3.1.4 Construcción y evaluación del modelo de SecretomeP 2.0

Para la construcción del predictor reportado por Bentsen y colaboradores [9] de proteínas secretadaspor vía no clásica se utilizó el siguiente modelo:

1. Cálculo y asignación de características para cada secuencia de proteínas.

2. Codi�cación de las características para el procesamiento de la ANN.

3. Entrenamiento de la ANN utilizando validación cruzada N − fold combinando las diferentescaracterísticas.

4. Determinación de la combinación de características que presentó el mejor desempeño basado enel coe�ciente de correlación.

20

Page 29: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Bendtsen y colaboradores [9] reportan la construcción de un método de predicción extra, construidoantes del proceso de entrenamiento de la ANN. La característica utilizada estuvo basada en la com-posición de aminoácidos de posición única, soportada por la metodología propuesta por Reinhardt yHubbard [103], con el objetivo de diferenciar a partir de un único puntaje la información contenidapara todos los aminoácidos, para así mantener la dimensionalidad de los datos de entrada en un es-pacio con pocas características. Empleando el esquema de validación cruzada N − fold [9]. Al métodopredictivo se le asignó un puntaje para cada proteína entre 0 y 1, en el cual un puntaje mayor a 0.5es considerado como indicador de secreción como umbral de la predicción.

21

Page 30: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 4

Métodos y proceso exploratorio

4.1 Diseño experimental del estudio

En este estudio se realizó una búsqueda para identi�car proteínas que estuvieran reportadas comosecretadas por vía no clásica, partiendo de las 33 poteínas de bacterias Gram-positivas, previamenteidenti�cadas y reportadas como secretadas independientemente de la vía clásica [9]. En el procesoexploratorio en la base de datos SwissProt 53.1 [35] se identi�caron 178 proteínas (uni�cando las iden-ti�cadas por este estudio y las reportadas por Bentsen y colaboradores [9]) como proteínas secretadasen ausencia de péptido señal, las cuales terminaron constituyendo el conjunto para la exploración �nalsobre los métodos predictivos.

Utilizando el principio aplicado por Bendtsen y colaboradores en 2004 y 2005, el cual plantea quelos procesos de secreción por vía no clásica se pueden reconocer como un proceso que se puede inferirpor medio de características representadas en las subestructuras de las secuencias secretadas, más quede un tipo especí�co de señal (mecanismo previamente identi�cado para el transporte), se asume queposibles subestructuras que caracterizan a las proteínas secretadas pueden permitir la identi�caciónde proteínas que utilizan otros mecanismos para translocarse. Por esta razón, los autores plantearon elentrenamiento del método de clasi�cación a partir de proteínas que fueran secretadas por vía clásica,pero realizando una modi�cación especí�ca sobre las mismas que consistía en retirarles la secuenciaque corresponde especí�camente a la región implicada en el mecanismo de secreción y así obtener unper�l de los patrones característicos de las proteínas que se encuentran secretadas, e inferir de maneraindirecta proteínas secretadas por otras vías independientes a la sec dependiente [8, 9].

Para el procesamiento de las secuencias como conjunto de entrada se desarrolló un algoritmo parael preprocesamiento de los datos y la construcción de los 4 tipos de vectores. Además, se utilizóLIBSVM [24] para emplear tanto las funciones de Kernel (lineal, polinomial y gaussiano), como lasSVM para la clasi�cación (C-SVC y nu-SVC).

4.2 Conjunto de entrenamiento

Para la construcción del conjunto de entrenamiento se utilizó como punto de referencia la base de datosUniprotKB (15.5, 2009) [35] la cual agrupa varias bases de datos tales como PIR-PSD, TrEMBL ySwissProt (versión 53.1) [6]; esta última fue empleada para armar los conjuntos de entrenamientoporque además de ser una base de datos disponible al público, presenta un proceso de curaduríacuidadoso. Esta base de datos reportó un total de 10.424.881 proteínas para el mes de octubre de2009, de las cuales según SwissProt, 512.994 corresponden a proteínas curadas y las restantes seencuentraban en proceso de ajuste [3]. El proceso de busqueda y ajuste para la construcción de losconjuntos de entrenamiento positivo, negativo y de exploración de puede observar en la gra�ca 4.2.

23

Page 31: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figura 4.1: Modelo de conceptos y requerimientos fundamentales para el diseño de SIG+SVM.

24

Page 32: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

4.2.1 Proceso de selección de los conjuntos de entrenamiento

Para el proceso de selección de las proteínas en la base de datos SwissProt (versión 53.1), se siguió laclasi�cación sistemática de bacterias Gram-positivas que reporta ésta. Especí�camente, se encuentranagrupadas en dos grandes clases conocidas como Actinobacteria (19.897 proteínas reportadas curadas)que son reconocidas por presentar una alta frecuencia de G+C y Firmicutes (66.861 proteínas repor-tadas curadas) el cual se reconoce por presentar bajas frecuencias de G+C [6].

En el proceso de identi�cación para la construcción de los conjuntos, únicamente se escogieronproteínas que estuvieran reportadas como curadas por los revisores de SwissProt, lo que aumentanotablemente la con�abilidad de los datos y que son ampliamente utilizadas por la comunidad cien-tí�ca para armar conjuntos de entrenamiento y construir tanto métodos basados en aprendizaje demáquina como para analizar patrones en secuencia, o en procesos de validación externa de predictorespreviamente publicados[8, 9, 43, 47, 104].

Como criterios generales para el ajuste de los datos se estableció previamente que las secuenciasescogidas presentaran una longitud mayor a 50 y menor a 10,000 aminoácidos y se excluyeron tanto delconjunto positivo como del negativo, las que estuvieran anotadas como fragment , probable, probably ,potential , hypothetical , putative, maybe, y likely .

4.2.2 Método de ajuste de los conjuntos de entrenamiento y exploración

Para el ajuste de los conjuntos (tanto en el caso del positivo como del negativo) se utilizó el algoritmoPISCES de reducción de redundancias [138][139], a partir de la medida de identidad. Este métodocompara las secuencias bajo un esquema �todas contra todas� comparando las matrices PSSM obteni-da por medio de PSI-BLAST (los parámetros correspondieron a 3 iteraciones, E − value: 0,0001 yse utilizó la matriz BLOSUM 62). Dicho método extrae las secuencias a partir de un valor de iden-tidad establecido por el usuario. Para este proyecto se utilizó un nivel de identidad >25%, como lorecomienda Shen y colaboradores [117].

4.2.3 Conjunto positivo y negativo

En SwissProt 53.1, para el conjunto de proteínas positivo se ajustó la busqueda por anotación teniendoen cuenta palabras tales como signal , secreted , extracellular , periplasmic, periplasm, plasmamembrane,integral membrane y �nalmente single pass membrane, dando como resultado 3.794 proteínas bacteri-anas que cumplieron con todos los prerequisitos anterioremente descritos. A este conjunto de secuenciasse le extrajo manualmente la primera región correspondiente al mecanismo de translocación, a partirde las anotaciones reportadas en SwissProt como lo reporta Bendtsen y colaboradores [8, 9]. Al �nal,con el proceso de ajuste > 25% identidad se obtuvieron 420 proteínas.

Para el caso de las proteínas que conforman el conjunto negativo, se seleccionaron aquellas queestuvieran anotadas con las palabras cytoplasm y cytoplasmic, obteniendo un total de 21.459 quecumplieron con todos los prerequisitos anteriormente descritos. Las secuencias correspondientes alconjunto negativo se dejaron tal y como se reportan en las bases de datos, obteniendo con el procesode ajuste > 25% identidad un total de 443 proteínas.

4.2.4 Conjunto de exploración

En el proceso inicial de búsqueda se identi�caron en Swissprot 178 proteínas curadas, redundantes yreportadas como secretadas en ausencia de péptido señal. La clasi�cación del mecanismo de exportefue de�nida por el método de predicción SignalP 3.0 [11] y en algunos casos fue validado por el eventoexperimental reportado en el artículo correspondiente a cada una de ellas. Por ser un conjunto tanpequeño y con el proceso de ajuste, solo quedaron 82 proteínas con una identidad >25%. Se utilizó laaproximación de Bentdsen y colaboradores descrita en la sección 4.1. Sin embargo, este conjunto de 82proteínas se aprovechó como exploración �nal para observar la capacidad preditiva de los clasi�cadoresconstruidos en este proyecto y contrastarlos con SecretomeP 2.0 [8][9].

25

Page 33: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figura 4.2: Diagrama de selección de conjuntos de entrenamiento y exploración.

4.3 Diseño de vectores

En la actualidad y de manera frecuente, características extraídas a partir de las secuencias, talescomo información estructural o variables �sicoquímicas, son utilizadas para construir modelos pre-dictivos [82]. Dentro de los diferentes tipos de representaciones para armar vectores se encuentranla composición de aminoácidos [126][49], la composición de dipétidos [27][45][61], la composición depseudoaminoácidos [118][28], los vectores PSSM [66], y los vectores de características �sicoquímicas,entre otros [89].

4.3.1 Construcción y normalización

Debido a los requerimientos de las metodologías, fue necesario transformar la longitud variable de lassecuencias para obtener vectores de longitud �ja. Este paso es fundamental para el procesamiento yclasi�cación de proteínas mediante el uso de técnicas de aprendizaje de máquina, ya que, el entre-namiento de estos métodos requiere que los vectores de características tengan una misma longitud,lo cual también implica que los datos de entrada al �nal deban ser preprocesados para poder serclasi�cados [107]. Por otra parte, la información de las proteínas puede ser encapsulada en vectoresde N dimensiones utilizando los diferentes tipos de representaciones que, en este caso, corresponden afrecuencias en la ecuación 4.1, dipéptidos en la ecuación 4.2, factores por la ecuación 4.3 y PSSM porla ecuación 4.5.

4.3.2 Vectores de composición de aminoácidos (frecuencias)

Se entiende como composición de aminoácidos a la fracción de cada tipo de aminoácido en una se-cuencia de�nida tal que:

f(r) =NrN

r = 1, 2, 3 . . . , 20 (4.1)

26

Page 34: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Donde Nr corresponde al número de aminoácidos del tipo r, y N corresponde a la longitud de lasecuencia. Un total de 20 características de descripción son calculadas a partir de los 20 aminoácidos,obteniendo vectores de 20 características para cada secuencia de proteínas [126][49].

4.3.3 Vector de dipéptidos

Los vectores construidos a partir de la composición de dipéptidos han sido ampliamente utilizadospara representar secuencias de proteínas [27][45][61]. Este procedimiento convierta la proteína en unvector de 400 características. La composición de dipéptidos encapsula la información relacionada conlas frecuencias de los aminoácidos así como el orden de los mismos de manera local. La composiciónde dipétidos de cada secuencia de proteínas se de�ne:

fr(r, s) =NrsN − 1

(4.2)

Donde r, s = 1, 2, 3, ..., 20 y Nij corresponde al número de dipéptidos construidos con los aminoá-cidos tipo r y s [13][48].

4.3.4 Vector de factores estadísticos

A partir del estudio descrito por Atchley y colaboradores en 2005, se realizó un análisis estadísticomultivariado sobre 494 atributos �sicoquímicos y biológicos predeterminados de los aminoácidos que seencuentra reportados en AAindex [71], que produjo un conjunto de factores altamente interpretativosde las características contenidas en la base de datos, para representar la variabilidad de los aminoá-cidos. Estos atributos de los datos de alta dimensión fueron resumidos en cinco tipos de factores querepresentan los patrones multidimensionales entre los aminoácidos, re�ejando patrones de covariaciónque representan la polaridad, estructura secundaria, volumen molecular, diversidad de codones y cargaelectrostática. Los puntajes numéricos para cada aminoácido se pueden entonces transformar con elpropósito de realizar análisis estadísticos sobre los mismos [5].

El análisis de factores sobre los 494 atributos evidenció que, como resultado del proceso anteri-ormente descrito, muchos de los datos eran redundantes. Un subconjunto de 54 atributos fue selec-cionados por Atchley y colaboradores [5] basados en los coe�cientes de magnitud de los atributos delos aminoácidos, propiedades estadísticas de distribución, facilidad de interpretación e importanciaestructural. Los factores fueron descritos de la siguiente manera:

1. El Factor I o índice de polaridad: el cual re�eja información de bipolaridad, presenta la dis-tribución más amplia entre valores positivos y negativos, y re�eja simultaneamente la porciónde la covarianza de los residuos expuestos en contra de los residuos que se encuentran ocultosdel medio, la energía libre versus la energía no enlazante, el número de donadores de enlaces dehidrógeno y la hidrofobicidad versus la hidro�licidad.

2. El Factor II o factor de estructura secundaria: el cual re�eja la relación inversa de la propensidadrelativa para varios aminoácidos, a partir de diferentes con�guraciones estructurales secundarias,tales como hélices �Coil �, giros �Turn�, o torsiones versus las frecuencias de las hélices-α.

3. El Factor III: el cual relaciona el tamaño molecular o el volumen con los coe�cientes de abul-tamiento �Bulkiness� de alto factor, el volumen promedio de los residuos de borde, el volumende la cadena lateral y el peso molecular.

4. El Factor IV: el cual re�eja la composición relativa de los aminoácidos a partir proteínas, elnúmero de codones que codi�can para los aminoácidos y la composición de aminoácidos. Estosatributos varían de manera inversa con la refractividad y la capacidad de calor.

5. El Factor V: el cual re�eja la carga electrostática con los altos coe�cientes del punto isoeléctricoy la carga neta. En este factor representa una relación inversa entre la carga positiva y negativa.

27

Page 35: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Tabla 4.1: Puntajes de los factores de los aminoácidos.

Aminoácidos Factor I Factor II Factor III Factor IV Factor VA -0.591 -1.302 -0.733 1.570 -0.146C -1.343 0.465 -0.862 -1.020 -0.255D 1.050 0.302 -3.656 -0.259 -3.242E 1.357 -1.453 1.477 0.133 -0.837F -1.006 -0.590 1.891 -0.397 0.412G -0.384 1.652 1.330 1.045 2.064H 0.336 -0.417 -1.673 -1.474 -0.078I -1.239 -0.547 2.131 0.393 0.816K 1.831 -0.561 0.533 -0.277 1.648L -1.019 -0.987 -1.505 1.266 -0.912M -0.663 -1.524 2.219 -1.005 1.212N 0.945 0.828 1.299 -0.169 0.933P 0.189 2.081 -1.628 0.421 -1.392Q 0.931 -0.179 -3.005 -0.503 -1.853R 1.538 -0.055 1.502 0.440 2.897S -0.228 1.399 -4.760 0.670 -2.647T -0.032 0.326 2.213 0.908 1.313V -1.337 -0.279 -0.544 1.242 -1.262W -0.595 0.009 0.672 -2.128 -0.184Y 0.260 0.830 3.097 -0.838 1.512

Los puntajes corresponden al resultado del análisis multivariado que resume la correlación de 54atributos �sicoquímicos y biológicos para cada aminoácido reportados por Arcthley y colaboradores.[5]

Los factores anteriormente descritos de pueden observar en la tabla 4.1.Para convertir las secuencias de proteínas en vectores de longitud �ja, las frecuencias de cada

aminoácido son dadas para cada secuencia de proteínas y son calculadas por medio de la siguienteecuación:

Fracción de aa(i) =#total de aa tipo i

#total de aa en la proteína(4.3)

Consecuentemente, los puntajes precalculados de cada factor son asignados para cada aminoácidoy posteriormente son multiplicados por la respectiva fracción de los aminoácidos para una secuenciade proteína dada. Entonces, como ejemplo y utilizando los puntajes de �factores solución� reportadosen la tabla 4.1, para la secuencia de aminoácidos �ACVAV� con un alfabeto A, V y C las fraccionespara los aminoácidos corresponden de la siguiente manera: A=0.4, V=0.4 y C=0.2. Multiplicandoestas fracciones por los correspondientes puntajes de los factores de los aminoácidos se obtiene:

A = (−0,2364 − 0,5208 − 0,2932 0,628 − 0,0584)

V = (0,5428 − 0,5812 0,5908 0,0452 − 0,3348)

C = (−0,2686 0,093 − 0,1724 − 0,204 − 0,051)

De esta forma, se obtiene el vector de características 4.4 que se utiliza como entrada para elentrenamiento:

28

Page 36: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Table 4.3: Ejemplo artici�cial de una matriz PSSM.

A V CA 100 200 50V 50 150 25A 150 25 100C 300 75 75C 200 20 150V 30 75 300C 10 100 25A 50 50 150A 20 250 100V 75 25 100

Los valores reportados en esta tabla corresponden a un ejemplo de la matriz PSSM, no correspondena los valores reales que puede producir una PSI-BLAST.

AV C = (A |V |C ) (4.4)

Como se muestra en el anterior vector, los cinco puntajes de los vectores son incluídos en elvector �nal para realizar la extracción de características. Sin embargo, dependiendo de los problemasparticulares, se puede decidir si se excluyen o incluyen subconjuntos de estos factores dentro del vectorde características [89].

4.3.5 Vector PSSM (PSI-BLAST)

Los per�les de información biológica con implicaciones evolutivas pueden ser extraídos a partir del usode la herramienta PSI-BLAST [2] para construir per�les a partir del cálculo de la matriz de puntajede posición especí�ca [66][67]. Básicamente, se realiza una consulta para cada proteína, utilizandoPSI-BLAST, realizando 3 iteraciones sobre la base de datos no redundante (NR) que contienen lasbases de datos de GenBank CDS translations, PDB , SwissProt , PIR y PRF , los parámetros del PSI-BLAST deben ser ajustados de tal manera que el criterio discriminante del e − value corresponda a0.001 y la matriz de sustituciones BLOSUM62. Lo anterior da como resultado una matriz PSSM quese utiliza para generar un vector de 400 características realizando un proceso de colapsamiento de las�las sobre las columnas, a partir de la secuencia primaria original. Los elementos de estos vectores deentrada son subsecuentemente divididos por la longitud de la secuencia y son escalados a un rangoentre �0� y �1� utilizando la función sigmoide [107, 89, 143].

De�nida como:

f(x) =1

1 + e−x(4.5)

A continuación, se ejempli�ca el proceso para la construcción de los vectores basados en la PSSM.El ejemplo es arti�cial y los valores representados no corresponden a los valores reales que calcula unaPSSM, como se puede observar en la tabla 4.3, para el ejemplo se utilizó un alfabeto de tamaño 3 queda como resultado un vector de 9 características (para efectos de aprovechar el espacio), pero en loscasos reales se obtienen matrices de 20 × 20 , que producen vectores de 400 características. El procesopara calcular los vectores a partir de las PSSM se da de la siguiente manera: a partir de una matriz conla estructura de una PSSM con un alfabeto (A, V y C) y con una proteína P, P = AVACCVCAAV,que tiene una longitud 10, se contruirá un vector de tamaño 9 3 × 3 .

29

Page 37: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Table 4.5: Matriz para la normalización

A V Cmáx 300 250 300mín 10 20 25

máx-mín 290 230 275

Table 4.7: Matriz normalizada

A V CA 0.31 0.78 0.09V 0.14 0.57 0.00A 0.48 0.02 0.27C 1.00 0.24 0.18C 0.66 0.00 0.45V 0.07 0.24 1.00C 0.00 0.35 0.00A 0.14 0.13 0.45A 0.03 1.00 0.27V 0.22 0.02 0.27

Table 4.9: Matriz resultante

A V CA 0.97 1.93 1.09V 0.43 0.83 1.27C 1.66 0.59 0.64

Lo primero es normalizar los valores de la matriz como lo reportan Mundra y colaboradores [89].Este procedimiento consiste en calcular los valores máximos y mínimos por columna y luego, a cadavalor restarle el mínimo de su columna. Este resultado se divide por la resta máxima-mínima de lamisma columna, como se puede observar en la tabla 4.5. Los máximos y mínimos y la resta máxima-mínima por columnas para nuestra matriz de ejemplo son:

Con lo cual se obtiene la matriz normalizada linealmente se puede observar en la tabla 4.7

Ahora, se suman por columna todos los valores que corresponden a un mismo aminoácido en laproteína, es decir, se suman las �las 1, 3, 8 y 9 que corresponden a A; luego las �las V que correspondena 2, 6 y 10; y �nalmente las �las 4, 5 y 7 que corresponden a C, lo cual da como resultado la matrizque se muestra en la tabla 4.9.

Una vez hecho esto, se forma �nalmente el vector para la secuencia colocando una �la tras otra,es decir que la proteína hipótetica �AVACCVCAAV� queda representada por el vector que se muestraen la referencia 4.6

P = (0,97 1,93 1,09 0,43 0,83 1,27 1,66 0,59 0,64) (4.6)

30

Page 38: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

4.3.6 Procesamiento de vectores

Se construyeron 4 tipos de vectores: vectores de composición de aminoácidos, de dipétidos, de factoresy de PSSM. Para la construcción de los vectores de composición de aminoácidos y dipéptidos se uti-lizaron de manera correspondiente las formulas 4.1 y 4.2, mientras que para los vectores de factores serealizó una exploración y optimización para identi�car cuales de los vectores contenidos en los vectoresprecalculados �nales eran más expresivos. Se exploró con 9 tipos diferentes de vectores. Para el vectorPSSM se probaron diferentes tipos de normalización (sin normalizar, normalización lineal y normal-ización sigmoide) y se usaron las dos versiones disponibles de uso local �Standalone� para BLAST(Blastpgp y PSI-BLAST 2.2.21) produciendo 6 vectores para explorar su capacidad y rendimiento ylos otros 3 correspondientes cada uno a frecuencias, dipéptidos y factores. El resultado �nal de todoel procesamiento de vectores produjo 4 diferentes conjuntos de vectores para el entrenamiento de losdiferentes modelos de clasi�cación.

Para el cálculo de los vectores PSSM, el proceso requiere más preprocesamiento que para el caso delos demás vectores, lo cual aumenta los costos computacionales y la etapa de construcción de cada unode los mismos. Para poder calcular las PSSM de manera local se probaron las versiones disponibles dePSI-BLAST 2.2.21 [23] y Blastpgp [128] descargando la base de datos (NR) de BLAST que contiene9.993.394 sequencias de proteínas. Para calcular cada sequencia el algoritmo debe recorrer toda labase de datos, con los parámetros adaptados para 3 iteraciones, un e − value: 0.001 y una matrizBLOSUM62. En un principio y como lo reporta Camacho y colaboradores [23] se utilizó PSI-BLAST2.2.21 pero aunque se reporta como un algoritmo 4 veces más veloz con respecto a la versión anteriorconocida (Blastpgp), la herramienta aún está en desarrollo y generó problemas de estabilidad en elcálculo en conjunto �Batch�. Por tal razón, se utilizó Blastpgp con la cual �nalmente se calcularontanto los vectores experimentales como la implementación para el algoritmo �nal.

En el proceso de experimentación se construyeron 3 tipos de vectores PSSM para realizar pruebascon los clasi�cadores y observar su comportamiento predictivo:

1. Vectores directos (sin normalización).

2. Vectores normalizados por columnas (normalización lineal).

3. Vectores normalizados de manera clásica (normalización con función sigmoide).

Con lo anterior se generaron 6 conjuntos de datos con los 3 vectores anteriormente descritos y serealizaron pruebas para cada uno con PSI-BLAST 2.2.21 [23] y con Blatspgp [128]. El formato desalida de los vectores corresponde a los estándares del paquete LIBSVM [24]. Es importante resaltarque el cálculo de los vectores de frecuencias, dipéptidos y factores normalmente tomaba 2 segundospara cada vector, pero en el caso de los vectores de la PSSM, la máquina tomaba aproximadamente30 segundos para calcular cada vector (se presentan los tiempos de calculó por núcleo en una maquinade referencias Dell server, 8 core, 2.3 Ghz, 32 GB ram).

4.4 Exploración de parámetros

Teniendo en cuenta las recomendaciones de Fan y colaboradores 2005 [44] para la exploración deparámetros de las funciones y métodos de Kernel, se debe tener una comparación e�ciente bajo difer-entes condiciones establecidas por el investigador para poder obtener un espectro de los diferentescomportamientos del clasi�cador siguiendo dos recomendaciones:

1. �Selección de parámetros� que consiste en realizar validaciones cruzadas a los modelos por en-trenar, para encontrar el mejor conjunto de parámetros que se ajuste a los datos, a la funciónde Kernel y al tipo de SVM y así obtener el modelo �nal.

2. �Entrenamiento �nal� que consiste en entrenar con todo el conjunto de datos a partir de losmejores parámetros obtenidos en la �selección de parámetros� para construir el clasi�cador �nal.

31

Page 39: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

4.4.1 Parámetros explorados de las funciones de Kernel

4.4.1.1 Funciones Lineales

Este tipo de función no presenta parámetros para explorar debido a las condiciones anteriormentedescritas.

4.4.1.2 Funciones Polinomiales

En las funciones se puede variar el grado del polinomio (6 posibilidades) En este caso se exploró conpolinomios de 1 a 6 (1, 2, 3, 4, 5 y 6), así como también con la complejidad del modelo (8 posibilidades)que para efectos de la exploración del trabajo fue de�nida entre 0 y 2 (0, 0.25, 0.50, 0.75, 1, 1.25, 1.5,1.75 y 2).

4.4.1.3 Funciones Gaussianas

En este tipo de funciones se puede variar la complejidad del modelo, para el cual se probaron 6combinaciones.

1

#de características= 1

i ×(máx-mín)5

= 5

4.4.2 Entrenamiento de la Máquina de Vectores de Soporte y rangos de la

exploración de parámetros.

4.4.2.1 C-SVC

Este tipo de SVM presenta el parámetro �C� que implicó el costo de incluir un nuevo vector y varióel parámetro de la SVM entre 1 y 50.001 realizando los siguientes valores: 1, 10.001, 20,001, 30,001,40.001, 50.001. En total se probaron 6 modi�caciones para las tres funciones y los cuatro tipos devectores. La sigla �SV C� corresponde a Support Vector Machine Classification.

4.4.2.2 nu-SVC

El parámetro variable en este tipo de SVM es el nu que corresponde a la variable de la partición delconjunto de entrenamiento y que se da entre �0� y �1� y se varió realizando los siguientes intervalos(0.1, 0.25, 0.5, 0.75, 0.95). En total se probaron 5 modi�caciones para las tres funciones y los cuatrotipos de vectores.

4.5 Validación cruzada

El objetivo principal del uso de la validación cruzada consiste en identi�car la estabilidad del clasi�-cador a partir de subconjuntos del conjunto mismo de entrenamiento [113]. Este procedimiento haceparte de la metodología del entrenamiento, como una etapa de ajuste para no sobreajustar los modelos[44]. Por esta razón, el desempeño de los algoritmos predictivos es frecuentemente evaluado por mediode pruebas Jack −Knife (leave one out) o validaciones cruzadas N − fold .

En este trabajo el desempeño de todos los métodos fue evaluado por medio de validaciones 5-fold y10-fold identi�cando sus comportamientos; �nalmente los resultados que se reportan correponden a lavalidación cruzada 5-fold por el tamaño y condiciones de los datos. En este caso y de manera aleatoria,se dividió el conjunto de entrenamiento en 5 subconjutos de manera equitativa, de los cuales 4 fueronutilizados para entrenar y el último para evaluar. Este procedimiento se repitió 5 veces de tal maneraque cada subconjunto fuera evaluado 1 vez. El desempeño �nal fue calculado sobre el promedio total

32

Page 40: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

de los cinco subconjuntos y el desempeño del método fue evaluado con los parámetros estándar desensibilidad, especi�cidad, precisión y el cálculo de la curva ROC[107][44].

En esta etapa del proceso se utilizó la técnica de validación cruzada para evaluar el desempeñode los 4 clasi�cadores desarrollados en el trabajo. Los dos conjuntos de entrenamiento se dividieronde manera aleatoria en 5 subconjuntos diferentes que contenían el mismo número de los dos tipos deproteínas del conjunto principal. Los tres clasi�cadores fueron entrenados con los 4 subconjuntos yel desempeño fue evaluado con el último. Este proceso se realizó de manera iterativa 5 veces, de talmanera que cada subconjunto fue utilizado para entrenar y también para validar los clasi�cadores quese iban construyendo consecutivamente [49].

33

Page 41: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 5

Resultados y evaluación

Se obtuvo un conjunto de entrenamiento de proteínas (420 positivas y 443 negativas) con parámetrosajustados de manera exhaustiva y a la vez se seleccionó un conjunto independiente de 82 proteínassecretadas por vía no clásica, utilizado para la exploración �nal. A partir de la revisión de la literaturase escogieron las funciones de Kernel que estuvieran más exploradas por la comunidad cientí�ca,se escalaron los datos originales y se realizaron las tranformaciones adecuadas para construir losvectores, utilizando las funciones de Kernel (lineal, polinomial y gaussiana). Adicionalmente, se utilizóla técnica de validación cruzada 5-fold para encontrar los mejores parámetros para entrenar con todoel conjunto de datos, proponiendo �nalmente 4 métodos con principios similares pero entrenados convectores diferenciales (frecuencias, dipéptidos, factores y PSSM), validados por medio de la curva ROCy �nalmente se realizó una exploración del comportamiento predictivo de los métodos propuestos y secontrastó contra SecretomeP 2.0 server.

5.1 Frecuencias y vectores a partir de los conjuntos de entrenamiento

Con los procesos de búsqueda reportados en la métodología en la sección 4.2 y tras eliminar lasproteínas redundantes con una identidad >25%, se obtuvo para el conjunto positivo y negativo, 420 y443 secuencias de proteínas, respectivamente. La distribución porcentual de los aminoácidos de los tresconjuntos (positivo, negativo y de exploración) se representa en la �gura 5.1. La longitud promedio(LP) y la desviación estándar (DS) para el conjunto positivo fue LP=401 y DS = 380.5, mientras quepara el conjunto negativo fue LP=362 y DS=209.4.

Como resultado del proceso de transformación de las secuencias para construir los clasi�cadoresse obtuvieron 4 tipos diferentes de vectores como representación de las proteínas y su correspondientenúmero de características se presentan en la tabla 5.1.

5.2 Pruebas de variables

En total se entrenaron 2.420 clasi�cadores para de allí extraer los 4 mejores (uno por cada vector),que son el resultado de multiplicar todas las posibles combinaciones de las variables que cada una delas metodologías permitía. Esto, con el �n de hallar las mejores combinaciones de variables como seestablece en la metodología en la sección 4.4. En este sentido, las variables se dividieron tanto para lasfunciones de Kernel como para los algoritmos disponibles para los clasi�cadores basados en métodosde Kernel. Como se puede identi�car en la tabla 5.2 y la tabla 5.3, los mejores resultados en términosde la exactitud se obtuvieron a partir de los vectores PSSM para los tres tipos de función. También esimportante resaltar que se reportan los mejores clasi�cadores para cada uno de los vectores construídosy para este caso, prácticamente todos presentaron una exactitud superior a 0.80.

35

Page 42: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figure 5.1: Comparación de las distribuciones de frecuencia de aminoácidos de los conjuntos deentrenamiento.

POS: Frecuencia de aminoácidos que conforman el conjunto de proteínas positivas, NEG: Frecuenciade aminoácidos que conforman el conjunto de proteínas negativas, VAL: Frecuencia de aminoácidosque conforman el conjunto de proteínas de exploración para la validación.

Table 5.1: Número de características por vector construido

Vector Número de características por vectorFrecuencia de aminoácidos 20

Dípeptidos 400Factores �sicoquímicos 100

PSSM 400

Table 5.2: Resultados de los mejores experimentos y variables por tipo de vector optimizando C-SVC.

Función de KernelLineal Polinomial Gaussiano

Vector ACC C ACC C D R ACC C G1 0.8502 30001 0.8769 50001 5 1.75 0.8757 40001 0.40962 0.8026 10001 0.8548 30001 2 1 0.8525 20001 0.00253 0.8502 2001 0.8734 20001 6 1.5 0.863 20001 0.014 0.8955 10001 0.9361 50001 2 0.25 0.9338 20001 0.0025

Las variables para la identi�cación de los clasi�cadores con el tipo de SVM �C-SVC�. ACC=exactitud,C=costo de añadir un nuevo vector, D=Grado del polinomio, R=Número de polinomios que toma elKernel, G=controla la complejidad de la función, Vectores 1=Frecuencias, 2=Dipéptidos, 3=Factoresy 4=PSSM. Lineal n=24, Polinomial n=1.152 y Gaussiano n=144

36

Page 43: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Table 5.3: Resultados de los mejores experimentos y variables por tipo de vector optimizando nu-SVC.

Función de kernelLineal Polinomial Gaussiano

Vector ACC NU ACC NU D R ACC NU G1 0.849 0.5 0.8571 0.5 1 0.5 0.8537 0.5 0.10242 0.8502 0.5 0.8513 0.5 5 1.75 0.8537 0.5 0.08483 0.8537 0.5 0.8571 0.5 3 0.25 0.8757 0.25 2.6984 0.9303 0.25 0.9338 0.25 4 1.25 0.922 0.1 0.3345

Las variables para la identi�cación de los clasi�cadores con el tipo de SVM �nu-SVC�, ACC=exactitud,NU=variable de partición, D=Grado del polinomio, R=Número de polinomios que toma el Ker-nel, G=controla la complejidad de la función, Vectores: 1=Frecuencias, 2=Dipéptidos, 3=Factores y4=PSSM. Lineal n=20, Polinomial n=960 y Gaussiano n=120.

Table 5.4: Mejores resultados para la variable exactitud de los diferentes tipos de vectores.

Tipo de SVMC-SVC nu-SVC

Vector Lineal Polinomial Gaussiano Lineal Polinomial GaussianoFrecuencias 0.8502 0.8769 0.8757 0.8549 0.8571 0.8537Dipéptidos 0.8029 0.8548 0.8525 0.8502 0.8513 0.8537Factores 0.8502 0.8734 0.863 0.8537 0.8571 0.8757PSSM 0.8955 0.9361 0.9338 0.9303 0.9338 0.9326

5.3 Pruebas de exactitud para todas las variables

En el proceso total de la exploración de parámetros, teniendo en cuenta los dos tipos de SVM utilizados,se presentaron comportamientos diferenciales a partir de las funciones de Kernel que se pueden observaren la tabla 5.4. En el caso de las funciones lineal y gaussiana, por las combinatorias de variables, elvector PSSM siempre obtuvo los mejores resultados en comparación con los otros 3 tipos de vectores(frecuencias, dipéptidos y factores). A diferencia de los anterior, para el caso de la función Gaussianael proceso de exploración produjo indistintamente tanto buenos como malos clasi�cadores para los 4tipos de vectores.

5.4 Mejores clasi�cadores para cada tipo de vector

A partir de un proceso de optimización ponderando las variables por función de Kernel y teniendoen cuenta las variables de las SVM, se obtuvieron los mejores clasi�cadores. A continuación, se buscóidenti�car los métodos que presentaran mayor precisión con la menor complejidad posible y a partirde estas variables, se implementaron 4 clasi�cadores que se pueden observar en la tabla 5.5, para cadavector construído.

5.5 Curva ROC para los mejores clasi�cadores

En la �gura 5.2 se presentan los comportamientos de los clasi�cadores en el proceso de evaluaciónen función del proceso de entrenamiento. Los 4 tipos de clasi�cadores muestran un alto grado deindependencia en el proceso de clasi�cación sobre el umbral, pero aún así, el clasi�cador entrenadocon los vectores PSSM fue el método que presentó mayores valores (mayor AuROC).

37

Page 44: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Table 5.5: Mejores clasi�cadores para cada vector con sus variables.

Vector SVM D R C ACC MCC AuROCFrecuencias C-SVC-Polinomial 5 1.75 50000 0.8769 0.7219 0.9034Dipéptidos C-SVC-Polinomial 2 1 30000 0.8548 0.7077 0.9016Factores C-SVC-Polinomial 5 1.5 20000 0.8734 0.7288 0.9122PSSM C-SVC-Polinomial 2 0.25 10000 0.9361 0.8286 0.9589

Validación cruzada 5-fold. Conjunto de entrenamiento 80%, conjunto de prueba 20%. D=Gradodel polinomio, R=Número de polinomios que toma el Kernel y C=costo de añadir un nuevo vector,ACC=exactitud, MCC=Coe�ciente de correlación de Matthews, AuROC=medida sobre el umbraltotal.

Figure 5.2: Curva ROC

38

Page 45: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

5.6 Diagrama de resultados para la clasi�cación del conjunto

independiente de proteínas secretadas por vía no clásica

Se obtuvo un conjunto de 82 proteínas las cuales corresponden de manera positiva a reportes desecreción por vía no clásica y constituyó el conjunto con el cual se realizó la exploración �nal. Partic-ularmente, el método que mayor número de proteínas identi�có por sí solo fue el clasi�cador basadoen PSSM (54 proteínas), le siguio SecretomeP 2.0 (47 proteínas) y el clasi�cador de frecuencias (47proteínas), factores (46 proteínas) y por último dipéptidos (42 proteínas). Interesantemente, del totalde 82 proteínas sólo 12 no fueron reconocidas por los métodos propuesto y SecretomeP 2.0.

De las intersecciones del diagrama de Venn que se observa en la �gura 5.3 se identi�ca que delconjunto total de 82 proteínas, 24 fueron clasi�cadas tanto por los métodos propuestos en este trabajocomo por SecretomeP 2.0. Por otro lado, 11 proteínas fueron identi�cadas por los clasi�cadores entre-nados en este proyecto, más no fueron clasi�cadas por SecretomeP 2.0 como secretadas y, �nalmente,esta herramienta clasi�có 10 proteínas como secretadas por vía no clásica que ninguno de los méto-dos entrenados en este proyecto fue capaz de reconocer. De los clasi�cadores entrenados, únicamentePSSM y factores reconocieron cada uno una proteína de manera independiente que ninguno de losotros métodos clasi�có positivamente.

39

Page 46: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Figure 5.3: Diagrama de clasi�cación para las proteínas identi�cadas por los diferentes tipos declasi�cadores desarrollados y contrastados con SecretomeP 2.0.

Para facilitar la lectura del diagrama se le asignó a cada herramienta una letra correspondiente de lasiguiente manera: SecretomeP=A, Dipéptidos=B, Frecuencias=C, Factores=D y PSSM=E.

40

Page 47: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 6

Discusión de resultados

Como lo reporta Hua y colaboradores [60], una de las áreas más complejas en aprendizaje de máquinaestá directamente relacionada con el proceso de búsqueda y construcción de los conjuntos de datospara el entrenamiento y exploración, lo cual evidencia la di�cultad que implica obtener un conjuntolo su�cientemente heterogéneo, con�able y con su�cientes datos. En este sentido, por medio de labúsqueda en bases de datos que se describe en la sección 4.2, se obtuvieron 3.794 y 21.459 secuenciasantes del ajuste por porcentaje de identidad para el conjunto positivo y negativo, respectivamente,y a partir del proceso de extracción de redundancia por medio de PISCES [138][139] se ajustaronlos datos tanto para el conjunto positivo como negativo en 420 y 443 secuencias. Aún así, los datosprovienen de la base de datos SwissProt que es pública y depende directamente de los reportes dediversos autores con diversas metodologías, lo que facilmente puede hacer que varie tanto la calidadcomo la cantidad de proteínas.

Por otro lado, en el proceso de búsqueda de métodos predictivos, se identi�có que en muchos casosse reportan nuevos métodos a partir de los conjuntos de entrenamiento de herramientas ya reportadas,como es el caso de STRPRED [50] (clasi�cador de proteínas eucariotas secretadas por vía no clásica),que utilizó el conjunto de SecretomeP 2.0 aplicando diferentes técnicas de aprendizaje estadístico.Esto conlleva a que la gran diversidad de métodos predictivos reportados a la fecha, compartan susconjuntos de entrenamiento y en este sentido, puede establecer una ventaja comparativa a la hora deproponer un nuevo método si se asegura no solo la utilización de técnicas de aprendizaje diferentes sinotambién la construcción de conjuntos de entrenamiento novedosos que diversi�carían los resultados delas predicciones.

Se debe tener en cuenta que la aproximación planteada en este proyecto asume que la predicción deproteínas secretadas por vía no clásica se da a partir de una modi�cación de las proteínas secretadaspor vía clásica, tal y como lo propusieron Bentdsen y colaboradores en el 2004 [8][9]. Aún así, esteproyecto planteó tanto transformaciones sobre los datos, como métodos inovadores aún no empleadosen la solución del problema de la clasi�cación de este tipo de proteínas. Por otro lado, el hecho deque SecretomeP 2.0 [9] haya sido entrenada hace aproximadamente 5 años, pemitió asumir que parael caso de la problemática de secreción por vía no clásica y con el crecimiento acelerado de datos deproteínas reportadas en SwissProt, la extracción de información 5 años después permitiría obtener unconjunto robusto y heterogéneo, lo cual se logró. Por otro lado, no fue posible identi�car si existíanproteínas comunes entre los conjuntos especí�cos de aprendizaje de SecretomeP 2.0 (los autores no loreportan explícitamente) y con los conjuntos utilizados para construir los métodos de clasi�cación delproyecto.

Es importante resaltar que tanto para la construcción de SecretomeP 2.0 [8][9] como para estetrabajo, los datos de entrada fueron extraídos de la base de datos SwissProt [6] (para SecretomeP losdatos fueron extraidos de la versión 44.1 y para este trabajo de la versión 53.1), la cual mantiene unaspolíticas de con�abilidad y curaduría sobre los datos que la han hecho ser considerada como puntode referencia fundamental para construir conjuntos de entrenamiento para herramientas basadas en

41

Page 48: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

aprendizaje estadístico. Sin embargo, este hecho también permite intuír que la gran mayoría de lasherramientas publicadas hasta el momento fueron desarrolladas usando el mismo origen de las secuen-cias, lo cual puede resultar en un solapamiento de los datos dentro de los conjuntos de entrenamiento,o en los procesos de construcción y preprocesamiento de información. Aún así, la creciente diversidadde métodos y el crecimiento constante de los datos y la identi�cación de nuevos problemas hace quesea fundamental continuar con la tarea de analizar y extraer información.

Para construir los vectores de características que representaban las secuencia de los conjuntos deentrada, se utilizaron diferentes técnicas de preprocesamiento, las cuales tienen detalles intrínsecos decálculo que hacen que los vectores resultantes sean más expresivos, tal y como lo plantean Archley ycolaboradores [5]. En el caso especí�co de los vectores de dipéptidos y PSSM, ambos contenían 400características para representar cada una de las secuencias de aminoácidos, pero fué evidentementePSSM el que representó más e�cazmente cada proteína y por lo tanto el clasi�cador que permitióobtener mejores resultados. Los vectores PSSM han sido reportados como una de las maneras másexpresivas de representar proteínas en aprendizaje estadístico [66] [31] [89] [107] [49] [68] [79]. Sinembargo, es importante destacar que en el caso de SecretomeP 2.0, los vectores están conformadospor 14 características que son preprocesadas de manera compleja [64][63][65], pero estas variacionesen el preprocesamiento de los vectores permite que esta herramienta discrimine de manera e�cienteproteínas que los métodos entrenados en este proyecto no clasi�can positivamente.

Es relevante establecer que tanto SecretomeP 2. 0 como los métodos presentados en este trabajoutilizan información perteneciente a dos clases biológicas de bacterias Gram-positivas (Firmicutesy Actinobacteria). Aún así, parte de las características que usaron en SecretomeP2.0 provienen depredicciones de métodos entrenados con secuencias de proteínas de grupos biológicos diferentes abacterias Gram-positivas, lo que sugiere que la hipótesis de que mecanismos comunes de secreciónson frecuentes entre las diferentes entidades biológicas es plausible, pero esta hipótesis tendría que sercorroborada experimentalmente, tal y como ya se ha caracterizado para la secreción por vía clásicapara bacterias Gram-positivas [37][58][122][125][131][132][147].

En el caso especí�co del preprocesamiento de los vectores PSSM, es importante resaltar que sucálculo computacional está directamente relacionado con la versión de la base de datos NR que seutilizó y que por lo tanto la calidad de los per�les de entrada de la PSSM contra el clasi�cador puedencambiar sustancialmente dependiendo de la misma. Esto implica que la base de datos del clasi�cadorpropuesto en este trabajo se debe revisar periódicamente para mejorar su desempeño. También debetenerse en cuenta que el cálculo de los 4 tipos de vectores empleados por el clasi�cador tiene costoscomputacionales variables (los vectores PSSM son aproximadamente 10 veces más costosos de calcu-lar), por lo cual se requeriría de tiempo computacional adicional para para de�nir si el clasi�cadorprocesa los datos en grupo �Batch� o uno por uno, como es usual con otros métodos como SignalP3.0 [11], Gpos-Ploc [117], PA-SUB [83], PSORTb [46] y SecretomeP [8][9], entre otros.

En la etapa de selección de los procedimientos métodológicos, se escogieron a partir de la revisiónde la literatura las funciones de Kernel más exploradas por la comunidad cientí�ca [7][136][111], seescalaron los datos originales y se realizaron las transformaciones para construir los vectores, se uti-lizaron las funciones de Kernel (lineal, polinomial y gaussiana), se utilizó la técnica de validacióncruzada para encontrar los mejores parámetros y se entrenaron los clasi�cadores con todo el conjuntode datos [7]. Para identi�car los mejores parámetros de los clasi�cadores, se tuvieron en cuenta losproblemas del tamaño del conjunto de entrenamiento para que la validación cruzada permitiera es-tablecer la ubicuidad del conjunto de datos [44][24], teniendo presente siempre que para el proceso deexploración de parámetros es fundamental identi�car los clasi�cadores, porque, de la misma maneraque se puede obtener un buen clasi�cador para un conjunto de datos bien ajustado, una exploraciónde�ciente puede producir clasi�cadores inestables aún cuando se tengan datos y algoritmos apropiados.

Para el caso especí�co con la exploración de funciones y, según lo sugiere Keerthi y colaboradores[73], se realizó una primera exploración de parámetros con la función gaussiana. La ventaja quepresenta esta función, a diferencia de la función lineal, es que esta función está en capacidad demapear de manera no lineal las muestras en un espacio de mayores dimensiones, lo que hace quepueda manejar e�cientemente las relaciones entre las diferentes etiquetas de los atributos de manera

42

Page 49: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

no lineal. Aún así, debe tenerse presente que la función lineal es un caso especial de la función gaussiana,lo cual se evidencia cuando para la función lineal los parámetros C presentan el mismo desempeñode la función de Kernel gaussiana para sus parámetros (C, γ). De todos modos está reportado porScholkopf y colaboradores [111] y Fan y colaboradores [44], que cuando el número de característicases muy grande, posiblemente una función lineal puede ser más efectiva. Aún así, la funcíon que mejorse comportó para el problema de la clasi�cación de este trabajo fue la función polinomial para los 4tipos de vectores construídos.

Por otro lado, en el proceso de selección de los mejores métodos, se optimizó el resultado porparámetros a partir de la exploración, obteniendo la función de Kernel polinomial, pero es importantetener en cuenta que la función gaussiana presenta menores di�cultades en comparación con la funcionpolinomial porque la clave de la primera está en que 0 < Kij ≤ 1, en contraste con la función de Kernelpolinomial en la que los valores pueden tender a in�nito (γxTi xj + r > 1) o cero (γxTi xj + r < 1) en lamedida en que el grado de la función sea más amplio [134]. Esto se evidencia en la naturaleza de lasvariables de la función polinomial, donde el número de experimentos realizados fue muchísimo mayoren comparación con los otros dos métodos (lineal y gaussiano). Particularmente, la exploración con lafunción polinomial arrojó tanto buenos como malos clasi�cadores para todos los vectores construídos(frecuencias, dipéptidos, factores y PSSM), en contraste con la funcion lineal y gaussiana con las quesiempre se obtuvo como mejor clasi�cador a los clasi�cadores entrenados con los vectores PSSM.

En el proceso de experimentación de los vectores PSSM con los diferentes procesos de normal-ización, se exploró la ventaja que presentaban sobre los atributos en rangos amplios numéricos, losvectores con normalización (lineal y sigmoide). Esto facilitó los procesos de cálculo, como lo reportanFan y colaboradores [44] que demuestran que los valores de los Kernels dependen de los productospunto de los vectores de características, y permitió evidenciar las ventajas de realizar un procedimientopor escalamiento lineal de los atributos entre �0� y �1�.

En la etapa del proceso de validación de los clasi�cadores propuestos, los resultados obtenidos delcálculo de la curva ROC y la AuROC, evidencian que no se presentan solapamientos entre las distribu-ciones de los datos. Sin embargo, se debe tener en cuenta que como lo reportan Sonego y colaboradores[120], las curvas ROC caracterizan los rangos potenciales del algoritmo más no el desempeño comotal del clasi�cador. Por esta razón, se planteó un proceso exploratorio del comportamiento de losclasi�cadores a partir de la clasi�cación por parte de los métodos algorítmicos del conjunto indepen-diente de proteínas reportadas como secretadas en ausencia de péptido señal, el cual corresponde aun procedimiento indagatorio por la naturaleza propia y compleja del origen de los datos.

Finalmente y teniendo en cuenta la metodología inicialmente planteada, se concluye que con elconjunto de exploración independiente no se entrenarían apropiadamente los clasi�cadores, porquemuchas de las proteínas incluidas en él aparecen reportadas en SwissProt como secretadas en ausenciadel motivo de secreción por vía clásica, lo que corresponde a un proceso de inferencia estadística(similitud en secuencia o predicción computacional) más que a evidencia experimental [10]. Aún así,se consideró usar el conjunto de exploración independiente para probar la capacidad predictiva de losclasi�cadores obtenidos en este proyecto y contrastar sus resultados con los resultados de SecretomeP2.0 (de hecho 26 de las 33 proteínas reportadas como secretadas por vía no clásica por Bendtsen ycolaboradores [9] están incluídas en este conjunto de 82 proteínas) y construir hipótesis relacionadascon los resultados obtenidos. Como tal, el anterior proceso corresponde a la clasi�cación de verdaderospositivos y es puramente exploratorio, sin embargo y por los resultados del conjunto de exploración, elclasi�cador que más proteínas identi�có fue PSSM con 54 proteínas, en comparación con SecretomePque clasi�có 47, y de estas, 11 correspondieron a proteínas que ninguno de los métodos entrenados eneste proyecto identi�có positivamente, lo cual hace pensar que evidentemente este método reconocepatrones ignorados por dichos clasi�cadores. Por otro lado y basados en los resultados exploratorios,no se puede descartar la idea de que de�nitivamente el uso simultáneo de varios clasi�cadores puedeaumentar la capacidad de recononocimiento de variables a clasi�car.

43

Page 50: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Capítulo 7

Conclusiones y recomendaciones

Se proponen de manera novedosa 4 tipos diferentes de clasi�cadores para proteínas de bacterias Gram-positivas secretadas por vía no clásica a partir de la construcción de un conjunto de entrenamiento,los cuales estan basados en aprendizaje de máquina y utilizan diferentes tipos de vectores. Se proponedenominar al método de clasi�cación SIG+SVM.

Teniendo en cuenta los resultados, el vector PSSM basado en similitud constituyó la manera máse�ciente de representar las proteínas en comparación con los otros 3 clasi�cadores, ya que este métodopresentó el mejor comportamiento, tanto para las diferentes funciones de Kernel, como para los dostipos de SVM exploradas, siendo esto consistente con lo reportado en bibliografía, pues en la actualidadeste tipo de transformación se considera como un método altamente e�ciente para resolver problemasde clasi�cación de información biológica.

A partir de los resultados pertenecientes al conjunto de proteínas reportadas como secretadas enausencia de péptido señal, así como de la aproximación indirecta para poderlas clasi�car, se evidenciaque los métodos planteados en este proyecto están en capacidad de identi�car proteínas desconoci-das, pero también se reconoce la capacidad predictiva del método SecretomeP 2.0, el cual utilizainformación de predictores entrenados con grupos biológicos diferentes a bacterias Gram-positivas.

A partir de la revisión que se realizó de proteínas reportadas como secretadas por vía no clásica, sepuede envidenciar que nuevas proteínas están siendo reportadas cada día y, en la medida que aumenteel conjunto de las mismas, podrán realizarse procesos de validación o reajustes a los métodos yaexistentes, sin dejar de lado que es fundamental validar los resultados de estos clasi�cadores a partirde procedimientos de validación experimental.

Aún están por descubrirse, no sólo nuevos y diferentes procesos de secreción de proteínas, sinotambién los mecanismos que éstas utilizan para translocarse, lo cual comprende una de las áreas demayor interés para las ciencias de la vida y en la que las técnicas, tanto computacionales como deaprendizaje de máquina, pueden juegar un papel fundamental para dilucidar procesos y descubrirnuevos mecanismos biológicos.

45

Page 51: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Publicaciones

• Artículo en revista internacional

� Restrepo-Montoya, D. and Vizcaino, C. Niño, L.F. Ocampo, M. Patarroyo, M.E, Patarroyo,M.A. Validating subcellular localization prediction tools with mycobacterial proteins. BMCBioinformatics ISSN: 1471-2105 v.10, 2009.

� Vizcaíno, C. and Restrepo-Montoya, D. Rodríguez, D. Niño, L.F. Ocampo, M. Vanegas, M.Reguero, M. T. Martínez N.L Patarroyo, M.E. and Patarroyo, M.A. (2010). �ComputationalPrediction and Experimental Assessment of Secreted/surface Proteins from Mycobacteriumtuberculosis H37Rv�. Sometido a PLoS Computational Biology.

� Restrepo-Montoya, D., Niño, L.F. Patarroyo, M.E. and Patarroyo, M.A. (2010). �SIG+SVM:A new Classi�er for Nonclassical Secretion Gram-positive Proteins�. A ser sometido a Ox-ford University Press.

• Capitulo en libro nacional

� Daniel Restrepo-Montoya, Diana Angel. Plegamiento y modi�cación de proteínas. Capí-tulo en libro de Biología Molecular del Centro de Investigaciones Biomedicas �CIB�. (enpreparación para publicación)

46

Page 52: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

Bibliografía

[1] S. Ahmad and A. Sarai. PSSM-based prediction of DNA binding sites in proteins. BMCbioinformatics, 6(1):33, 2005.

[2] S. F Altschul and E. V Koonin. Iterated pro�le searches with PSI-BLAST�a tool for discoveryin protein databases. Trends in biochemical sciences, 23(11):444�447, 1998.

[3] R. Apweiler, A. Bairoch, and C. H Wu. Protein sequence databases. Current opinion in chemicalbiology, 8(1):76�80, 2004.

[4] W. R Atchley and A. D Fernandes. Sequence signatures and the probabilistic identi�cation ofproteins in the Myc-Max-Mad network. Pro Natl Acad Sci USA, 102(18):6401�6406, 2005.

[5] W. R Atchley, J. Zhao, A. D Fernandes, and T. Druke. Solving the protein sequence metricproblem. Pro Natl Acad Sci USA, 102(18):6395, 2005.

[6] Amos Bairoch, Brigitte Boeckmann, Serenella Ferro, and Elisabeth Gasteiger. Swiss-Prot: jug-gling between evolution and stability. Brie�ngs in Bioinformatics, 5(1):39�55, 2004.

[7] A. Ben-Hur, C. S Ong, S. Sonnenburg, B. Scholkopf, and G. Ratsch. Support vector machinesand kernels for computational biology. PLoS Comp Biol, 4(10):10�17, 2008.

[8] J. D Bendtsen, L. J Jensen, N. Blom, G. von Heijne, and S. Brunak. Feature-based predictionof non-classical and leaderless protein secretion. Protein Engineering Design and Selection,17(4):349�356, 2004.

[9] J. D Bendtsen, L. Kiemer, A. Fausboll, and S. Brunak. Non-classical protein secretion in bacteria.BMC microbiology, 5(1):58, 2005.

[10] J. D Bendtsen and K. G Wooldridge. Bacterial Secreted Proteins: Secretory Mechanisms andRole in Pathogenesis. Caister Academy Press, 2009.

[11] J. Dyrlov Bendtsen, H. Nielsen, G. von Heijne, and S. Brunak. Improved prediction of signalpeptides: SignalP 3.0. J Mo Biol, 340(4):783�795, 2004.

[12] D. P Berrar, W. Dubitzky, and M. Granzow. A practical approach to microarray data analysis.Kluwer Academic Pub, 2003.

[13] M. Bhasin and G. P.S Raghava. Classi�cation of nuclear receptors based on amino acid compo-sition and dipeptide composition. Journal of Biological Chemistry, 279(22):23262�23266, 2004.

[14] C. M Bishop et al. Pattern recognition and machine learning. Springer New York:, 2006.

[15] G. Blobel. Protein targeting (nobel lecture). Chembiochem, 1(2):86�102, 2000.

[16] N. Blom, S. Gammeltoft, and S. Brunak. Sequence and structure-based prediction of eukaryoticprotein phosphorylation sites. J Mol Biol, 294(5):1351�1362, 1999.

47

Page 53: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[17] K. M Borgwardt, C. S Ong, S. Schonauer, S. V. N. Vishwanathan, A. J Smola, and H. P Kriegel.Protein function prediction via graph kernels. Bioinformatics-Oxford, 21(1):47, 2005.

[18] Miriam Braunstein, Benjamin J Espinosa, John Chan, John T Belisle, and William R Jacobs.Seca2 functions in the secretion of superoxide dismutase a and in the virulence of mycobacteriumtuberculosis. Mol Microbiol, 48(2):453�464, 2003.

[19] M. P.S Brown, W. N Grundy, D. Lin, N. Cristianini, C. W Sugnet, T. S Furey, M. Ares, andD. Haussler. Knowledge-based analysis of microarray gene expression data by using supportvector machines. Proceedings of the National Academy of Sciences, 97(1):262, 2000.

[20] Michael P. S. Brown, William Noble Grundy, David Lin, Nello Cristianini, Charles Walsh Sugnet,Terrence S. Furey, Manuel Ares, and David Haussler. Knowledge-based analysis of microarraygene expression data by using support vector machines. Pro Natl Acad Sci USA, 97(1):262�267,2000.

[21] W. S Bu, Z. P Feng, Z. Zhang, and C. T Zhang. Prediction of protein (domain) structuralclasses based on amino-acid index. European Journal of Biochemistry, 266(3):1043�1049, 1999.

[22] G. Buist, A. N.J.A Ridder, J. Kok, and O. P Kuipers. Di�erent subcellular locations of secretomecomponents of gram-positive bacteria. Microbiology, 152(10):2867, 2006.

[23] Coulouris G. Avagyan V. Ning Ma Tao T. Agarwala R. Camacho C., Madden T. BLASTCommand Line Applications User Manual. NCBI, 2009.

[24] C. C Chang and C. J Lin. LIBSVM: a library for support vector machines. Citeseer, 2001.

[25] V. Cherkassky and F. Mulier. Learning from data: Concepts, theory, and methods. Wiley-IEEEPress, 2007.

[26] K. C Chou. A novel approach to predicting protein structural classes in a (20-1)-D amino acidcomposition space. Proteins: Structure, Function & Genetics, 21(4):319�334, 1995.

[27] K. C Chou. Using pair-coupled amino acid composition to predict protein secondary structurecontent. Journal of protein chemistry, 18(4):473�480, 1999.

[28] K. C Chou. Prediction of protein subcellular locations by incorporating quasi-sequence-ordere�ect. BBRC, 278(2):477�483, 2000.

[29] K. C Chou and Y. D Cai. Predicting protein structural class by functional domain composition.Biochemical and biophysical research communications, 321(4):1007�1009, 2004.

[30] K. C. Chou and G. M. Maggiora. Domain structural class prediction. Protein EngineeringDesign and Selection, 11(7):523, 1998.

[31] K. C Chou and H. B Shen. MemType-2L: a web server for predicting membrane proteins andtheir types by incorporating evolution information through Pse-PSSM. BBRC, 360(2):339�345,2007.

[32] K. C Chou and H. B Shen. Recent progress in protein subcellular location prediction. AnalyticalBiochemistry, 370(1):1�16, 2007.

[33] K. C Chou and C. T Zhang. A new approach to predicting protein folding types. Journal ofprotein chemistry, 12(2):169�178, 1993.

[34] K. C. Chou and C. T. Zhang. Predicting protein folding types by distance functions that makeallowances for amino acid interactions. Journal of Biological Chemistry, 269(35):22014, 1994.

48

Page 54: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[35] The UniProt Consortium. The universal protein resource (UniProt). Nucl. Acids Res.,37(suppl_1):169�174, 2009.

[36] C. Cortes and V. Vapnik. Support-vector networks. Machine learning, 20(3):273�297, 1995.

[37] M. Desvaux and M. Habraud. The protein secretion systems in listeria: inside out bacterialvirulence. FEMS microbiology reviews, 30(5):774�805, 2006.

[38] C. H.Q Ding and I. Dubchak. Multi-class protein fold recognition using support vector machinesand neural networks. Bioinformatics, 17(4):349, 2001.

[39] R. O Duda, O. Hart, and P. E. Stork. DG: Pattern Classi�cation. Wiley-Interscience, 2000.

[40] A. Economou, P. J Christie, R. C Fernandez, T. Palmer, G. V Plano, and A. P Pugsley. Secretionby numbers: protein tra�c in prokaryotes. Molecular microbiology, 62(2):308, 2006.

[41] F. Eisenhaber, C. Frammel, and P. Argos. Prediction of secondary structural content of pro-teins from their amino acid composition alone. II. the paradox with secondary structural class.Proteins: Structure, Function, and Bioinformatics, 25(2):169�179, 1993.

[42] Arne Elofsson and Gunnar von Heijne. Membrane protein structure: prediction versus reality.Annu Rev Biochem, 76:125�140, 2007.

[43] Olof Emanuelsson, Soren Brunak, Gunnar von Heijne, and Henrik Nielsen. Locating proteins inthe cell using targetp, signalp and related tools. Nat Protoc, 2(4):953�971, 2007.

[44] R. E Fan, P. H Chen, and C. J Lin. Working set selection using second order information fortraining support vector machines. The Journal of Machine Learning Research, 6:1918, 2005.

[45] Q. B Gao, Z. Z Wang, C. Yan, and Y. H Du. Prediction of protein subcellular location using acombined feature of sequence. FEBS letters, 579(16):3444�3448, 2005.

[46] J. L. Gardy, M. R. Laird, F. Chen, S. Rey, C. J. Walsh, M. Ester, and F. S. L. Brinkman.PSORTb v. 2.0: expanded prediction of bacterial protein subcellular localization and insightsgained from comparative proteome analysis. Bioinformatics, 21(5):617�623, 2005.

[47] Jennifer L Gardy and Fiona S L Brinkman. Methods for predicting bacterial protein subcellularlocalization. Nat Rev Microbiol, 4(10):741�751, 2006.

[48] A. Garg, M. Bhasin, and G. P.S Raghava. Support vector machine-based method for subcellularlocalization of human proteins using amino acid compositions, their order, and similarity search.Journal of Biological Chemistry, 280(15):14427�14432, 2005.

[49] A. Garg and D. Gupta. VirulentPred: a SVM based prediction method for virulent proteins inbacterial pathogens. Bmc Bioinformatics, 9(1):62, 2008.

[50] A. Garg and G. P.S Raghava. A machine learning based method for the prediction of secretoryproteins using amino acid composition, their order and similarity-search. In Silico Biology,8(2):129�140, 2008.

[51] R. Grantham. Amino acid di�erence formula to help explain protein evolution. Science, 185:862�864, 1974.

[52] M. Gribskov and D. MCLACHLAN. Pro�le analysis: detection of distantly related proteins.Biochemistry, 84, 1987.

[53] R. Gupta, E. Jung, et al. NetNGlyc: Prediction of N-glycosylation sites in human proteins.Accessed, 2005.

49

Page 55: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[54] J. E Hansen, O. Lund, N. Tolstrup, A. A Gooley, K. L Williams, and S. Brunak. NetOglyc:prediction of mucin type o-glycosylation sites based on sequence context and surface accessibility.Glycoconjugate Journal, 15(2):115�130, 1998.

[55] G. Harth, D. L Clemens, and M. A Horwitz. Glutamine synthetase ofMycobacterium tuber-culosis: Extracellular release and characterization of its enzymatic activity. Pro Natl Acad SciUSA, 91:9342�9346, 1994.

[56] D. Haussler. Convolution kernels on discrete structures. In Technical Report UCS-CRL-99-10.UC, 1999.

[57] G. Von Heijne. A new method for predicting signal sequence cleavage sites. Nucleic acidsresearch, 14(11):46�83, 1986.

[58] I. R Henderson, F. Navarro-Garcia, M. Desvaux, R. C Fernandez, and D. Ala'Aldeen. Typev protein secretion pathway: the autotransporter story. Microbiology and Molecular BiologyReviews, 68(4):692�744, 2004.

[59] R. C Holte. Very simple classi�cation rules perform well on most commonly used datasets.Machine learning, 11(1):63�90, 1993.

[60] S. Hua and Z. Sun. A novel method of protein secondary structure prediction with high segmentoverlap measure: support vector machine approach. J Mol Biol, 308(2):397�407, 2001.

[61] S. Idicula-Thomas, A. J Kulkarni, B. D Kulkarni, V. K Jayaraman, and P. V Balaji. A supportvector machine-based method for predicting the propensity of a protein to be soluble or to forminclusion body on overexpression in escherichia coli. Bioinformatics, 22(3):278�284, 2006.

[62] T. Jaakkola, M. Diekhans, and D. Haussler. Using the �sher kernel method to detect remote pro-tein homologies. In Proceedings of the Seventh International Conference on Intelligent Systemsfor Molecular Biology, pages 149�158, 1999.

[63] L. J. Jensen, R. Gupta, N. Blom, D. Devos, J. Tamames, C. Kesmir, H. Nielsen, H. H. Staerfeldt,K. Rapacki, C. Workman, et al. Prediction of human protein function from post-translationalmodi�cations and localization features. Journal of Molecular Biology, 319(5):1257�1265, 2002.

[64] L. J. Jensen, R. Gupta, H. H Staerfeldt, and S. Brunak. Prediction of human protein functionaccording to gene ontology categories. Bioinformatics, 19(5):635, 2003.

[65] L. J Jensen, M. Skovgaard, and S. Brunak. Prediction of novel archaeal enzymes from sequence-derived features. Protein Science: A Publication of the Protein Society, 11(12):2894�2898, 2002.

[66] D. T Jones. Protein secondary structure prediction based on position-speci�c scoring matrices.J Mol Biol, 292(2):195�202, 1999.

[67] D. T Jones and M. B Swindells. Getting the most from PSI�BLAST. TRENDS in BiochemicalSciences, 27(3):161�164, 2002.

[68] E. Y.T Juan, W. J. Li, J. H. Jhang, and C. H. Chiu. Predicting protein subcellular localiza-tions for Gram-Negative bacteria using DP-PSSM and support vector machines. InternationalConference on Complex, Intelligent and Software Intensive Systems, 836�841, 2009.

[69] S. Kamalakkannan, V. Murugan, M. V. Jagannadham, R. Nagaraj, and K. Sankaran. Bacteriallipid modi�cation of proteins for novel protein engineering applications. Protein EngineeringDesign and Selection, 17(10):721�729, 2004.

[70] S. H.E Kaufmann. How can immunology contribute to the control of tuberculosis? NatureReviews Immunology, 1(1):20�30, 2001.

50

Page 56: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[71] S. Kawashima and M. Kanehisa. AAindex: amino acid index database. Nucleic Acids Research,28(1):374, 2000.

[72] K. D Kedarisetti, L. Kurgan, and S. Dick. Classi�er ensembles for protein structural classprediction with varying homology. Biochemical and Biophysical Research Communications,348(3):981�988, 2006.

[73] S. S Keerthi and C. J Lin. Asymptotic behaviors of support vector machines with gaussiankernel. Neural computation, 15(7):1667�1689, 2003.

[74] Thomas Klabunde and Gerhard Hessler. Drug design strategies for targeting g-protein-coupledreceptors. Chembiochem, 3(10):928�944, 2002.

[75] Eric W Klee and Carlos P Sosa. Computational classi�cation of classically secreted proteins.Drug Discov Today, 12(5-6):234�240, 2007.

[76] P. Klein and C. Delisi. Prediction of protein structural class from the amino acid sequence.Peptide Science, 25(9):1659�1672.

[77] B. T. Korber, R. M. Farber, D. H. Wolpert, and A. S. Lapedes. Covariation of mutations inthe v3 loop of human immunode�ciency virus type 1 envelope protein: an information theoreticanalysis. Pro Natl Acad Sci USA, 90(15):7176�7180, 1993.

[78] A. Krogh, B.E Larsson, G. von Heijne, and E. L.L Sonnhammer. Predicting transmembraneprotein topology with a hidden markov model: application to complete genomes. J Mol Biol,305(3):567�580, 2001.

[79] M. Kumar, M. M Gromiha, and G. P.S Raghava. Identi�cation of DNA-binding proteins usingsupport vector machines and evolutionary pro�les. BMC bioinformatics, 8(1):463�470, 2007.

[80] Lukasz A. Kurgan and Leila Homaeian. Prediction of structural classes for protein sequencesand domains�Impact of prediction algorithms, sequence representation and homology, and testprocedures on accuracy. Pattern Recognition, 39(12):2323�2343, 2006.

[81] C. Leslie, E. Eskin, and W. S Noble. The spectrum kernel: A string kernel for SVM proteinclassi�cation. In Proceedings of the Paci�c Symposium on Biocomputing, volume 7, pages 566�575, 2002.

[82] Z. R. Li, H. H. Lin, L. Y. Han, L. Jiang, X. Chen, and Y. Z. Chen. PROFEAT: a web serverfor computing structural and physicochemical features of proteins and peptides from amino acidsequence. Nucleic Acids Research, 34(Web Server issue):W32, 2006.

[83] Z. Lu, D. Szafron, R. Greiner, P. Lu, D. S. Wishart, B. Poulin, J. Anvik, C. Macdonell, andR. Eisner. Predicting subcellular localization of proteins using machine-learned classi�ers. Bioin-formatics, 20(4):547�556, 2004.

[84] O. Lund, K. Frimand, J. Gorodkin, H. Bohr, J. Bohr, J. Hansen, and S. Brunak. Protein distanceconstraints predicted by neural networks and probability density functions. Protein EngineeringDesign and Selection, 10(11):1241, 1997.

[85] R. Luo, Z. Feng, and J. Liu. Prediction of protein structural class by amino acid and polypeptidecomposition. European Journal of Biochemistry, 269(17):4219�4225, 2002.

[86] D. J. McGeoch. On the predictive recognition of signal peptide sequences. Virus Res, 3(3):271�286, 1985.

51

Page 57: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[87] B. A Metfessel, P. N. Saurugger, D. P. Connelly, and S. S. Rich. Cross-validation of proteinstructural class prediction using statistical clustering and neural networks. Protein Science,2(7):1171�1182, 1993.

[88] S. Mukherjee, P. Tamayo, D. Slonim, A. Verri, T. Golub, J. Mesirov, and T. Poggio. Supportvector machine classi�cation of microarray data. CBCL Paper, 182, 1999.

[89] P. Mundra, M. Kumar, K. K Kumar, V. K Jayaraman, and B. D Kulkarni. Using pseudo aminoacid composition to predict protein subnuclear localization: Approached with PSSM. PatternRecognition Letters, 28(13):1610�1615, 2007.

[90] K. Nakai and P. Horton. PSORT: a program for detecting sorting signals in proteins andpredicting their subcellular localization. Trends in biochemical sciences, 24(1):34�35, 1999.

[91] H. Nakashima, K. Nishikawa, and T. Ooi. The folding type of a protein is relevant to the aminoacid composition. Journal of Biochemistry, 99(1):153, 1986.

[92] W. Nickel. The mystery of nonclassical protein secretion. Eur. J. Biochem, 270:2109�2119, 2003.

[93] H. Nielsen, S. Brunak, and G. von Heijne. Machine learning approaches for the prediction ofsignal peptides and other protein sorting signals. Protein Eng, 12(1):3�9, 1999.

[94] H. Nielsen, J. Engelbrecht, S. Brunak, and G. Von Heijne. Identi�cation of prokaryotic andeukaryotic signal peptides and prediction of their cleavage sites. Protein Engineering Designand Selection, 10(1):1, 1997.

[95] W. S Noble. Support vector machine applications in computational biology. Kernel methods incomputational biology, pages 71�92, 2004.

[96] M. Ouali and R. D King. Cascaded multiple classi�ers for secondary structure prediction. PRS,9(06):1162�1176, 2000.

[97] T. Palmer, F. Sargent, and B. C Berks. Export of complex cofactor-containing proteins by thebacterial tat pathway. TRENDS in Microbiology, 13(4):175�180, 2005.

[98] E. Papanikou, S. Karamanou, and A. Economou. Bacterial protein secretion through the translo-case nanomachine. Nature Reviews Microbiology, 5(11):839�851, 2007.

[99] Oscar Andres Sanchez Plazas. Diseno de un modelo basado en analisis estadistico y aprendizajede maquina para diagnostico molecular: Estudio del sindrome de fatiga cronica. Master's the-sis, Universidad Nacional de Colombia, Facultad de Ingenieria, Departamento de Ingenieria deSistemas e Industrial, Bogota D.C., 2008.

[100] M. Pohlschroder, E. Hartmann, N. J. Hand, K. Dilks, and A. Haddad. Diversity and evolutionof protein translocation. Annual review of microbiology, 59:91, 2005.

[101] Gunnar Raetsch and S Sonnenburg. Kernel methods in computational biology. MIT pressCambridge, MA, 2004.

[102] H. Rangwala and G. Karypis. Pro�le-based direct kernels for remote homology detection andfold recognition. Bioinformatics, 21(23):4239�4247, 2005.

[103] A. Reinhardt and T. Hubbard. Using neural networks for prediction of the subcellular locationof proteins. Nucleic Acids Research, 26(9):2230, 1998.

[104] D. Restrepo-Montoya, C. Vizcaino, L. F Nino, M. Ocampo, M. E Patarroyo, and M. A Patar-royo. Validating subcellular localization prediction tools with mycobacterial proteins. BMCbioinformatics, 10(1):134�158, 2009.

52

Page 58: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[105] M. Rezwan, T. Grau, A. Tschumi, and P. Sander. Lipoprotein synthesis in mycobacteria. Mi-crobiology, 153(3):652�658, 2007.

[106] D. Roobaert and M.M. Van Hulle. View-based 3D object recognition with support vectormachines. In Neural Networks for Signal Processing IX, 1999. Proceedings of the 1999 IEEESignal Processing Society Workshop, pages 77�84, 1999.

[107] V. Ruchi, T. Ajit, K. Sukhwinder, V. Grish, and R. Gajendra. Identi�cation of proteins secretedby malaria parasite into erythrocyte using SVM and PSSM pro�les. BMC Bioinformatics, 9.

[108] F. Sargent, B. C Berks, and T. Palmer. Path�nders and trailblazers: a prokaryotic targetingsystem for transport of folded proteins. FEMS microbiology letters, 254(2):198�207, 2006.

[109] G. Schatz and B. Dobberstein. Common principles of protein translocation across membranes.Science, 271(5255):1519�1526, 1996.

[110] Gisbert Schneider and Uli Fechner. Advances in the prediction of protein targeting signals.Proteomics, 4(6):1571�1580, 2004.

[111] B. Scholkopf, I. Guyon, and J. Weston. Statistical learning and kernel methods in bioinformatics.Arti�cial Intelligence and Heuristic Methods in Bioinformatics, 9:4, 2003.

[112] B. Scholkopf and A. J Smola. Learning with kernels. Citeseer, 2002.

[113] B. Scholkopf, A. J Smola, R. C Williamson, and P. L Bartlett. New support vector algorithms.Neural Computation, 12(5):1207�1245, 2000.

[114] Bernhard Scholkopf, Chris Burges, and Vladimir Vapnik. Extracting support data for a giventask. Proceedings, First international conference on Knowledge Discovery & Data Mining, MenloPark., pages 252�257, 1995.

[115] Michelle S Scott, Sara J Calafell, David Y Thomas, and Michael T Hallett. Re�ning proteinsubcellular localization. PLoS Comput Biol, 1(6):e66, 2005.

[116] John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. CambridgeUniversity Press, 2004.

[117] H. B Shen and K. C Chou. Gpos-PLoc: an ensemble classi�er for predicting subcellular localiza-tion of gram-positive bacterial proteins. Protein Engineering Design and Selection, 20(1):39�46,2007.

[118] H. B Shen and K. C Chou. PseAA: a �exible web server for generating various kinds of proteinpseudo amino acid composition. Analytical Biochemistry, 2007.

[119] Issar Smith. Mycobacterium tuberculosis pathogenesis and molecular determinants of virulence.Clin Microbiol Rev, 16(3):463�496, 2003.

[120] P. Sonego, A. Kocsor, and S. Pongor. ROC analysis: applications to the classi�cation of biologicalsequences and 3D structures. Brie�ngs in Bioinformatics, 9(3):198�206, 2008.

[121] S. Sonnenburg, G. Ratsch, C. Schafer, and B. Scholkopf. Large scale multiple kernel learning.The Journal of Machine Learning Research, 7:1531�1565, 2006.

[122] N. R Stanley, T. Palmer, and B. C Berks. The twin arginine consensus motif of tat signalpeptides is involved in sec-independent protein targeting in escherichia coli. Journal of BiologicalChemistry, 275(16):11591�11596, 2000.

53

Page 59: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[123] S. A Stanley, S. Raghavan, W. W Hwang, and J. S Cox. Acute infection and macrophagesubversion by mycobacterium tuberculosis require a specialized secretion system. Pro Natl AcadSci USA, 100(22):13001�13006, 2003.

[124] R. M Stein. Benchmarking default prediction models: pitfalls and remedies in model validation.Moody�s KMV, New York, 20305, 2002.

[125] I. C Sutcli�e and D. J Harrington. Pattern searches for the identi�cation of putative lipoproteingenes in gram-positive bacterial genomes. Microbiology, 148(7):2065�2077, 2002.

[126] E. Tantoso and K. B Li. AAIndexLoc: predicting subcellular localization of proteins based on anew representation of sequences using amino acid indices. Amino acids, 35(2):345�353, 2008.

[127] Marcel Tanudji, Sarah Hevi, and Steven L Chuck. Improperly folded green �uorescent proteinis secreted via a non-classical pathway. J Cell Sci, 115(Pt 19):3849�3857, 2002.

[128] Tao Tao. Standalone PSI/PHI-BLAST: blastpgp. NCBI.

[129] A. L Tarca, V. J Carey, X. W. Chen, R. Romero, and S. Draghici. Machine learning and itsapplications to biology. PLoS Comput Biol, 3(6):e116, 2007.

[130] G. S Tillotson and J. Tillotson. Bacterial secreted proteins: Secretory mechanisms and role inpathogenesis. Expert Rev. Anti Infect. Ther., 7(6):691�693, 2009.

[131] H. Tjalsma, H. Antelmann, J. D.H Jongbloed, P. G Braun, E. Darmon, R. Dorenbos, J. Y.FDubois, H. Westers, G. Zanen, W. J Quax, et al. Proteomics of protein secretion by bacillussubtilis: separating the "secrets.of the secretome. Microbiology and molecular biology reviews,68(2):207�233, 2004.

[132] H. Tjalsma, A. Bolhuis, J. D. Jongbloed, S. Bron, and J. M. van Dijl. Signal peptide-dependentprotein transport in bacillus subtilis: a genome-based survey of the secretome. Microbiol MolBiol Rev, 64(3):515�547, 2000.

[133] H. Tjalsma, A. Bolhuis, J. D.H Jongbloed, S. Bron, and J. M van Dijl. Signal peptide-dependentprotein transport in bacillus subtilis: a genome-based survey of the secretome. Microbiology andMolecular Biology Reviews, 64(3):515, 2000.

[134] Vladimir Naumovich Vapnik. The nature of statistical learning theory. Springer, 2000.

[135] J. P Vert. Support vector machine prediction of signal peptide cleavage site using a new class ofkernels for strings. In Proceedings of the Paci�c Symposium on Biocomputing, volume 7, pages649�660, 2002.

[136] J. P Vert. Kernel methods in genomics and computational biology. q-bio, 2005.

[137] J. P Vert, H. Saigo, and T. Akutsu. 6 local alignment kernels for biological sequences. Kernelmethods in computational biology, pages 131�154, 2004.

[138] G. Wang and R. L Dunbrack Jr. PISCES: a protein sequence culling server. Bioinformatics,19(12):1589�1591, 2003.

[139] G. Wang and R. L Dunbrack Jr. PISCES: recent improvements to a PDB sequence cullingserver. Nucleic acids research, 33(Web Server Issue):W94, 2005.

[140] Z. X Wang and Z. Yuan. How good is prediction of protein structural class by the component-coupled method? Proteins: Structure, Function, and Bioinformatics, 38(2):165�175, 2000.

54

Page 60: MÉTODO COMPUTACIONAL PARA LA IDENTIFICACIÓN DE … · 2.1.4 Máquinas de ectoresV de Soporte (SVM). . . . . . . . . . . . . . . . . . . . . 11 ... 3.1.3 Construcción de vectores

[141] K. Q Weinberger, F. Sha, and L. K Saul. Learning a kernel matrix for nonlinear dimensionalityreduction. In Proceedings of the twenty-�rst international conference on Machine learning, 2004.

[142] J. C. Wootton. Non-globular domains in protein sequences: automated segmentation usingcomplexity measures. Computers & chemistry, 18(3):269, 1994.

[143] D. Xie, A. Li, M. Wang, Z. Fan, and H. Feng. LOCSVMPSI: a web server for subcellularlocalization of eukaryotic proteins using SVM and pro�le of PSI-BLAST. Nucleic Acids Research,33(Web Server Issue):W105, 2005.

[144] C. T. Zhang and K. C. Chou. An optimization approach to predicting protein structural classfrom amino acid composition. Protein Science: A Publication of the Protein Society, 1(3):401,1992.

[145] C. T Zhang, K. C Chou, and G. M. Maggiora. Predicting protein structural classes from aminoacid composition: application of fuzzy clustering. Protein Engineering Design and Selection,8(5):425, 1995.

[146] S. W Zhang, Q. Pan, H. C Zhang, Y. L Zhang, and H. Y Wang. Classi�cation of proteinquaternary structure with support vector machine. Bioinformatics, 19(18):2390, 2003.

[147] M. Zhou, J. Boekhorst, C. Francke, and R. J Siezen. LocateP: genome-scale subcellular-locationpredictor for bacterial proteins. BMC bioinformatics, 9(1):173�185, 2008.

55