Obtención de un Clasificador Optimo para la Evaluación de la Calidad de Modelos Tridimensionales de Proteínas

Vergara Correa, Ismael Alfonso
Navarro Badino, Gonzalo
Melo Ledermann, Francisco
Hurtado Larraín, Carlos
Caballero Ruíz, Julio

2008

Datos de edición Programa Cybertesis
Tipo de Documento Libro
Materia Bioinformática
Predicción de proteínas
Aprendizaje de máquinas
Inteligencia artificial
Modelado comparativo
Modelado por homología
Descripción
Uno de los problemas esenciales en la predicción computacional de la estructura tridimensional de proteínas corresponde a la evaluación de la calidad de un modelo proteico generado computacionalmente, esto es, clasificar cada modelo proteico en correcto o incorrecto. Este problema toma especial importancia cuando los modelos son generados por software automatizados a gran escala. La mayoría de los métodos existentes para la evaluación d ...

Uno de los problemas esenciales en la predicción computacional de la estructura tridimensional de proteínas corresponde a la evaluación de la calidad de un modelo proteico generado computacionalmente, esto es, clasificar cada modelo proteico en correcto o incorrecto. Este problema toma especial importancia cuando los modelos son generados por software automatizados a gran escala. La mayoría de los métodos existentes para la evaluación de los modelos proteicos están basados en variables únicas que actúan como los clasificadores. La variable consistente en la energía libre total del sistema es aquella de mejor rendimiento cuando se le compara a otras variables o atributos del modelo proteico. Sin embargo, clasificadores multivariables basados en una serie de propiedades físicas, geométricas y estadísticas pueden mostrar un rendimiento significativamente mayor con respecto a los clasificadores de una variable, sobre todo para los casos más difíciles que corresponden a proteínas pequeñas y cuyo modelo obtenido computacionalmente es incompleto. En el presente trabajo de tesis, se calcularon un total de 31 variables sobre un conjunto de modelos proteicos correctos e incorrectos generados con la técnica de modelado comparativo. Estas variables corresponden a propiedades del alineamiento secuencia - estructura entre la secuencia a modelar y la estructura molde, propiedades del modelo proteico generado, propiedades de la región del molde efectivamente utilizada para generar el modelo, y propiedades del molde completo utilizado para generar el modelo proteico. El conjunto de datos se dividió en conjuntos de entrenamiento, validación y de prueba. Se aplicaron distintos métodos de ranking, selección y extracción de variables para filtrar redundancia y maximizar la relevancia de las variables con respecto a la clase respuesta. Luego, se aplicaron diferentes algoritmos de aprendizaje tales como redes bayesianas, máquinas de vectores de soporte, perceptrón multicapa y algoritmos genéticos con el fin de obtener clasificadores multivariables para el problema de la clasificación de un modelo en correcto e incorrecto. El rendimiento de cada clasificador multivariable, así como el rendimiento de cada variable única utilizada como clasificador, fue comparado con el rendimiento de los otros clasificadores con el fin de declarar a uno de ellos como aquél óptimo para el problema de la evaluación de la calidad de modelos proteicos generados computacionalmente. El clasificador óptimo obtenido en este trabajo, generado con el algoritmo de aprendizaje de máquinas de vectores de soporte, presenta un aumento en el rendimiento de un 13% con respecto a los mejores clasificadores univariables.

Ver más
Identificador 12638

1 |

Biblioteca Digital del

Patrimonio Iberoamericano

Acceso libre y gratuito al patrimonio cultural digital iberoamericano

Resultados: visualización detallada

Obtención de un Clasificador Optimo para la Evaluación de la Calidad de Modelos Tridimensionales de Proteínas