主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
一种基于混合分形算法的预测耐热核酸序列新方法
小类:
生命科学
简介:
对功能未知的基因的预测具有很强的实际应用价值和现实意义。 在后基因组时代,许多生物的基因组被测序。然而从包含基因数众多的序列中找到某种特定的基因并不容易。对几万个基因序列进行实验测定耗财费力,并不现实。本作品所提出的方法可以找出具有耐热性状的部分基因。大大缩小实验的工作量和节省昂贵的实验资源。 本作品所提出的方法具有很强的推广能力,不局限于耐热性状。也可是抗虫、抗旱等基因。
详细介绍:
嗜热微生物的最适生长温度通常在50-80摄氏度。对于微生物耐热机制的全面理解是设计结构稳定的蛋白质、培育耐热菌种的重要前提。如何预测一个功能未知的DNA序列是否具有耐热性状是一个长久但是没有完全得到解决的重要问题。CGR可以分析隐藏在DNA序列图谱的信息,更重要的是可以可视化的表示出某些未知的序列结构,但是目前大部分研究对CGR混沌图只进行粗略的信息提取。分形维数是度量复杂、高度不规则几何体的有力工具。本文里,首先用CGR算法将每条DNA序列转化成高维向量,同时通过计算每幅混沌图的分形维数弥补只用CGR特征产生的信息损失。然后利用这些特征通过支持向量机进行DNA序列耐热性状的预测。本文一共做了3组实验:17维向量、65维向量、256维向量。每一组实验的预测都做了自检验及十折交叉验证。在十折交叉验证中,257维向量达到最优结果。平均预测准确率高达0.9456,其相应的MCC值为0.8878。本文通过将这些结果与没有加入分形维数所做实验的结果对比表明这种新提出的混合分形算法是一种十分有效地方法。

作品专业信息

撰写目的和基本思路

目的: 本文对两种已经相对成熟的算法和技术——CGR和SVM进行创造性的结合,并且在此基础上首次应用分形几何提取生物序列的特征。旨在提出一个更有效地对未知基因功能的预测算法。 基本思路: 1、猜想。2、验证。3、进一步改进。4、再次验证。首先通过编写程序计算分形维数。预测的准确率较(2)中有着明显的提升,预测准确率达到了0.9456,其相应的MCC值达到了0.8878。

科学性、先进性及独特之处

科学性:CGR算法和SVM算法都是理论体系成熟,经受住时间考验的算法,前人从中获益颇丰。 先进性:CGR算法的提出具有创造性,可有效的,更为重要的是可视的反映出生物序列信息,也是目前生物序列可视化的最主要方法。独特之处: 1、将这两种广泛应用的算法进行创造性的结合是本文的最大亮点和独特之处。 2、本文利用分形几何中的分形维数提取生物序列的CGR混沌图信息尚属首次,具有创新性。

应用价值和现实意义

对功能未知的基因的预测具有很强的实际应用价值和现实意义。 生物的基因组被测序。然而从包含基因数众多的序列中找到某种特定的基因并不容易。仍然以耐热为例,对几万个基因序列进行实验测定耗财费力,并不现实。本作品所提出的方法可以找出最有可能具有耐热性状的一部分基因。大大缩小实验的工作量和节省昂贵的实验资源。 本作品所提出的方法具有很强的推广能力,不局限于耐热性状。也可是抗虫、抗旱等基因。

学术论文摘要

摘要—嗜热微生物的最适生长温度通常在50-80摄氏度。对于微生物耐热机制的全面理解是设计结构稳定的蛋白质、培育耐热菌种的重要前提。如何预测一个功能未知的DNA序列是否具有耐热性状是一个长久但是没有完全得到解决的重要问题。CGR可以分析隐藏在DNA序列图谱的信息,更重要的是可以可视化的表示出某些未知的序列结构,但是目前大部分研究对CGR混沌图只进行粗略的信息提取。分形维数是度量复杂、高度不规则几何体的有力工具。本文里,首先用CGR算法将每条DNA序列转化成高维向量,同时通过计算每幅混沌图的分形维数弥补只用CGR特征产生的信息损失。然后利用这些特征通过支持向量机进行DNA序列耐热性状的预测。本文一共做了3组实验:17维向量、65维向量、256维向量。每一组实验的预测都做了自检验及十折交叉验证。在十折交叉验证中,257维向量达到最优结果。平均预测准确率高达0.9456,其相应的MCC值为0.8878。本文通过将这些结果与没有加入分形维数所做实验的结果对比表明这种新提出的混合分形算法是一种十分有效地方法。 关键词:嗜热、嗜温、CGR、DNA序列、支持向量机、分形维数

获奖情况

本作品是在前面的工作的基础上进行算法的改进,通过使用分形几何的知识提取分形维数特征来提高对未知基因的预测能力。文章已经投到Journal of theoretical biology(SCI,IF=2.54)。 本作品前期的工作: 1、结合CGR和SVM两种主流方法对未知功能的DNA序列的功能进行预测。论文已在2010年被ICBBE( International Conference on Bioinformatics and Biomedical Engineering, indexed by EI Compendex and ISTP)收录。 2、将同样的方法推广到蛋白质序列上。论文被Protein and Peptide Letters(SCI,IF=1.75)收录。

鉴定结果

该方法对预测未知基因的功能具有参考价值。富有创造性。

参考文献

本文主要涉及Chaos game representation (CGR)算法和support vector machine (SVM)算法的基本理论依据和实现流程,以及在世界范围内对生物耐热基因的识别研究水平现状,最后通过从权威数据库NCBI(National Center for Biotechnology Information)采集数据进行算法的检测。 主要参考文献及网页: [1] KC. Chou, “Pseudo amino acid composition and its application in Bioinformatics, Proteomics and system biology”, Curr.Prote. 6, 262-274, 2009. [2] V. Vapnik, Statistical Learning Theory, Wiley Interscience, New York, 1998. [3] P. Forterre, “A hot story from comparative genomics: reverse gyrase is the only hyperthermophile-specific protein”, Trends Genet. 18, 236-237, 2002. [4] L. Montanucci, PL.Martelli, P.Fariselli and R.Casadio, “Predicting protein thermostability changes from sequence upon multiple mutations”, Bioinformatics. 24, i190-i195, 2008. [5] HJ. Jeffrey, “ Chaos game representation of gene structure”, Nucleic Acids Res. 18, 2163-2170, 1990. [6]

同类课题研究水平概述

耐热微生物生长的最适温度(OGT)一般是在50-80摄氏度,有些微生物可在更高的温度(80-120摄氏度)生长。目前,人们对这种耐热生物机制并没有完全的研究清楚,但是有一点被广为接受的是,基因是决定这些性状的最初原因。在这个前提下,人们通过各种方法对生物的DNA序列、蛋白质序列进行研究,并且取得了丰富的成果。 前人的实验已经得出一些结论,如有大量实验结果表明在耐热微生物体内,其DNA序列中的C、G含量要高于一般水平。其中一个原因是C、G中间有三条氢键,使得DNA更加稳定,可以适应更高的温度。对于蛋白质的研究有许多不同的方法,对初级蛋白质结果的研究主要是通过挖掘氨基酸序列信息。对高级结构的蛋白质研究主要是通过理化性质,如发现盐桥对于生物的蛋白质结果有着重要的作用。 在最近几年,由于测序技术的成熟和生物信息学的蓬勃发展,人们进行了大量生物的DNA、蛋白质测序工作。因此,人们的视线逐渐转向这些隐藏着大量信息的序列并且取得了一定的成果。其中,美国科学家Montanucci.et al.仅仅用了生物序列信息,通过统计方法中的主成分分析发现了耐热生物的基因与不耐热生物的基因有着巨大的差别。另外,Zhang et al.通过支持向量机(SVM)和其他一些机器学习方法进行耐热蛋白质和不耐热蛋白质的分类,并且取得了较为不错的分类结果。 上述的结果大多基于统计学方法。虽然取得了一些成绩,但较为抽象,不具有直观的可视性。Jeffrey提出的chaos game representation (CGR)成功的解决了这个问题,他将每条DNA序列都转化成一幅混沌模式图。Jeffrey甚至声称人们可以直接通过肉眼就能发现耐热基因和不耐热基因相应混沌图的差别。这些都为今后使用CGR进行耐热性状的分类提供了一个全新的思路。 目前并没有人和关于结合CGR和SVM方法进行生物耐热性状的分类的文献。本文采用了全新的方法进行生物耐热性状的研究。作者创造性的将两种方法结合,取得了令人振奋的结果。 采用分形几何提取特征已经在很多领域有应用,如判断肿瘤细胞的生长规律,神经元的形态,水质预测等。但是目前并没有人将分形几何这个强大的工具应用于提取CGR混沌图的特性。本作品将这种方法应用到混沌图的信息提取上,实验的结果表明这样做可以显著提高对未知基因功能的预测能力。
建议反馈 返回顶部