基于粗糙集和遗传神经网络的蛋白质二级结构预测方法研究

人气榜

基本信息

项目名称：: 基于粗糙集和遗传神经网络的蛋白质二级结构预测方法研究
来源：: 第十二届“挑战杯”省赛作品
小类：: 生命科学
大类：: 自然科学类学术论文
简介：: 本文研究了氨基酸残基的编码方法，探讨了神经网络在蛋白质二级结构预测中的应用，并对遗传神经网络的学习过程及结果进行了分析。
详细介绍：: 生物信息学作为一门新兴学科，已成为本世纪自然科学的前沿领域之一。在生物信息学的众多研究方向中，蛋白质结构预测占有及其重要的地位。它的研究对于正确理解蛋白质结构与功能的关系，以及分子设计、生物制药等领域都有着很重要的现实意义。本文研究了氨基酸残基的编码方法，探讨了神经网络在蛋白质二级结构预测中的应用，并对遗传神经网络的学习过程及结果进行了分析。主要研究内容及结论如下： 1.为了更好的对氨基酸残基进行编码，通过统计分析和粗糙分析，详细研究了氨基酸残基的众多理化因素对蛋白质二级结构的影响，并应用粗糙集知识对这些因素进行了属性约简。在保证分类不变的情况下,提取了影响蛋白质二级结构的主要理化因素，包括：氨基酸的疏水性环境、氨基酸能否形成氢键、α螺旋的倾向性、Coil无规则卷曲的倾向性、 Coil无规则卷曲的构象分类。 2.针对传统5位编码和正交编码所含信息不足的缺点，结合氨基酸残基在序列中的位置信息及影响蛋白质二级结构的主要理化因素，提出了一种新的编码方法。对比实验结果表明，提出的编码方法是有效的。在相同的实验条件下，Q3准确率较传统5位编码和正交编码均提高了8.99%-10.94%，同时， QH、QE和QC准确率较传统5位编码和正交编码提高了2.25%-20.43%。 3．针对BP网络在网络结构较大时计算时间长，且易陷入局部最优的不足，通过分析BP网络的基本原理，对标准BP算法进行了改进。根据权值调整后误差的变化方向不同，设置多个不同的学习率及动量因子。实验表明，提出的改进方法能够有效地提高网络的训练速度，并能改善预测结果，采用改进5位编码和改进正交编码，Q3准确度分别可达到59.79%和61.18%。 4. 针对单层神经网络预测精度偏低的问题，提出了级联神经网络模型。该模型充分利用了氨基酸残基之间的相关性，在自适应学习速率和附加动量的BP算法基础上，通过逐步增加子网络的窗口长度来降低特征输入与神经网络分类输出之间的不确定性。仿真实验表明，提出的网络模型是有效的，三态预测结果均优于单层BP网络，而且三级级联网络的预测能力最优，其预测准确度比单层BP网络提高了2.29%-2.70%。结合本文提出的改进5位编码和改进正交编码，三级级联网络模型的Q3准确度分别可达到62.08%和63.88%。 5．为了进一步提高蛋白质二级结构预测的精度，利用遗传算法全局寻优的特点，建立了级联遗传神经网络模型。该模型不但缩短了样本学习时间，而且有效避免了神经网络易陷入局部最优解的弊端。仿真实验结果表明，采用三级级联GA-BP模型，Q3准确度达到了66.04%，比三级级联网络模型提高了2.16%，其QH、QE和QC准确率也都有不同程度的提高。

作品专业信息

撰写目的和基本思路: 通过探讨氨基酸残基的编码方法和神经网络在蛋白质二级结构预测中的应用，以期提高预测精度。在分析氨基酸残基理化性质的基础上，利用粗糙集的方法提取出了影响二级结构的主要理化性质；综合氨基酸残基位置信息和理化性质对氨基酸进行了编码；在此编码的基础之上依次用改进BP网络，级联BP网络和遗传算法优化BP网络对蛋白质二级结构进行预测，最后通过比较分析，提出了3级级联GA-BP网络的预测模型。
科学性、先进性及独特之处: 全文研究方案正确可行、论点明确、论据充分、数据详实、科学可信。紧随蛋白质结构预测这个生物信息学前沿，利用多学科交叉综合研究的方法来探讨蛋白质二级结构预测这一热点和难点问题。作品独特之处在将粗糙集和神经网络弱耦合的方法应用于蛋白质二级结构预测，提出综合利用氨基酸残基位置信息和理化因素的新编码方式；通过逐步增加级联网络的窗口长度，降低特征输入与分类输出间的不确定性。
应用价值和现实意义: 虽然本模型只是基于单序列进行结构预测，没有引入可以将预测精度提高5%-10%的同源信息。但是本文提出了一种将粗糙集和神经网络弱耦合的全新预测方法，启发人们从另外一个角度来考虑蛋白质二级结构预测问题，从而对提高蛋白质二级结构预测的精度提供一定的借鉴和参考价值。
学术论文摘要: 本文研究了氨基酸残基的编码方法，探讨了神经网络在蛋白质二级结构预测中的应用，并对遗传神经网络的学习过程及结果进行了分析。主要研究内容及结论如下：在充分分析氨基酸残基理化因素的基础上，利用粗糙集的方法提取出了影响二级结构的主要理化因素，综合氨基酸残基位置信息和理化性质对氨基酸进行了编码，实验结果表明，提出的编码方法有效，在相同条件下，Q3准确率较传统编码方法提高了8.99%-10.94%，QH、QE和QC准确率较传统编码方法提高了2.25%-20.43%。针对单层神经网络预测精度偏低的问题，提出了级联神经网络模型。该模型通过逐步增加子网络的窗口长度来降低特征输入与分类输出之间的不确定性。仿真实验表明，其预测准确度比单层BP网络提高了2.29%-2.70%。两种改进编码的三级级联网络的Q3准确度分别可达到62.08%和63.88%。利用遗传算法全局寻优的特点，建立了级联遗传神经网络模型。仿真实验结果表明，采用三级级联GA-BP模型，Q3准确度最高达到了66.04%，比三级级联网络模型提高了2.16%，其QH、QE和QC准确率也都有不同程度的提高。
获奖情况: 无
鉴定结果: 本论文达到国内先进水平，针对蛋白质二级结构预测提出了新的编码方法，对以往的BP算法进行了改进，有效提高了网格训练速度，改善了预测结果，研究成果有重要参考价值。
参考文献: [1]梁刚峰.蛋白质二级结构的建模与预测[D].北京:国防科学技术大学研究生院,2005. [2]莱特(美)著.张维钦译.蛋白质的结构和功能[M].高等教育出版社,1982. [3]赵国屏等编著.生物信息学[M].北京:科学出版社,2002. [4]黄德双,张广政.基于氨基酸构象分类和神经网络技术的蛋白质二级结构预测研究[J].生物信息学若干前沿问题的探讨,2003,109-116. [5]陶慰孙,李惟,姜涌明.蛋白质分子基础(第二版)[M].北京:高等教育出版社,1995:4-5. [6]Duntsch I,Gediga G.Roughian:Rough information analysis.International Journal of Intelligent Systems,2001(1):121-147. [7]梁吉业，曲开社，徐宗本.信息系统的属性约简.系统工程理论与实践,2001，21(12):76-80. [8]Fan Z P,Ma J,Zhang Q.An approach to multiple attribute decision making based on fuzzy preference information on alternative.Fuzzy Sets and System,2002(131):101-106. [9]Feng S,Xu L.Decision support for fuzzy comprehensive evaluation of urban development.Fuzzy Sets and Systems,1999,105(1):1-12. [10]王国胤,Rough集理论与知识获取,西安:西安交通大学出版社,2001.
同类课题研究水平概述: 蛋白质二级结构预测的研究与进展：在过去的几十年中，科学家们己经提出了几十种理论预测蛋白质二级结构的方法。几乎所有这些方法都假定蛋白质的二级结构主要是由邻近残基间的短程相互作用所决定的，然后通过对一些已知空间结构的蛋白质分子进行分析、归纳，制定出一套预测规则，并根据这些规则对其它已知或未知结构的蛋白质分子的二级结构进行预测。机器学习方法在蛋白质二级结构预测方面非常成功，其中神经网络方法是目前公认的前景最为乐观的二级结构预测方法之一。最早使用神经网络在蛋白质二级结构预测中取得成功的是Qian和Sejnowski。他们采用的网络结构为一个单隐层全互连的网络，输入层使用一个长度为2m+1个氨基酸的局部输入窗口；输出层由3个单元组成，通过sigmoid型函数进行放大输出。其编码方式采用的是正交编码，预测的准确率为64.3%。此后，研究人员大都基于这样的基本模型结构，针对提高预测准确度、解决overfitting等问题，做出许多改进工作，如D.G.Kneller、P.Stlorz及Lapedes、S.K.Riis 等人在基于前馈神经网络的基础上进行了不同方式的改进，但是效果不是很明显。随后几年，通过在输入层添加同源序列比对信息，将基于神经网络的蛋白质二级结构预测精度提高到一个新的水平。在最近几年，许多人用神经网络的方法与其他算法相结合，推出新的算法以求达到更高的精度。目前，基于单条序列的神经网络方法能够得到65%～68%的二级结构预测准确率，利用多序列比对的信息能提高二级结构预测的准确率。基于单条序列和局部输入窗口的神经网络方法，经过多年的研究，其实际预测准确率提高并不是很明显，虽然在输入层利用多重序列比对信息可以比较好的提高预测率，但这样的预测方法是基于比对算法的，有一定的局限性。总之，神经网络技术在蛋白质二级结构预测研究中起着十分重要的作用，但预测精度至今还没达到十分理想的状态。其关键问题是如何选择一个合理的模型，以及如何很好地描述从氨基酸序列到蛋白质二级结构序列的映射过程，从而提高蛋白质二级结构的预测准确率。

人气榜

基本信息

作品专业信息

相关作品