硕士毕业论文-蛋白质生物功能的机器学习方法研究37075Word文件下载.docx
- 文档编号:13098777
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:73
- 大小:540.76KB
硕士毕业论文-蛋白质生物功能的机器学习方法研究37075Word文件下载.docx
《硕士毕业论文-蛋白质生物功能的机器学习方法研究37075Word文件下载.docx》由会员分享,可在线阅读,更多相关《硕士毕业论文-蛋白质生物功能的机器学习方法研究37075Word文件下载.docx(73页珍藏版)》请在冰豆网上搜索。
蛋白质生物功能的机器学习方法研究
目
摘要
近些年来,随着信息技术和生物检测手段的不断发展,生命科学的数据资源急剧膨胀。
实验工作者在产生大量数据的同时,也对理论研究者提出了更多的难题。
利用机器学习这一方法来分析这些数据,我们可以从中找出隐含的规律和模式,从而进一步加深对事物的认识。
本文就是采取这一研究方法,对蛋白质的生物功能进
行建模和预报。
在本文的工作中,我们使用了机器学习方法来对蛋白质和小分子的相互作用、蛋白质糖基化位点的识别进行建模和预报。
另外我们还探讨了一系蛋白质列生物功能在线预报系统的建设和优化。
本文的主体工作分为三个部分:
1. 用集成学习算法对蛋白质和小分子的相互作用进行研究。
我们针对代谢途径下的酶和底物之间的相关作用,建立了相互作用预报模型。
通过对数据集的变量筛选和降维的评价,我们保留了原有的变量集合。
在后续的建模过程中分别用AdaBoost,Bagging,SVM,KNN,决策树对酶和底物进行建模。
10组交叉验证和独力测试集的结构显示,集成学习方法AdaBoost,Bagging的分类能力最好,都达到了71%以上。
而我们接着又把不同的分类器组合集成后发现,前2个性能最好的集成学习算法和KNN组合后的体系具有最好的推广能力,其独立测试集中正样本的正确率又在原先最好的结果下提高了近4%,而其总体正确率也达到了84.6%。
结果证明,多重集成学习算法可以用来研究蛋白质和小分子相互作用,所得到的模型有很好的预测性能。
此外,我们根据所建立的酶和底物相互作用的预测模型,同时开发了相应的在线预报系统。
2. 用CFS-Wrapper筛选变量法结合AdaBoost集成方法对蛋白质O端糖基化位点进行研究。
在许多的生化过程中都需要有O-端糖链的参与。
然而糖基化是一个复杂的过程,迄今为止还未得出一个固定的模式。
我们对收集到的糖基化和非糖基化肽段,并用肽段中残基的物化参数,以AAIndex库中的数据进行表征。
分别尝试了CFS方法以及PCA主成分变换进行变量筛选。
在进行初步的变量筛选后,分别用SVM、KNN、C4.5、AdaBoost、Bagging对不同的变量筛选方法进行多组交叉验证和独立测试集的评价。
接着确定以AdaBoost建模和CFS变量筛选结果为基础,做进一步的Wrapper筛选。
最终筛选出23个变量的子集。
其十组交叉验证正确率在88.1%、独立测试集正确率在87.5%。
根据该模型,我们开发了蛋白质糖基化点位的在线预报系统。
3. 利用Java网页技术、weka软件、第三方开发包等工具开发出了一系列蛋白质生物功能在线预报系统。
我们分别从设计原理,实现方法以及优化手段等提出了自己的看法和见解。
这些在线预报系统涉及到亚细胞定位、翻译后修
饰、蛋白质相互作用、酶和底物作用等方面的内容。
其中采取MVC的设计模式简化了构建在线预报服务的实现工作,提高了工作效率。
并且在诸如
weka、httpclient、多线程等技术的使用下使我们的预报系统具有更好的用户体验。
关键词:
蛋白质生物功能、机器学习,集成学习,组合分类器,酶和底物,O端糖基化,AdaBoost,CFS,在线预报服务器
Abstract
Inrecentyears,dataresourcesofbiologyaregrowingrapidlyforthedevelopmentsinITanddetectiontechnology.Whentheexperimentalscientistsgettheirresearchdata,theyalsocreatemanyproblemstothetheoreticalscientists.Usingmachinelearningmethodstoexploreandprocessthedata,wecanrevealtherulesandpatternsbehindthedataandobtainfurtherunderstandingsoftheresearchobjects.So,weusedthemachinelearningmethodstomodelandpredictsomebiologicalfunctionsofproteins.
Inourthesis,severalmachinelearningalgorithmswereusedforthepredictionofinteractionbetweenproteins–smallmoleculesandtheO-glycosylationsitesofproteins.Alsowebuiltaseriesofonlinepredictionservicesofprotein’sbiologicalfunctionsanddiscussedthewayofconstructionandoptimizationoftheseservices.Themainworkofthisthesiscontainsthreeparts:
1. Ensemblelearningmethodswereusedtoinvestigatetheinteractionbetweenproteinsandsmallmolecules.Thepredictionmodelwasbuiltbytheinteractionsinmetabolicpathways. Bycomparingwiththeresultsoffeatureselection,wekeeptheoriginaldatasets.Inthefurtherprocess,AdaBoost,Bagging,SVM,KNN,Decisiontreewereusedtomodeltheinteractionsbetweenenzymesandcompounds.Accordingtotheevaluationresultof10crossvalidationandindependenttest,ensemblemethods,AdaBoostandBaggingoutperformotherclassifiers.Thenthecombinationsystemsofmultipleclassifiersweretakentomodelthedata.Theresultsof10-cvandindependenttestconcludethatthecombinationof2goodensembleclassifiersandKNNshowsthebestgeneralizationability.Thetruepredictionrateinindependenttestwas75.5%,almost4%betterthanprevious2ensembleclassifier.Whiletheoverallpredictionratestillashighas84.6%.Itcouldbeconcludedthemultipleensemblesystemisagoodmodelonpredictingtheinteractionbetweensmallmoleculesandenzymes.Anonlinepredictionserviceofourmodelbasedonthisresearchhasbeenbuiltandavailabletopublic.
2. Correlation-basedfeaturesubset(CfsSubset)selectionandwrappermethodswithAdaBoostwereappliedtostudythesiteofO-glycosylationinproteins.TheO-
glycosylationinvolveinmanybiologicalprocesses.However,themechanismofO-glycosylationissohardtorecognizethatthepatternsofO-glycosylationarestillunsure.HeresomepeptidescontainO-glycosylationsitesornon-O-glycosylationsiteswerecollectedandencodedwiththephyschemicalparametersinAAIndexdatabases.CFSandPCAwereusedinthefeatureselection.Afterthefirststepfeatureselection,SVM、KNN、C4.5、AdaBoost、Baggingwereusedtoevaluatethesubsetswith10-cvandindependenttestset.ThenthewrapperselectionwithAdaBoostwasconductedonthesubsetfromCFS.Asaresult,twenty-threebiochemistryfeatureswerefoundbasedonjackknifetest.Thepredictionmodelobtainsaccuracyrateof88.1%forjackknifetestand87.5%forindependentsettest.
3. ByusingJavawebtechnology、wekaandthirdpartydeveloppackage,aseriesofonlinepredictionservicewerebuilttopredictthebiologicalfunctionsofproteins.Designtheory,implementmethodsandoptimizationideasweredisscusedhere.Theseonlineservicesdealwithsubcelllocation,PTM,proteininteraction,interactionbetweenenzymeandsmallmolecule.TheMVCpatternisusedinbuildingtheonlineserverwhichmakesou
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士 毕业论文 蛋白质 生物 功能 机器 学习方法 研究 37075