论文张平.docx
- 文档编号:2476800
- 上传时间:2022-10-30
- 格式:DOCX
- 页数:50
- 大小:282.06KB
论文张平.docx
《论文张平.docx》由会员分享,可在线阅读,更多相关《论文张平.docx(50页珍藏版)》请在冰豆网上搜索。
论文张平
分类号学号2004611700092
学校代码10487密级
硕士学位论文
一种基于生物数据的多层关联规则
挖掘算法
学位申请人:
张平
学科专业:
计算机软件与理论
指导教师:
卢炎生教授
答辩日期:
2007年6月2日
AThesisSubmittedinfulfillmentoftheRequirementsfortheDegreeofMasterofEngineering
AnAlgorithmforMiningBiologicalData
MultilevelAssociationRules
Candidate:
ZhangPing
Major:
ComputerSoftwareandTheory
Supervisor:
Prof.LuYansheng
HuazhongUniversityofScience&Technology
Whuhan430074,P.R.China
June,2007
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到,本声明的法律结果由本人承担。
学位论文作者签名:
日期:
年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:
学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□,在_____年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名:
指导教师签名:
日期:
年 月 日 日期:
年 月 日
摘要
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。
关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。
研究表明,关联规则挖掘技术是寻找基因间关系的有效手段;但现有算法未针对高通量生物数据的特点进行优化,而存在着效率低下、规则缺乏生物学意义等缺点。
与单层关联规则挖掘相比,多层关联规则能够提供更加丰富、更具普遍意义的知识;选用合理的概念层次结构与多层关联规则挖掘算法,能够更好的适应生物数据挖掘的需要。
已有的多层关联规则挖掘算法如Cumulate算法、ML_T2L1算法,都是通过对Apriori算法进行扩展得到的。
这些算法仍采用候选生成并验证的方式得到频繁模式,导致了巨大的计算和I/O开销,使得效率较低。
选用GeneOntology完善的概念层次结构,通过对FP_Growth算法进行扩展,获得了一种优化的生物数据多层关联规则挖掘算法MAGO-FP。
MAGO-FP算法采用的扩展措施如下:
(1)在扫描数据库的过程中通过把每个项的全部祖先加入到事务中对每条事务进行扩充,该措施能够确保得到多层关联规则;
(2)通过及时删除概念层次树中不是频繁项的祖先项来压缩搜索空间,提高挖掘效率;(3)避免产生冗余的频繁模式。
性能实验表明MAGO-FP算法是正确的,并继承了FP_Growth算法运行效率高的优点。
应用MAGO-FP算法分析了一组由S.cerevisiae酵母菌cDNA微阵列芯片产生的实验数据,发现了一些候选关联规则。
并针对其中一些重要的关联规则,通过相关文献证实了其真实性,表明该算法在基因表达分析、基因调控网络等研究中具有一定的应用价值。
关键词:
数据挖掘,多层关联规则,基因本体论,MAGO-FP算法
Abstract
Dataminingisaprocesstoreveallatentandinterestingknowledgefrommassivedata,andaneffectiveapproachtosolvetheproblemof"richdataandpoorknowledge".Associationrulesminingcanrevealinterestingcorrelationsamongitemsetsfrommassivedata.Itisanimportantsubjectofdataminingandiswidelyusedinreallife.
Recentstudieshaveprovedthatassociationrulescanrevealtheinteractionsbetweengenes,showingpatternsthatmaynothavebeenidentifiedusingtraditionalclusteringmethods;butexistingalgorithmsstillhavesomeshortcomings.Theproposedalgorithmsforminingmultilevelassociationrules,suchasCumulatealgorithmandML_T2L1algorithm,arebasedonApriorialgorithm.Thesealgorithmsstilladopt"candidategenerateandtest"methodtogetfrequentpatternswhichcauselargecostincomputingandI/O;sotheyareinefficient.
ImprovedfromFP_Growthalgorithm,MAGO-FP,anoptimizeddataminingtechniquetodiscoverthemultilevelassociationrulesfromgeneexpressiondataandtheconcepthierarchyofGeneOntology(GO)hasbeenproposed.ThefollowingmeasuresareappliedtoexpandFP-Growthalgorithm:
(1)Expandingeverytransactionbyaddingallancestorsofeachitemduringtheprocessofscanningthedatabase.Thismeasureensuresthatwecangetmultilevelassociationrules;
(2)Deletingtheancestorsthatarenotfrequentitemsintimetocompresssearchspaceandenhancetheefficiencyofmining;(3)Avoidinggeneratingredundantfrequentpatterns.ThemultilevelassociationrulesminingalgorithmcanfigureouttherelationsbetweenGOtermsbysummarizingthegeneswiththehierarchyofGO.AnexperimentshowedthatMAGO-FPalgorithmgotthesameresultasCumulatealgorithmdidandinheritedthestrongpointofhighefficiencyofFP_Growthalgorithm.
Adatasetof300expressionprofilesforyeasthasbeenanalyzed;usingthealgorithm,wefoundnumerousrulesinthedata.Acursoryanalysisofsomeoftheserulesrevealsnumerousassociationsbetweencertaingenes,manyofwhichmadesensebiologically,otherssuggestingnewhypothesesthatmayworthofbeingfurtherinvestigated.Thealgorithmcouldbeusedtoanalyzegeneexpressionprofilesanduncovergenenetworks.
Keywords:
DataMining,MultilevelAssociationRules,GeneOntology,MAGO-FPAlgorithm
目录
摘要I
AbstractII
1绪论
1.1研究背景与意义
(1)
1.2关联规则挖掘研究进展
(2)
1.3生物数据关联规则挖掘的基本步骤(11)
1.4论文组织结构(14)
2关联规则挖掘算法
2.1关联规则的定义和相关概念(15)
2.2两种经典的关联规则挖掘算法(17)
2.3多层关联规则的定义和相关概念(25)
2.4两种经典的多层关联规则挖掘算法(28)
2.5小结(31)
3GeneOntology结构下优化的多层关联规则挖掘算法
3.1基于Apriori算法的多层关联规则挖掘算法的局限性(32)
3.2基因本体论(GeneOntology)及其概念分层结构(32)
3.3MAGO-FP算法(39)
3.4小结(44)
4MAGO-FP算法的实验分析
4.1实验平台与过程(45)
4.2性能优势分析(45)
4.3实验结果与分析(46)
4.4小结(48)
5结论(50)
致谢(51)
参考文献(52)
附录1(攻读学位期间发表论文目录)(60)
1绪论
1.1研究背景与意义
生命科学近年来获得突破性进展[1],随着生物学和医学的迅速发展,生物数据呈指数级增长,无论是在数量上还是在质量上都极大的丰富了生命科学的数据资源,提供了揭开生命奥秘的数据基础。
然而生物数据种类丰富,高通量,维数高,本质上具有异质性与网络性,远远超出传统的分析方法的能力和速度,其处理、挖掘、分析和理解日益迫切。
如何分析这些具有丰富内涵的数据并从中获得关生物结构和功能的信息,从中得到对人类有益的信息,是生物研究的瓶颈,是当前研究所面临的一个严峻挑战。
生物信息学是在此背景下发展起来的综合运用生物学、数学、信息学以及计算机科学等诸多学科理论方法的崭新交叉学科,是在生命科学的研究中,以计算机科学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文 张平