书签分享收藏举报版权申诉 / 50

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 职业规划 > 论文张平.docx

论文张平.docx

文档编号：2476800
上传时间：2022-10-30
格式：DOCX
页数：50
大小：282.06KB

论文张平.docx

《论文张平.docx》由会员分享，可在线阅读，更多相关《论文张平.docx（50页珍藏版）》请在冰豆网上搜索。

论文张平.docx

论文张平

分类号学号2004611700092

学校代码10487密级

硕士学位论文

一种基于生物数据的多层关联规则

挖掘算法

学位申请人：

张平

学科专业：

计算机软件与理论

指导教师：

卢炎生教授

答辩日期：

2007年6月2日

AThesisSubmittedinfulfillmentoftheRequirementsfortheDegreeofMasterofEngineering

AnAlgorithmforMiningBiologicalData

MultilevelAssociationRules

Candidate:

ZhangPing

Major:

ComputerSoftwareandTheory

Supervisor:

Prof.LuYansheng

HuazhongUniversityofScience&Technology

Whuhan430074,P.R.China

June,2007

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到，本声明的法律结果由本人承担。

学位论文作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

本论文属于

保密□，在_____年解密后适用本授权书。

不保密□。

（请在以上方框内打“√”）

学位论文作者签名：

指导教师签名：

日期：

年月日日期：

年月日

摘要

数据挖掘是从大量数据中发现潜在的、有趣的知识的过程，是解决“数据丰富，知识贫乏”状况的有效方法。

关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系，是数据挖掘的一项重要研究内容，在现实生活中有着广泛的应用。

研究表明，关联规则挖掘技术是寻找基因间关系的有效手段；但现有算法未针对高通量生物数据的特点进行优化，而存在着效率低下、规则缺乏生物学意义等缺点。

与单层关联规则挖掘相比，多层关联规则能够提供更加丰富、更具普遍意义的知识；选用合理的概念层次结构与多层关联规则挖掘算法，能够更好的适应生物数据挖掘的需要。

已有的多层关联规则挖掘算法如Cumulate算法、ML_T2L1算法，都是通过对Apriori算法进行扩展得到的。

这些算法仍采用候选生成并验证的方式得到频繁模式，导致了巨大的计算和I/O开销，使得效率较低。

选用GeneOntology完善的概念层次结构，通过对FP_Growth算法进行扩展，获得了一种优化的生物数据多层关联规则挖掘算法MAGO-FP。

MAGO-FP算法采用的扩展措施如下：

（1）在扫描数据库的过程中通过把每个项的全部祖先加入到事务中对每条事务进行扩充，该措施能够确保得到多层关联规则；

（2）通过及时删除概念层次树中不是频繁项的祖先项来压缩搜索空间，提高挖掘效率；（3）避免产生冗余的频繁模式。

性能实验表明MAGO-FP算法是正确的，并继承了FP_Growth算法运行效率高的优点。

应用MAGO-FP算法分析了一组由S.cerevisiae酵母菌cDNA微阵列芯片产生的实验数据，发现了一些候选关联规则。

并针对其中一些重要的关联规则，通过相关文献证实了其真实性，表明该算法在基因表达分析、基因调控网络等研究中具有一定的应用价值。

关键词：

数据挖掘，多层关联规则，基因本体论，MAGO-FP算法

Abstract

Dataminingisaprocesstoreveallatentandinterestingknowledgefrommassivedata,andaneffectiveapproachtosolvetheproblemof"richdataandpoorknowledge".Associationrulesminingcanrevealinterestingcorrelationsamongitemsetsfrommassivedata.Itisanimportantsubjectofdataminingandiswidelyusedinreallife.

Recentstudieshaveprovedthatassociationrulescanrevealtheinteractionsbetweengenes,showingpatternsthatmaynothavebeenidentifiedusingtraditionalclusteringmethods;butexistingalgorithmsstillhavesomeshortcomings.Theproposedalgorithmsforminingmultilevelassociationrules,suchasCumulatealgorithmandML_T2L1algorithm,arebasedonApriorialgorithm.Thesealgorithmsstilladopt"candidategenerateandtest"methodtogetfrequentpatternswhichcauselargecostincomputingandI/O;sotheyareinefficient.

ImprovedfromFP_Growthalgorithm,MAGO-FP,anoptimizeddataminingtechniquetodiscoverthemultilevelassociationrulesfromgeneexpressiondataandtheconcepthierarchyofGeneOntology（GO）hasbeenproposed.ThefollowingmeasuresareappliedtoexpandFP-Growthalgorithm:

（1）Expandingeverytransactionbyaddingallancestorsofeachitemduringtheprocessofscanningthedatabase.Thismeasureensuresthatwecangetmultilevelassociationrules;

（2）Deletingtheancestorsthatarenotfrequentitemsintimetocompresssearchspaceandenhancetheefficiencyofmining;（3）Avoidinggeneratingredundantfrequentpatterns.ThemultilevelassociationrulesminingalgorithmcanfigureouttherelationsbetweenGOtermsbysummarizingthegeneswiththehierarchyofGO.AnexperimentshowedthatMAGO-FPalgorithmgotthesameresultasCumulatealgorithmdidandinheritedthestrongpointofhighefficiencyofFP_Growthalgorithm.

Adatasetof300expressionprofilesforyeasthasbeenanalyzed;usingthealgorithm,wefoundnumerousrulesinthedata.Acursoryanalysisofsomeoftheserulesrevealsnumerousassociationsbetweencertaingenes,manyofwhichmadesensebiologically,otherssuggestingnewhypothesesthatmayworthofbeingfurtherinvestigated.Thealgorithmcouldbeusedtoanalyzegeneexpressionprofilesanduncovergenenetworks.

Keywords:

DataMining,MultilevelAssociationRules,GeneOntology,MAGO-FPAlgorithm

摘要I

AbstractII

1绪论

1.1研究背景与意义

（1）

1.2关联规则挖掘研究进展

（2）

1.3生物数据关联规则挖掘的基本步骤（11）

1.4论文组织结构（14）

2关联规则挖掘算法

2.1关联规则的定义和相关概念（15）

2.2两种经典的关联规则挖掘算法（17）

2.3多层关联规则的定义和相关概念（25）

2.4两种经典的多层关联规则挖掘算法（28）

2.5小结（31）

3GeneOntology结构下优化的多层关联规则挖掘算法

3.1基于Apriori算法的多层关联规则挖掘算法的局限性（32）

3.2基因本体论（GeneOntology）及其概念分层结构（32）

3.3MAGO-FP算法（39）

3.4小结（44）

4MAGO-FP算法的实验分析

4.1实验平台与过程（45）

4.2性能优势分析（45）

4.3实验结果与分析（46）

4.4小结（48）

5结论（50）

致谢（51）

参考文献（52）

附录1（攻读学位期间发表论文目录）（60）

1绪论

1.1研究背景与意义

生命科学近年来获得突破性进展[1]，随着生物学和医学的迅速发展，生物数据呈指数级增长，无论是在数量上还是在质量上都极大的丰富了生命科学的数据资源，提供了揭开生命奥秘的数据基础。

然而生物数据种类丰富，高通量，维数高，本质上具有异质性与网络性，远远超出传统的分析方法的能力和速度，其处理、挖掘、分析和理解日益迫切。

如何分析这些具有丰富内涵的数据并从中获得关生物结构和功能的信息，从中得到对人类有益的信息，是生物研究的瓶颈，是当前研究所面临的一个严峻挑战。

生物信息学是在此背景下发展起来的综合运用生物学、数学、信息学以及计算机科学等诸多学科理论方法的崭新交叉学科，是在生命科学的研究中,以计算机科学

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 论文张平

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：论文张平.docx
链接地址：https://www.bdocx.com/doc/2476800.html

论文张平.docx

热门标签