数据挖掘在用户上网行为分析中的应用与实现资料下载.pdf
- 文档编号:16120204
- 上传时间:2022-11-20
- 格式:PDF
- 页数:74
- 大小:1.40MB
数据挖掘在用户上网行为分析中的应用与实现资料下载.pdf
《数据挖掘在用户上网行为分析中的应用与实现资料下载.pdf》由会员分享,可在线阅读,更多相关《数据挖掘在用户上网行为分析中的应用与实现资料下载.pdf(74页珍藏版)》请在冰豆网上搜索。
计算机应用技术研究方向:
信息检索与知识科学2013年5月分类号密级UDC编号万方数据南华大学学位论文原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南华大学或其他单位的学位或证书而使用过的材料。
与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。
本人完全意识到本声明的法律结果由本人承担。
作者签名:
年月日南华大学学位论文版权使用授权书本学位论文是本人在南华大学攻读(博/硕)士学位期间在导师指导下完成的学位论文。
本论文的研究成果归南华大学所有,本论文的研究内容不得以其它单位的名义发表。
本人同意南华大学有关保留、使用学位论文的规定,即:
学校有权保留学位论文,允许学位论文被查阅和借阅;
学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保留学位论文;
学校可根据国家或湖南省有关部门规定送交学位论文。
同意学校将论文加入中国优秀博硕士学位论文全文数据库,并按中国优秀博硕士学位论文全文数据库出版章程规定享受相关权益。
同意授权中国科学信息技术研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。
对于涉密的学位论文,解密后适用该授权。
导师签名:
年月日年月日万方数据目录摘要.IABSTRACT.II插图索引.IV附表索引.V第一章绪论.-1-1.1课题研究的项目背景及应用需求分析.-1-1.1.1课题研究的背景介绍.-1-1.1.2应用需求分析.-3-1.2用户上网行为分析的国内外研究现状.-4-1.3论文的研究内容、意义及其主要工作.-7-1.3.1论文的研究内容.-7-1.3.2课题研究的意义.-7-1.3.3论文的主要工作.-7-1.4论文的结构.-8-第二章用户上网行为及数据挖掘相关技术介绍.-10-2.1用户上网行为分析及技术.-10-2.1.1用户上网行为的概念、特点及其分类.-10-2.1.2用户上网行为分析的方法.-12-2.2数据立方体及OLAP技术.-14-2.2.1数据立方体.-14-2.2.2OLAP技术.-14-2.2.3多维数据集挖掘模型.-16-万方数据2.3时间序列挖掘及应用分析.-16-2.3.1时间序列挖掘的概念及其应用.-16-2.3.2ARMA(p,q)模型的时间序列挖掘.-17-2.4小结.-22-第三章上网行为日志记录的数据预处理及挖掘建模.-23-3.1实验数据来源.-23-3.2用户上网行为日志记录的格式说明.-24-3.3上网行为日志数据的预处理.-24-3.3.1数据转换.-25-3.3.2数据清理.-25-3.4数据存储与建模.-26-3.5小结.-31-第四章数据立方体和OLAP技术在用户上网行为分析中的应用与实现.-32-4.1应用需求分析及技术方案设计.-32-4.2实验设计.-33-4.2.1实验平台.-33-4.2.2实验设计.-33-4.3实验仿真及结果分析.-38-4.4小结.-42-第五章ARMA(p,q)时间序列预测算法在用户上网行为分析中的应用与实现.-43-5.1应用需求分析及技术方案设计.-43-5.2实验设计.-44-万方数据5.2.1实验平台.-44-5.2.2实验设计.-44-5.3实验仿真及结果分析.-48-5.4小结.-50-第六章总结和展望.-51-6.1工作总结.-51-6.2工作展望.-52-参考文献.-53-附录.-58-成果目录.-62-致谢.-63-万方数据I摘要随着信息技术的迅猛发展,网络在极大地丰富人们日常生活的同时,也产生了大量的用户上网行为记录数据。
因此,如何有效地从海量的用户上网行为记录数据当中,提取出潜在的、隐藏的、有价值的信息,是当前数据挖掘领域研究的一个热点,也是当今信息化时代亟待解决的一个问题。
由于网络数据的数据量非常大,且形式多样,结构复杂,若采用传统的关系型数据库如SQLServer、MySQL等,则很难进行准确地分析,而且效率很低。
作为关系型数据库的发展,数据仓库技术常用来组织和存储海量网络异构数据。
在对数据进行分析的时候,只需要从数据仓库中提取出相应字段的数据,通过构建相应的挖掘分析模型和多维数据立方体,可以很直观很方便地得到相应地统计数据以供进一步挖掘分析。
本文以实际开发项目为背景,以从数据堂上采集的Web日志数据集为实验数据,通过利用OLAP联机分析处理的技术构建数据立方体的方法,从不同的维度和粒度对数据集中的数据进行了挖掘分析,成功地挖掘出了网络内用户的上网时长和时段、用户访问的文件类型等上网行为特征。
同时,利用ARMA(p,q)时间序列预测算法,以网络内访问电影站点这一上网行为为例,对其建立了预测模型,并对未来半个月内访问电影站点的人数进行了预测。
实验结果表明,该模型在步长较小的情况下,对未来较短时期内访问电影站点的人数的预测效果很好,预测值与实际观测值之间的拟合度较高,是一个可靠的用户上网行为预测模型。
通过对用户上网行为的分析和预测,从而为网络的管理、维护和优化提供了决策支持和科学依据。
关键词:
用户上网行为分析;
数据挖掘;
时间序列预测万方数据IIABSTRACTWiththerapidpopularizationanddevelopmentofinformationtechnology,thenetworkhasbroughtgreatconveniencetopeople,butmeanwhile,itproduceslargeamountsofdataeveryday.However,inthesehugeamountsofdata,vastmajorityofwhichisjunkdata,onlyaverysmallpartofthedatahaspotentialvalueforus.Therefore,howtoeffectivelyextractthepotentiallyhiddenandvaluableinformationfromthemassiveuseronlinebehaviorrecordhasbecomeahottopicofdataminingresearchinthefield,butalsoaproblemhastobesolvedintodaysinformationage.Asthenetworkdataisusuallyinvariousformsanditsstructureiscomplex,aswellastheamountofdataisverylarge,theuseoftraditionalrelationaldatabasessuchasSQLServer、MySQL,etc.,isdifficulttobeaccuratelyanalyzed,meanwhile,theprocessofanalysisisinefficiency.Asthedevelopmentoftherelationaldatabase,datawarehousetechnologycommonlyusedtoorganizeandstorelargeamountsofheterogeneousnetworkdata.Itisveryintuitiveandveryeasytogetthecorrespondingstatisticsforfurtherexcavationandanalysisforthedatacubewhileanalyzingthenetworkdata.Whatweshoulddoisjusttoextractdataintheappropriatefields,buildthemininganalysismodelandmulti-dimensionaldatacubefromthedatawarehousefirstly.Thispaper,carriedoutunderthebackgroundoftheactualdevelopmentproject,withthelogofWebServercollectedfromtheWebnamed“TracesavailableintheInternetTrafficArchive-BU-WEB-Clientdataset”asexperimentaldatasets,throughtusingtheOLAPonlineanalyticalprocessingtechnologytomineandanalyzethedatasetstoredinthedatawarehousefromdifferentdimensionsandparticlesize.Andfinally,theuseronlinebehaviorcharacteristicsforthenetworkuserssuchastheusersonlineperiodandtimeaswellastheaccessfiletype,etc.,issucceedtodigout.Meanwhile,settingtheonlinebehaviorofaccessingtheInternetmoviesitesasanexample,usingthetimeseriespredictionalgorithmsofARMA(p,q)toestablishaforecastingmodel,andthenumberofpeopleaccessingmoviessiteswithinthenexttwoweekswerepredicted.Experimental万方数据IIIresultsshowthat,inthecaseofsmallstep,themodelhasagoodpredictiontothenumberofInternetusersinarelativelyshortperiodoffuture,withahighdegreeoffitbetweenthepredictedvalueandtheactualobservations,anditisareliablepredictionmodeltopredictthenumberofusersaccessingmoviessites,whichprovidethedecisionsupportandscientificbasisonthenetworkmanagement,maintenanceandoptimizationfort
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 用户 上网 行为 分析 中的 应用 实现