数据挖掘和隐私保护的分析研究文档格式.docx
- 文档编号:13084981
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:64
- 大小:264.13KB
数据挖掘和隐私保护的分析研究文档格式.docx
《数据挖掘和隐私保护的分析研究文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘和隐私保护的分析研究文档格式.docx(64页珍藏版)》请在冰豆网上搜索。
计算机应用技术
指导教师:
王爱平
2010-04
Abstract
摘要
全球互联网技术、网络通信技术、计算机技术的高速发展,全球网络信息化系统已经成为现在各行各业持续发展的基础设施,网络信息系统对整个社会发展做出了巨大的贡献。
由于数据挖掘技术能够从海量数据中挖掘出对人们有用的信息,所以说数据挖掘是通向知识发现的重要一步。
单独使用数据挖掘技术可能导致发现无意义甚至令人误解的模式,必须在对应用范围有正确理解的情况下使用数据挖掘。
通过关联规则挖掘,可以得到隐含于海量数据中具有应用价值的有用信息。
伴随着网络通讯技术的发展,数据挖掘技术在给人们提供知识和信息的同时也暴露了隐私信息。
保护私有数据或者是敏感数据在数据挖掘过程中不被泄露,同时能挖掘出较为准确的结果已经成为数据挖掘技术中研究的重点和焦点。
本文的主要研究工作包括以下几个方面:
(1)系统的阐述数据挖掘技术的基本理论和应用前景。
(2)详细的阐述关联规则挖掘算法的工作原理和实现方法,并对典型的Apriori算法进行详细的分析。
Apriori算法产生的候选集过大,算法必须耗费大量的时间处理候选项集,根据分段可连接性,在算法设计上使用段标识来记录本段后续项集可匹配的个数使得连接得到优化。
根据先验知识k-项集如果是频繁项集,那么它的所有(k-1)-项子集均是频繁项目集来减少k-项集中非频繁项集。
再通过对项集出现频度的升序排列,减少3-项集的项数。
利用空间交换时间的方法,用布尔矩阵来记录数据库的各项交易记录,只需要一次扫描数据库,大大提高算法的执行效率。
(3)在序列分割挖掘时,所有的记录被多个参与方所拥有,多个参与方在不想泄露各自隐私信息的同时联合进行对各个参与方的时序序列进行分割。
本文将联合计算时序规则各频度问题转化成秘密比较大小的问题,并对现有的算法和协议利用秘密比较协议和同态加密协议进行改进,提出新协议。
关键词:
数据挖掘,关联规则,时序规则,安全多方计算,秘密比较
WiththerapiddevelopmentofglobalInternettechnology,networkcommunic-ationtechnologyandcomputertechnology,globalinformationnetworksystemhasbeenthecurrentsustainableinfrastructureinallwalksoflife,networkinformationsystemdevelopmenthavemadetremendouscontributionsinthecommunity.Sincedataminingtechnologyminefromamassofusefulinformationouttopeople,sothatdataminingisanimportantsteptowardsknowledgediscovery.Dataminingtechnologyalonecaneasilyleadtomeaninglessormisleadingdiscoverymode,itisimportanttohaveacorrectunderstandingoftheapplicationtousedatamining.Byassociationrulemining,wecangetthevaluableusefulinformationhiddeninhugeamountsofdata.Withthedevelopmentofnetworkcommunicationtechnology,dataminingtechnologycannotonlyprovidepeoplewithknowledgeandinformationbutalsoexposetheprivateinformation.Protectionofprivatedataorsensitivedatainthedataminingprocesscannotbecompromisedwhilediggingoutthemoreaccuratetheresultshasbecometheemphasisandfocusofthestudyofdataminingtechnology.
Themainresearchworkincludethefollowing:
(1)Acomprehensivedescriptionofthebasictheoryandapplicationofthedataminingtechnology.
(2)Detailtheworkofassociationruleminingalgorithmprincipleandmethod,andanalyzesthetypicalApriorialgorithm,BecausethecandidatesetwhichApriorialgorithmgenerateistoolarge,thealgorithmmustspendsomuchtimedealingwithcandidateitems,accordingtosegmentationconnectivity,thealgorithmuseslabelstorecordthenumberofmatchingitemsetsfollowedbythisparagraphandhasbeenoptimized.Accordingtothepriorknowledgeofk-itemsetisfrequentitemset,thenallits(k-l)-itemsareasubsetoffrequentitemsetssubtractthenon-frequentitemsetsinthek-items.reducingthenumberof3-itemsetsitems.Usingspaceexchangetimemethod,Booleanmatrixisusedtorecordthetransactionrecordsofdatabase,onlyonescanningthedatabase,soitgreatlyimprovestheexecutingefficiencyofalgorithm.
(3)Whileminingdivisioninthesequence,allrecordsareownedbyvariousparticipants,manyparticipantsdonotwanttodisclosetheirprivateinformationatthesametimeasjointparticipantsinthetimingofeachsplitsequences.Weconverthetimingruletocalculatethejointfrequencyofrelativelyproblemintothecomparisonofthesecretproblem,andimprovetheexistingalgorithmsandprotocolsbyusingthecomparisonofthesecretagreementandhomomorphicencryptionagreement,thenweputforwardthenewagreement.
Keywords:
Datamining,Associationrules,Timingrules,Securemultipartycomputation,Secretcomparison
in
独创性声明
本人声明所呈交凶学住论文是本人在旱梅指导下it行的研死工作及取缗的研究成果.据我所知.除了文中特异.加以标注和致谢的地力外,论文中不包含其但人已经发表成软写过的钥芜成果,危不包含为获得焰J收瘙或其化教育机枸的学位或证书疗便用过的W料.与我一同工作的同志对本研究所仗的任何贡就妁巳在论文中作了明确的说史井米示谢意.
学位论文作者签名:
£
和郊 签字E期:
>做 午夕月MH
(保密的学位论文在解碧后适用本授权书)
学位论文版权使用授权书
本学位论文作巾完全了您¥
喊大尊有关保割、使,里孕位论文蚀规定,
有权保留才向国家有关部门或机为送交论文的复沏件和磁级,允许论文核查用和信闽.本人授权%KM尊可以珞学位论文为全部或部分内容编入有关姣据库进行检食.可以采用彩勺,编市或有席等殳制手段保移、汇粮学位论文.
(保密的学位论文在解费后适用本授双书)
学位论文作.老签名:
2*的
导忏签名:
笠字B期:
3.0/0年3月G8B
签字日榜:
事年J-月日
电话:
1*8。
结12尚
邮埃:
63对°
学位论文作.老毕'
,夫向:
如t
工作单位:
索制普隆社染*通宛地址:
座财篥润市学物嫉
第•章绪论
第一章绪论
1.1课题背景及意义
数据挖掘概念出现于20世纪80年代后期,90年代成为研究的焦点,数据挖掘是数据库研究、开发及其应用中最活跃的分支之一。
数据挖掘是数据和信息系统及其应用的前沿学科。
数据挖掘也是多学科交叉的融合,从数据库技术、统计学、机器学习、神经网络、模式识别、知识库系统、信息检索、入侵检测系统中汲取相关理论基础,提供发现隐藏在集中的、大型的数据中提取有用的、感兴趣的模式技术。
这是项极具挑战性的技术研究。
面对全球信息系统的流行和数据库的爆炸性增长,激发了数据挖掘以智能的方式挖掘出海量数据中的微量信息并转化成人们所关心的、感兴趣的、有用的信息和知识。
市场需求与技术研究两者兼备的前提下,数据挖掘技术和数据库知识发现KDD的概念及技术就从应运而生到广泛发展不断走向成熟。
数据挖掘技术中关联规则挖掘是从海量数据中发现项与项之间有趣的关联和相关,研究背景开始源于对购物篮分析,扩展到网络入侵检测、关联规则分类、文本文档词频分析、股票事务分析、网页访问日志推断模式等方面,并得到广泛应用研究。
理论研究也从最初的频繁模式挖掘扩展到闭合模式挖掘、最大模式挖掘、扩展型关联规则、衍生型关联规则、隐私保护、增量挖掘、挖掘后处理、主观兴趣度度量、相关模式、数据流等多种数据类型的关联规则挖掘。
本文中还研究了数据挖掘中安全多方计算的应用,又称该领域为保护私有信息的数据挖掘((Private-preservingDataMining,PPDM),隐私保护在数据挖掘领域的研究是近几年一个新型热点。
通常情况下,数据挖掘领域中的所涉及的私有信息被划分为两大类:
一类是原始数据本身具有的隐私(用户的个人基本信息,例如:
姓名、省份证、户籍、工作单位、手机号码等);
另
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 隐私 保护 分析研究