基于多种分类器的垃圾邮件分类.docx
- 文档编号:28015912
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:24
- 大小:107.23KB
基于多种分类器的垃圾邮件分类.docx
《基于多种分类器的垃圾邮件分类.docx》由会员分享,可在线阅读,更多相关《基于多种分类器的垃圾邮件分类.docx(24页珍藏版)》请在冰豆网上搜索。
基于多种分类器的垃圾邮件分类
2.2.1垃圾邮件泛滥的原因6
2.2.2垃圾邮件泛滥的危害6
基于多种分类器的垃圾邮件分类
摘要:
在当今时代,电子邮件的出现和发展与大家的日常生活息息相关,也许大家在很多时候不能第一时间想到其重要性,但是当大家失去它时,便会感到手足无措。
它让咱们的生活变得更加便利和舒适。
在大家享受电子邮件给大家带来的便利之时,垃圾邮件的出现打破了大家的美好幻想,它给了大家当头一棒,无论在生活还是工作方面都让人很劳神费心。
它的出现不但影响大家的工作进程和工作效率,降低了我们的生活质量,在一定程度上给大家造成了经济损失。
因此,有必要实行一定的措施来避免或者减少垃圾邮件给大家造成的困扰。
只有实行了这样的措施才能够让互联网经济往良性发展,并且促进互联网经济稳步前行。
这对于改善互联网环境而言有重要的意义。
本文通过广东培正学院学生为调查对象,对国内外研究现状进行阐述,基于多种分类器的相关知识的掌握及了解,在此基础上提出对策建议。
关键词:
垃圾邮件;互联网;多种分类器;电子邮件
MultifariousSorterbasedonspamClassification
Abstract:
Inthisdayandage,Theemergenceanddevelopmentofemailiscloselyrelatedtoourdailylife,Perhapswedonotthinkofitsimportanceinthefirstplaceinmanycases, Butwhenweloseit,Youdon'tknowwhattodo.Itmakesourlifemoreconvenientandcomfortable. WhileweenjoytheconvenienceofE-mail, Theadventofspamhasshatteredourillusions, Ithitusinthehead,It'sexhausting,bothatworkandinlife. Itsappearancenotonlyaffectsourworkprocessandworkefficiency,Itreducesourqualityoflife,Tosomeextent,ithascausedUSeconomiclosses.
However,theemergenceofspamtousalotofunnecessarytrouble.Itwillnotonlyreduceourworkefficiency,affectourqualityoflife,andevencauseUSeconomiclosses.Therefore,Ithinkitisnecessarytoimplementcertainmeasurestoavoidorreducethenuisancecausedbyspamtous.OnlywithsuchmeasurescantheInterneteconomygrowinahealthyway,AndhelptheInterneteconomymovesteadilyforward,andisofgreatsignificanceforimprovingtheInternetenvironment.Inthispaper, ThesurveywasconductedamongGuangdongPeizhengCollegestudents,theresearchstatusquoathomeandabroad,basedonavarietyofclassifierstomastertherelevantknowledgeandunderstanding,basedonwhichcountermeasuresandsuggestions.
Keywords:
sorter;spam;Inter;electronicmail
1引言
1.1研究的背景和意义
1.1.1研究背景
随着互联网的兴起与发展,人和人的沟通交流方式越来越多样化,只需要一台电脑,一部手机即可联系自己的亲朋好友甚至与他人进行跨国交流。
电子邮件也随着时代的发展逐渐的在互联网中占据了一席之地,人们通过电子邮件传递信息,无论是生活还是工作都离不开电子邮件。
但是与此同时,垃圾邮件也随之出现了,并且增长的速度越来越迅速,这对人们的生活、工作、以及学习方面造成了很大的影响。
从中国互联网协会反垃圾邮件中心发布的《2014年第三季度反垃圾邮件状况调查报告》可以知道,截至2014年10月,保守估计这些垃圾邮件会给中国的经济带来不低于187.2亿元人民币的损失,且根据报告中的数据可以得出使用电子邮件的人们平均每周接收到的垃圾邮件数量为12.8封,垃圾邮件在所有邮件占的比例为33.1%。
其中,使用电子邮箱的用户最常收到的垃圾邮件内容的两大类别分别是商业广告以及涉嫌违法的内容,而商业广告和违法内容又有细分,接下来分别说出其中各个类别的比例情况。
关于商业广告垃圾邮件内容比重在前五的分别有:
网站推广类占57.7%,培训教育类占38.5%,保险金融类占28.9%,交通游玩类占28.6%,IT产品销售类占22.5%。
关于违法的垃圾邮件内容比重在前五的是:
诈骗信息类占48.5%,不正规出售票以及证件类占34.2%,不合法的金融投资等相关活动占24.4%,淫秽色情类占24.2%,赌博类占20.3%。
并且在这些调查者中他们认为电子邮箱最大的危害就是浪费他们的时间,除此以外,还会造成或大或小的经济损失以及电脑中毒的问题,影响他们的工作和生活的秩序。
1.1.2研究意义
为了互联网的环境越来越好,让人们能够全心全意的投身于自己的生活以及工作当中,减少甚至避免出现因为垃圾邮件而带来的浪费时间甚至造成经济损失的情况。
研究和了解垃圾邮件分类器的作用,并提出自己的意见和想法,促进垃圾邮件分类器的进步。
1.2国内外研究现状
1.2.1国内研究状况
徐彬[1]针对中国现状以及国内的实际情况提出了基于传统OCR技术进行改进的伪OCR过滤技术,进过他的深入研究,最后得出的实验结果表明,同基于传统OCR过滤技术相比,伪OCR在过滤中文垃圾邮件图像时有更好的效果,尤其在要求误识别率比较低的情况下,而且通过调节具体的参数还可以在一定程度上控制伪OCR技术的系统性能以满足不同的应用需求。
胡锡衡[2]认为反垃圾邮件过滤系统中的内容过滤技术不够成熟,因为其主要是利用了垃圾邮件本身规律的规则过滤技术。
也正是因为这个原因所以中文垃圾邮件的过滤效果还不够理想。
为了更好的解决这个问题,说出了自己的想法,这个想法是在中文邮件的内容过滤中引入k-最近邻方法和RBF神经网络算法。
詹川[3]对反垃圾邮件技术有很深的见解和看法,他能准确的说出其存在的优缺点,是因为他能全面的分析总结当前的反垃圾邮件技术。
他通过了解MNNB算法以及神经网络LVQ的相关知识,利用MNNB算法以及LVQ两者结合得出的模型的垃圾过滤能力得到提升。
而提出基于特征的ASD算法进行过滤是因为更好的解决面对许多内容大致相同的垃圾邮件时的情况。
陈爽[4]认为当今对垃圾邮件的过滤技术虽然的确是很高,但是不能做到在垃圾邮件传输途中就直接进行过滤,而是在垃圾邮件完成发送后才进行工作,且垃圾邮件很容易躲开黑名单和域名反向查询的技术。
而且,因为有伪造邮件头的情况出现,导致某些信息会被忽略。
看到这些情况的出现,为了避免下次再次出现这类现象,他提出了自己的想法并且为之付出实践,通过运用MD5加密算法和二叉树结构,创造了基于邮件头的指纹分析技术。
最后,为了有效从根源解决此问题,创造了三种发送行为控制机制,只有这样才能达到从源头制止垃圾邮件的产生。
1.2.2国外研究状况
国外研究学者早在19世纪末就已经将机器学习算法应用到垃圾邮件分类的研究中来。
Drucker等人[5]把Ripper(重复增量修枝)算法和SVM(支持向量机)用于垃圾邮件分类中,他很好的利用了身边的资源,将某个单位员工的真实邮件作为资源进行测试,因为种种原因的综合,最后他制造出来的垃圾邮件分类系统可以在识别垃圾邮件方面有相对较高的准确率;Androutsopoulos等人[6]利用K组最近的距离而不是K个最近的样本来计算,这个计算方法是KNN算法,他们利用此算法对垃圾邮件进行过滤分类;Ion等人[7]将朴素贝叶斯分类器使用于过滤那些未经请求的批量电子邮件,研究了属性集大小,训练语料库大小,形态恢复和停止列表对过滤器性能的影响;Tiago等人[8]则进行了研究和比较,对互信息、文档频率、卡方统计、信息增益四个不同的特征选择方法下的朴素贝叶斯垃圾邮件分类器的性能进行研究和比较,发现把卡方统计和信息增益作为特征选择的方法可以有效提高垃圾邮件分类系统的分类精度;Almeida等人[9]将传统朴素贝叶斯、布尔NB、多项布尔NB、多元高斯NB、多项式TF-NB、多变量伯努NB、FlexibleBayes七种不同版本NaiveBayes分类器应用到垃圾邮件分类中,并将它们与支持向量机算法在六个不同的非编码数据集上进行比较;Jyh等人[10]提出了一种基于决策树数据挖掘技术的高效垃圾邮件分类方法,分析了垃圾邮件的规则,并应用这些规则开发了一种系统化的垃圾邮件分类技术。
1.2.3研究发展趋势
根据国内外的研究现状可以得出,在宏观的角度去看,国内外的垃圾邮件过滤技术并没有本质的区别,甚至可以说其中的差异是非常小的,时代在进步,人们的需求在逐渐的增加,技术一直在革新,国内外的学者都在原有的基础上提出了新的想法并努力为之付出行动进行实践。
我根据目前所了解和掌握的知识,根据实际情况,以广东培正学院作为调查对象,基于多种分类器对垃圾邮件分类的技术提出我的看法并努力寻求技术上的突破。
1.3研究思路及方法
1.3.1研究思路
第一部分为引言。
根据题目基于多种分类器的垃圾邮件分类讲述研究此课题的研究背景、研究意义;还有国内外学者对基于多种分类器的垃圾邮件分类的研究现状。
第二部分为概念界定和理论基础。
包括垃圾邮件的概念、分类器的概念和垃圾邮件分类的意义、广东培正学院学生受到垃圾邮件的影响以及对中国互联网行业经济发展的影响.
第三部分为现状。
目前广东培正学院学生受到垃圾邮件的影响情况以及垃圾邮件分类器的发展状况和发展趋势。
第四部分为问题。
根据所得数据以及调查的资料,全面分析总结,发现垃圾邮件分类器目前存在的问题并找出其出现的原因,并且对于多种分类器进行比较。
第五部分为对策建议。
发现问题以后根据实际情况提出合理适当的解决方法。
第六部分为总结。
1.3.2研究方法
Ripper、Boosting、决策树方法和粗糙集方法
设置关键词等一些其他的信息源,通过设置一系列规则对垃圾邮件进行分类,只要邮件与设定的特征相吻合,此邮件就会被归入垃圾邮件当中。
文献研究法
从现有的书籍、报刊、各种信息、权威论文网站、历史资料中获取与调查内容相关资料。
通过查找大量文献对各个内容进行对比和总结,了解了垃圾邮件分类器发展趋势等相关研究,深度分析其研究现状为本课题的研究方向奠定基础。
朴素贝叶斯、SVM方法
通过大量样本训练进行对邮件的分类,基于统计学的基础上,将大量的正常邮件以及垃圾邮件混合,通过一系列的训练从而做到对邮件进行分类。
问卷调查法
根据问卷调查提供的有效数据能够直接的反映出来问题的存在。
本文主要是为了探讨基于多种分类器的垃圾邮件分类,需要调查目前垃圾邮件对于我们的影响程度有多大以及我们在日常生活中对于电子邮件的依赖程度有多大,只有在有需求的情况下,这个课题的研究才是有意义的。
而大学生群体是我身边的人,因而能够更方便的获得相关数据而且大学生群体对于电子邮件的需求正在上升,无论是学习还是生活都离不开电子邮件,所以调查大学生群体得到的数据也具有一定的代表性。
2基于多种分类器的相关概述
2.1相关概念界定
2.1.1垃圾邮件的概念
垃圾邮件:
垃圾邮件在普通意义上的定义是未经主动请求的大量的电子邮件;
1、未经收件人同意向其发送广告、以及其他带有宣传自己产品的性质的电子邮件;
2、收件人没有办法拒绝接收这份电子邮件;
3、不直接表明邮件的发送人,邮件的出处,以及邮件标题的电子邮件;
4、在电子邮件的内容里面有不真实的信息源、发件人信息、路由等情况时被认为是垃圾邮件;
5、带有病毒的电子邮件,恶意代码,并且其内容含有淫秽色情等不利于社会发展的信息时被认为是垃圾邮件;
6、利用价值较低并且发送频繁,给使用者带来不好的感受的邮件被定义是垃圾邮件。
2.1.2垃圾邮件分类器
首先要介绍的是朴素贝叶斯法,朴素贝叶斯模型(NaiveBayesianModel,NBM)是最为广泛的两种分类模型中的其中一个,另一个是决策树模型(DecisionTreeModel);它是一种根据贝叶斯定理与特征条件独立假设的分类方法。
这两种分类模型各有千秋,在这里我们重点评价朴素贝叶斯分类器(NaiveBayesClassifier,或NBC)的特点。
先说朴素贝叶斯分类器的优点,由于它历史悠久,有坚固的数学基础,所以分类效率相对稳定。
并且计算的方式特别简单。
缺点就是其对数据的灵敏度较低,并且在实际应用当中,朴素贝叶斯模型分类的准确率往往不高。
第二个要介绍的是SVM(SupportVectorMachine),是一种常见的判别方法,它指的是支持向量机。
除此以外,它还是能够回归分析、分类、模式识别的一种带有监督功能的学习模型。
最后一个是Ripper、Boosting、决策树方法和粗糙集方法,这是一种很简单粗糙的分类方法,通过设置关键词、信息源等,根据所设置的内容进行垃圾邮件的区分,这类型的方法虽然成本不高且简单容易操作,可是准确率不高,无法根据实际情况做出适当的调整。
2.2垃圾邮件泛滥的原因及危害
2.2.1垃圾邮件泛滥的原因
一是为了个人利益,利用垃圾邮件散播广告,使自己正在推广的产品能够被更多人知晓,除此以外,这也是一种能够为自己找到广告商的一种方法,利用这一点,让其他想要宣传自己产品的店家愿意为其投资,从而达到他们双方“互赢”的局面。
当然了,这种“推广”方式是极其不推荐的,这是一种自私自利的,不顾及他人感受的一种宣传方式。
二是缺少职业道德素养,有的黑客利用自己擅长对电脑进行操作的特点,运用自己掌握的技术对个人,企业甚至是国家的邮箱里发送垃圾邮件,当他们达成目的,给社会带来了巨大的困扰,影响社会生活的正常发展秩序时,他们常常感到骄傲和自豪。
他们没有利用自己擅长的,去帮助国家社会发展,这是一种严重不尊重自己职业的体现。
三是企业与企业之间的恶性竞争,有的企业为了能够战胜比自己优秀的企业,利用垃圾邮件带来的困扰,使自己的对手陷入垃圾邮件的烦恼之中,从而扰乱竞争对手的公司秩序,降低其战斗力。
当然,这种恶性竞争在早年间出现的可能会比较多,但是在当今社会出现的情况大大降低甚至已经没有此现象出现了。
四是无视法律,道德感低下。
利用垃圾邮件传播淫秽色情信息,毒害青少年的身心健康,并且阻碍了人们工作生活的步伐。
甚至还不惜侵犯他人隐私权,给多方造成不必要的困扰。
2.2.2垃圾邮件泛滥的危害
一是个人层面,对于个人来说,垃圾邮件最大的危害就是造成了工作延误,不能及时的完成上级交代的任务,因为垃圾邮件可能携带病毒,导致电脑中毒,因此不仅给自己的工作带来麻烦,也影响到了日常生活,造成了很大的麻烦。
除此以外,垃圾邮件占据了电脑空间,占据了内存。
使电脑运行速度下降,并且还要浪费大量的时间对垃圾邮件进行处理。
二是社会层面,垃圾邮件的出现不利于社会和谐稳定,部分垃圾邮件含有诈骗信息,使得受骗家庭家庭关系紧张,当受骗上当以后虽然及时的向当地公安上报情况,但是很多时候往往不了了之,从而使得此家庭认为是国家管理不当,进而对国家以及政府产生了不好的想法和主观印象,不利于社会管理以及社会和谐发展。
三是国家层面,垃圾邮件的出现,在一定程度上浪费国家的资源,阻碍了国家的经济良好发展,在一定程度上阻碍国家GDP增长,不利于经济往良性发展。
四是互联网方面,垃圾邮件的出现,占据了互联网空间,使得网络变得拥挤,网络运行速度降低,尤其是垃圾邮件夹带的诈骗、淫秽色情等内容,使互联网没有一个健康的发展环境,不利于互联网良性发展,并且增加了人们使用互联网的风险。
3广东培正学院学生受垃圾邮件影响的现状
3.1调查问卷设计
本文采用了随机抽样调查方式,抽取了289位广东培正学院学生作为调查对象,以电子问卷的形式进行。
此次调查问卷的问题以选择题为主,主要的问卷内容为:
个人基本信息,平时沟通交流主要使用的软件类型,收到的垃圾邮件种类的类型以及个人认为垃圾邮件带来的最大的影响在哪等方面的问题。
根据所得数据进行分析,将最后得到的结果利用图表的形式展现出来,能够更加直观的得到数据,并且有利于我们对数据更好的进行分析。
3.2样本基本情况
本次调查问卷总共回收了300份,其中有效问卷为289份。
男生在其中所占的比例为52%,女生在其中所占的比例为48%;由图3-2可知,年级的分布情况如下:
大一填问卷的有效人数为45人,占总人数的15%,大二填问卷的有效人数为68人,占总人数的23%,大三填问卷的有效人数为73人,占总人数的25%,大四填问卷的有效人数为103人,占总人数的37%。
图3-1调查对象的年级分布
3.3培正学院学生沟通交流使用的工具
通过问卷调查可知,截止至2020年1月5日,使用微信的人占100%,使用的理由是这款APP比较方便且身边的人都在使用所以不得不进行使用;使用抖音的人数占78%,原因是抖音中有趣的资源很多,而且身边很多人在推荐;使用微博的人数占48%,使用的原因是在微博里可以释放自己的心情,是自己的一片秘密花园;使用QQ的人数占46%,原因是微信替代了QQ,所以使用的人数减少;使用电子邮件的人数占32%,使用原因是老师要求以及学习和工作需求;使用INS的人数占22%,使用原因大多是为了关注海外的博主。
如图3-2所示
图3-2在校大学生主要的交流软件
从图3-2可以看出,使用电子邮件的同学虽然总数不大,但是仍然占了比较大的比重,而且对电子邮件的使用有上升趋势。
3.4垃圾邮件的影响
由问卷调查可知,培正学院学生每周收到垃圾邮件的数量为12.3封,垃圾邮件占比32.7%。
在这之中,使用电子邮箱的使用者接收到最多的垃圾邮件的类型是欺诈类,病毒类以及网站推广类,在这么多类型当中,最让人无法接受的类型就是欺诈类垃圾邮件,理由相信我们大家也都可想而知,被骗的肯定大部分都是我们辛辛苦苦赚的钱财,虽然钱财乃身外之物,可是自己的劳动成果就这样被利用也的确很让人气愤。
排名前三位是“欺诈类”为70.3%,“病毒类”为48.6%,“网站推广类”为30.1%,其中,35.8%和25.3%的用户最反感“欺诈类”和“病毒类”垃圾邮件。
如图3-3所示
图3-3不同种类垃圾邮件的影响
从图3-3可以看出,用户受到影响最大的邮件类型是欺诈类邮件。
4多种分类器的垃圾邮件分类
4.1分类器简单介绍
要想更好的解决垃圾邮件问题,垃圾邮件分类问题不容忽视,且垃圾邮件分类离不开分类器,接下来我将对其进行一个简单的介绍。
K近邻
K近邻也就是KNN算法,先来简单介绍一下其原理:
这个算法需要将一个特定的文本,我们将它称作文本S,将其与剩下的所有文本进行距离比较,在这之中取与特定文本距离最短的前J个文本来作为文本S的类似文本,根据前J个文本的类型我们可以得到文本S是何类别。
这个算法是不需要通过训练的,最终的结果让人大致满意,但是实际上它的计算是比较复杂的。
贝叶斯
贝叶斯算法是利用概率学的知识来计算的,首先要先计算出概率,再利用原本的公式计算出另一个概率,它是目前比较流行的一种分类算法。
SVM
SVM(supportvectormachine,SVM),是一种常见的判别方法,它指的是支持向量机。
除此以外,它还是能够回归分析、分类、模式识别的一种带有监督功能的学习模型。
其原理比较复杂,利用到了低维和高维空间,并且使用线性划分原理来判定类别的界限,并在最后使用核函数进行运算。
神经网络
NN分类有三个步骤,分别是数据预处理,数据训练和测试。
数据预处理相当于特征选择。
决策树分类算法
决策树学习综合技能比较强,具备基本的实力。
即使面对无规则摆放的事例也能够做到准确的做出分类。
并且对于特征词进行综合测试是其中内部的任意一个节点都可以做到的,这也就意味着分支的测试输出每个节点主要展示的是其整体分布情况。
决策树归纳主要采用的是贪心算法,能够通过一定的方式重新构造决策树。
4.2分类器的衡量标准
要对分类器进行评判的话,需要明确的知道其衡量标准才能更好的对分类器的好坏做定义。
评价指标包括:
准确率、精确率、召回率以及F值,ROC曲线以及AUC面积还有R-P曲线。
这里我们侧重讲前三个指标。
准确率是最常用的分类性能指标。
拿最常见的二分类问题来说,我们的模型无非是想要把正类和负类预测识别出来。
在测试集中识别对的数量(不论是把正样本识别为正样本还是把负样本识别为负样本)除以测试集的数据总量就是准确率。
在用scikit-learn调用分类器进行分类的时候,模型返回的score值其实就是准确率。
精确率容易和准确率被混为一谈。
其实,精确率只是针对预测正确的正样本而不是所有预测正确的样本。
它可以由预测正确的正样本数除以模型所有预测为正样本的数目之比来计算出来。
表现为预测出是正的里面有多少真正是正的。
而召回率是由预测正确的正样本数目除以测试集中真正的实际正样本数目之比计算得出。
表现出所有真正是正样本中分类器能召回多少。
利用图4-1进行更好的理解。
图4-1衡量指标的关系展示图
精确率precision=TP/(TP+FP)
召回率recall=TP/(TP+FN)
还有一个指标是F值,它是精确率和召回率的调和值,如上图。
很多推荐系统的评测指标就是用F值的。
4.3分类器效果对比
杨一鸣等人在文献[11]中对几种常见的特征选择方法做比对后发现,MI的表现不及IG和CHI在所有5种(DF、IG、MI、CHI、TS)特征选择方法中的表现。
将IG与KNN分类器相结合,最终可以得到很高的准确率,准确率高达98.2%。
而在计算方面,如果是复杂度较高的情况下选择DF效果比较好,可是,我们也需要根据实际的特征进行选择。
徐燕在文献[12]中进行了一个试验,试验是将不同特征选择方法与垃圾邮件语料进行比对。
最终得到的结果让人吃惊,因为与我们所想象中的不太一样,究其原因是因为垃圾邮件分类与二值分类问题有所不同,最终得出结论是:
在朴素贝叶斯分类器平台上,让人眼前一亮的是ODD、CHI和IG。
这些相同的实验结果都说明,由于垃圾邮件的不均衡特征,正确选择特征选择方法是分类过程中非常重要的部分。
Sahami等人在文献[14]中利用了大量的样本,以及特殊的词语作为铺垫,最终提升了分类结果。
Dmcker等人在文献[8]中将SVM分类器与其他分类算法进行比较,最终结果是SVM成绩在这其中最为突出。
Joachims[15]则对SVM分类器进行整改,最终结果是SVM的表现非常完美,不仅提高了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多种 分类 垃圾邮件