网页信息监听分析系统的设计与实现Word文件下载.docx
- 文档编号:18648703
- 上传时间:2022-12-30
- 格式:DOCX
- 页数:47
- 大小:828.51KB
网页信息监听分析系统的设计与实现Word文件下载.docx
《网页信息监听分析系统的设计与实现Word文件下载.docx》由会员分享,可在线阅读,更多相关《网页信息监听分析系统的设计与实现Word文件下载.docx(47页珍藏版)》请在冰豆网上搜索。
Forthepreparationofharmfulinformationtextfilteringandidentification,weuseregularexpressionsbasedonkeywordfilteringtechnology.Forgeneraldocumentwhichcontainssensitivekeywords,inordernottobeanerrorfiltering,wehaveproposedtwo-wordgrammaroftext-basedclassificationmodel.
Throughbothpositiveandnegativeannotationofthetextwordandpartofspeechtagging,wegetmoreaccuratetwo-wordlistofgrammaticalfeaturesofwords.Throughusingtheradialbasisfunctionkernelinsupportvectormachine,wetrainaclassifiertojudgewhetheradocumentcontainsobjectionableinformationornot.
Inthesensitiveimagedetection,wehaveconsolidatedtheworkofpredecessors,summedupacompletesetofeffectivealgorithmtodetectpornographic
pictureswithover85%preciouswhichiseasytobeimplemented.
1背景及意义
随着网络经济时代的来临,人们已经越来越离不开网络。
各种各样,丰富多彩的个人或组织的网络站点如雨后春笋般大量涌现。
信息技术的不断发展,特别是互联网应用的迅速普及,已深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。
全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。
各大搜索引擎更使人们能够方便地找到自己所需要的信息。
然而,互联网从它出生那刻起,就注定是一把双刃剑。
在我国,随着信息化进程的推进,我国信息化正快速发展,与此同时,互联网上出现了大量色情、赌博、反动信息,严重的影响了国家安全和社会稳定,这些信息在互联网上传播速度快、范围广、影响大。
从2000年至今,全国共开展网上违法信息专项处置活动10余次,关停服务器上万台,但是网上仍存在着大量色情、赌博、反动信息,信息安全没有得到根本解决。
更令人担忧的是,青少年的心理承受能力不高,识别能力不强,大量未经甄别的含有色情暴力等不良内容的网页会对青少年的身心健康造成极大的影响。
调查表明,网络不良信息成为了青少年违法甚至犯罪的主要诱因之一。
而互联网的信息规模和增加速度与人力资源的对比又使有关部门的监督职能不能很好地发挥。
如何杜绝网络上的不良信息,还公众一个纯净清新的网络环境,已经成为了一个重大的社会问题。
从09年7月1日起,在我国境内生产以及销售的计算机都将预装“绿坝—花季护航”过滤软件,防止青少年受到网络不良信息的侵害——工信部日前发布的这一通知使得“绿坝—花季护航”过滤软件成为人所瞩目的焦点。
业内专家表示,面对当前大量色情信息充斥互联网的严峻形势,既要让未成年人正确使用互联网,同时又把色情信息阻挡在未成年人视野之外,过滤软件虽尚不能做到尽善尽美,但逐渐在全社会推广势在必行。
中国互联网络信息中心发布的报告特别指出,青少年学生网民对互联网娱乐功能的使用超过其他任何一种功能。
我国网民年龄结构趋于年轻化、低龄化,青少年成为网络文化的主要参与者。
但是,互联网上的各类信息良莠不齐,充斥其间的大量色情信息对青少年群体的健康成长影响非常大。
网络不良信息已经成为数百万青少年沉迷网络的主要诱因之一“上网成瘾的孩子90%以上都浏览过黄色网站。
”北京军区总医院成瘾医学中心主任陶然:
“其中有一定比例的青少年发展成严重的色情成瘾,这比单纯的网络成瘾更难治疗。
”陶然强调,网上的黄色不良信息对孩子们的毒害越来越严重,许多孩子因此早恋、辍学,甚至走上犯罪道路。
最近召开的两会上,许多人大代表也开始关注这一话题,有人大代表表示:
“要从辩证的角度看互联网对青少年的影响。
从正面来看,互联网使得青少年学习和生活更方便快捷,获得知识的渠道更为畅通。
但是,互联网上不健康的内容确实对青少年的身心发展非常有害。
在互联网时代,将青少年隔绝于网络之外是不理智也是不现实的,因此在大力整治网络不良信息的同时,更要弘扬绿色网络文化、发展绿色网络产业,用积极、健康、有益的信息和内容占领网络空间。
为了满足青少年掌握互联网工具,上网学习知识、休闲娱乐的合理需求,要积极制定绿色网络发展的扶持政策,促进国家骨干企业带头推动绿色网络产业发展,疏堵结合为青少年创建绿色网络空间。
”
虽然我国有关部门连续多年严厉打击网络淫秽色情,关闭了大量的色情网站,但是在暴利的驱使下,色情网站仍未禁绝。
为了逃避打击,国内的色情网站服务器纷纷移至境外,或不停地改变服务器、变换域名及改变语言,这些都加大了打击的难度。
现实情况表明,亟须采取技术手段识别和过滤互联网上的文字、图像等淫秽色情信息,这已经成为我国乃至当今世界各国的一项共同的紧迫任务。
对于网络上的各种文字、图像色情信息,通过采取技术手段来屏蔽,目前已经在全球范围内达成共识,世界各国都在积极开展相关的研究工作,英国、日本、德国、美国等许多国家都在大力推广过滤软件。
我国屏蔽网络不良信息的过滤技术也在有关部门的支持下,积极开展研发工作并取得了很大成效。
2009年4月8日,教育部、财政部、工业和信息化部、国务院新闻办联合发文,要求全国中小学校联网的计算机终端全面安装绿色上网过滤软件,以净化校园网络环境,保障青少年身心健康成长。
国家工业和信息化部要求:
今年7月1日起,国内计算机生产销售企业出厂和销售的计算机必须以硬盘预装或随机光盘两种方式预装“绿坝-花季护航”绿色上网过滤软件。
“绿坝”,又名“绿坝-花季护航”:
是郑州金惠的“金惠堵截黄色图像和不良信息专家系统”以及北京大正的“花季护航上网管理软件”组合之后的市场产品名,主要针对青少年上网群体,可过滤色情图片、色情内容、暴力内容、过滤反审查软件等。
软件采用语义分析技术,运用独特的褒贬义判断与红黑判断技术,根据全文语境锁定不良信息,拦截色情内容,过滤不良网站,控制上网时间等;
还可以自动截屏,随时记录电脑使用者的网络“足迹”。
本文着力于通过在局域网内搭建一个网络信息监听分析系统来实现对一定范围内网络不良信息的监控。
现在国内外也有一些这方面的利用,但效果并不那么理想。
从已投入实际使用的绿坝软件来看,对文字和图像信息的屏蔽过滤技术还有一段很长的路要走。
单独的关键词匹配技术只从词形获取检索的信息,处理的内容也是词形,对二者进行匹配。
但是,组合歧义和交叉歧义严重影响了匹配的精度。
由于缺乏对语义的理解,关键词技术对语言中大量存在的同义、多义、包含等现象无能为力。
因此,只有全面进入语义处理,真正使计算机“懂”处理的内容,才能准确地找到用户的所需内容,从而使检索更加有效。
通过语义分析技术,用户使用日常语言输入后,计算机就能够立刻对信息进行理解甄别、加工提纯、挖掘,在浩瀚的互联网数据库中,寻找到匹配度最高的内容,给出最具价值的答案,既去掉了“色情”、“暴力”等绝对有害信息,又保留了对青少年有益的健康网页。
针对网络色情图像信息,目前,我国图像识别过滤软件已经实现对图像内容的主动过滤,支持互联网上各种常用的图像格式,通过人工智能的图像识别,打破与现有图像库进行简单对比的传统过滤方式。
专家介绍,图像过滤软件是主动识别网络中的有害内容,特别是对孩子们感官刺激最强烈的淫秽色情图像的内容,并且能将识别后的有害地址自动加入黑名单库,同时,阻断色情的链接地址功能。
本文在各个模块的实现中,总结和吸取了前人工作的经验和教训,并且在敏感文字检测、敏感图片检测等方面有着新的思考和实现。
在文本的检测上使用了双词文法和正则表达式匹配以提高敏感词检测的成功率,在图像的检测上引用了凸包算法,使得原本皮肤区域比例的算法更为健壮,提高了图片识别的准确率。
在结构上,本文所提出的机制更适合于局域网及其他监管体系的利用,对青少年身心的健康发展将会起到极大的作用。
2系统简介
2.1整体架构
图1.Windows下网页信息监听分析系统模块图
整个系统的模块图如图1所示,其主要可分为以下六个模块:
●数据包捕获模块对于局域网内的数据包进行截获
●数据包处理模块分析数据包的格式和内容,抽取网页数据
●网页信息抽取模块抽取数据包中的网页数据,得到文字和图像
●敏感文本检测模块检测网页中的文本是否包含不良信息
●敏感图片检测模块检测网页的图片中是否包含不良内容
●管理与配置模块管理和配置整个系统,查看历史纪录
2.2数据包捕获模块相关技术
2.2.1网络监听基本原理
网络数据包捕获的主要手段就是监听网络。
毫无疑问,数据包捕获模块在本系统中有着举足轻重的地位,在目前该领域的研究中,网络监听的手段主要基于局域网内部[13][14],主要需要以下几个条件
●以太网内部中,存在一台受监控方完全控制的主机。
●以太网系统中,采用了CSMA/CD技术,保证了传输过程中,网络中每个节点具有相同的优先级
在共享媒体的网络中(例如Ethernet),在同一个网段的所有网络接口都有访问在物理媒体上传输的所有数据的能力,每个网络接口都有一个唯一的硬件地址,正常情况下应该只能接收到目标为自己或者为广播类型数据帧。
在接收到上面两种情况的数据包时,网卡通过产生一个硬件中断,该中断能引起操作系统注意,然后将帧中所包含的数据传送给系统进一步处理。
以太网系统中,数据传输采用了载波侦听/冲突检测(CSMA/CD)技术。
这种技术的使用保证了在传输过程中,网络中每个节点具有同等的优先级。
这在一定意义上消除了网络中不同节点间的差异性。
广播机制的使用更是允许了网络中所有的信息对每个网络节点均可见。
●网卡可设置为混杂模式,从而接受非本机MAC地址的数据包
网卡具有如下几种工作模式:
1)广播模式(BroadCastModel):
它的物理地址(MAC)地址是OXFFFFFF的帧为广播帧,工作在广播模式的网卡接收广播帧。
2)多播传送(MultiCastModel):
多播传送地址作为目的的物理地址的帧可以被组内的其它主机同时接收,而组外主机却接受不到,但是,如果将网卡设组外主机却接收不到。
但是,如果将网卡设置为多播传送模式,它可以接收所有的多播传送帧,而不论它是不是组内成员。
3)直接模式(DirectModel):
工作在直接模式下的网下只接收目地址是自己Mac地址的帧。
4)混杂模式(PromiscuousModel):
工作在混杂模式下的网卡接收所有的流过网卡的帧,信包捕获程序就是在这种模式下运行的。
网卡的缺省工作模式包含广播模式和直接模式,即它只接收广播帧和发给自己的帧。
如果采用混杂模式,一个站点的网卡将接受同一网络内所有站点所发送的数据包这样就可以到达对网络信息监视捕获的目的。
下面不妨从TCP/IP模型的角度来看数据包在局域网内发送的过程:
当数据由应用层自上而下的传递时,在网络层形成IP数据报,再向下到达数据链路层,由数据链路层将IP数据报分割为数据帧,增加以太网包头,再向下一层发送。
需要注意的是,以太网的包头中包含着本机和目标设备的MAC地址,也即,链路层的数据帧发送时,是依靠48bits的以太网地址而非IP地址来确认的,以太网的网卡设备驱动程序不会关心IP数据报中的目的IP地址,它所需要的仅仅是MAC地址。
当局域网内的主机都通过HUB(集线器)等方式连接时,一般都称为共享式的连接,这种共享式的连接有一个很明显的特点:
就是HUB会将接收到的所有数据向HUB上的每个端口转发,也就是说当主机根据MAC地址进行数据包发送时,尽管发送端主机告知了目标主机的地址,但这并不意味着在一个网络内的其他主机听不到发送端和接收端之间的通讯,只是在正常状况下其他主机会忽略这些通讯报文而已。
如果这些主机不愿意忽略这些报文,网卡被设置为混杂模式的话,那么,对于这台主机的网络接口而言,任何在这个局域网内传输的信息都是可以被听到的。
随着交换机的日益流行,使用交换机目前也是一个应用比较多的局域网构建方式,不同于工作在第一层的hub,交换机是工作在二层,也就是说数据链路层的,交换机在工作时维护着一张ARP的数据库,在这个库中记录着交换机每个端口绑定的MAC地址,当有数据报发送到交换机上时,交换机会将数据报的目的MAC地址与自己维护的数据库内的端口对照,然后将数据报发送到"
相应的"
端口上,注意,不同于HUB的报文广播方式,交换机转发的报文是一一对应的。
由此,可以看到,这在很大程度上增加了网络监听的难度。
面对使用交换机的局域网,仍然存在着网络监听的手段,常见的就是ARP欺骗,它的工作原理是这样的:
发起监听的主机向目标主机发送伪造的ARP应答包,骗取目标系统更新ARP表,将目标系统的网关的MAC地址修改为发起监听的主机MAC地址,使数据包都经由发起监听的主机,这样即使系统连接在交换机上,也不会影响对数据包的攫取,由此就轻松的通过交换机实现了网络监听。
在同一网络中所有机器是通过MAC地址通讯,通讯时先寻找对方的IP地址,然后在通过ARP表(ARP表里面有所有可以通讯IP和IP所对应的MAC地址)调出相应的MAC地址,然后通过MAC地址与其进行通讯。
网内的任何一台主机都可以轻松的发送ARP广播,来宣称自己的IP和自己的MAC。
这样收到的机器都会在自己的ARP表格中建立一个它的ARP项,记录它的IP和MAC地址。
如果这个广播是错误的其他机器也会接受。
这样,如果监听主机广播内容的IP是网关的IP,但是MAC地址是自己的MAC地址,这样被监听的网络就把监听主机当作了网关,信息由监听主机转发给网关,从而监听主机达到了监听的目的。
2.2.2网络监听程序原理
图2.网络监听程序架构
不同于流览器以及其他互联网应用程序,网络监听程序通常都绕开了操作系统的内核协议堆栈,而是通过对网卡混杂模式,当网卡设备驱动处理到一个新的数据包时,如果是混杂模式,他会将其复制一份并送到内核的包过滤器,通常包过滤器会允许任何包通过,这样监听程序通过将包数据从内核态复制到用户态即可进行分析。
3算法设计
3.1敏感文本检测算法设计
目前,在敏感文本信息的检测上,已经有一些研究,很多研究者都提出了很有成效的算法,并已有一些已作为软件产品可供使用。
比较著名的有“美萍反黄专家”,“网络爸爸”(现更名为“展翅鸟家长控制软件”),“飞腾反黄软件”,“家长无忧”和“绿坝”[4]。
国内外的网页、文本过滤主要有这么几种方法:
网站内容分级制度,URL过滤以及文本内容过滤。
网站内容分级制度是指,在网站申请或是登记备案时,由网站申请人或是其他相关人员对网站的内容进行登记,网站上不应出现与其纪录不服的内容,这样可以使不良信息的鉴别变得容易。
但是这种制度防君子不防小人,对包含有色情暴力内容的网站并没有很大的约束作用。
URL过滤也是一种类似的方式,由数据库的维护人员先将一些时常出现不良信息的网站域名放入数据库,这样,在DNS解析域名时,就可以将对这些含有不良信息的网站的连接请求忽略,以达到屏蔽不良信息的目的。
但URL过滤的工作量极大,虽然由于人工判断的加入,使得URL过滤的准确率可以达到100%,但是新增的大量网页和网站信息不可能通过人力来一一进行甄别。
对于文本内容的过滤相对于上面的两类方法就显得更为具体,因为它可以对网站中的每一篇网页或是用户将要浏览的网页进行过滤,这样就可以避免在一个外表健康,正常的网站里的一点隐藏起来的不良信息逃过检测的情况。
这类方法一般会采用现在已经自成一类的信息检索、数据挖掘或是自然语言处理等技术对文本的性质进行分类,有效屏蔽有害信息。
近几年的研究主要有以下几种常见的类型:
关键词匹配、语义相关检索以及基于神经网络的文本分类。
关键词匹配是利用最为广泛和种类繁多的一类。
现在多数网站论坛都会有一张敏感词过滤表,含有敏感词的文章是不允许发表在这些网站和论坛上的。
只是他们使用的是单一的关键词匹配,文章中出现了这种关键词就被认为是包含不良信息。
基于向量空间模型的关键词匹配[1]将关键词匹配得到的文本特征向量与已经得到的数据库进行相似度检测,通过相似度函数的取值,将文本进行分类。
传统的关键词匹配相对简单,赖勇浩等提出了一种改进了的字典匹配方法[2],通过将词表的首字可能值取出,减少了大量的匹配时间,优化了匹配算法。
关键词匹配一个较大的问题是没能好好利用文本中的语义信息,而一种基于特征词与局部语义信息的方法[3]将这部分内容也引入了信息过滤的模型中。
基于神经网络的文本分类将关键词在文本中的出现频率和位置等特征放入神经网络,将文章分为内容相关的若干类进行学习,最终得到一个文本分类器。
本文中使用的方法也属于敏感关键词匹配的范畴。
综合了现有的一些文本分类方法,使用分类器来完成敏感文本的检测。
图3.敏感文本检测算法流程图
本文的算法流程如下:
1.将少量文档通过分词把句子分成各词性的一些块;
2.使用词性标注工具,将各词中的名词——动词/形容词对收集起来,作为双词文法的特征
3.把双词文法的特征和单一词的过滤词表合并,生成匹配特征的正则表达式
4.待检测文档通过正则表达式的匹配得到特征向量
5.使用支持向量机作为分类器对待检测文档分类
3.1.1基于正则表达式的关键词匹配
首先是文本中的字符串匹配操作,最简单的方法就是枚举每个位置作为子串的开始,然后不断与关键词的各个字符匹配。
这样的话,时间复杂度为O(mn),其中m为需要判断的文本的长度,n为关键字串的长度。
由于这种方法的时间复杂度太高,有很多信息没有充分利用,有人发明出了一种KMP字符串匹配算法,该算法的优点在于,把串之前匹配的结果应用了起来,使得时间复杂度降为了O(m+n)。
本来KMP算法已是字符串匹配算法中最好的之一,但是由于敏感词匹配问题的特殊性:
很多人为了不让系统直接匹配到敏感词,将词中间插入几个其他字符,这样又不影响他要表达的意思,也不会被直接匹配的字符串匹配算法匹配成功。
例如“成*人*电*影”,如果直接用“成人电影”去匹配,是得不到结果的。
于是本文使用正则表达式来进行字符串的匹配。
正则表达式是指一个用来描述或者匹配一系列符合某个句规则的字符串的单个字符串。
在很多文本编辑器或其他工具裡,正則表达式通常被用来检索和/或替换那些符合某个模式的文本内容。
许多程序设计语言都支持利用正則表达式进行字符串操作。
本文中使用C#语言,其中的System.Text.RegularExpressions类支持正则表达式。
而unicode编码中,汉字的范围为\u4e00-\u9fa5,那么“[^\u4e00-\u9fa5]+”就可以表示一个或多个其他的字符,包括标点。
通过这个正则表达式可以将文本整理成只有汉字的格式,用这种方法来把html格式的网页的结构十分方便。
虽然这样会把句子的分隔打散,但对于光光是敏感词的字符串匹配,不太有影响。
对于上面的“成人电影”这个敏感词的例子,本文中的方法使用正则表达式“成(.){0,2}人(.){0,2}电(.){0,2}影”让他们每个字中间最多有两个别的汉字,这样基本可以把那种为了不被屏蔽而在敏感词间加字符的可能消除了。
而且这样也不会把特别无关的几个词的一部分合在一起被正则表达式匹配成功。
通过匹配正则表达式得到特征向量的流程图如下:
图4.通过匹配正则表达式得到特征向量的流程图
3.1.2基于双词文法的文本特征提取
如果光是用包含敏感词的频率(可能除以文章长度),设定一个判定的阈值来判断一篇文章是否属于有害信息的文章。
对于一些有关诋毁反动的政治言论,“共产党”和一些领袖的名字都是敏感屏蔽词,要是歌颂党的文章中“共产党”被屏蔽了,这就很不好看了。
平时判断这篇文章是反动的还是拥护党的领导的,是通过这篇文章的内容决定的。
而这篇文章中,有一些词,特别是形容词和名词可以表现出文章想要表达的主要意思,比如“先进”,“和谐”与“共匪”表现的内容就是对立的。
所以想到用名词与对它进行描述的形容词这两个词同时出现的频率作为该文本提取的一个特征。
不同的形容词与名词组成的词对会提供不同的特征。
这样,反动的文章与没有有害信息的文章就可以被区分出来了。
对于敏感词列表,本文中的系统把Emule中的敏感词列表拿来筛选出比较有代表性的作为uni-gram(单词文法)的文本特征提取,因为包含情色以及暴力等词汇的文章一定是含有有害信息的。
而bi-gram(双词文法)的特征没有现成的列表,需要在数据中提取。
如果不提取的话可以通过分词把相邻的两两词都作为特征放入特征向量,但是这样的话,之后的分类会变得困难。
整个问题的特征向量空间太大,会有维数灾难,对于分类来说,要是训练数据少了,还可能发生过拟合现象。
所以本文所使用的方法是选取一定有代表性的双词搭配,然后仍然通过正则表达式,如“共(.){0,2}产(.){0,2}党(.){0,10}先(.){0,2}进”来对句子中的双词搭配进行频率统计。
使用“共(.){0,2}产(.){0,2}党(.){0,10}先
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网页 信息 监听 分析 系统 设计 实现