网络信息过滤技术优质PPT.pptx
- 文档编号:15042510
- 上传时间:2022-10-27
- 格式:PPTX
- 页数:44
- 大小:148.59KB
网络信息过滤技术优质PPT.pptx
《网络信息过滤技术优质PPT.pptx》由会员分享,可在线阅读,更多相关《网络信息过滤技术优质PPT.pptx(44页珍藏版)》请在冰豆网上搜索。
对难点:
对用户过滤需求的用户过滤需求的描述描述与其它概念的区别与其它概念的区别信息检索信息检索信息过滤信息过滤用户需求表示用户需求表示检索词(含组合条件)兴趣模型信息源信息源相对静态的结构化的数据库相对静态的结构化的数据库海量,动态的无(半)结构数据目标目标选择相关条目过滤掉不相关的信息需求需求动态变化静态需要了解用户情况需要了解用户情况否是涉及社会背景涉及社会背景否是与其它概念的区别与其它概念的区别和文本和文本分类(分类(Categorization)的)的区别区别分类系统中的类不会经常改变分类系统中的类不会经常改变相对而言,相对而言,UserProfile会动态变化会动态变化和信息和信息抽取(抽取(InformationExtraction)区)区别别信息过滤关心信息过滤关心相关性相关性信息抽取只信息抽取只关心抽取的那些部分,不管关心抽取的那些部分,不管相关性相关性分类分类根据过滤系统的结构根据过滤系统的结构分类分类1987年,年,Malone及其同事把信息过滤方法分及其同事把信息过滤方法分为为3类类:
基于内容的过滤(Content-basedfiltering),也叫认知过滤(Cognitivefiltering)协作过滤(Collaborativefiltering),社会过滤(socialfiltering)经济过滤(Economicfiltering)。
目前目前使用较多的就是基于内容的使用较多的就是基于内容的过滤过滤和基于协和基于协作的过滤。
作的过滤。
分类分类根据过滤系统的结构根据过滤系统的结构分类分类基于基于内容的内容的过滤过滤这种方法按照信息内容的特征作出选择,主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。
内容过滤能够监测现有信息的内容特征,为用户提供与其曾经感兴趣信息相似的信息,但不能为用户发现新的兴趣信息。
这种方法比较适合于分析文本信息,但对声音、图像、视频等形式的媒体信息还缺乏有效的自动分析方法。
分类分类根据过滤系统的结构根据过滤系统的结构分类分类基于协作的基于协作的过滤过滤这种方法是“相似”用户间的相互协作过程。
通过分析用户兴趣,在用户群体中找到与指定用户兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
由于不依赖于内容,这种过滤方法不仅适用于文本信息,也可以推广到非文本形式的信息。
局限是活动用户只能获取具有相同兴趣的用户喜欢的信息,而不能获取不同兴趣的用户喜欢的信息。
经济过滤经济过滤这种方法依赖于成本和用户获益的计算,依赖于价格机制。
分类分类根据操作的主动性根据操作的主动性分类分类主动主动过滤过滤系统主动从Web上为其用户推送相关的信息。
在有些主动信息过滤系统中,预先对网络信息进行处理,例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等,在过滤时可以根据分级标记或地址列表决定能否访问。
被动过滤被动过滤系统不对网络信息进行预处理,当用户访问时才对地址、文本或图像等信息进行分析以决定是否过滤及如何过滤。
分类分类根据信息过滤的目的分类根据信息过滤的目的分类推荐系统推荐系统根据用户对信息的评价把信息推荐给合适的接收者,属于协作过滤系统的一部分。
阻挡阻挡系统系统通过设置一定的条件限制用户获取某些信息,而其他信息可以利用。
分类分类根据过滤模板所在的位置分类根据过滤模板所在的位置分类上游过滤上游过滤又叫代理服务器过滤。
用户需求模板存放在服务器端或者代理端。
过滤系统也可能处在信息提供者与用户之间专门的中间服务器上,这种情况也叫做中间服务器过滤。
上游过滤的优点是不仅支持基于内容的过滤,也支持协作过滤,缺点是模板不能用于不同的网络应用中。
分类分类根据过滤模板所在的位置分类根据过滤模板所在的位置分类下游过滤下游过滤又叫客户端过滤,用户需求模板存放在客户端上,用户根据自身需要设置一定的限定条件,将不感兴趣的信息排除在外。
优点是模板可用于不同的网络应用,缺点是只能实现基于内容的过滤。
信息源信息源过滤过滤又叫剪辑服务,用户将需求模板提交给一个信息提供者,由信息提供者为用户过滤信息。
分类分类按照从用户获取信息的方法分类按照从用户获取信息的方法分类显式过滤显式过滤用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求通过用户交互提供的这些显式信息可以快速、明确描述用户的信息需求,减少系统学习的负担。
但是这种显式的获取用户信息需求的方式会增加用户的负担,加重用户使用系统的困难。
分类分类按照从用户获取信息的方法分类按照从用户获取信息的方法分类隐含式过滤隐含式过滤无需用户直接参与,通过观察用户的动作行为判断用户需求用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。
采用隐含式获取用户信息需求的方法容易受到干扰的影响,所以这种方法通常用作显式方法的补充。
分类分类按照从用户获取信息的方法分类按照从用户获取信息的方法分类混合式过滤混合式过滤采用混合式方法获取用户信息需求的方法介于显式方法和隐含式方法之间,它要求尽量减少用户的参与。
混合式获取用户信息需求的方法通常有两种通过文档空间来获取知识(基于案例的方法)通过原型参考来获取知识(推理,预先定义默认的profile,在扫描过程中再改变)现状现状信息过滤技术的研究现状信息过滤技术的研究现状当前信息过滤的研究以当前信息过滤的研究以TREC会议为核心,主会议为核心,主要是文本过滤要是文本过滤。
国内有关信息过滤的研究以核心算法为主,主国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和过滤算法上。
要集中在特征抽取、学习算法和过滤算法上。
出现了一些过滤软件,但存在较多问题,过滤出现了一些过滤软件,但存在较多问题,过滤效果不佳效果不佳。
内容阻塞内容阻塞目的目的对不良信息从源头进行控制,阻塞这些信息的对不良信息从源头进行控制,阻塞这些信息的传入通道传入通道两种两种方式方式网络层阻塞网络层阻塞应用层应用层阻塞阻塞部署位置部署位置互联网骨干节点互联网骨干节点企业企业网网/园区网出口园区网出口内容阻塞内容阻塞网络层阻塞技术网络层阻塞技术DNS过滤(过滤(DNS劫持)劫持)指在特定的网络范围内,拦截域名解析的请求,分析请求的域名,把审查范围以外的请求放行,否则返回假的IP地址或者什么都不做使请求失去响应,其效果就是对特定的网络不能反应或访问的是假网址。
一般部署在互联网骨干节点可以通过指定DNS服务器来绕过审查内容阻塞内容阻塞网络层阻塞技术网络层阻塞技术IP地址过滤地址过滤利用网络设备的数据包过滤或访问控制功能,检查IP包的来源或目的,通过审核的才予以放行,否则将进行阻断一般部署在互联网骨干节点,或是企业网/园区网的出口部分,通过防火墙、路由器等设备来实现IP地址的过滤名单更新太慢,且容易“误伤无辜”内容阻塞内容阻塞应用层阻塞技术应用层阻塞技术URL阻塞阻塞制定不能访问URL地址,以黑名单的形式存放在代理服务器或应用层网关中。
在进行HTTP请求的时候,代理服务器或应用层网关会对URL进行审查,如果在黑名单中将予以阻塞关键字审查关键字审查在互联网出口网关处收集信息,过滤、嗅探制定的关键字,针对包含关键字的通信过程进行阻断HTTP报文头部关键词数据流内文关键词内容阻塞内容阻塞应用层阻塞技术的部署方式应用层阻塞技术的部署方式旁路旁路式(式(Passby)监听网络上所有信息,并有选择的对基于TCP的连接(如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等)进行阻断旁路式过滤的原理基于TCP的连接性:
跟踪所有TCP连接,阻断时以服务器身份向客户端发送HTTPACKPSHFIN,同时以客户端身份向服务器发送HTTPRST。
穿透穿透式(式(Passthrough)依赖于代理服务器或应用层网关,直接禁止通信过程内容阻塞内容阻塞最典型的例子:
最典型的例子:
GFWGreatFirewall,防火长城,也称,防火长城,也称“中国防火墙中国防火墙”或或“中国国家防火墙中国国家防火墙”,指中华人民共和国政府在,指中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统的总称,其管辖互联网内部建立的多套网络审查系统的总称,包括金盾系统和相关行政审查系统包括金盾系统和相关行政审查系统。
一般所说的一般所说的GFW,主要指公共网络监控系统,尤,主要指公共网络监控系统,尤其是指对境外涉及敏感内容的网站、其是指对境外涉及敏感内容的网站、IP地址、关键地址、关键词、网址等的过滤词、网址等的过滤。
国家防火墙并非中国的专利。
实际上,美国也有国国家防火墙并非中国的专利。
实际上,美国也有国家网络监控系统,对进出美国的每一封电子邮件进家网络监控系统,对进出美国的每一封电子邮件进行内容扫描。
不同的是,中国的国家防火墙会直接行内容扫描。
不同的是,中国的国家防火墙会直接切断一些敏感连接,而美国的国家防火墙则只是做切断一些敏感连接,而美国的国家防火墙则只是做数据监控记录数据监控记录。
内容阻塞内容阻塞GFW的主要技术的主要技术域名域名劫持劫持IP封锁封锁关键字过滤阻断关键字过滤阻断HTTPS证书过滤证书过滤对破网软件的反对破网软件的反制制内容分级审查内容分级审查内容安全内容安全分级审查是分级审查是一种主动的安全一种主动的安全技术。
技术。
旨在旨在内容发布前,在内容中嵌入分级标识,内容发布前,在内容中嵌入分级标识,随后的随后的各种审查措施各种审查措施基于分级标识进行基于分级标识进行。
这种这种监管技术可以对信息提供的过程(信监管技术可以对信息提供的过程(信源、信息服务和信息的中转等环节)实施源、信息服务和信息的中转等环节)实施主动主动的审查,的审查,以避免不必要的信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 过滤 技术