互联网视频及舆情资料Word文档格式.docx
- 文档编号:13802610
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:10
- 大小:112.80KB
互联网视频及舆情资料Word文档格式.docx
《互联网视频及舆情资料Word文档格式.docx》由会员分享,可在线阅读,更多相关《互联网视频及舆情资料Word文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
(4)数据智能分析能力落后,无法有效支撑科学决策
当前,新闻出版广播影视行业信息数据呈爆炸式增长趋势,行业主管部门的信息处理与智能分析能力面临严峻挑战,然而目前xx省新闻出版广播影视行业尚未建立智能高效的数据分析及决策支撑平台,现有业务信息系统处理及分析能力远远无法应对海量信息的冲击,无法有效支撑行业科学决策。
2系统整体架构
2.1逻辑架构图
本项目将建设对xx省内视听网站和持证重点视听网站的监测监管,对省内主流APP、apk应用服务进行监测监管,对我省播出的网络剧、微电影等网络视听节目进行审查。
根据互联网视听节目监管业务系统的实际监管需要,同时针对各个监管业务子系统存在的共性,形成了视听节目数据发现与采集、网页元数据分析、码流采集与监测、视听内容分析等通用的基础监管业务模块,在基础监管业务模块基础上根据网络舆情监测的业务需要,形成各自独立的监管系统用于满足某一方面独特的监测需求。
互联网视听节目监测系统的软件架构采用模块化设计原则,每个模块保持一定的功能独立性,在协同工作时,通过相互之间的接口完成实际的任务,模块化设计将各个功能模块有机地结合起来,在保证正确性和健壮性的基础上,提高了软件的可扩充性和可复用性。
系统软件模块流程图如下:
网络视听节目监管系统的软件系统主要包括三层:
节目及网站数据采集层、数据分析处理层、业务功能模块与数据接口层。
1、分布式数据采集层
数据采集层通过采集控制中心,统一管理数据采集功能。
根据系统的监测目标和技术手段,数据采集包括互联网视听节目及网站搜索引擎、元搜索引擎。
各个搜索引擎从功能和业务上相互独立,从相应的网络/网站中全面获取视听网站及节目信息。
搜索引擎具备采集控制中心,对搜索引擎的工作进行配置管理。
采集控制中心支持网站发现、种子分配、地址解析、文本解析、性能监控等功能,同时支持应用平台下发的配置指令,例如节目下载、取证、快照等等:
2、数据分析处理层
数据分析处理层包括数据处理分析模块和数据存储模块。
数据处理分析模块接收数据采集层上传的视听节目信息,采用先进的全文自然语言分析技术和分词技术进行数据清洗,获取数据的元信息,并对视听节目进行节目归类、排重、关联分析,根据上层应用配置的规则,对节目进行规则匹配、关键帧抽取等操作,结合上层应用的数据业务处理后,对数据进行深度分析、汇总和统计,并存入数据库和磁盘阵列上。
3、功能模块与接口层
功能模块与接口层采用目前流行的B/S架构,以web网页形式将各个功能进行展示。
用户通过WEB浏览器对系统进行登录和访问,根据权限调用不同功能模块,实时开展网上监管工作,掌握系统运行数据。
3各子系统详细介绍
3.1互联网视听监管功能
对我省互联网视听节目网站中的视音频节目进行扫描采集、分类罗列,并识别节目中是否存在政治有害、淫秽色情等违规行为,一旦发现及时预警。
3.1.1网站管理
3.1.1.1网站发现
系统可根据网站IP地域分布特征和网站内容地区服务特征对xx省新闻出版广电局辖区内的视听节目网站进行扫描,对系统监控的重点网站搜索周期为每4小时扫描一周,爬取深度不低于5层。
并对扫描到的符合条件的网站根据网站标题、网站内容、网站内部链接等特征进行网站音视频属性判断,初判其是否属于视听节目网站。
3.1.1.2未批站点
系统可以对管辖范围内未审批的站点进行相应的监控。
可以从站点类别的角度(待审批、未审批和未申报等类别)对相关的站点的基本信息进行分类和查询。
同时可以按照不同的分类标准对相关站点进行分类。
对获得的站点信息进行排重,而且可以采用信息检索技术,检索相应的站点文本信息和视频内容。
3.1.1.3已批站点
系统可以对已经审批通过的站点进行搜索信息的比对,对已审批的站点进行分类、站点的人工信息录入、站点内容的自动监控跟踪,而且可以采用信息检索技术对其文本信息和视频内容进行检索。
3.1.1.4重点网站
系统能够对重点监控的网站进行内容比对、网站分类、站点信息同步、人工核实、网站内容的自动跟踪,及时发现其中传播的违法违规内容及视听节目的具体情况,同时通过针对音视频节目的抓取引擎,对含有违规、热点内容及音视频节目的网页主动发现、采集和保存。
并为实现各种查询功能建立相应的索引。
系统对重点网站进行重点监控,可对该网站节目的节目名称、节目URL、节目详细信息、点击数、回复数进行抓取。
并且可对系统初判为疑似违规的节目进行自动下载和分析。
3.1.1.5节目采集
对监控范围内的音视频网站进行爬虫模块定制,轮循采集网站中的音视频节目(视频、音频(含听书)及网络直播),对系统监控的重点网站搜索周期为每4小时扫描一周,爬取深度不低于5层,抓取过程中实时比对违规关键字库,识别是否出现违规行为。
3.1.2无证网站监管
系统可以对xx省新闻出版广电局管辖区域内未审批的站点进行相应的监测。
系统能够对某些未审批、带有不良记录或有转载非法节目嫌疑等特征的网站,进行重点监控,定期全面地监管相关网站内容,及时报告相关的监管结果。
实现根据相应的主题词,对相应的网页进行重点的检索,重点网页内容的摘要抽取功能。
多模式的联合检索、搜索系统的性能分析与改进、聚类抽取等功能。
3.1.3持证网站监管
系统可以对于已经审批通过的站点进行搜索信息的比对、对已审批的站点进行分类、站点的人工信息录入、站点内容的自动监控跟踪,而且可以采用信息检索技术,检索相应的站点文本信息和视频内容。
3.1.4持证重点网站监管
系统能够对持证重点网站进行内容比对、网站分类、站点信息同步、人工核实、网站内容的自动跟踪,而且可以采用信息检索技术,检索相应的站点文本信息和视频内容。
系统能够对热点的、广泛关注的视听节目进行重点监控,并能及时发现节目的传播、转载情况,以便相关的监管部门采取必要的管理措施。
实现对于网络热点视听节目的摘要抽取、关键网页的文字内容的摘要抽取等功能。
3.1.5网站备案信息核查
核查网站ICP备案信息真实性。
3.1.6违规节目识别
违规视听节目识别主要对采集的网站视听节目,对许可证进行及开发机构进行识别,可以通过关键字策略分析判断政治有害,黄赌毒淫秽色情,境外频道(节目)等有害分类,支持有害关键字及有害规则管理,可以通过建立境外频道/节目备案信息库来判断检测境外视听网站及节目内容;
可以对指定IP范围内或相关ICP备案信息中的网站进行扫描。
3.1.7审核流程定制
在研判业务流程中,提供一审、二审等多种角色。
监管中心的具体业务流程和角色均可根据实际业务流程调整而做出相应变化。
主要业务流程为:
监管中心将各研判员上报的有害节目报告进行汇总,统一进行报告内容的研判审核,查看上报的节目违规取证文件,若监管中心审核不通过,则报告会打回到研判员进行重新取证和审核;
若监管中心审核通过,则按照标准格式撰写报告,提交到二审人员进行审核;
二审人员对一审人员提交的报告进行审核,查看节目取证文件信息,审核通过后对报告进行签发、报出,有害节目研判业务流程正常结束。
确认为有害的节目由提交相关部门实施删除或封堵
3.1.8违规取证
违规节目取证对违规识别模块发现的违规节目进行页面截图,视频下载,音频下载取证,取证结果首先存入取证人员本地磁盘,然后通过上传操作上传至中心监管平台加密存储,判断违规后将违规节目存入违规视听节目数据库,视频证据文件存入存储设备并与数据库建立映射关系。
3.1.9音视频节目采集
通过针对视音频的抓取引擎,对业务部门动态设定的重点视听节目网站上的视音频网页进行主动发现和采集,并依据设定规则对疑似有害视听节目自动进行采集保存。
3.1.10内容分析与样本建立
综合利用文本信息抽取、视频关键帧提取,对采集的数据进行数据分析与规整,得到相应的文本摘要和媒体特征信息,然后以这些特征信息为索引,对视听节目进行自动排重和自动分类、自动聚类,建立有序分类的视音频节目数据库
3.1.11检索与比对
提供友好的人机界面,对重大事件进行预警,并提供关键字、视频样例、音频样例等多模态的检索和多种灵活的统计方式,为上级领导和业务部门实时提供上述重点网站上视听节目的传播、变更、用户关注度等方面的监管信息。
3.1.12节目归类
对主动抓取下来的网页精确抽取描述文本信息,结合对节目的视音频特征分析,根据预定义特征(关键字、视音频样例、图片等)实现节目的自动识别和分类(政治有害、淫秽色情、暴力、惊悚恐怖、低俗、赌博、其它有害),为监管信息的查询、统计提供基础数据。
3.1.13网站地理定位
开放式用户自定义判定视听节目网站标准,系统可根据网站IP地址对网站地理地址进行定位,并在GIS地图上进行标注,地图可以自由拖动和缩放,并提供根据所属城市、网站名称、网站URL进行查询、并支持分区地图显示。
3.1.14定制任务
受国家广电总局等有关部门指派,对个别社会危害大、影响恶劣的视听节目采取的专项清理任务和行动,具有较强的针对性和时效性。
完成专项任务,需要系统能够按照监管要求制定专门的监控策略,按照即时搜索、专项任务优先的原则,灵活配置和调度专项搜索任务,集中调拨系统资源对专项任务涉及的领域或节目进行搜索和识别,从而达到对专项任务监控对象有效监管的目的。
主要是针对与总局的紧急下达的监管任务进行快速准确的响应,并且第一时间发现问题网站并进行监管,系统界面上设有专项任务的功能模块,在该模块中提供工作人员对专项任务的配置和结果的检索查看功能。
3.1.15信息查询
通过WEB界面,提供包含关键字、视频样例、音频片断等在内,全局检索方式,和报表、饼图等多种灵活的统计方式,并能直接显示、播放相应的视音频节目内容,为上级领导和业务部门实时提供重点网站的传播、变更、用户关注度等方面的监管信息。
3.1.16报表功能
对系统发现的互联网视听节目监管数据进行统计分析,自动生成报表,可以包括:
备案信息核查报表、违规节目报表、网站监管报表、违规节目动态统计报表、持证网站节目增量区段分布报表等。
3.1.17系统管理
系统能够对整个区域环境内运行的系统运行信息、统计信息进行监控和授权管理。
对系统运行状态进行监控,为系统提供安全稳定的运行环境,有利
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 视频 舆情 资料