舆情监控系统项目技术方案建议书.docx
- 文档编号:23287181
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:19
- 大小:1.15MB
舆情监控系统项目技术方案建议书.docx
《舆情监控系统项目技术方案建议书.docx》由会员分享,可在线阅读,更多相关《舆情监控系统项目技术方案建议书.docx(19页珍藏版)》请在冰豆网上搜索。
舆情监控系统项目技术方案建议书
舆情监控系统项目技术方案建议书
2015年8月
1.概述
1.1.项目名称
舆情监控系统
1.2.建设背景
随着互联网技术带来网络传播的兴起,以往在传统新闻媒体上无法实现的个人表达自由的言论得到空前的发展。
由于本身网络的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,更多的人们愿意采用网络这种渠道来表现真实的想法。
通过网络传播的信息包含了网民对当前社会各种现象以及诸多热点问题的立场和观点,话题涉及政治、经济、军事、娱乐、体育、卫生、科技、个人生活等各个领域。
因此,网络舆论能够最直接、快速地反映各个层面的社会舆情状况与发展态势。
由于网上的信息量十分巨大,仅依靠人工的方法,难以应对网上海量信息的收集和处理。
“工欲善其事,必先利其器”,政府或者企业需要舆情监控平台,实现自动化的网络舆情预警与分析,解决网络舆情管理过程中的舆情采集、分析、表达、干预等难题,从而梳理和客观呈现互联网上的热点舆情,使政府或者企业利用互联网舆情,汲取民间智慧,变网络舆情由被动防堵,化为主动梳理、引导。
1.3.目标和要求
1.3.1.舆情监控系统能帮您自动完成8大任务
Ø逐条分析是否与“我”相关
Ø逐条分析是否属于“舆情”
Ø逐条分析是否属于“负面”
Ø分析各条舆情“舆情热度”,评估其影响力,分析“重大舆情”“重点事件”
Ø分析各条舆情的传播路径、传播时间,做到舆情能“查得清”
Ø每日生成“网络舆情简报”,重大舆情生成“舆情专报”
Ø时时进行舆情预警
Ø24小时不间隔监测,监测时差保障在30分钟内
1.3.2.舆情监控系统五大功能
2大采集
定向采集
非定向采集
5大分析
分析“是否与我相关”
分析“是否是舆情”
分析“是否是负面”
分析“是否是热点”
分析“传播路径”
1个平台
网络舆情办公平台
2个报告
舆情简报
舆情专报
3种预警
邮箱预警
短信预警
弹窗预警
2.总体设计
2.1.系统定位
本系统主要利用垂直搜索和信息挖掘技术,对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,针对用户的网络舆情监测和新闻专题追踪等信息需求,通过运营人员支撑服务,自动形成简报、报告、图表等分析结果,为客户决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
平台采用SaaS模式,通过运行一个负载均衡的具备权限验证功能的平台来为众多的客户同时服务。
每个客户的业务数据被单独存放,同时提供使用可配置的元数据来为每-个客户提供其自身需要的独一无二的用户体验和客户定制。
通过这样一个成熟度模型,SaaS系统在其后台运行的服务和业务实例可以在不修改系统架构的基础上随着需求动态的增加和减少,任何的系统变动和修复可以轻而易举的同时作用于大量的客户环境中,就如同只为单一客户服务时一样简便,从而实现轻易支持-个相当大的客户数目。
正是因为SaaS模式应用这种方便的“可重用性”,实现了高效率低成本运营。
2.2.业务架构
2.3.技术架构
系统从架构层次上分为数据处理层、应用层、平台层、数据层、基础设施层5层。
数据处理层,承载舆情采集,数据清洗、信息分类、舆情分析;
应用层,承载核心应用系统,包括舆情动态呈现、舆情分析结果呈现、舆情监控管理、舆情报告以及事件处理等。
所有应用系统要求采用统一的JavaEE架构研发,使用轻量化、强扩展的框架,可快速根据需求构建及部署;
平台层,使用JavaEE平台,要求实现“writeonce,runeverywhere”,支持Tomcat、WAS、Weblogic、BES等主流WEB中间件;
数据层,要求使用MySQL关系型数据数据库进行数据的存储,使用Redis分布式缓存实现高并发数据的快速存取。
基础设施层,要求基于PCX86平台或刀片机,支持独享服务器、云化虚拟服务器,支持Linux或Unix主流操作系统。
2.4.业务流程
系统通过监控全国热门论坛、国内新闻、微博、微信、各大门户网站的敏感数据及热点话题进行爬取;
用户结合自己关注话题指定采集源(关注的网站、论坛等),并结合管理需求确定关注话题;根据实际情况,配置关键字及辅助定性的敏感关键字,系统将采集到的数据智能分类并由页面进行预警;
根据极少数已定性的舆情结合实际情况可重新手动归类,并下达任务到具体分支机构处理.
系统业务流程图
3.功能设计
3.1.整体任务规划
针对各政企事业单位关注的板块不同,对采集范围及关键字进行整体规划,分类管理;能够结合当前热点话题及舆情动态,实时调整舆情采集点;
3.2.舆情信息采集
3.2.1.采集渠道
8个渠道,分别是新闻、电子报、论坛、贴吧、微博、博客、问答、微信。
3.2.2.采集内容:
人物&组织&事件
Ø以关注点为核心拓展采集内容,以使用人员关注点为重心,增加舆情采集的内容范围,同时支持内容自助增加模式
3.2.3.采集技术
3.3.舆情信息处理
系统按照各信息源表现出的原始形态,例如新闻网页、论坛网页等形式呈现采集信息,原始网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。
同时数据呈现按照各自信息源排列规则出现,需要系统分别去识别标题、来源、作者、发布时间、正文等,要求对信息预处理形成统一格式供后续的决策分析。
预处理包含超链分析、编码识别、URL去重、锚文本处理、垃圾信息过滤、关键字抽取、关键信息提取、正文抽取、自动摘要;
3.3.1.双重过滤机制
第一重过滤:
自动过滤出与“我”有关的舆情;
第二重过滤:
自动排除与“我”有关舆情中不具有舆情价值的信息;
双重过滤系统将重要舆情过滤出来,将不具备舆情价值的信息排除掉,更有利于舆情影响和舆情价值的分析,舆情工作变得有的放矢。
3.3.2.自动摘要
能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。
用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。
而且该智能摘要可以根据用户需求调整不同长度,满足不同的需求。
主要包括文本信息摘要与网页信息摘要两个方面。
包括以下步骤:
⏹原始文本处理:
按照计算机能够识别的形式输入文本信息,比如:
键盘输入、手写录入、文本扫描、图形识别、语音识别等。
⏹词语权重计算:
对原始文本信息中的"关键词"进行词频统计。
⏹句子权重计算:
根据句子中词频等信息计算句子权重。
其标准为:
句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。
⏹文摘句提取:
对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。
⏹文摘句输出:
将所有文摘句按照它们在原文中的出现顺序输出。
3.3.3.自动聚类
采集回的互联网数据包罗万象,系统定期对采集回的互联网数据进行自动聚类,形成近期互联网上最新、最热、敏感等话题。
自动聚类是基于相似性算法的自动聚类技术。
根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词,包括最热话题、最新话题、敏感话题。
主要包括以下几个步聚:
⏹特征提取。
⏹建立聚类相似矩阵,因为相似度是定义一个聚类的基础。
用算法进行聚类。
3.3.4.自动分类
采用向量空间模型(VectorSpaceModel,简称VSM)建模技术,将行业字典中的词汇转化为数学向量空间构建分类模型
使用k最邻近(k-nearestneighboralgo-rithm,简称kNN)算法构建原因识别器,根据模型中的词频率和权重相关算法定位分类路径,实现信息自动分类。
3.3.5.舆情信息正负面判断
传统的基于关键字匹配的关键字信息过滤,常常导致大量正面信息被封杀,本系统基于统计和机器学习的文本过滤技术,以及独具特色的文本的褒贬倾向分析技术,准确识别正面和负面信息。
本系统能自动研判并且统计政要领导人物的正负面信息、地区形象的正负面报道等。
3.3.6.主题跟踪
主题跟踪主要是指针对热点话题进行信息跟踪,并对其进行倾向性与趁势分析。
跟踪的具体内容包括:
信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素。
其建立在倾向性与趁势分析的基础上。
3.3.7.舆情全文检索
利用先进的全文检索引擎技术,提供舆情新闻检索和论坛检索功能,可按提供近义词、同音词、拼音检索、热点检索词等智能检索功能。
舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。
每个维度下把搜索结果自动分类统计展示信息,使用户用最短的时间搜索到最精确的信息。
3.4.舆情分析
3.4.1.热度分析
可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。
同样也提供热点帖子、热点专题等功能。
Ø热点专题统计:
热点专题总体分布、重点预警事件总分布、各类重点预警事件分布。
Ø站点统计:
可统计各采集站点的采集文章数、统计各论坛站点的采集文章数。
Ø热点人名:
系统自动抽取文章中的人名,并按该人名出现的文章次数进行统计,可查看热点人名的传播趋势。
可按日期查询热点词语。
Ø热点地名:
系统自动抽取文章中的地名,并按该地名出现的文章次数进行统计,可查看热点地名的传播趋势。
可按日期查询热点地名。
Ø热点机构:
系统自动抽取文章中的机构名,并按该机构名出现的文章次数进行统计,可查看热点机构的传播趋势。
可按日期查询热点机构。
Ø热点词语:
系统自动抽取文章中的热点词语,并按该词语出现的文章次数进行统计,可查看热点词语的传播趋势。
可按日期查询热点词语。
3.4.2.倾向性分析与统计
对信息的阐述的观点、主旨进行倾向性分析,以提供参考分析依据,分析的依据可根据信息的转载量、评论的回言信息时间密集度。
来判别信息的发展倾向。
3.4.3.趋势分析
通过图表展示监控词汇和时间的分布关系以及趋势分析,包括地域信息分布。
以提供阶段性的分析。
如:
信息传播的区域分布,转载量与转载网站类型等。
3.4.4.突发事件分析
突发事件不外乎有以下几种:
自然灾害、社会灾难、战争、动乱和偶发事件等等。
对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。
3.5.舆情预警
实时监测,及时传送,提升舆情处理效率,对突发事件、涉及内容安全的敏感话题及时发现并报警,系统提供多种报警方式。
3.6.舆情报告
总结分析,掌握概况,为决策提供科学依据.搭建报告模板,通过云平台获取基础数据,并自动进行统计工作,仅需很短的时间就可以生成可以下载的报告,同时提供自定义的报告报告需求.
4.非功能性设计
Ø保证舆情系统的稳定、安全、顺畅性是基础
4.1.系统性能
●认证、首页响应、前段查询功能:
响应时间不超过3秒
●报表展示:
对于90%以上的报表,从发出页面请求,到完整展示的响
●应时间应小于5秒
4.2.可靠性
●系统监控:
实时掌握系统的运行状况,对故障做出快速反应
●可维护行:
系统和文件数据备份,系统重新启动后能够正常处理
4.3.安全性
●身份认证和访问控制:
具有用户和权限的管理功能
●账号管理:
提供系统管理员、业务管理员账号
5.项目实施计划
项目阶段
工期
任务
阶段性成果目标
需求调研分析与设计
1个月
需求调研分析与设计
完成需求分析报告与设计报告文档
研发
阶段
4个月
完成关键技术的实现、核心模块开发和测试
(1)完成产品设计、开发及测试鉴定工作。
(2)完成产品关键技术实现
(3)完成产品技术指标测试鉴定
试用阶段
1个月
完成产品试点
(1)完成试点应用,收集用户使用意见
(2)优化和完善关键技术指标
6.项目质量控制
为保证项目的质量,由年华Q/A团队负责本期项目的质量控制工作。
按照公司及项目组内部的各项规程和约定,依计划对项目的进度和过程进行验证,并把质量保证活动及结果通知到项目经理和其他相关小组负责人。
项目经理应在优化项目完成后提交客户满意度调查表,由用户对优化情况进行评估。
7.年华公司简介
贵州年华科技有限公司于2001年11月22日成立。
是一家主要从事信息技术与信息服务的研究、开发与推广,具有自主知识产权和明确市场定位的民营高科技企业。
公司熟悉国家政策与产业情况,对贵州本地移动市场状况有深入了解,拥有计算机、网络通信、系统集成、业务运营等各领域优秀的专业人才,具备当前移动网增值业务及其他相关领域的先进理念和核心技术。
贵州年华具备移动增值业务合作的专业资质:
✓增值电信业务经营许可证:
2004年8月信产部颁发;
✓贵州移动业务集成商资格证:
2007年8月贵州移动颁发;
贵州移动集团业务代理资格:
2009年6月贵州移动授予。
8.售后服务
我公司致力于提供高效的IT解决方案和服务,帮助行业客户应对市场变革,构建更为稳固的最终用户关系和更为创新的最终用户体验,一贯把服务放到与集成和软件同样重要的地位上,始终把满足客户需求、提供全面服务作为宗旨,在不断的发展和完善过程中,解决您的技术疑难,帮助您的系统稳定运行。
年华承诺服务于该项目的技术人员提供7*24小时技术支持服务,在项目现场设立一名专职的运维工程师提供现场服务。
9.公司资质及大型软件实施能力
9.1.公司技术资质
9.2.大型软件实施能力
9.2.1.贵州移动14计费网乐享100平台
我公司于2014年实施了贵州移动14计费网乐享100平台项目,该项目合同金额315万。
9.2.2.西藏移动乐享100平台
我公司于2013年实施了西藏移动乐享100平台二期项目,该项目合同金额360万。
10.相关案例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 舆情 监控 系统 项目 技术 方案 建议书