媒体大数据应用平台建设需求书.docx
- 文档编号:2968414
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:40
- 大小:41.74KB
媒体大数据应用平台建设需求书.docx
《媒体大数据应用平台建设需求书.docx》由会员分享,可在线阅读,更多相关《媒体大数据应用平台建设需求书.docx(40页珍藏版)》请在冰豆网上搜索。
媒体大数据应用平台建设需求书
媒体大数据应用平台建设需求书
1.项目概述
2.
1.1项目背景
招标方为了贯彻落实中央关于媒体融合发展的战略要求,积极应对互联网、移动互联网对媒体行业传播模式和用户需求的改变,储备生产、传播平台的数字化转型所需的大数据基础设施、数据和技术资源,打造融合媒体发展的大数据资源基础应用平台。
根据招标方的战略定位和业务特点,本项目所涉及数据及相关数据处理技术、机制均以英文内容为主要对象,中文内容为辅,同时兼顾其他联合国工作语言。
1.2建设目标
本期主要建设目标包括:
1)建立支撑媒体大数据业务分析能力,以及与之相匹配的云计算支撑资源体系。
2)
3)建立支撑精准传播业务的基础数据库和知识库,包括传播主体(含媒体机构大V等)和受众实体数据库、多维内容实体数据库和多样化的支撑知识库,以及动态更新体系和呈现体系。
4)
5)建立支撑智能生产和精准传播的应用样板。
6)
1.3建设工期
根据工程需要,中标厂商将从中标之日起9个月内根据招标人需求完成项目的需求实施、测试、与上线工作,上线试运行3个月后完成项目终验。
整体工期为12个月,并提供后续的运维实施服务。
3.业务需求
4.
立足招标方核心业务,利用全球互联网媒体大数据,分析影响重要事件全球传播的关键因素,为媒体对外传播提供全球传播分析和决策辅助。
采集全球媒体互联网数据,包括可利用的主流互联网商业数据(包括但不限于浏览器数据、搜索引擎数据、通过API获取的社交媒体全景数据以及第三方商业数据库数据等),媒体机构和社交媒体用户发布的数据,发现和甄选符合各地区、各领域的传播主体,全维度分析传播主体,建立传播主体精细画像。
发现和监测社交媒体等融合新媒体渠道中的关键传播主体,进行多维精准刻画。
按照重大事件、活动、议题设置等特定需求,根据传播主体自身及其粉丝属性等特性,圈定可用的传播主体,通过不同渠道进行内容推送和投放,形成传播影响力。
以媒体大数据为基础,通过认知计算和机器学习等智能化手段,构建成规模的智能化内容识别、匹配和自动化推送体系,实现向互动社区、社交平台的精准内容推送和评价。
2.1业务应用场景需求
根据本项目业务需求框架,结合专业媒体行业领域的研究和相应的技术,构建具有可行性的传播业务场景实现能力,在本期项目中需实现如下精准推送业务场景:
1)海外目标群体识别及内容精准推送
2)
●通过对海外主流媒体信息数据使用大数据技术初步分析、掌握全球各区域热点事件及关键词,建立海外目标群体筛选辅助信息;
●
●利用热点事件和关键词在社交媒体中进行目标筛选定位,识别相应类别意见领袖、相关机构及其粉丝群体,并进一步分析目标特征,形成实体对象画像;
●
●监控特定社交媒体目标动态并进行发布信息关键词提取,提供可推送信息筛选依据,并对其进行关联信息精准推送;
●
●能够对推送信息目标进行持续跟踪分析,掌握推送效果。
●
3)海外目标群体实时信息快速推送
4)
●依据待推送信息关键词与目标群体实时动态发布信息进行监控,当找到带有相关关键词的目标后,对其进行相关信息精准推送;
●
●能够对推送信息目标进行持续跟踪分析,反馈推送效果。
●
5)投标人应能够基于本期建设成果,保障后续能力支撑:
6)
●传播预测分析及影响力评估
●
能够基于监测内容及推送信息跟踪结果,利用大数据工具分析,可以对未来传播热点及趋势进行预测;基于监测内容及推送信息跟踪结果,利用大数据工具分析,可以对传播内容的影响力进行评估。
●内容生产制作预测
●
能够基于监测内容及推送信息跟踪结果,利用大数据工具分析,通过目标特征提取分析,依据其偏好和习惯进行信息提供符合不同地区、不同文化、不同职业、不同年龄的受众特征分析结果,实现对个性化内容生产的辅助决策,以获得最佳内容宣传效果。
2.2服务业务场景能力
应具备但不限于以下内容:
●全球各地区重要事件热点实现洞察分析
●
●全球各地区社交媒体意见领袖洞察分析
●
●向主要社交媒体意见领袖的关联内容、评论内容推送
●
●对社交媒体上机构、大V发起话题的互动
●
●对推送后形成的交互效果、干预效果进行监测和评估
●
2.3业务实现核心建设功能要求
应具备但不限于以下内容:
●传播主体发现
●
通过监控社交媒体用户数据(包括但不限于相关报道发布量、浏览量、转发量、评论数、粉丝量等数据),分析出各地区、各领域的传播主体。
●传播主体精细画像
●
根据传播主体分组,对传播主体进行360度全维度分析(包括但不限于知识领域、对华倾向、主要观点、关心话题、个人喜好、关注对象,粉丝属性等属性),进行精细画像。
●传播主体关系发现
●
监测和分析传播主体之间的关系,构建关系网络。
5.项目建设总体设计要求
6.
3.1准推送业务场景设计要求
根据平台业务需求框架,结合媒体行业专业领域的研究和相应的技术,构建具有可行性的业务场景实施方案。
业务场景设计应能够满足发现和合理利用网络中的传播主体(如:
社交网络意见领袖),通过定向推送定制化的内容,产生影响,实现对互联网、社交媒体等渠道进行有效精准传播等业务要求。
1、传播主体发现和转化
利用传播主体进行精准传播的前提是:
发现和运营传播主体。
2、精准传播过程
利用社交媒体进行精准传播,主要环节包括:
事前/事中造势、定向精准传播、舆论干预、效果评估等。
3.2媒体数据资源设计要求
结合项目实际需要,充分考量数据来源的权威性和代表性、数据来源具备足够的覆盖广度和深度、数据资源的完整性、多样性以及开源数据与商业数据的互补性等要素,同时需要考虑对招标方现有数据复用的可行性。
数据源除了通过互联网可采集的网站、社交媒体、社区等开源数据之外,应提供包括但不限于主流海外浏览器数据、主流海外社交媒体分析数据、主流海外搜索引擎数据以及第三方数据供应商提供的用于满足项目数据有效性需求的外部商业数据源。
数据源应以英文为主,中文为辅,同时支持包括联合国工作语言在内的其他多语种。
3.3数据资源聚合和处理平台设计要求
1)媒体大数据基础平台设计要求
2)
大数据平台技术架构设计要求采用当前业界主流且技术成熟的分布式计算框架,能够集成当前市场主流且技术成熟的大数据技术组件,实现数据处理速度达到毫秒级。
能够同时支持流式和批量数据处理,支持离线和实时计算。
为了处理平台采集和汇聚的海量互联网数据需求,系统要求构建在开放体系架构的分布式大数据平台上,且必须可部署在应标方案所设计提供的公有云平台上。
平台要求与主流的大数据底层技术实现无缝兼容,如CDH、HDP、Apache社区Hadoop版本等。
平台要求提供多源异构的数据采集模块、实时/离线计算框架,简洁易用的开发环境和平台接口,提供大数据管理、开发和计算的能力,可支撑企业级数据仓库、用户画像、深度学习、文本分析及更多企业级应用的构建。
同时要求能够满足招标方内部核心业务数据价值,培育新的业务创新产业链,实现招标方数据应用的完整闭环。
3)扩容能力要求
4)
系统能够支持满足海量数据增长的线性扩展,提供无瓶颈的存储资源供调用,用户无需事先规划存储容量,无需担心存储资源扩容减容问题,支持超大文件存储,并发处理能力强。
5)接口设计要求
6)
系统应采用RestfulAPI标准进行相关公共数据及应用服务接口设计;
7)复用性要求
8)
系统应考虑招标方利用已有系统资源的复用(包括硬件资源、数据资源等),避免重复建设。
9)外部服务要求
10)
系统采集的数据,构建的分析服务等能力要求能够服务于外部系统。
11)多语言处理要求
12)
#数据源聚合和处理平台满足以英文为主,中文为辅,以及包括联合国其他工作语言在内的多语种处理要求。
3.4基础设施(公有云服务)设计要求
根据招标方的业务战略定位和实际应用需要,平台要求完整搭建在全球化的公有云服务上,并提供符合要求的安全保障体系。
1)全球业务落地能力
2)
·平台采用的公有云服务具备在全球各主要国家和地区提供高性能、高可靠服务的能力。
·
3)全球可信云服务
4)
·平台采用的公有云服务要求能够充分保障用户数据安全及用户数据隐私,能够提供用户设备与数据中心及数据中心内部的加密通信机制;能够提供反恶意软件以保证云服务和虚机的联机安全;能够提供入侵检测、拒绝服务(DDOS)攻击防护、定期渗透测试等技术来有效提高平台的安全性。
·
·平台采用的公有云服务要求符合国际和行业合规性标准,以及全球主要国家和地区的强制标准。
·
3.5资源的使用期限要求
为本项目配置、开发、租赁的云计算资源、应用组件、数据源等的使用年限不低于一年。
招标方对为本项目定制开发的应用组件、数据库拥有所有权。
7.数据资源需求
8.
4.1数据资源需求范围和需求量
按照项目需求,数据资源需要保证一定的广度、深度和及时性,需要采集全球主流新闻网站、论坛、社交媒体等不同渠道、多种语言的内容。
具体如下:
1.新闻网站:
需要涵盖全球大部分主流新闻媒体网站。
包括、但不限于全球以下主要地区,包括:
中国、美国、加拿大、英国、法国、德国、印度、澳大利亚、日本等。
覆盖国家数量不少于100个。
2.社交媒体:
包括但不限于Facebook、Twitter、微博等主流社交媒体网站,以及意见领袖的博客、论坛等站点。
3、基于浏览器、搜索引擎等平台获取的合规用户行为数据和内容数据。
4.其他第三方商业合作及购买数据接入,如,通过API获取的社交媒体全景数据,媒体机构和社交媒体用户发布的数据等。
5.多语言支持,英文为主,中文为辅,同时支持联合国工作语言。
6.#覆盖10万级全球主要社交媒体账号(必须包含、但不限于Facebook、Twitter、微博等),其中Facebook、Twitter等海外账号不少于70%。
7.每种社交媒体应用每月数据采集能力不少于100万篇,所有应用每月总采集量不少于200万篇,海外社交媒体账号采集量不少于总采集量的70%。
8.数据采集方式可以使用标准数据产品或自建爬虫。
标准数据产品指通过商务使用协议直接获得数据使用权并作为产品销售的。
要求Twitter、Facebook的数据采集使用标准化成熟数据产品方案。
9.具备利用全球主流互联网产品数据(如:
全球主流搜索引擎用户搜索行为数据、全球主流浏览器用户浏览行为数据等)分析全球各地区主要媒体机构,并持续监控能力。
要求能够定位全球不少于1万家重点媒体机构的数据采集能力,其中海外媒体机构不少于7000家。
10.系统日采集能力不少于200万条,日采集总量不少于50万条。
4.2数据资源能力需求
投标人应提供完整的针对互联网信息数据源的汇聚监控方案。
互联网数据资源汇聚可以自动抓取互联网上各主流媒体、主流论坛、主流社交媒体等的资讯,并对抓取的信息进行智能分析,为用户统一呈现不同来源的丰富的最新、最热资讯信息;同时可以根据特定所需定向抓取相关的资讯,包括通过接口或账号登入方式进行数据采集。
互联网文本采集基于系统中相关配置,采集需要的信息过滤无用的信息,然后清洗后的信息自动的被导入成相关格式的文件,然后进行索引。
1、互联网数据采集需求
●定制策略支持:
针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息采集;可以指定采集的网站、栏目、目录、层次和采集深度、采集时间间隔、占用带宽等;
●
●灵活的内容清洗策略:
可根据日期、内容关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 媒体 数据 应用 平台 建设 需求