电力大数据质量实时监控平台建设可行性报告0719改.docx
- 文档编号:9357868
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:37
- 大小:1.15MB
电力大数据质量实时监控平台建设可行性报告0719改.docx
《电力大数据质量实时监控平台建设可行性报告0719改.docx》由会员分享,可在线阅读,更多相关《电力大数据质量实时监控平台建设可行性报告0719改.docx(37页珍藏版)》请在冰豆网上搜索。
电力大数据质量实时监控平台建设可行性报告0719改
电力大数据质量实时监控平台建设可行性报告-0719改
LT
长到2020年的35ZB(1ZB=1000EB=1,000,000PB),10年将增长44倍,年均增长40%。
电力行业中数据量的增长也呈现出相似的态势。
近几年,电力行业信息化也得到了长足的发展,我国电力企业信息化起源于20世纪60年代,从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设,再到近年大规模的企业信息化建设,特别伴随着下一代智能化电网的全面建设,以物联网和云计算为代表的新一代IT技术在电力行业中的广泛应用,电力数据资源开始急剧增长并形成了一定的规模。
从长远来看,作为中国经济社会发展的“晴雨表”,电力数据以其与经济发展紧密而广泛的联系,将会呈现出无以伦比的正外部性,对我国经济社会发展以至人类社会进步也将形成更为强大的推动力。
在大数据时代,对数据质量缺乏管理,就无法挖掘大数据的价值。
大数据的特点是3V,即大量化(Volume)、多种类(Variety)和高采集速度(Velocity)。
大量化意味着传统的数据质量算法,除非有非常大的性能提升,是难以用在大数据环境下的,因为扫描一次的时间可能都是无法接受的;多种类更增加了这种难度,因为传统的数据质量算法基本上是基于关系数据的,对于象XML、文档、图数据等等类型,目前还没有太好的数据质量算法;高采集速度更是一个严峻的挑战,因为采集过程本来就是数据质量问题的主要来源,采集速度快,又不能及时进行数据质量处理,会导致数据质量问题的堆积,越来越严重。
2.3项目的示范效应
根据我国“十二五”规划纲要明确提出“依托信息、控制和储能等先进技术,推进智能电网建设,构建安全、稳定、经济、清洁的现代能源体系”。
该项目的成功实施可以帮助提升广州市乃至广东省电力企业在智能电网大数据方面的技术实力、应用能力以及服务水平,有利于促进我省智能电网的发展,推动清洁能源的利用与我国经济社会的可持续发展,具有良好的示范效应。
2.4预期项目经济及社会效益
麦肯锡研究报告《大数据:
创新、竞争和生产力的下一个前沿领域》中指出,大数据的应用具有显著的财务价值,而作为天然联系千家万户厂矿企业的中国电力工业,其所产生的电力大数据价值尤为宝贵。
电力数据以其同用电客户的紧密耦合可以实现对用户360度的精确定位,电力数据以其同国民经济的紧密耦合可以实现对区域经济走势的准确还原,电力数据以其同电力生产的紧密耦合可以实现对电力设施设计、生产阶段的反馈指导。
总之,电力大数据的有效应用可以面向行业内外提供大量的高附加值的内容增值服务。
根据德克萨斯大学针对数据有效性的一项研究表明,企业通过提升对自身数据的使用率和数据质量,能够显著提高企业的经营表现。
根据研究提供的数据,如果企业数据使用率提升10%,电力行业中企业人均产出将能够提升18%左右。
而数据质量的提升,将会对企业产生更为显著的影响。
根据德州研究提供的数据,如果企业数据质量提升10%,电力行业受益最为明显,净资产收益率(ROE)提升幅度为218%。
本项目的实施期为2年,将研发出业内领先的大数据质量处理技术及相应的系统平台。
同时项目的实施有明显的社会促进意义,效益明显:
1)提升和巩固我省大数据应用领域在国内外的先进乃至领先地位,推动大数据真正发挥价值、创建创新型广东做出积极贡献;
2)通过申请专利或软件著作权、在国内外重要学术刊物和会议上发表论文等,有效保护国家的核心技术利益,提升在相应领域的话语权和知名度,为我省企业以及有关从业人员赢得应有的国际国内声誉做出积极努力;
3)有利于增强和保持项目依托单位相关领域产品在市场中的引领地位,提高有关产品的技术水平、市场竞争力和市场占有率,促进项目依托企业以及关联产业整体发展。
1.项目实施方案
3.1项目可行性分析
1.经济可行性
随着南方电网各分子公司的业务发展及企业信息化系统建设的不断完善,同时也建设了总网级的数据中心,为决策提供辅助依据,为管理提高效率。
但是数据质量成为各信息化系统及数据中心发挥其作用的制约,并且在大数据逐步成为主流的前景下,建设电力行业大数据质量监控平台是适应南网及各分子公司的信息化应用现状及发展的需求。
广州科腾公司股东和管理层也高度重视技术研究开发机构的建工作,研发机构各方面建设已经具有较好的基础,在资金上有充足的保障,项目在经济上具有可行性。
2.技术可行性
公司自2007年起组建技术研发团队致力于电力信息化事业,以持续提升供电企业核心价值为己任,为电力企业提供全面有效的信息化解决方案。
2010年开始,科腾公司把握产业发展机遇,围绕新兴领域和新的业务增长点开展预先研究,通过承担一批智能电网、新能源领域的业务具备了一定的研发实力和技术基础。
目前,公司从事技术开发专业技术人员有317人,公司的典型客户有南方电网公司、广东电网公司、广州供电局、东莞供电局、中山供电局、惠州供电局、潮州供电局、汕头供电局、江门供电局等。
公司在大数据技术方面也通过产学研的策略来提升实力,“智能电网大数据应用创新实验室”是由广州科腾信息技术有限公司、南京大学计算机科学与技术系共同创建,并于2013年11月正式成立。
该实验室拥有的技术团队,是国内最早开展大数据技术研究的技术团队之一,其在hadoop底层优化等方面的大数据技术属于国内领先地位。
实验室已完成基于开源技术大数据技术架构搭建,并作了优化封装。
3.2设计原则和技术特点
采用大数据并行化处理解决方案,系统设计须遵循以下设计原则并具备以下技术特点:
(1)实时性:
系统需要能准实时完成增量和全量电网数据质量校验处理,保证处理不会出现数据堆积现象,根据所配置系统的规模、所输入的数据量和校验规则的数量,提供不同时间窗口的准实时数据质量校验处理,并完成数据质量校验结果输出和数据统计报告。
(2)高可靠性:
系统应采用目前业界成熟可靠的大规模数据处理平台和技术,需要考虑数据存储和计算时的系统可靠性,具有节点失效检测和恢复的容错处理能力,保证不出现系统瘫痪和数据出错现象。
(3)高可扩展性:
系统构架和方案必须具有高可扩展性,保证在将来应用系统规模扩大时能根据需要随时增加节点以扩大系统的数据存储能力和计算能力。
(4)高可获得性:
项目使用市场上标准的普通商用服务器,采用标准的网络构建云计算平台,云计算平台通用性强,且任何节点损坏都易于更换和维护,避免使用专用的、价格昂贵的服务器;云计算系统软件尽可能采用业界广为使用的开源系统,既节省软件费用,也易于获得。
(5)高性价比:
采用价格不高的普通服务器,大大节省系统的构建和维护成本,同时通过云计算平台的并行化计算能力可提供比传统方案更高的计算性能,获得很高的性价比。
(6)全业务支持:
对电网大数据采用分布存储,而少量数据关系复杂或实时性要求很高的关键技术指标统计数据存放于关系数据库,采用这种分布式海量数据存储为主、关系数据库为辅的混合式数据存储模式,可存储各种不同规模和类型的数据,满足各种不同的数据处理和应用业务需求。
3.3项目主要研究内容
本项目的设计将采用基于Hadoop生态系统的的大数据存储和并行计算系统解决方案。
作为本项目的总体解决方案所采用的核心技术和支撑系统,Hadoop提供了面向大数据并行处理的三个层面的支撑:
1.大数据存储和高性能并行计算平台和基础设施(ClusterInfrastructure)
为了克服MPI等并行编程方法存在的缺陷,在对付大规模数据并行处理时,HadoopMapReduce技术采用了对大数据分而治之的并行处理思想;在此基础上,MapReduce用市场上极易获得、但性价比较高的普通商用服务器,构成一个包含数百至千个节点的海量数据存储和高性能并行计算集群。
因此,MapReduce及其地产存储系统(包括HDFS和HBase)首先代表了一个为上层应用提供数据存储和计算资源的并行计算集群和平台,为整个应用系统提供了并行计算基础设施。
2.并行计算软件框架(SoftwareFramework)
HadoopMapReduce提供了一个庞大但设计精良的分布式数据存储和并行计算软件构架,能自动完成分布式海量数据的存储管理,能自动划分计算数据并调度计算任务,在集群节点上自动分配和执行子任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算中的很多复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
该并行计算软件框架将为应用系统的开发和运行提供强大的功能支撑和运行环境。
Hadoop并行计算软件框架主要包括分布式大数据文件系统HDFS、结构化/半结构化数据表存储管理系统HBase、以及MapReduce并行程序执行框架。
3.并行程序设计模型与方法(ProgrammingModel&Methodology)
MapReduce在总结了诸多流式大规模数据处理特征的基础上,借鉴了Lisp函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口,通过该模型和接口,程序员仅仅需要描述“做什么”,而不需要关注具体“怎么做”。
这种高层的并行编程抽象模型和方法使得程序员可以致力于最核心的应用系统业务逻辑的设计和编程实现,而不必关心很多系统底层的编程处理,从而大大简化了应用系统并行程序的设计和编程实现。
基于以上的并行计算基础设施、并行计算软件框架和并行程序设计模型和方法,我们可以方便有效地完成海量数据并行处理算法和应用程序的设计和开发。
电网大数据处理系统将基于云计算系统构架设计实现。
如下图所示,按照公认的云计算构架,整个电力大数据处理系统将划分为三个主要层面:
基础设施层(IaaS)、平台层(PaaS)、以及软件服务层(SaaS)。
电网大数据处理系统总体构架
IaaS层主要提供电电力大数据分布存储和并行计算集群、数据采集和预处理服务器、以及提供Web访问服务的Web服务器等基础设施。
PaaS层主要包括分布式存储和并行计算系统软件,其中,主体系统软件将采用Hadoop海量数据分布存储和并行计算系统;与此同时,未来随着更多的高实时性数据处理应用和服务需求的出现,系统将逐步考虑在现有的Hadoop构架下,在需要时集成并使用目前全球最新的大数据处理系统Spark,充分利用该系统中多种大数据计算模式和子系统(如流式计算、内存计算、迭代计算、图计算、数据分析挖掘等),以满足电网大数据各种的处理需求。
大数据存储将采用一种混合式存储模型,大容量的电网大数据将存储在Hadoop的分布式数据库系统HBase(结构化和半结构化数据)和文件系统HDFS(非结构化数据)中,少量的数据关系较为复杂的数据将存放在关系数据库中,而大量需要高响应查询分析的热数据将存放在分布式内存数据库中。
所有需要查询分析的数据将建立高速查询索引,并通过大数据查询访问接口提供更快速查询分析访问。
SaaS层主要包括基础服务和业务模型中间件软件、以及上层的各种电网大数据应用系统。
基础服务和业务模型中间件软件可包括基础数据查询分析服务、基础数据挖掘分析服务、应用系统管理支撑服务,以及监测大数据可视化管控模型和服务、监测大数据演变跟踪模型和服务、监测大数据预警模型和服务等与应用密切相关的业务模型与服务。
而上层应用系统可包括各个具体的电网大数据处理业务和应用系统。
3.4项目创新性分析
1.分布式计算体系应用在电力大数据质量监控中的应用,解决了数据质量规则检验复杂,难以进行全面快速的数据质量监控的难题。
随着hadoop等分布式计算架构的成熟,分布式计算已具备工业化应用的基础,但目前主要应用在互联网行业,分布式计算体系应用在数据质量准实时监控中的应用是电力行业分布式计算创新性应用点之一。
2.建立数据进行准实时监控的架构体系,将原有数据质量系统按天、周、月为单位的监控周期,缩小到准实时的分钟级。
3.利用分布式存储体系可以有效解决对数据质量问题数据的全生命周期跟踪的存储问题,通过hdfs存储技术解决传统关系数据库对于问题清单的保留与查询难点。
4.预期目标及验收指标
4.1预期目标
利用目前较为成熟和广为业界接受使用的Hadoop等大数据存储和计算技术和平台,替代现有的传统数据存储管理和计算平台,研究开发基于大数据平台的数据质量监控系统解决方案,并进一步研究开发相应的关键技术和系统,实现准实时的数据质量监控、统计分析处理、以及预警发布。
本项目针对电力大数据的特点,将监控系统平台划分为基础设施层、平台层以及软件服务层。
进而实现对电力大数据的实时采集、分布式存储和并行计算分析,能够提供包括基础数据查询分析服务、基础数据挖掘分析服务、应用系统管理支撑服务,以及监测大数据可视化管控模型和服务、监测大数据演变跟踪模型和服务、监测大数据预警模型和服务等与应用密切相关的业务模型与服务。
项目的实施主要实现以下两个目标:
4.2中期检查指标
完成项目系统初步的总体解决方案和关键技术体系。
完成技术论文2篇以上发表。
经济指标取得一个以上供电局的数据质量试点项目合同,取得直接项目销售收入在400万以上。
技术指标达到以下指标
1)完成营销模块设备域业务模型转换、业务规则检验大数据开发,交付一套可实际操作系统。
2)营销设备域的处理效率从原来的48小时提高到4小时内。
3)营销设备域关键接口处理时间:
8小时以上的提高到30分钟内
其他指标专利1项
论文2篇
4.3最终验收目标
1成果(级别、数量)
研制一套以分布式计算应用为研究基础的数据质量准实时监控应用系统,将原有数据质量系统按天、周、月为单位的监控周期,缩小到准实时的分钟级,预计达到国内领先水平。
对于约2.3亿记录,100G数据规模的系统,达到以下四个指标:
1)处理频率:
从原有每月处理1次提高到每天处理2次以上
2)处理效率:
全量处理从累计4天提高到8小时
3)实时增量数据处理:
千万级别以上的对象一次增量50万,30分钟内处理完成
4)关键业务接口处理:
8小时以上的提高到30分钟内,4小时以上的提高到20分钟内,1小时以上的提高到10分钟内
5)超高速大数据交换:
在10个节点的大数据平台内,3000万记录的数据交换不超过10分钟,2000万记录不超过6分钟
6)高可靠性的大数据平台:
主控节点出现故障时,HA节点3秒内完成漂移接管
2项目形成的论文(级别、数量)
级别:
学术期刊等
数量:
2篇。
3项目形成的专利和著作权(级别、数量)
级别:
专利
数量:
2项
级别:
著作权
数量:
1项
5项目建设过程中的人才培养:
通过数据质量准实时监控技术研究与应用,可培养和锻炼一支懂业务、熟技术的高素质数据治理专业队伍,可以显著提高项目组人员在分布计算及数据质量处理的理论与实践水平。
6项目经济效益
项目产品未来5年销售收入、利润目标
项目年份
第一年
第二年
第三年
第四年
第五年
销售收入(万元)
0
400
1000
2500
3400
净利润(万元)
0
30
150
800
1500
公司未来五年销售收入、利润目标
项目年份
第一年
第二年
第三年
第四年
第五年
销售收入(万元)
30000
32000
35000
40000
45000
净利润(万元)
1500
1600
1800
2500
3000
4.4项目进度安排
起止时间
工作内容
成果体现标志
2014/6-2014/9
关键技术研发阶段:
电网数据复杂多样,为了验证大数据技术在电网行业应用技术上的可行性和可靠性
论文1篇
2014/10-2014/12
研究开发基于大数据技术的数据监控和校验系统初步的总体解决方案和关键技术体系
论文1篇、
原型验证系统一套
2015/1-2015/3
数据质量营销模块设备域一个接口的大数据改造
营销模块设备域典型复杂接口大数据处理模块
2015/4-2015/6
数据质量营销模块设备域大数据改造
营销模块设备域大数据处理模块
2015/7-2015/9
数据质量营销模块客户域、帐务域大数据改造
营销模块设备域大数据处理模块
2015/10-2015/12
研究开发完整的数据质量监控系统,并研究开发配套的数据视图和规则交互生成技术和管理工具,对所完成系统进行上线测试运行和改进
技术专利2项
营销模块的大数据检验功能模块
2016/1-2016/3
产品化阶段:
针对最终实现实际上线使用的产品化目标,改进和完善系统,并将现有传统系统中运行的所有数据质量监控规则全线移植到新的系统中
大数据质量准实时监控平台一套
著作权一项
2016/4-
全面市场化推广,和持续项目的改进升级。
5.资金筹措及使用
5.1投资估算
本项目总投资950万,其中申请支持资金200万,自筹资金750万。
其中预计需要研发经费705万,预计需要市场推广相关费用245万。
具体预算支出请见5.3资金使用计划。
5.2资金筹措
本项目实施资金主要是通过企业自有资金筹措和申请专项经费获得。
如获批专项经费未能达到申请额度,由企业自筹资金补足。
我司近2年(2011-2013)累计总收入高达58000万,累计创造2000多万的税收,主营业务利润累计12000万,累计研发投入接近3000万,现金流稳定,根据2013年度财务审计报告可以看出,科腾公司的财务状况健康,现金充沛,因此,项目实施期内,本项目所需的自筹经费公司完全有能力提供。
5.3资金使用计划
科目
安排经费(万元)
省经信委资金(万元)
自筹配套资金(万元)
备注
一、研究开发费
705
150
555
1.设备费
100
30
70
1.1设备购置费
100
30
70
1.2试制改造费
0
0
0
1.3租赁使用费
0
0
0
2.材料费
30
25
5
3.测试化验加工费
0
0
0
4.燃料动力费
0
0
0
5.差旅费
50
20
30
6.会议费
30
15
15
7.职工薪酬(项目团队研究开发人员的薪酬支出)
385
财政专项资金无
385
8.劳务费
50
25
25
9.专家咨询费
40
20
20
10.国际合作与交流费
0
0
0
11.出版/文献/信息传播/知识产权事务费
20
15
5
12.基本建设费
0
0
0
13.其他费用(如有,必须展开列出具体科目和内容)
0
0
0
二、市场运营推广费
245
50
195
1.广告费
75
20
55
1.1.媒体投放
15
5
10
1.2展会营销
35
10
25
1.3渠道推广
20
5
15
1.4宣传物料
5
0
5
1.5其他(如有,必须列出具体支出内容)
0
0
0
2.职工薪酬(项目团队市场运营推广人员的薪酬支出)
80
财政专项资金无
80
3.劳务费
10
0
10
4.差旅费
50
20
30
5.会议费
30
10
20
6.其他费用(如有,必须展开列出具体科目和内容)
0
0
0
三、其他经费(如有,必须展开列出具体科目和内容)
0
财政专项资金无
0
5.4已投入经费
目前项目前期已投入50万元,已投入资金主要用于研发前期投入,包括人员开支、需求调研等费用。
序号
投资金额(万元)
资金来源
主要用途
1
30
公司自筹
研发人员工资性、福利性支出,差旅费,前期投入3个月调研,设计。
投入10人,平均1万/人/月。
2
20
公司自筹
软硬件平台采购(已购浪潮英信NF5270M3服务器5台)
合计
50
6.项目产业化应用的推进策略和优势分析
6.1项目的市场空间和目标客户群体
电力行业中数据量的增长也呈现出相似的态势。
近几年,电力行业信息化也得到了长足的发展,我国电力企业信息化起源于20世纪60年代,从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设,再到近年大规模的企业信息化建设,特别伴随着下一代智能化电网的全面建设,以物联网和云计算为代表的新一代IT技术在电力行业中的广泛应用,电力数据资源开始急剧增长并形成了一定的规模。
从长远来看,作为中国经济社会发展的“晴雨表”,电力数据以其与经济发展紧密而广泛的联系,将会呈现出无以伦比的正外部性,对我国经济社会发展以至人类社会进步也将形成更为强大的推动力。
6.2项目的商务运营推广模式以及开拓市场的创新性
公司自2007年起组建技术研发团队致力于电力信息化事业,以持续提升供电企业核心价值为己任,为电力企业提供全面有效的信息化解决方案。
2010年开始,科腾公司把握产业发展机遇,围绕新兴领域和新的业务增长点开展预先研究,通过承担一批智能电网、新能源领域的业务具备了一定的研发实力和技术基础。
目前,公司从事技术开发专业技术人员有317人,公司的典型客户有南方电网公司、广东电网公司、广州供电局、东莞供电局、中山供电局、惠州供电局、潮州供电局、汕头供电局、江门供电局等。
随着南方电网各分子公司的业务发展及企业信息化系统建设的不断完善,同时也建设了总网级的数据中心,为决策提供辅助依据,为管理提高效率。
但是数据质量成为各信息化系统及数据中心发挥其作用的制约,并且在大数据逐步成为主流的前景下,建设电力行业大数据质量监控平台是适应南网及各分子公司的信息化应用现状及发展的需求。
广州科腾公司股东和管理层也高度重视技术研究开发机构的建工作,研发机构各方面建设已经具有较好的基础,在资金上有充足的保障,项目在经济上具有可行性。
6.3项目产业化推广有效性分析
1.提高系统运算能力,促进供电企业业务系统的实用化水平
分布式实时计算技术的应用,解决了传统技术难以企及的问题,将业务系统的数据问题第一时间反馈给业务系统,在数据进入业务时就予以发现并提示,从源头上预防问题的产生,达到事前预防的效果。
直接促进业务系统实用化水平,间接达到提升客户服务水平、提高客户满意度的目标。
2.降低数据质量监控对资源的消耗
目前广州局的数据质量系统数据处理过程(数据清洗、校验、转换等)超过12小时,按照指定的规则发现问题数据隔天处理,由于问题发现的非实时性,一方面容易由于问题数据量积累而造成修正数据质量的工作量大,另一方面由于问题数据存在用于后续业务过程产生风险。
这样纠正错误需要耗费大量的人力、物力。
通过本项目的研究与应用,降低数据质量系统维护难度、降低业务系统处理问题数据的代价,从而降低人力、物力耗费。
7.项目已有基础与保障条件
7.1承担单位概况
广州科腾信息技术有限公司(以下简称广州科腾公司)成立于2007年8月,注册资本3010万元人民币。
广州科腾公司是一家以技术见长的高科技公司,2009年12月通过了广东省科学技术厅高新技术企业资格认定。
公司现有职工403人,其中技术人员(服务和研发)261名,接近公司员工总数的65%,每年在软件研发方面的投入高达1000万元人民币。
电力行业的客户群包括南方电网公司、广东电网公司、广州供电局、东莞供电局、中山供电局、惠州供电局、潮州供电局、汕头供电局、江门供电局等。
广州科腾公司依托对电力业务的深刻理解和对IT行业动向的准确把握,注重技术的先进性和独创性,专注电力信息化业务,通过先进的技术和产品,凭借不断增强的创新能力、突出的维护服
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电力 数据 质量 实时 监控 平台 建设 可行性报告 0719