农商行智能运维运维大数据平台方案.docx
- 文档编号:26463180
- 上传时间:2023-06-19
- 格式:DOCX
- 页数:54
- 大小:3.93MB
农商行智能运维运维大数据平台方案.docx
《农商行智能运维运维大数据平台方案.docx》由会员分享,可在线阅读,更多相关《农商行智能运维运维大数据平台方案.docx(54页珍藏版)》请在冰豆网上搜索。
农商行智能运维运维大数据平台方案
农商行
智能运维-大数据分析平台项目
方案建议书
第1章.项目概述
随着某农商行业务的快速发展,信息系统日渐庞大和复杂,当前行内的IT架构早已不是单一系统或是单一设备的单纯环境,伴随而来,是规模不断扩大的IT系统,日益复杂的系统架构,以及海量的IT运维数据。
数据中心运维管理难度和重要性也日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的运维管理体系。
面对这些新形势下的挑战,IT运维管理需要从原有的人工加被动响应,转变为更高效,更智能化的运维体系,为新形势下的IT系统保驾护航。
在数据大集中背景下,如何使组织和机构的IT数据进行整合,管理,维护,分析并使之再生效益,那就催生了“人工智能运维”(以下简称AIops),是一种将大数据分析和机器学习的技术应用于现代IT运维及业务运营管理体系中的概念,它为IT运维和运营提供了全新的管理思路。
智能运维AIOps,即ArtificialIntelligenceforITOperations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志数据,监控指标数据,告警数据,应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。
自动化运维在手动运维基础上大大提高了运维的效率,DevOps有效地提升了研发和运维的配合效率。
但是,随着整个IT系统数据规模急剧膨胀,以及服务类型更加复杂多样,"基于认为配置规则"的专家系统逐渐变得力不从心。
这是因为,自动化运维的瓶颈在于人脑:
必须由长期在一个行业从事运维的专家们手动地将重复出现、有迹可循的现象总结成为规则,完成自动化。
然后,越来越多的场景表明,简单的基于人为制定规则的方法并不能解决大规模运维的问题。
与自动化运维依赖人工生成规则不同,智能运维基于机器学习算法,自动从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼总结规则,以解决自动化运维和DevOps依然无法解决的问题。
换句话说,智能运维在自动化运维的基础上增加了一个基于机器学习的大脑,指挥着监测系统采集大脑决策所需数据,做出分析、决策并指挥自动化脚本去执行大脑的决策,从而达到智能运维系统的整体目标。
典型的智能运维场景包括:
∙异常发现
∙根因分析
∙趋势预测
∙容量分析
∙智能预警
∙联机交易分析
∙系统画像
本次项目的目标为在某农商行现有IT运维管理工具的基础上建设“人工智能IT运维系统”,帮助打破现有各个孤立系统中的运维数据孤岛,实现对某农商行的IT运维数据的全面采集及综合分析。
该项目除包含端到端可视化的IT数据展示、满足规模化智能化的运维需求、通过机器学习,做到故障智能化的定位和自动处理等功能。
此文档的目的是为收集、分析和定义某农商行“人工智能IT运维系统”的需求,提供建议技术方案、资源方案、实施方案等,并规划未来三年的平台发展蓝图。
第2章.总体方案介绍
2.1.方案概述
伴随着各种新技术的出现和管理复杂度的增加,IT运维部门将面临前所未有的挑战:
●来自传统IT及非传统IT系统的高度分散、多样和非结构化数据。
●基于科技技术在数字化业务中所扮演的重要角色,结合实际业务厘清IT应用和服务对企业在营收、成本和风险方面的影响度。
●预测在多大程度上技术能够支持不断变化的业务,为数字化企业领导提供基于技术的重要决策咨询。
●与业务保持同速,通常传统的IT运营流程无法企及,且需要尽可能规避由于提速所带来的风险。
当前,某农商行数据中心在集中的生产环境中,运行的服务器已达上千台,其上运行着重要的应用、数据库、中间件及各种辅助系统。
随着业务的发展,被管理对象不断增多,通过常规的IT运营技术及工具已经不能满足需求。
当前,IT部门主要通过人工的方式进行运行维护及问题检测,这种方式不但大大消耗了技术人员宝贵的时间,也无形中带来了各种操作隐患,并难以稳定的保证运维水平——靠人工检查已无法满足业务发展需求,无法做到及时发现故障,快速定位问题,日检及周检工作占用了大量工作时间。
方案将基于AIops人工智能运维系统框架-夏洛克SharpLook平台进行大数据分析平台建设。
在建设中将体现以下思路:
✓高效安全的集中式运维分析工具
⏹集中高效管理
通过高效数据采集手段,实现对现有IT环境的快速数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据集中高效的存储,查询,及可视化展示。
⏹智能自动化处理
如果故障或问题确定是由某个特定的原因引起,可进行自动监控、自动诊断,甚至自动维护。
通过机器学习方式快速区分故障,降低故障率,并通过智能的故障关联方式关联相关告警及信息,如变更记录、流程工单、监控指标等,降低人工维护的成本,并能对故障进行精确定位,加快故障解决速度。
⏹开放且符合标准的平台
平台提供符合业界标准的集成接口,其体系架构符合行业大数据的技术发展路线。
在架构中,已经采用了成熟的行业开源技术标准中的大量组件,并支持在后期的扩展开发中,统一采用某农商行的技术标准。
✓以应用为视角的业务系统管理
方案还考虑以应用为视角的业务系统管理更强调的是搭建业务系统相对应的IT应用端到端视图,能够便于运维团队从用户访问侧开始,经过网络、应用服务器到后端的数据库系统,实时并直观地掌握所负责系统的应用状况与性能。
同时,为了能够提高平均故障修复时间(MTTR),运维部门能够结合应用监控的数据和基础架构监控数据,利用平台的分析优化能力,快速定位出业务系统故障现象的根原因,甚至在用户未感知故障发生前主动发现问题并解决,从而提高业务可用性。
✓决策支持的大数据支撑
通过统一运维平台,建立支撑未来运维的大数据平台,提供支撑IT运维管理的分析数据。
产生面向系统运行的历史分析数据,为IT运维的决策提供强有力的支持。
可以实时对历史数据进行分析、挖掘来分析业务系统的发展趋势,为新业务的推出提供数据化的决策依据。
通过夏洛克SharpLook技术框架,并通过后期的优化开发,实现对某农商行IT运维分析需求,做到快速数据采集、灵活方便配置、动态阈值、容量预测、集中展示,并在系统出现问题时能够快速发现问题,定位问题,同时也将提供针对运维大数据分析的能力。
2.2.设计理念
本方案帮助用户应对IT运维管理中的常见问题:
Ø精细化告警:
海量告警中的有效告警
Ø追踪性能指标波动,分析连锁反应,找出根源组件、主机,并实现对未来容量的预测
Ø日志及数据追踪查询,快速提取和展示、实时分析运维中的关键KPI指标
Ø运维数据关联分析(指标,告警,日志,工单,变更,问题,CMDB配置库等),找出深层原因
Ø获得实时的安全/合规事件预警,快速响应
Ø应用的深度监控,及历史运行数据统计分析
IT运维分析中,通常需要关注以下几点:
•一个愿景:
通过通过运用人工智能和大数据分析技术,实现智能运维
•两个目标:
变被动为主动,从IT到业务。
通过ITOA平台的建设,让IT运维不再是被动的救火,并且能够通过积极的介入,更多地作为业务运行中必不可少的一个环节。
•三条主线:
提供对实时数据的分析及处理,通过对历史数据的挖掘,能够预测对关键运行能力进行未来趋势的分析及预测。
•四项能力:
在AIops平台中,必需具备数据挖掘、决策支持、故障快速定位、多角度的分析展示,才能为IT运营分析提供有力支持。
•五位一体:
面向IT运营的平台,更多地综合IT数据中心内部的运行数据,通过对运行数据的分析,获得运营支持的关键能力。
因此,数据的多方位集成是基础,通常需要的数据包括:
告警故障数据、应用监控数据、系统及应用日志数据、配置相关数据以及流程服务数据(如工单、变更等)。
通过IT运维分析平台的建设,可以实现的功能场景大致如下:
(1)快速信息检索/问题定位
IT运营分析平台通过收集各类数据源(包括:
操作系统,系统软件,数据库,应用的日志等),统一进行管理,不同于以往每次仅可查看数量有限的几种日志,运维人员可通过平台所提供的关键字,统计函数,单条件,多条件,模糊查找等功能,多个系统中快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。
(2)复杂多维报表,应用深度监控
平台将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,比如:
1.透视交易量,展示实时的交易系统指标,交易量,平均交易时长,交易成功率,返回交易码等,对核心交易系统交易超时事件进行告警,对核心系统异常错误进行告警,并在告警中带出关键相关交易日志。
2.透视应用接口调用状态,每分钟/每天对核心业务进行关键指标统计(如调用来源,调用量,接口处理时间等),体现端到端的运维的状态
3.监控实际用户体验,比如为Web访问日志创建数据模型,透视响应最慢的网页,显示最多的错误代码的等
4.另外,通过建立应用、系统、物理主机之间的逻辑从属关系,从而将平面的日志变为立体的日志。
通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。
(3)快速发现故障,精准告警
实时采集各类运维数据(日志,监控系统告警,性能数据等),通过历史数据的挖掘和分析,平台可以找出哪些告警和事件频繁一起出现,并认为是一类故障的告警,把多个报警和指标综合起来,同类的报警进行合并来推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。
(4)缩短故障解决时间
通过运维数据可视化(复杂多维报表,热力图)以及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易便捷。
(5)故障预测,事先预警
对运维数据进行数据挖掘,生成分析类报表,例如某些故障之间有时间上的先后关系,例如交换页不足,内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。
在故障产生真正业务影响前,告知运维人员事先解决问题。
2.3.平台规划
在运维平台建设的过程中,特别需集合某农商行的实际环境和情况对平台的建设进行规划,在建设中可以根据实际的使用场景需求分为以下四个阶段:
以上每个阶段对运维建设的不同需求,可以在未来作为建设的路线进行考虑。
项目一期
项目目标:
1.运维数据大集中。
打破各个运维系统的数据孤岛,采集当前环境中各类的运维分析所需数据,包含:
日志数据,IT流程数据,性能指标,告警数据,批量元数据。
采集监控性能数,实现性能数据的统一管理;采集关键业务日志,对业务日志进行数据分析,提取业务交易数据;对业务日志进行归档存储,实现统一的检索查询;
2.趋势分析。
分析历史指标数据阈值的配置问题,构建智能分析模型。
帮助构建智能基线模型,以及容量预测模型
3.可视化分析。
提供运维可视化报表,通过日志解析及可视化展现交易端到端监控,辅助决策支持。
4.通过智能算法,实现指标的智能预警和异常检测场景。
项目二期
项目目标:
1.对接统一事件管理平台,实现告警事件、业务数据、性能数据的汇总分析;
2.通过业务数据+事件数据+性能数据,实现多维度的业务分析、告警关联分析;
3.智能监控。
是建立基于动态阈值的性能监控,帮助运维人员更为灵敏、及时地发现性能指标异动,结合日志实现关联分析。
尝试部分场景精准告警,分析固定时间窗口内的报警彼此关联关系,建立根源报警和周边报警联系,辅助故障根源定位。
4.未来预测:
通过多KPI指标关联分析和发现,实现容量预测、故障预测、热点预测等。
5.故障诊断。
对故障告警进行根因分析,辅助快速定位故障根因,
6.实现故障根因分析。
项目三期
项目目标:
1.对接ITIL、CMDB系统,实现运维数据的大汇总;
2.通过业务数据和运维数据的整合分析,实现以业务驱动运维的管理能力。
2.4.平台框架
整体方案在逻辑上分为两个层次:
•现有IT运维管理平台(ITOM):
包括各专业监控平台,如系统监控平台、应用监控平台、流程管理平台等。
基于目前某农商行的现状,相关的IT运维管理工具包括:
⏹集中事件平台–金证事件集中管理平台
⏹系统监控–IBMTivoli监控平台
⏹网络监控–合名监控系统
⏹IT流程管理平台–BMCremedy
⏹配置管理库-BMCCMDB
⏹应用性能监控–天旦BPC
•智能运维-运维大数据分析平台(AIops):
该平台以ITOM平台为基础,构建在ITOM平台的上层,通过算法智能场景:
智能预警+异常发现+故障根源分析,专注在分析能力,更多地集中在快速问题分析、趋势分析、运营支撑的能力。
解决方案框架如下:
智能运维-运维大数据分析平台(AIops)通过采集和整合散落ITOM平台运维数据,通过高性能计算和分布式扩展性帮助在单一位置实现所有IT设施数据的实时监控、搜索和分析。
使某农商行可以可视化全局信息系统资源和健康状态,以及分析关键业务系统的指标。
2.5.平台特点
本次方案基于擎创科技的夏洛克大数据智能运维平台实现。
夏洛克平台提供AIOps各阶段需要的能力,具备多源数据采集、高效实时分析、机器学习能力,能够协助企业级用户一站式分析IT运维整体状况,实现跨域海量数据(如各类日志、性能指标等)的采集、集中归档及管理、挖掘关键指标、集中展示及分析,并通过“排障助手”、异常检测、趋势分析、故障关联及精准告警等智能运维手段,协助用户提高IT运维能力,降低IT成本。
●提供决策支持的大数据支撑平台
通过统一的运维系统,建立支撑未来运维的大数据平台,提供支撑IT运维管理的分析数据。
产生面向系统运行的历史分析数据,为IT运维的决策提供强有力的支持。
可以实时对历史数据进行分析、挖掘来分析业务系统的发展趋势,为新业务的推出提供数据化的决策依据。
●高效安全的集中式运维分析工具
•数据集中高效管理
通过高效数据采集手段,实现对现有IT环境的快速数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据进行集中高效的存储、查询及可视化展示。
•快速排障
内置分析算法,对相关的指标、告警及数据进行比对,协助运维人员快速发现异常,缩短问题解决时间,加快故障解决速度。
•开放的平台接口
平台提供符合业界标准的集成接口,其体系架构符合行业大数据的技术发展路线。
在架构中,已经采用了成熟的行业开源技术标准中的大量组件,并支持在后期的扩展开发中,统一采用某农商行的技术标准。
●经过验证的智能分析引擎
平台内置多种经过验证的人工智能算法,能够实现针对IT运维场景的故障分析、精准告警、趋势分析等,并提供算法外挂的能力,随时扩充平台的智能能力。
如果故障或问题确定是由某个特定的原因引起,可进行自动监控、自动诊断,甚至自动维护。
通过机器学习方式快速区分故障,降低故障率,并通过智能的故障关联方式关联相关告警及信息,如变更记录、流程工单、监控指标等,降低人工维护的成本,并能对故障进行精确定位,加快故障解决速度。
●以应用为视角的业务系统管理
产品本身还内置了以应用为视角的业务系统管理,通过配置直接可以使用。
通过搭建业务系统相对应的IT应用端到端视图,能够便于运维团队从用户访问侧开始,经过网络、应用服务器到后端的数据库系统,实时并直观地掌握所负责系统的应用状况与性能。
同时,为了能够提高平均故障修复时间(MTTR),运维部门能够结合应用监控的数据和基础架构监控数据,利用平台的分析优化能力,快速定位出业务系统故障现象的根原因,甚至在用户未感知故障发生前主动发现问题并解决,从而提高业务可用性。
●高可用性
运维大数据平台系统本身服务保证在99.99%的时间内能正常运行,服务中断时间一年内累计不得多于两小时。
运维大数据平台上部署的任何节点都需要采用双活的高可用模式,任何节点出现故障,运维大数据平台能够在分钟级发现故障并隔离,分钟级内将监控切换到其他节点,期间监控数据不丢失。
运维大数据平台设计采用合理架构,保证运维大数据平台系统故障不影响或尽可能少影响业务运行。
运维大数据平台系统软硬件系统故障须确保数据的完整性,不得出现数据丢失的情况。
●高性能
运维大数据平台整体架构设计需要充分考虑平台的高性能,平台能够支持并发用户数不低于100个,并发管理及监控服务器等实例不低于30000个,并发指标数不低于100万个。
运维大数据平台在性能类告警发生时,分钟级产生告警,容量类发生的告警时分钟级产生告警,可用性发生告警时秒级产生告警。
运维大数据平台数据库节点故障探测及自主切换时间不超过1分钟。
运维大数据平台窗口按钮平均响应时间不超过30秒钟。
若采用代理方式,代理在每分钟采集500个指标的工作情况时,占用的CPU不超过总CPU的3%,内存占用不超过200M。
采值误差不超过2%,采值时延不超过1s。
每天至少能够处理数T的新增监控数据,性能监控指标每秒至少可以入库3万条记录,日志数据录入峰值不低于800G/天。
持久化时间不得超过1s。
需要提供数据层调优参数窗口,重点参数在窗口调优后立刻生效。
提供数据层管理功能数据在线提取、备份和归档、保留周期、清理策略调整的窗口,调整后立即生效。
调用海量数据生成报表时,响应时间在可接受范围内,查看单台服务器前1天的报表响应时间小于30s,查看单台服务器,1个月内数据,响应时间小于1分钟;查看100台服务器1周内数据的报表,相应时间小于2分钟,查看100台服务器1个月内的数据响应时间小于3分钟。
2.6.平台技术能力
●海量数据采集能力
夏洛克ITOA具备多样且弹性的数据搜集方法,可以检索各种型态的IT运营数据,不限定数据样式,并收集来自各种不同的应用系统和网络设备。
通过利用所有数据(结构化和非结构化数据)来全面了解IT运维活动,其中包括:
事件、日志、告警、性能和任何指标。
•全平台支持能力-主流操作系统、数据库、中间件、容器、存储以及主流监控系统
•高吞吐秒采能力-海量数据实时,高频采集(秒采),每秒支持采集数万事件
•开箱即用的采集能力-提供开箱即用的采集模版,缩短数据采集定制难度
•自助监控能力扩展能力-支持自定义脚本/WebService接口扩展/网络端口监听等扩展采集方式
•其他能力–支持容错,流量控制,以及支持采集端资源控制、健康状况以及数据完整性检查,保障采集端的稳定性。
●图形化配置解析规则
图形化配置运维数据解析规则,用户可以通过图形化向导将复杂的数据数据格式,通过夏洛克平台预定义采集策略,解析并转化为数据存储所要求的规范化格式
支持解析策略包括:
正则解析,字段管理,类型转换,日期规范化,KV解析,大小写转换,UserAgent解析规则,URLDecode解析,替换规则,JSON解析,XML解析,分隔符解析
●丰富的开箱即用功能
为了让夏洛克更为方便实用,夏洛克内置大量针对常用运维系统的数据解析、分析、展示模版,运维人员只需要进行简单配置就可以采集及分析相关应用。
●全局索引和搜索
夏洛克具备快速自定义的各种型态搜寻,而不是只有固定几种的字段,不需要指定数据的格式,更可结合时间与关键词进行搜寻,呈现出清楚的搜索结果,使用上就像XX、Google一样的直观易用。
为方便运维人员使用,在支持SPL查询语法的同时,支持SQL语法查询。
•键入关键词后任意搜寻,支持类自然语言SPL和结构化查询语言SQL
•支持大数据量秒级搜索,实时收集/搜索数以百万计的数据字段
•支持全文检索,短语查询,字段值查询,逻辑运算符,计算及范围查询,排序等基本查询
•支持统计分析,子查询,事务合并查询,基线分析查询等高级查询
•可支持无限聚合的能力,即在生成统计聚合结果的基础上,再次进行统计和排序操作
•在搜索过程中提取和生成字段
•查询数据直接生成报表及仪表板,做到所见即所得
●多维(实时)报表及仪表盘功能
将各系统的运维数据进行统计分析并生成各类实时报表,对各类运营数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,以及帮助关联分析。
夏洛克平台提供强大的报表能力,能够将搜寻结果以各项清晰的图表呈现,更可弹性化地生成企业和机构管理层所想要的报告内容。
•无须透过其他工具,可直接输出报表
•可从多数据源中获取,并基于关键主键进行聚合关联分析和串联展示
•8种报表格式,如直方图、线性图、分区图、圆饼图、单点图…等
•支持向下钻取:
皆为动态报表,可随时点选并进行特定搜寻
通过实时和直观的仪表板/报表,达到运维可视化的目的,包括应用状态可视化、趋势可视化、故障可视化、异常可视化、影响可视化、业务KPI可视化。
●主动监测和告警功能
夏洛克ITOA运维大数据分析平台能够定期/实时执行,并依据搜寻结果发出各项警示通知,可以透过Email、脚本等方式链接其他管理接口,可触发执行自行定义的相应方式,例如重新启动应用程序、系统或网络设备。
•Email发送警告
•可制订不连续时间启动自动搜寻并发送警告
•可以呼叫script延伸应用
●排障助手
通过大数据分析算法,集中分析相关指标及数据,回放问题发生前各项指标状态,经关联分析相关性能指标和日志数据之间的关系,更快分析根本原因
•获得所有排障过程需洞察的所有数据源,包括日志分析,性能指标,运维流程数据(事件工单、变更数据)等
•以时间轴的方式回放数据,获得任一何时间点查看所有数据状态,以快速解决问题
•利用自动运维数据分析,查明根本原因
●智能分析引擎
平台内置多种智能学习算法,通过智能分析引擎,根据历史监控数据和告警信息,产生智能阈值模型、事件关联性模型,业务影响性模型、事件智能处理模型。
不断利用新生成的数据,对现有模型进行完善和优化调整。
根据历史事件的处理方法,总结规则,形成模型,主要针对如下几个方面:
●监控阈值的机器学习,逐步实现精准告警。
●事件关联性分析和业务影响分析。
●部分告警事件智能处理的智能运维。
●容量预测功能
●安全功能
企业、组织和机构的IT信息其重要性不言而喻。
而夏洛克ITOA平台可进行用户数据访问权限管理,安全管控,确保数据在存取、分析和稽核时不会破坏数据的完整性。
•提供用户联机与数据访问权限控制
•不变更原始数据的完整性
●银行的业务动态运行分析
夏洛克平台针对银行类的业务系统特别推出了针对业务端到端的动态运行图,将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如:
应用日志、交易日志、系统日志等)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,可以做到:
•透视交易量展示实时的交易系统指标-交易量、平均交易时长、交易成功率、返回交易码等,对核心交易系统交易超时事件进行告警,对核心系统异常错误进行告警,并在告警中带出关键相关交易日志。
•透视应用接口调用状态每分钟/每天对核心业务进行关键指标统计(如调用来源、调用量、接口处理时间等),体现端到端的运维的状态。
•监控实际用户体验比如为网页访问日志创建数据模型、检视响应最慢的网页、显示最多的错误代码等
•变平面为立
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商行 智能 运维运维大 数据 平台 方案