银行BPC应用检测系统概要设计说明书.docx
- 文档编号:22828062
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:12
- 大小:189.83KB
银行BPC应用检测系统概要设计说明书.docx
《银行BPC应用检测系统概要设计说明书.docx》由会员分享,可在线阅读,更多相关《银行BPC应用检测系统概要设计说明书.docx(12页珍藏版)》请在冰豆网上搜索。
银行BPC应用检测系统概要设计说明书
银行BPC应用检测系统
概要设计说明书
目录
第1章概述3
1.1基于网络数据资源的应用性能管理方法4
第2章系统架构设计8
2.1总体思路8
2.2概要设计10
2.1.1核心需求10
2.1.3解决的问题10
2.1.4图形化配置11
2.1.5关键指标统计11
2.1.6网络访问关系梳理11
2.1.7敏捷抓包11
2.1.8服务路径图12
2.1.9交易追踪12
2.1.10智能告警12
2.1.11接口设计13
2.3总体架构13
第3章风险分析15
3.1BPC交易性能监控平台风险15
3.2被管系统风险15
第1章概述
随着SOA(以服务为导向的架构)在企业IT组织中的广泛运用,IT运维人员需要一种有效手段能够对核心服务的性能进行管理,敏捷应对业务变化,掌握运维的主动性。
它不但需要能够真实刻画核心服务的运行情况,还需要能够跨越多种技术架构,并且囊括防火墙和应用交付设备。
同时,还需要易于建设和使用。
应用性能管理中的问题和挑战
●系统间相互孤立,格式不一,数据高度离散,缺乏关联性
监视数据源复杂多样,数据源来自不同应用程序、主机,及各种基础设施,差异大而管理复杂。
一旦出现问题,基础架构、中间接、数据库和应用分头查,但相互孤立,难以及时找出问题环节。
也缺乏技术手段,针对单个用户、单笔交易无法关联分析交易过程、操作过程,导致问题定位难。
有企业IT管理人员这样向我们诉说:
“我们处理查询慢投诉,召集了所有部门的负责人,处理了2-3小时,费神费力。
”故障诊断发生时,时间往往被耗费在无序的排查工作中,其中的主要问题在于:
一旦发生问题,多部门同时开始根据各自经验诊断;缺乏统一视角的证据支持,没有入手点;若无法达成共识,则需要进一步线索进行反复排查。
●采用Agent模式导致被管理系统性能下降,影响业务生产,难以获得实时性
Agent模式是传统应用性能管理的常用方式,在被管理系统、应用程序中通过部署Agent的方式采集数据源,达成追踪分析目标。
然而这种方式直接与被管理系统、应用程序产生了交互,也就是说监视数据的产生本身会消耗系统、应用程序资源,这往往会导致资源紧张,进而导致业务处理性能下降,甚至不少用户的业务应用因此而遭受了严重的中断故障。
也正因为如此,Agent模式在高负载量的应用系统中,很少开启实时监控,原因就在于存在性能影响的风险。
●同时监控管理系统往往需要专门开发,面对多技术融合的复合应用,开发周期长,落地困难,维护成本高。
在迅速发展的复合应用架构中,因为系统以及应用程序所采用的技术不同,在一个业务服务中,不同的服务环节往往需要使用多种技术的Agent进行数据获取,或者需要应对繁杂的日志格式。
这是传统监控系统所要面对的残酷现实,要达到性能管理目标,不得不持续投入开发资源,以应对被管理系统、应用程序的不断变化,并且要在这个过程中面对新的技术难题。
当IT规模不断扩展,业务保障要求提升,应用性能管理的工作压力暴增,过长的开发周期,实施落地困难,后期高昂的维护成本,使IT部门身陷泥沼,不堪一击。
1.1基于网络数据资源的应用性能管理方法
利用网络数据的应用性能管理平台使得这些问题迎刃而解,实时性、可关联、低成本、高可用成为这种平台的技术优势,给企业IT部门带来诸多收益。
应用性能管理着眼的是应用系统整体的性能管理,而非仅仅针对某个技术层次的“竖井”式的解决方案,因此从指标到覆盖范围,应用性能管理平台应该具备以下能力:
●网络数据资源丰富
在SOA架构下,应用服务层级划分非常清晰,层级间的交易全部通过网络传输完成,基础设施和交付设施本身都以服务为中心向应用提供界限明确的服务功能,采集设备可以轻松获得关键交易环节的网络数据,这给网络数据源的获取带来极大便利和灵活性。
目前网络数据的获取方式主要有两种:
第一种是专用流量镜像设备,例如TAPSwitch类产品,这些专用流量镜像设备为后端数据分析提供优秀的数据源整理功能,包括过滤、汇聚、分发类基础功能,以及数据包裁切、剥离/加载标签等高级功能,并且能够确保数据包先后顺序的准确性。
采用这种流量镜像方式可以在流量获取环节获得最大优势,为后端数据处理环节节省资源消耗。
另外一种是交换机端口镜像(SPAN)方式,这种技术起源于思科,是成熟、稳定的网络流量获取技术,已经普及于各大厂商的网络产品,包括思科、华为等等,具备十分广泛的可用性。
●采集设备技术成熟
而在网络数据采集环节,SmartProbe具备高性能数据捕获和存储能力,网络流量可视化的功能使得应用梳理工作变得简单易行。
为上层分析平台提供精准的数据源。
●监控平台的技术实现方法和提供的功能
上层应用性能管理平台则充分利用网络数据,通过协议解码技术,充分利用网络数据资源,帮助企业IT部门建立应用性能管理平台。
协议解码是上层分析平台的底层基础,应用性能分析的指标均来自于协议解码信息。
SOAP已经成为SOA架构中的主流技术,这些标准化协议的使用给协议解码技术带来了极大优势。
由于协议采用标准规范,解码器可以适用于所有SOAP协议的解码,而针对不同的应用环境,只需要配置化修改解码字段即可适用,不需要重新开发解码器。
也就是说在协议解码这个环节,可以广泛适用于SOA架构。
上层呈现针对业务逻辑和服务访问路径,采用图形化的配置方式完成,建立应用组件库,按照实际服务情况组合应用组件,建立端到端的服务路径图。
这是应用性能管理的主线,从而实现以服务为导向的监视管理,从关键指标数据的呈现,到数据分析过程中的导航,再到问题的发现和定位,都以这个服务路径图为中心实现。
在指标分析上,则以交易为中心,提供交易量、成功率、响应时间、返回代码四大关键指标,并区分交易类型、子交易类型、交易渠道进行指标统计。
在监视范围上覆盖端到端的应用服务组件,实现应用性能和可用性的多维度可视化。
其中应用层的返回代码也是应用性能管理的一项重要指标,监视不同层面的应用层返回码,可以为管理人员带不同的管理收益。
比如在WebService的返回代码中发现5XX类错误即表征Web服务出现故障;而业务层错误代码的状态则可以反映业务交易处理流程中可能出现异常状况。
通过协议解码,获得基础的性能信息以及更加深入的应用交互信息,基于此事件追踪查询功能,即支持快速简洁的时间、IP、交易类型、交易结果等基础信息组合查询,又支持应用协议中多字段组合查询,同时为一线运维人员和专家提供易用的交易追踪接口和深度解析能力。
而基于多层应用之间协议中的字段信息,进行自动化的交易关联,使得在服务路径上能够关联各层级应用组件,获得端到端的交易追踪查询能力,帮助IT部门快速定位问题原因和位置。
分布式的架构能够支持多中心模式应用。
企业IT建设多数据中心,应用架构也采用负载分担或主备模式运营,这给应用性能管理带来的问题就是需要跨数据中心进行监视管理。
分布式架构可以很好的支持这种场景,每个数据中心部署平台处理设备,分别在本地获取、分析、存储数据,然后将分析结果呈现在统一用户管理界面上。
这避免了在广域网上传输数据而占用大量带宽,同时又能够保证整体平台的处理性能。
第2章系统架构设计
2.1总体思路
本方案的设计要遵循满足功能需求,并具有高性能,高可靠性,高实时性,同时能够快速实施,易于使用易于维护,扩展性高、支持双中心双活架构,还要有强大的协议解码能力。
●高性能
能应对突发大量事件的处理能力,实时监控数据与历史数据分开管理。
当前应用监控系统在主流PC服务器架构下,能处理30万/分钟交易,即5000/秒。
●高可靠性
应用监控系统基于成熟稳定的64位Linux平台,通过高效可靠的解码引擎应对业务高峰。
●高实时性
应用监控系统是通过应用监控系统服务器网卡直接捕获业务数据包,实时性高。
从业务数据采集到分析结果最低15秒准实时展现当前系统的交易数据。
●快速实施
CrossflowBPC应用监控系统采用旁路式的监控技术不会对被管理应用产生任何影响,完全避免了传统监控方式所带来的性能风险,同时也可以获得快速实施的能力,第一时间为IT部门提供应用性能数据。
对标准协议和已支持的私有协议采用配置化的协议解码技术,以及配置化的应用服务定义方式确保可以灵活、快速实施。
●易于使用和维护
图形化编辑并展示应用拓扑关系,体现业务应用组件之间的依赖关系,自动化故障定位和告警,逐层关联,从监控告警故障定位到详细指标查看到多维度统计到交易追踪,易于使用。
系统状态自检和数据捕获状态自检,易于维护。
●可扩展
CrossflowBPC应用监控系统具有较强的扩展性,能够在包括管理范围、管理功能、管理对象数量等方面提供灵活、多样的扩展能力;可以适应生产系统新业务、新技术的要求,适应于系统未来发展的需要,并能与其他基于业界标准的软件进行集成。
应用监控系统可以在WEB页面通过鼠标拖拉即可快速构建应用访问路径,灵活的支持被监控业务架构的调整,快速满足对新增业务系统的监控需求,并支持主从模式的部署和扩展方式,满足双中心、多中心扩展部署,以支持双中心双活、跨中心应用的架构。
且随着系统规模、数据的增长,只需相应的增加服务器配置或者增加从服务器的部署,即可相应增强系统处理性能。
●解码能力强
快速支持银行业内通用业务系统的解码,如银行核心系统、网银、三方存管、零售贷款、二代支付、商业汇票、网银互联等银行内部常见的应用系统的解码。
解码协议支持包括并且不仅限于:
银行卡组织:
银联CUPS、VISA、MASTERCARD、AMERICANEXPRESS、JCB;
人民银行:
二代支付、网银互联、商业汇票、人行国库;
SOA:
WAS、WESB、WMQ、WMB;
中间件/核心:
WTC、CICS、SNA、CBOD、Flexcube、FiServe、TATABancs、SAP;
短信平台:
移动、联通、电信短信接口。
2.2概要设计
经过对银行业务系统的分析和理解,我们将应用交付监控系统的需求总结为以下几个方面。
2.1.1核心需求
●以服务为中心,全面可视化应用服务质量
●自动故障定位,在呈现应用故障对用户体验的影响的同时,指出导致问题发生的根源组件和原因
●5大关键指标、2个维度,具备灵活的多维统计,以及逐层关联的深入分析能力能够覆盖端到端的应用组件,并支持双中心架构应用的本地采集、分析,集中管理、呈现
●完全可配置的标准协议(如XML),应用服务支持配置化定义,无需开发,快速实施,可靠落地
●无代理,旁路式监控,不影响被管理应用,0风险
2.1.3解决的问题
●应用组件的性能、可用性、负载量监控
●交易量、成功率、响应时间、响应率、返回码精细化服务质量评估
●多维度分析不同交易类别、交易渠道的性能差异追踪应用性能指标波动,分析连锁反应,找出根源组件
●支持异构环境下的交易追踪查询,快速故障诊断和分析深层原因
●获得实时的异常、故障事件告警,提升运维响应速度
2.1.4图形化配置
●图形化配置界面,快速组合应用组件,形成服务路径图
●通用组件模块,根据环境配置组件属性和性能指标
2.1.5关键指标统计
●以时序图、快照方式展现统计值,指标数值变化趋势一目了然,同时可按需选取时间段统计汇总
●提供2个统计维度:
交易类别、交易渠道
●体现5大关键指标:
交易量、成功率、响应时间、响应率、返回码
2.1.6网络访问关系梳理
●自动呈现被监控网络数据的IP连接性,快速梳理应用组件之间的逻辑访问关系
●为BPC提供SPV定义的准确数据,以及应用层协议信息
2.1.7敏捷抓包
●自动识别服务器网卡设备,自动检测端口状态
●灵活选择以太网端口作为数据包捕获端口
2.1.8服务路径图
●ServiceDashboard,以服务路径图为中心,直观展现应用服务的业务逻辑和依赖关系
●实时呈现每个业务内部组件、主机的关键性能指标,集中体现服务运行质量
●TimeMachine时间轴,实时更新每分钟的服务运行状态,标识故障点,移动时间轴即可回放故障演变过程
2.1.9交易追踪
●可以通过查询接口,包括时间、IP、交易类型、交易结果等字段,以及自选的扩展字段,进行快速查询;也可以由多维统计视图直接关联查询
●在单个组件上,呈现每笔交易的详细信息,包括交易关键字(如流水号,可自选)、交易时间、交易结果、返回码等详细信息
●支持异构环境下的多层关联,自动关联多层交易记录,为每笔交易区分在每个组件上的时间消耗,暴露性能瓶颈
●提供单一关键字追踪分析,完整展现被查询对象的交易行为和每次交易的处理过程
2.1.10智能告警
●可配置的故障定位逻辑,使得告警模型可以按照实际业务模式进行定制,广泛适用于多种场景
●提供基准线功能,根据历史数据自动生成参考基准线
●支持阈值与持续时间的复合指标告警;支持与基准线对比的指标告警
●故障定位,标识触发告警的应用组件,并自动定位根本原因所在位置
●告警中心,提供告警过滤、查询界面,同时提供标准接口,支持将告警发送至第三方平台
2.1.11接口设计
应用监控系统对外的接口包括告警接口、数据输出接口。
告警接口主要是告警信息可通过syslog发送到第三方事件管理平台进行集成,统一进行汇总处理。
数据输出接口可将应用监控系统统计的交易性能数据按JSON方式或CSV文件方式导出,提供给第三方系统。
2.3总体架构
BPC采用旁路的被动流量获取方式,利用交换机SPAN将网络数据包镜像并分析,数据采集SmartProbe和解码引擎DP运行在独立的BPC服务器上,对被管应用完全无影响。
BPC基于统一的高精度时钟源给交易记录打时间戳,请求和响应时间计算基于交易级请求和响应关联。
物理部署方式:
BPC系统创新性的从网络层数据对业务性能进行监控,是基于一套完整的架构体系设计,其中每一个环节都采用了诸多先进技术:
∙原始数据获取采用成熟、广泛普及的SPAN技术
∙SmartProbeo模块高性能数据捕获、存储系统
第3章风险分析
3.1BPC交易性能监控平台风险
银行在系统使用过程中,如果遇到问题可以请求工程师到现场提供现场服务。
为了确保服务质量、确保满足用户的要求,我们首要将故障界别进行划分,然后根据不同的故障级别承诺不同的响应时间。
故障级别如下划分:
●一级:
BPC交易性能监控系统部分功能异常,但对BPC交易性能监控系统的运行无影响;
●二级:
BPC交易性能监控系统部分功能异常,但BPC交易性能监控系统的集中事件管理平台、业务服务影响平台的运行无影响;
●三级:
BPC交易性能监控系统部分功能异常,BPC交易性能监控系统的集中事件管理平台、业务服务影响平台的运行受到影响;
●四级:
BPC交易性能监控系统系统瘫痪。
3.2被管系统风险
●SPAN数据源交换机出现CPU负载过高,转发数据包速度变慢,对生产网络造成影响。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 银行 BPC 应用 检测 系统 概要 设计 说明书