关于运维健康性指标应用的报告.docx
- 文档编号:29992040
- 上传时间:2023-08-04
- 格式:DOCX
- 页数:13
- 大小:201.38KB
关于运维健康性指标应用的报告.docx
《关于运维健康性指标应用的报告.docx》由会员分享,可在线阅读,更多相关《关于运维健康性指标应用的报告.docx(13页珍藏版)》请在冰豆网上搜索。
关于运维健康性指标应用的报告
关于运维健康性指标应用的报告
2011年6月16日
目录
文档管理信息表2
文档修改记录表2
一、现阶段建议采用的系统健康性运维指标:
4
1、系统健康性运维指标:
4
2、人的工作可靠度预测:
7
3、建立系统健康性运维体系:
8
二、相关系统健康性运维指标理论概述:
9
1、可靠性概述:
9
2、可靠性和可用性的区别:
12
3、信息系统的故障类型和失效规律12
4、可靠性技术分析鱼骨图13
三、BSM展望:
13
四、背景15
由于是描述系统可用性、可靠性、稳定性等性能的报告,本文尝试以可用性中著名的“瀑布效应”原则(即倒金字塔方式)进行写作。
一、现阶段建议采用的系统健康性运维指标:
1、系统健康性运维指标:
目前业界中运维工作中可用性、可靠性、稳定性、容量管理等方面的论述较多,从不同的角度来看有着众多的指标体系,其理论也较为繁杂,不同的著作对指标的论述和理解的维度也有所不同,有些指标统计和计算较为复杂,有着相当的计算和测试工作量,因此结合目前我行的运维系统的现状,初步拟定了以下指标:
指标分类
指标
说明
公式
应用
可
靠
性
故障率
故障数在单位时间内的百分数
F(T)=N/T×100%
N-发生故障的次数;T-统计周期
主要应用于1、2级重要系统
可靠度
设备或系统在规定的寿命周期内到一定时刻t无故障的概率,它是以时间函数的概率形式来表现可靠性的
R(t)=(N0-NT)/N0
N0总体样本,到t时刻失效的有NT个。
元件级,如CPU、硬盘、数据库、软件功能点等,也可应用于系统。
并联系统可靠度
是指贮备的单元也参与工作,即参与工作的数量大于实际所必须的数量
用于热贮备系统(冗余系统)
冷贮备系统可靠度
是指贮备的单元不参加工作,并且假定在贮备中不会出现失效,贮备时间的长短不影响以后使用的寿命
若所有部件的故障率均相等且为λ
用于冷贮备系统
故障概率
故障概率为当零部件、元件、产品或系统在给定条件下运行、操作时,t期间内发生故障的概率。
在数学上与可靠度是互补的,即R(t)+Q(t)≡1或Q(t)=1-R(t)
元件级,如CPU、硬盘、数据库、软件功能点等,也可应用于系统。
平均无故障工作时间(MTTF)
平均无故障工作时间指发生故障前工作时间的平均值,也称平均寿命
产品两次相邻故障间的平均工作时间
主要应用于系统,可用于1、2级系统
平均故障间隔时间(MTBF)
可修复系统发生了故障后经修理后仍能正常工作,其在两次相邻故障间的平均工作时间;
两次相邻故障间的平均工作时间
主要应用于系统,可用于1、2级系统
平均故障修复时间(MTTR)
是指可修复系统出现故障到恢复正常工作平均所需的时间
主要应用于系统,可用于1、2级系统
维修度W(t)
在规定条件下、规定时间内完成规定维修任务的概率(%)。
主要应用于系统,可用于我行所有系统
修复率
与平均故障修复时间(MTTR)相关,是其倒数
U=1/MTTR
主要应用于系统,可用于我行所有系统
有效度Y(t)
反映可靠度R(t)和可维修度W(t)的综合指标,即:
设备或系统维持正常运行状态的概率。
用平均时间表示时,称为时间有效度。
这一指标相当于设备或系统管理的运转率
Y(t)=U/(U+D)
设备或系统发生故障不能工作的时间为D,能够正常工作的时间为U,
主要应用于系统,可用于我行所有系统
可
用
性
软件系统失效率
因系统设计、开发技术缺陷和使用维护条件不当等因素导致的、由正常状态过渡到不正常状态的概率
F(T)=∑f(ti)
软件功能
可用率
业务不停机连续运行,系统正常可用的比率
A=MTBF/(MTBF+MTTR)
MTBF(MeanTimeBetweenFailures)故障间隔平均时间MTTR(MeanTimeToRepair)
主要应用于系统,可用于我行所有系统
业务中断时间
按考核要求充许的全年业务中断时间
主要应用于系统,可用于我行所有系统
稳定性
元件如CPU、内存、I/O、存储、数据库资源等
可采用六西格玛质量体系中广泛使用的控制工具,可能其控制线需阀值设计,以区分营业和非营业时段。
主要应用于系统,可用于我行所有系统
容
量
日、月均业务量
可采用六西格玛质量体系中广泛使用的控制图工具和趋势分析工具
主要应用于系统,可用于我行所有系统
年业务总量
业务增长率
现行业务日、月峰值
峰值应包括谷和峰
现行业务的峰值日、月时段
现行业务假日业务量
系统额定处理能力(即时峰值、日处理峰值、批量处理峰值……等)
用户数量
2、人的工作可靠度预测:
(1).人在工作中的差错很多,归纳起来不外乎以下五类:
v未履行职能;
v错误地履行职能;
v执行未赋予的分外职能;
v按错误程序执行职能;
v执行职能时间不对。
(2)2.人的差错概率
v人的工作可靠度与人的工作差错概率是互逆的,所以人的工作可靠度可用人的工作差错概率来计算:
E—全部工作记录
e—失效工作记录
3、建立系统健康性运维体系:
从整个生命周期的角度看,无论是硬件还是软件,大致可分为规划和设计、开发和测试、实施、运营和终止等5个阶段。
前面3阶段从时间的角度看,只占生命周期的20%,其余80%的时间基本上是运维服务。
而根据GartnerGroup调查发现,在运维工作中经常出现的问题中,源自技术和产品方面的其实只占了20%,流程失误占40%,人员疏失占40%。
流程失误包括变更管理没有做好、问题处理、预防性维护检查不到位、容量超载、测试不到位等流程上的失误或不完整。
这就说明IT运维方面的问题,更多的不是技术问题,而是来自管理方面,“预防胜于检查”,因此重点需建立全方位和运维防护体系,包括预防性维护、定期检查、系统应急、冗余设计、变更、容量、配置等一系列的涉及流程、人员、工具的一套管理体系来支撑。
通过完善的管理体系,系统管理人员可以依据可靠性指标,采用可靠性统计分析技术,时刻监测系统的运行状况,以便及时发现失效苗头,提前采取技术措施,消除隐患,确保系统始终处于良好的运行状态。
容量管理需建立一套流程体系,针对不同的系统设立系统容量的规格线和控制线,并根据业务的发展趋势进行动态监控和控制。
可靠性保证的实质是防错、检错、排错和容错。
提高可靠度的途径:
提高系统的可靠度;提高系统的维修度;提高人员的可靠度;提高流程的可靠度。
二、相关系统健康性运维指标理论概述:
1、可靠性概述:
可靠性(Reliablity)是一个含义极其广泛的概念(包括人们对一个系统、一件或一套设备在寿命周期内能够可靠而有效地工作能力的总的认可度或评价)。
可靠性的定义很多,根据国家标准GB-6583的规定,产品的可靠性是指:
产品在规定的条件下、在规定的时间内完成规定的功能的能力。
从系统工程的观点来说,信息系统可靠性,就是指网络设备和系统在规定条件、规定期限内,实现规定目标、完成规定功能而不出现故障的可能性。
核心是:
一件设备或一套系统在一定时期内、一定条件下、完成一定工作任务稳定运行的概率。
所谓规定条件,是指系统在使用中规定的工作环境(如温度、湿度、冲击、震动、磨损、腐蚀、使用方法、维护和使用者操作水平等)和规定的维修条件。
所谓规定期限,是指系统、设备无故障运行和使用周期;所谓规定功能,是指系统或设备的主要技术指标,如服务器和计算机的内存容量、CPU运算速度,数据库触发器的响应时间,传输介质的技术测试指标,传输链路的带宽,等等。
信息系统的可靠性是设计和建设出来的,是设备或系统的内在综合质量特性的客观反映,是从功能和时间上考核设备或系统的质量特性。
可靠性典型的失效率曲线是浴盆曲线,其分为三个阶段:
早期失效区、偶然失效区、耗损失效区。
早期失效区的失效率为递减形式,即新产品失效率很高,但经过磨合期,失效率会迅速下降。
偶然失效区的失效率为一个平稳值,意味着产品进入了一个稳定的使用期。
耗损失效区的失效率为递增形式,即产品进入老年期,失效率呈递增状态,产品需要更新。
除了本文中第一部份选取的指标,可靠度还有以下指标:
重要度Zd,表示设备或硬件系统各个构成部件、组件等要素在系统中的重要程度,即部件、组件发生故障时引起系统故障的概率。
这一指标对筛选系统核心设备极为重要。
当设备某个部件或系统某个组件的重要度为1时,表示部件或组件故障会引起整个系统功能丧失或崩溃(如传输链路的路由器,构成信息系统的服务器,应用软件系统的数据库,终端的操作系统软件等);当部件、组件的重要度趋近或等于0时,表示其故障不影响系统的正常运行,即使发生故障也不会引起系统功能的改变(如服务器显卡、键盘、鼠标故障,笔记本电脑的外接鼠标、键盘故障,系统某一用户或组登录权限丧失等)。
数学表达式为:
Zd≤1。
在日常系统运行管理过程中,应着重关注重要度较大的设备或组件的运行状态。
失效密度或失效密度函数f(t),失效密度是表示失效概率分布的密集程度,或者说是失效概率函数的变化率。
它在数值上等于在时刻t,单位时间内的实效数Δr/Δt与初始试验(或工作)产品总数N0的比值,即
同样,当N0很大时,也可用微商的形式来表示,即
其所描述的曲线成为失效密度曲线,它与横坐标轴之间的面积恰好等于1。
也就是说,失效密度这个随机变量在(0,∞)范围内的概率等于1。
用积分式表示有
考虑到现行条件下相关的测量性和运算的复杂性,因此以上指标暂不纳入体系内。
2、可靠性和可用性的区别:
由于系统的可靠性、稳定性、可用性之间的联系较为密切,因此不同的论述中其指标的归属也不同。
系统可用性和可靠性都是时间的函数,就是部件或系统在时间t正常运行的概率。
乍一看,两者的定义似乎非常相似,但是两者有一个重要的差别,那就是系统是可维修的还是不可维修的。
可靠性通常低于可用性,因为可靠性要求系统在[0,t]的整个时间段内须正常运行,而对于可用性,要求就没有那么高,系统可以发生故障,然后在时间段[0,t]内修复。
修复以后,只要系统能够正常运行,它仍然计入系统的可用性。
如营业时间外的非7*24小时系统,再如7*24小时的冗余系统的其中一台故障,等等。
因此,可用性大于或等于可靠性。
3、信息系统的故障类型和失效规律
(1)故障的发生是随机的,故障率呈常数,可靠度呈简单指数分布,这是可靠性最基本的形式,设备不论是否处于无故障置信区间内,设备或传输链路的故障随时可能发生,提前更换某个设备或链路组件的意义不大。
(2)故障随时间而减少,即系统刚开始使用时,故障率较高,但随着运行时间的延长,故障率越来越小,且故障分布函数多呈二项分布、普哇松、威布尔、瑞利分布、X2或F分布,系统越来越稳定。
(3)故障率随时间的延长而增加,故障密度函数多呈反二项分布、反普哇松、威布尔、瑞利分布、反X2或F分布,即故障多发生在接近的系统或设备可靠度置信区间的平均时间内。
4、可靠性技术分析鱼骨图
三、BSM展望:
BSM(BusinessServiceManagement),即业务服务管理,是IT运维/管理的高级阶段,强调从实现企业业务价值的目标出发,以业务的视角看待IT管理,最大限度地发挥IT对企业业务的推动作用。
随着企业信息化建设的发展,企业对IT运维管理的需求,已经从过去的“维护稳定”,转向新的需求,这就是:
向管理要效益。
“IT与业务融合”众望所归地成为大势所趋,而且也只有IT与业务进行充分的沟通、从业务的角度看IT管理问题、从IT的角度看业务流程优化,才能真正做到“向管理要效益”。
因此在2009年BSM应运而生。
BSM的优势在于:
BSM的一个主要功能是实现IT资源与其支持的业务服务之间的动态映射,让IT部门能够将基础设施事件与业务成果关联起来。
BSM能够整合各个层次IT资源的事件和状态,让运维人员能取得业务服务的性能、用户体验和服务水平等具有直接业务价值的信息。
BSM提供对服务的业务影响看法,IT部门可以根据服务资产的业务影响衡量这些资产的价值,使IT部门能够在作出业务决策时做到胸有成竹。
BSM与IT基础架构和业务服务的关系
四、背景
金融IT系统安全可靠运行是业务持续运营的基础保障,任何一次系统失效都会带来很大的经济损失。
近年来,随着内外部对金融IT系统的重视和监管的严厉,总分行开展了对系统运行生命周期的质量保障,部内提出了从可靠性、可用性、容量管理、稳定性和可维护性方面来衡量,使我们的运维工作更加科学化,保障系统的健康运行,支持业务发展,因此建立信息系统的可靠性模型和评价体系,全面衡量系统的可靠性显得尤为重要。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 健康 指标 应用 报告