IT自动化技术的研究与实施0625资料Word文档下载推荐.docx
- 文档编号:20607216
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:31
- 大小:2.49MB
IT自动化技术的研究与实施0625资料Word文档下载推荐.docx
《IT自动化技术的研究与实施0625资料Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《IT自动化技术的研究与实施0625资料Word文档下载推荐.docx(31页珍藏版)》请在冰豆网上搜索。
维护作业计划系统的主要目的是通过规范化的流程和灵活的任务制定策略,以确保周期性、重复性的工作任务合理规划、确保执行、及时完成,并严格控制作业执行质量。
通过实现对现有设备的健康维护工作的规范化,从而压制设备和业务系统的故障率。
在制定维护作业计划的同时,可以通过智能运维平台自动化调度巡检任务,实现对批量、重复的维护作业工作的自动化操作,从而降大大降低人力投入,并提高执行效率。
运维人员每天要求对主机设备进行巡检,巡检内容包括:
cpu、内存、文件系统、IO等内容。
例如客服系统日常维护作业计划中,对小机的日常巡检需要做的操作如下表所示:
维护作业计划实例表
小型机日常维护作业计划
维护项目
操作命令
参考指标
检查操作系统错误日志
vi/var/adm/syslog/syslog.log
无“WARNNING”、“ERROR”
检查包日志pkg1.log和pkg2.log
vi/etc/cmcluster/icdpkg/tl.log
检查启动日志
vi/var/adm/rc.log
检查内存
vmstat210或top
Freememory大于100MB
pi、po为零
检查CPU
sar210或top
Idle大于30%
wio小于30%
urs大于2×
sys
检查I/O
sar-d210
BUSY应小于90%
KB_READ+KB_WRITE小于10MB
检查swap区
Swapinfo–atm
检查硬盘空间
bdf
呼叫中心所用各逻辑卷%used小于90%
维护作业计划总体流程示意图如下:
附图1.维护作业计划总体流程示意图
通过维护作业计划系统完成主机设备自动巡检的具体步骤如下:
1.维护作业计划制定
维护作业计划管理员通过作业计划管理系统制定一个针对客服系统小机设备进行巡检的维护作业任务单。
在工单中写明要求接受巡检主机的设备目录及巡检指标,并制定每天的巡检开始时间和结束时间等必要信息
2.设备巡检操作
维护作业计划执行人确认工单后,依据维护作业任务单的内容,开始巡检工作。
根据不同设备类型的巡检要求,在自动巡检操作界面,选择或创建巡检脚本,并填写对应的基线信息,如性能基线,配置基线等。
如果巡检中发现问题,可以通过智能运维平台完成修复操作。
3.巡检结果通知与确认
巡检任务结束后,巡检任务执行人向作业计划系统回执巡检任务单完成。
同时巡检任务结束后要利用通知功能将巡检结果向相关负责人员通报。
最终由负责人完成对本次巡检任务的确认。
4.定制巡检报表与巡检报告
巡检报表和巡检报告用来客观反映运维人员的巡检工作情况。
运维人员根据工作需要定制巡检报表和巡检报告样式与内容,并将其发送给相关人员。
5.维护作业的自动化
在主机设备自动巡检描述的场景中,可以将具备固化可能的巡检的任务固化,由智能运维平台统一调度执行,从而实现巡检的自动化和违规结果的自动修复,构建闭合的维护作业计划。
维护作业的自动化可以提自动巡检的效率,降低人力投入成本,同时降低人为操作的失误风险,进一步确保巡检操作的规范性。
下图为维护作业计划总体流程与维护作业计划示意图:
附图2.维护作业计划的自动化流程示意图
维护作业的自动化实现场景如下:
1.创建自动巡检任务
维护作业计划执行人在接到巡检任务单后,经过判断和总结,确定可以将对客户系统小机设备的该巡检任务加以固化,并利用智能运维平台的集成调度功能实现自动化的脚本调度。
并在自动化流程的必要节点中,设定逻辑判断依据、传递参数内容的以及设定基线比对规则。
从而完成符合维护作业计划要求的自动化巡检任务定制。
创建自动修复任务
制定对巡检结果的逻辑判断,根据判断结果调度自动修复脚本或触发修复工具,同时根据自动通知策略自动发起通知。
自动巡检任务和修复任务与维护作业计划模板进行关联
通过智能运维平台的自动化流程控制器,将自动巡检任务和自动修复任务与维护作业计划模板相关联,确保维护作业计划任务下发时自动触发智能巡检,巡检结束后根据结果判断是否调度修复任务。
2.维护作业计划自动实施
巡检任务将随着每天作业计划任务单的下发而自动实施,实施结束后有智能运维平台调度作业计划管理更新自动更新作业计划任务工单状态。
最终实现维护作业计划的自动实施
2.2告警智能预处理
告警智能预处理功能,主要是借助智能运维平台的自动化技术,实现对可固化的事故解决方法进行自动化的执行,从而提高该类故障解决效率,降低人力投入成本和人为失误概率。
下面对告警智能处理的过程进行详细描述,该过程主要涉及到事件管理、知识库以及智能运维平台的自动化流程控制器。
具体场景如下:
●告警诊断
通过事件管理流程对故障进行诊断。
事件管理流程创建了一张内容关于某业务系统服务器磁盘空间已满的事件单,分配给事件解决人员处理解决。
事件解决人受理发现是由于某进程崩溃后在root文件系统下产生了较大coredump文件,导致该文件系统被写满。
事件解决人清空coredump文件后,系统恢复正常。
●关联知识库的知识条目
事件解决人经过验证和总结发现该事件处理过程可以固化,便在智能运维平台中创建清空coredump文件的自动化动作。
并借助自动化流程控制器,将该自动化处理动作与知识库相关联。
主动发起知识流程,将该类事件的解决方案列入知识入库申请。
审批通过后,该知识及即生效。
●自动实施知识条目中的处理任务
今后出现同类故障,事件处理人可以在知识库引用该知识,并由知识条目自动出发清空coredump文件的动作进行处理。
从而实现该类告警的智能处理。
2.3软件自动装载
软件自动装载的目的是实现对批量设备或制定设备进行自动化的应用部署、软件或补丁的版本检查以及基于策略的自动更新或者卸载。
软件自动装载可以有效的规避操作失误风险,提升应用发布效率。
软件装载功能支持的软件包括:
网络和服务器的操作系统、数据库、中间件、应用软件、补丁等。
软件自动装载的业务场景包括:
安装审查、软件自动分发、软件部署、安装后回滚等四个。
●安装审查
在软件或补丁自动部署之前,应该将预先对被安装设进行安装备检,审查过程中将自动排查重复安装或其它异常情况;
同时检查和安装的作业自动关联。
●软件自动分发
审查通过后,智能运维平台自动触发软件分发功能,基于分发策略对预备安装该软件的设备(或一批设备)进行统一介质分发。
●软件部署
操作人员制定工作软件安装部署时间(可立即安装也和定时安装)并在在智能运维平台操作界面填写软件安装必要的参数,然后启动软件部署动作。
●安装回滚
如果某些设备的安装失败或错安装者需要卸载,可以指定设备执行回滚操作,执行后该设备自动回滚到没安装之前的状态。
3技术架构设计
3.1总体说明
附图3.智能运维平台技术架构
◆协议适配层
即南向接口。
该层主要实现统一采集接口,不同采集组件实现松耦合。
◆综合指令服务引擎
为其他模块提供基础功能服务:
网元连接的资源信息管理、脚本模板管理、云任务管理、任务管理、调度管理、告警处理等。
◆自动巡检
完成日常巡检的主要功能:
网络设备、主机、数据库、中间件、业务应用的巡检功能,并提供巡检报告、巡检报表、检阅等功能。
◆自动化流程控制器
巡检元任务所采集的数据均为各自独立,没有相互关系。
此模块提供将不同命令组合起逻辑关系,完成一个控制流程,给用户解决实际的工作的所遇到的问题能够真正提高用户的生产效率。
并为知识库提供服务,来实现知识的积累及复用,达到知识库的共享及知识的固化作用,详细请参考智能预处理节。
附图4.自动化流程控制器配置界面示意图
提供图形化界面,通过鼠标的拖拉拽操作完成流程模板编辑,以方便执行自动化流程作业,提高用户的生产效率。
◆配置变更审计
主要提供两大功能:
1.提供采集信息与资源管理平台的基准信息对比,不一致时产生告警。
2.配置文件对比,通过两步操作完成此功能。
用户选择某次巡检结果,作为下次对比基准。
可以提供手工输入基准值。
使用本次巡检结果,与基准对比,不一致时产生告警。
告警内容中给出对比的差异。
◆软件装载
完成软件装载、卸载、升级、回退、检查等功能的独立模块。
可制定操作流程模板、计划;
为简化操作,最好提供模板复制功能。
◆北向接口服务
即北向接口。
完成智能维护平台与外围系统协作时,对外提供服务的各种接口:
✧向运维管理中心的发送事件工单(告警)接口;
✧运维管理中心派发维护作业计划接口;
✧向资源管理系统查询配置信息接口。
✧向运维管理中心、知识库等外围系统提供执行作业任务接口。
详细信息请看下节接口描述。
3.2接口描述
表格1.智能运维平台与外围系统接口
接口
源系统
目标系统
接口描述和信息项
1
智能运维平台
资源管理系统
查询资源配置信息:
资源ID,资源名称,资源属性信息;
更新资源配置信息:
资源ID,资源属性ID,资源属性值;
2
运维管理中心
派发事件工单:
告警ID,告警标题,告警类型,告警级别,告警内容,工单ID;
执行巡检作业任务:
任务ID,执行参数;
制定巡检作业计划:
任务ID,时间周期,时间频率
3
知识库
查询任务信息:
任务ID,任务名称,任务描述,任务类别,参数说明;
执行任务:
4
基线测量
查询基线:
元任务ID,上基线,下基线,上容忍线,下容忍线;
配置基线:
5
堡垒主机
telnet
6
PASM
权限认证信息
3.3与周边系统协作流程
3.3.1智能预处理
对告警根据事先定制好的告警处理知识库进行相应处理,对已有告警进行确认,以降低误告警率,对可以自动化维护的告警进行预处理并进行相应的数据采集并分析对其进行设备告警指标优化,减少用户的维护量,提高告警质量,对不同告警进行多步骤流程化分析。
附图5.知识库操作向导调用智能运维平台执行自动化任务
还可以通过对故障处理,总结、积累到知识库中。
并通过知识库增加一个操作向导,固化对故障诊断、处理的经验。
附图6.智能预处理数据流图
其中,2是一个人工的过程,并没有数据中【运维管理中心】和【知识库】之间传输。
3.3.2软件装载
附图7.软件装载流程图
由【运维管理中心】发起一次软件装载任务,下发给【智能运维平台】;
由【软件装载】模块负责执行此任务。
登录到【网元】后,从【软件包ftp服务器】下载软件包;
执行安装步骤;
将安装是否成功的信息发送给【运维管理中心】。
附图8.软件装载数据流图
3.3.3配置变更审计
附图9.配置变更审计发送不一致告警流程图
由【配置变更审计】模块的巡检调度,发起一次巡检任务。
首先,从【网元】上采集配置信息;
然后,从【资源管理平台】取得此配置信息的基准值;
对比两个值,不一致时产生告警,向【运维管理中心】派发事件工单。
附图10.配置变更审计发送配置不一致告警工单数据流图
3.3.4派发告警工单流程
附图11.派发告警工单数据流图
【自动巡检】执行巡检任务,如与异常或产生告警,通过【北向接口服务】向【运维管理中心】派发事件工单。
3.3.5制定、执行巡检作业计划
附图12.巡检作业计划制定数据流图
【运维管理中心】通过【北向接口服务】下发“巡检作业任务”,执行结果通过【北向接口服务】传回【运维管理中心】。
3.3.6自动变更
附图13.自动变更数据流图
【运维管理中心】向【智能运维平台】下发变更网元配置信息的任务,【智能运维平台】负责修改网元上的配置;
【运维管理中心】确认此修改成功后,修改【资源管理平台】中的配置信息。
3.3.7与周边模块的关系
附图14.智能运维平台与外围系统关系图
软件装载所使用的软件安装包存放在【文件服务器】上,在执行软件装载时,智能运维平台将软件安装包从【文件服务器】下载,传输到被管主机,执行安装动作。
【智能运维平台】执行采集命令(登录网元上操作),是通过【堡垒主机】建立的通道完成的,执行权限通过【4A】系统控制。
智能运维平台通过【中国移动业务支撑网络运营管理系统】内的【权限管理】模块完成用户操作权限控制。
【知识库】的操作向导,需调用【智能运维平台】中【自动化流程控制器】提供的服务完成智能预处理。
【运维管理中心】通过【智能运维平台】北向接口提供的服务完成巡检作业计划、部署、执行。
【智能运维平台】在完成配置变更审计功能时,需取得【资源管理平台】的配置信息,作为比对的基准值。
4数据模型设计
智能运维平台数据模型如下:
附图15.智能运维平台数据模型
节点:
是一种抽象概念,包含【开始】、【条件】、【循环】、【分支】、【合并】、【结束】节点,模板也是一种节点。
服务:
也是一种抽象概念,包含【巡检作业服务】、【自动化流程服务】。
模板:
包含有【指令】、【脚本解析】、【告警基线】。
元任务:
一个【模板】和一个【资源】的组合。
任务:
一组【元任务】的组合。
调度:
一个【任务】与一个时间周期的组合。
时间周期有日、周、月、节假日、一次性。
资源:
网络、主机等,也可以是数据库、中间件和业务应用系统。
指令:
采集配置项,巡检作业使用的操作指令,可以是shell命令、数据库SQL语句、SNMP的GET指令、JMX的一个对象、等。
解析脚本:
使用脚本解析引擎对指令执行结果格式化的配置脚本。
告警基线:
告警对比使用的静态阈值或动态阈值。
5系统功能实现
5.1基础功能
5.1.1资源管理
巡检作业中使用的资源,如管理其登录的用户名、密码、IP地址、管理方式、厂商、版本、型号等信息的维护功能。
【主要功能】
◆系统有丰富的资源组织模式,资源管理方式多样性可以适应不同用户对资源的个性化组织。
同时资源维度的可任意扩展性使得系统可以对不同的资源维度进行个性化配置。
并以列表的形式展现巡检系统中所有维度的信息。
对维度信息可以执行添加、删除、编辑的操作。
◆可以通过excel文件方式进行批量资源导入,减轻了用户资源导入的工作量。
简化了系统资源配置流程。
◆智能运维平台能发现各种资产信息和配置信息,包括:
✧硬件:
CPU,处理器速度,处理器/架构,BIOS,描述信息,MAC地址,制造商,型号,磁盘,存储卡等等。
✧操作系统:
DNS名称,IP地址,开放的TCP端口,操作系统类型,网络设定,软件补丁,系统名称,用户,用户组,注册表,COM+,安全设定,服务等等。
✧软件:
可以发现注册到系统中的MSI,RPM,LPAR,Depot等标准软件包信息,同时,发现功能内置的应用签名,还可以发现和标识常用的企业应用软件,如DB2,Websphere,Apache,Tomcat,SSH,LDAP,Oracle,SAP等等,用户可以通过扩展应用签名标注和发现自行开发的应用。
下图所示为采集的Oracle的相关配置和数据表结构信息:
附图16.Oracle配置信息管理示例
✧配置信息:
智能运维平台,可以与统一资源库进行数据交互,通过对统一资源库的数据读取,可以获取在应用或操作系统的配置文件(如hosts,security,serviecs,route,web.xml,init.ora)中的配置项信息,如下图所示的截图为智能运维平台所收集并解析的数据配置项信息:
附图17.主机配置文件信息管理示例
✧用命令或脚本自定义采集:
智能运维平台还可以将命令行或脚本输出通过语法文件对象化,并转化为配置项供用户浏览,下图为指令采集软件配置文件的脚本:
附图18.通过指令采集的配置文件信息
5.1.2模板管理
主要对运维管理中频繁使用到的比对基线、操作脚本、存储过程进行规范化的管理,以实现各种部署操作高效、安全执行。
模板创建后要通过测试、专家评审才能固化在系统中使用。
模板管理模块可以将经过验证、审核的模板进行归档。
◆脚本模板管理:
支持脚本增加、删除、修改、查询功能;
具有测试功能,支持执行脚本及查看执行结果功能;
支持模板批量导入。
如下图所示:
附图19.脚本模板示例图
◆基线模板管理:
支持性能基线模板和配置基线模板的增加、删除、修改、查询功能;
支持通用审计规范模板的导入如SOX、PCI等;
5.1.3控制权限管理
控制权限管理实现对IT运维人员的集中操作权限控制,其中包括操作脚本权限和操作资源权限,操作管理的身份需到统一认证平台进行认证,本模块可以做到基于角色的权限分配。
◆操作脚本权限,对于控制操作中定义好的各种脚本,可以设定某个操作员或者角色对该脚本是否具有编辑、执行权限。
脚本操作授权如下图所示:
◆操作资源权限,对于被管设备(包括网络和主机),可以设置操作员是否可见的权限。
附图20.基于角色的操作资源权限控制
◆模板操作使用权限
5.1.4操作日志管理
日志管理主要实现对系统维护过程、操作过程、任务进程执行过程的日志记录和管理,可以对操作的每一步处理过程日志进行追踪查询。
◆操作日志查询:
可以按照不同操作员、执行的操作、被管对象、操作时间、操作结果等进行查询统计;
◆支持对脚本及存储过程的上传、审批、运行等操作进行日志记录。
◆支持操作执行结果审核,定期生成审核报告。
5.1.5自动化流程控制器
自动化操作控制器主要用于复杂的任务调度和系统间的整合,将多种标准操作组合起来完成一个具体的管理任务。
目的是协调调度运维工作中各个环节,通过自动化的流程控制器的可将多种服务、工具、脚本组装执行,以实现各种配置变更操作、日常检查的自动化执行、以及跨系统的流程化调度。
◆图形化的操作流程设计:
支持拖拉拽的方式,完成操作流程的组装,具备流程嵌套功能,支持逻辑判断、for循环、流程分支、以及逻辑选择等多种流程流转动作。
附图21.自动化流程控制器流程设计界面
◆自动化的集成与调度功能主要包括对智能运维平台内部模块调度和对平台外部模块的调度:
✧平台内部调度:
可以协调调度平台内部的巡检脚本、操作处理脚本、合规审计模块、软件装载模块、虚拟机管理模块等,通过对内部功能的组装实现智能运维平台的集成调度整合自动化。
✧平台外部调度:
提供多种接口适配器,如WebService、Telnet等,可以快速简单的实现与运维中心的事件管理、变更管理、作业计划管理等模块的集成调度。
基于事件驱动的作业调度、灵活定时作业调度,构建闭环的事件管理流程和变更管理流程。
5.2维护作业计划
自动巡检是将日常运维管理中所定义的日常巡检操作任务通过工具自动化进行,例如记录和检查设备的配置参数和运行状态。
这些任务都是标准化的操作,可以通过定义和执行巡检规则来实现。
通过定时自动执行这些操作序列(巡检任务)实现无人值守的自动化巡检,并生成相应巡检报告。
自动巡检主要包括巡检作业计划定制、巡检作业部署、巡检作业执行、巡检作业报告等功能,提升巡检作业的效率、准确性和全面性。
5.2.1巡检作业计划制定
对巡检作业的执行进行计划制定、参数配置、脚本检查等。
◆管理员可以定义巡检作业,可以添加、修改、删除巡检作业。
◆巡检作业中定义巡检规则,包括巡检对象、巡检操作、结果检查、时间间隔等参数。
◆检查的对象可以是配置文件、运行参数、运行状态、安全设置等。
智能运维平台所提供的细粒度配置项和强大智能判读逻辑,以致一般的检查规则无需编写任何脚本,通过直观的表达逻辑组合即可完成检查设置。
如下图所示
附图22.巡检规则编辑示例图
◆巡检操作可以是脚本,也可以是其它命令。
◆定义自动巡检任务,和任务调度策略。
管理员可以随时执行巡检,也可以定义计划表来自动执行巡检。
计划表包含日、周、月、节假日、一次性调度。
调度样式如下图所示
附图23.智能运维平台的普通调度界面
附图24.节假日调度界面
巡检执行中
5.2.2巡检作业部署
对制定好的巡检作业进行部署。
◆巡检作业可以部署到一个配置项上,也可以部署到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 自动化 技术 研究 实施 0625 资料