IT集中运行监控系统解决方案白皮书.docx
- 文档编号:12624247
- 上传时间:2023-04-21
- 格式:DOCX
- 页数:24
- 大小:359.11KB
IT集中运行监控系统解决方案白皮书.docx
《IT集中运行监控系统解决方案白皮书.docx》由会员分享,可在线阅读,更多相关《IT集中运行监控系统解决方案白皮书.docx(24页珍藏版)》请在冰豆网上搜索。
IT集中运行监控系统解决方案白皮书
广州中软信息技术有限公司
1概述3
2解决方案3
2.1技术架构3
2.1.1总体逻辑架构3
2.1.2系统部署架构5
2.2功能设计6
2.2.1数据采集及处理中心6
2.2.2集中展现平台11
2.2.3统一管理数据库20
2.2.4系统外部接口24
3运行环境24
3.1硬件24
3.2软件25
4应用案例26
1概述
广州中软IT集中运行监控管理系统(BHM)是一个能够促进企业的IT运维管理与业务管理相融合的IT运维综合性管理平台。
它通过透明化企业IT基础架构和透明化企业IT运维过程来满足IT运维工作在操作层、管理层、决策层等不同层次的需求,达到延长企业服务的在线时间以及提高客户对业务服务的满意度的目的。
广州中软IT集中运行监控管理系统(BHM)不仅仅是工具,结合了广州中软公司多年在各行业的运维经验,其主要特点是:
订制能力强、扩展性好、覆盖范围广、可复用企业已有资源、跨平台,面向服务、支持多级部署集中展现、安全可靠、稳定高效。
广州中软IT集中运行监控管理系统(BHM)经历过大型项目的洗礼,在各行业应用的口碑,完善的售后服务保障,高效、诚信且实力雄厚的实施服务团队,较之市场上类似产品的功能堆砌(简单的数据接入)模式,广州中软IT集中运行监控管理系统(BHM)更强调的是对各领域监控数据的集中关联分析模式。
2解决方案
2.1技术架构
2.1.1总体逻辑架构
对系统逻辑架构的设计,广州中软建议采用多层设计,依据对IT基础设施集中监控平台的建设需求,将系统分成监控对象层、数据采集及处理中心、集中
展现平台以及统一管理数据库。
如下图所示:
(1)数据采集及处理中心
数据采集及处理中心包含了数据采集器、统一数据处理引擎、统一事件处理
引擎三个逻辑组件。
其中,数据采集器根据采集策略对所有IT资源对象的资源
配置数据、性能指标数据、日志数据、状态数据等进行采集,并将采集到的数据推送给统一数据处理引擎进行处理。
统一数据处理引擎进行数据分类、资产关联、业务关联以及阈值比对后转发给统一管理数据库存储或交由统一事件处理引擎做进一步的处理。
统一事件处理引擎对接收到原始告警数据将根据告警策略对告警信息进行过滤、去重、关联、归并以及执行相应的处理动作(如:
自动确认、短信通知等)。
IT资源对象主要包括网络设备、安全设备、主机、数据库、中间件等。
(2)集中展现平台
集中展现平台作为IT监控系统的统一人机交互界面,由业务和配置两种视
图以及为这些视图提供服务的一系列组件构成,该应用支持LADP系统安全认
(3)统一管理数据库
统一管理数据库是IT监控系统的数据核心,保存IT监控系统的各类数据信息。
统一管理数据库主要保存六大类数据,它们分别是资源数据(操作相关的配置信息)、资产数据(设备配置信息)、告警数据(异常状况相关的信息)、性能数据(表明设备运行状态的信息)、元数据(对统一管理数据库中存放的系统相关数据的描述)、调和规则(系统在进行数据调和时的规则)。
2.1.2系统部署架构
IT监控系统的部署架构如下图所示:
系统部署架构图
(1)部署数据采集及处理中心
通常情况下,IT监控系统内置一个信息处理中心服务器即可,但在大数据量的情况下,可线性复制多个信息处理中心样本。
应确保部署数据采集及处理中心的服务器与被监控对象之间的协议通信畅通。
(2)部署集中展现平台
应确保部署集中展现平台的服务器与统一管理数据库服务器JDBC通讯畅通以及与数据采集及处理中心服务器的SOCKET以及HTTP通讯畅通。
(3)部署统一管理数据库
应确保部署统一管理数据库的服务器与集中展现平台服务器JDBC通讯畅通以及与数据采集及处理中心服务器的SOCKET以及HTTP通讯畅通。
2.2功能设计
2.2.1数据采集及处理中心
数据采集及处理中心主要负责采集并处理监控对象的数据,并根据业务需求将数据分发到集中展现平台和统一管理数据库,它是由多个数据采集器、一个数据缓存池以及一系列数据处理引擎组合而成。
2.2.1.1数据采集器
数据采集器持续采集监控对象相关的配置、运行、性能、告警等数据,为IT
监控系统对设备实施监控和管理提供了基础。
221.1.1数据采集内容
管理对象
配置数据
性能数据
日志数据
网络设备
▲
▲
▲
安全设备
▲
▲
▲
主机
▲
▲
▲
数据库
▲
▲
▲
中间件
▲
▲
▲
221.1.2采集器功能要求
(1)支持动态采集策略定义
根据使用情况自动或者手动调整数据获取的周期、范围和方式等策略。
(2)采集器支持汇聚采集
具有灵活的分布式部署机制,可以实现汇聚采集也可以进行单独采集。
(3)高效的采集设计
尽可能少的占用被管对象资源进行数据采集。
(4)数据预处理
采集器经过预加工实现数据的过滤加工。
(5)支持自定义采集脚本开发
不修改代码的前提,实现非标数据的自定义采集
2.2.1.1.3数据采集器实现
无代理系统管理解决方案无需安装任何程序,通过标准的接口或者协议方式获取监测数据。
(1)SNMP采集器
支持SNMPv1、v2、v3标准,采集器通过查询(Polling)和自陷(Trap)相结合的方式获取被管设备的性能数据、事件数据、配置数据。
采集的范围:
主机的性能、配置和日志数据。
网络设备的性能、配置、日志数据。
安全设备的性能、配置、日志数据。
(2)JDBC采集器通过对被监控数据库基表的查询采集数据库的运行状况信息。
采集的范围:
数据库的配置、性能、日志信息。
(3)JMX采集器
通过JMX的方式采集中间件的运行状况信息。
采集的范围:
中间件的配置、性能、日志信息。
(4)其他采集器
支持Telnet、SSH和WMI等无代理方式的数据采集。
通过脚本开发实现可配置的数据采集。
采集的范围:
Windows、各种Unix/Linux操作系统的配置、性能数据。
2.2.1.2统一数据处理引擎
2.2.1.2.1性能数据处理
当收集到的性能数据值超越定义的门限时,会向指定人员发出相应的越限告
警,告警参数包括:
告警源、告警时间、告警级别、告警原因、阈值信息。
性能数据存储在系统中,系统应能对定期收集到的数据进行统计、分析和处理,结合资源的构成情况,将收集到的性能数据通过一定的算法进行分析和处理,以此来反映被监控对象的性能质量。
2.2.1.2.2配置数据处理
对采集到的配置数据与配置库进行比对,系统能够自动判断其是否出现变更,并在发现异常时生成配置变更告警。
2.2.1.2.3事件数据处理
事件处理是集中监控管理中一个重要的组成部分,IT监控系统应提供统一的事件处理机制,实现对IT设备事件的集中处理。
统一事件管理要求遵循以下步骤:
1.事件信息分类
事件信息类别:
系统平台事件,包括:
主机事件、数据库事件、中间件事件、应用系统事件等。
事件信息内容:
事件的序列、事件标识、事件初次发生时间、事件最后发生时间、事件次数、事件类型、事件级别、事件源、事件负责人、事件标题、事件内容、被管对象联系人等。
事件的结构可进行增加和修改,可以灵活定制事件的显示格式,增加的扩展属性都可以定义到事件的显示内容中,不同类别的事件支持不同的显示模板。
2.事件信息的汇总
信息汇总过程中支持信息的过滤,过滤条件可以灵活制定,如按照事件的类型、对象、级别、描述、位置、发生时间等条件以及多种条件的组合,可以根据用户的事件管理需要进行过滤规则的定义。
提供信息格式统一化规则,将不同来源的管理信息,如网络、系统、应用的事件信息标准化,为后期的处理和分析提供方便。
3.重复事件压缩
4.事件关联分析
5.事件自动化处理
6.事件信息丰富将事件信息与相关资源信息(如该设备的位置,负责人等)进行关联,使管理人员在收到报警的同时,直接就可以查看到相关的内容,不用进行额外的手工查询工作。
7.事件报警通知及任务分配
提供基础的告警通知流程功能,如哪些事件应该由什么人处理,故障在一定时间内没有解决应该如何进行升级和通知等,统一事件管理平台要能够根据策略驱动不同的报警程序。
告警事件在产生后,可自动分配给负责的支持人员,或者由值班人员手工转发给相应支持人员
事件数据处理需支持多种方式报警,包括电子邮件、声音、页面提示、手机短信等多种方式通知。
告警事件的内容包含告警来源、告警标题、告警级别、发生时间等,信息可以灵活定制。
222集中展现平台
集中展现平台位于IT集中运行监控系统的最上层,是系统和用户之间的接
口,提供给用户监控、浏览、操作整个系统的唯一通道。
集中展现平台通过对监控对象的异常情况、事件进行告警通知、处理,最终
形成一个集发现、展示、告警、处理为一体的综合监控平台。
2.2.2.1资产管理
资产管理视图满足用户对监控对象的配置信息维护要求,支持网络设备、安
全设备、服务器、数据库、中间件,业务系统等监控对象的配置以及地理位置等信息维护;可维护对象之间的关联关系,如网络连接的对端设备、应用软件所处宿主服务器;监控对象资源树视图维护,可按照设备类型、业务系统或自定义分组来组织监控对象资源树,建立更加合理的管理视图。
资产管理视图具体由以下基本视图构成:
序号
视图名
功能描述
1
监控对象统计视图
主要按不同的业务系统进行监控对象数量的统计,同一业务系统下还可按设备类型,资产状态,资产入库方式及按厂商四种分类方式进行统计。
2
综合查询视图
1、通过不同的过滤条件,检索出满足过滤条件的监控
设备列表,点击某一资产,可进入查看资产详细信息。
2、查询结果可导出为XLS、PDF、TXT文本等格式进行保存。
3
单个对象的详细配置信
结合监控对象所属的设备类型,确定该对象的扩展属性
息管理及展示视图
并显示所有配置属性的值。
可对单个监控对象进行新增、修改、删除、停用、启用等维护操作。
4
类型维护视图
新增、修改、删除设备类型信息,并实现类型与扩展属性的映射关系。
5
业务系统管理视图
新增、修改、删除业务系统信息。
6
行政分区管理视图
新增、修改、删除行政分区信息。
7
厂商及产品型号管理视图
新增、修改、删除厂商及产品型号的信息。
8
位置信息(机房、机柜)
管理视图
新增、修改、删除机房以及机柜的信息。
9
资源树维护视图
可按照设备类型、业务系统或自定义分组来组织监控对象资源树,建立更加合理的管理视图。
222.2性能分析视图
性能分析视图满足用户查看各种监控设备的性能信息要求,包括网络设备、
主机设备、中间件、数据库等性能信息。
性能分析视图由以下基本视图组成:
序号
视图名
功能描述
1、
性能总览视图
1、可按照设备类型查看各种监控对象的设备总量、正
常状态设备数量、告警设备数量;
2、可查看各种类型设备的性能指标阀值告警T0P5的
设备信息;
2、
性能列表视图
列出当前用户权限内的所有监控设备的性能信息列表,
展示的内容包括:
设备名称、设备IP、典型监控指标(如
CPU使用率、内存使用率)、状态信息、采集时间等。
3、
单设备性能分析视图
在性能列表视图中选择单个设备,可进入单设备的性能分析视图。
不冋类型的设备,根据其监控指标的不冋,采用不冋的展示页面。
(如网络设备可查看cpu/内存当前值、cpu/内存历史变化趋势、网络端口指标值等)
4、
性能信息查询视图
1、可根据设备类型、设备名称、设备IP、业务系统、责任人、资产状态等过滤条件,查询获取用户关注的设备性能信息。
2、查询结果可导出为XLS、PDF、TXT文本等格式进行保存。
222.3业务系统分析视图
通过业务系统分析视图可对已有的各个业务应用系统的软、硬件的组成情况
以及它们的运行状况一目了然。
同时,从业务的视角对业务应用系统的关键交易进行响应情况的实时展现,从而更加直观的反映该业务系统的可用性。
业务系统
分析视图具体由以下基本视图构成:
序号
视图名
功能描述
1、
总览视图
查看各个业务系统的系统状态、告警
览视图中某个业务系统发生告警时,
个业务系统页面,查看具体信息。
;数量等信息。
在总
可以点击进入到单
2、
单个业务系统的监控视
图
查看单个业务系统包含的网络设备、服务器、数据库和中间件等监控对象的关联关系以及它们的运行状况。
2.224告警管理视图
告警管理模块汇聚了安全告警、性能告警、故障告警、状态告警等所有IT
设备的告警并进行集中展现。
通过告警管理视图可方便的进行故障定位、查看告警的详细信息、快捷的找
到类似告警的处理意见、并可实现告警的确认、取消确认、短信通知、邮件通知、告警升级等告警处理操作。
告警管理功能模块通过与IT服务管理系统等系统进行结合,可实现问题的闭环管理。
告警分析视图具体由以下基本视图构成:
序号
视图名
功能描述
1、
告警总览视图
告警总览显示告警的总体信息,包括多种告警统计、业
务系统当天告警趋势图、一周内告警数量对比图等信息。
2、
综合查询视图
1、查询的告警信息包括当前告警和历史告警信息。
查
询可按照告警所包含的任意字段,如告警编号、告警级
另告警状态、类型、告警发生时间、告警标题、告警内容、告警确认时间、告警处理人、告警源、处理意见等条件进行组合,对告警内容进行综合查询。
2、查询结果可导出为XLS、PDF、TXT文本等格式进行保存。
3、
单条告警的详细视图
告警详细页面展现的信息可根据告警类型进行定义,不冋类型的告警可根据实际情况展现不冋的属性。
用户可在告警详细页面对告警进行处理。
包括确认、取消确认。
冋时可查看告警累积次数信息、设置告警阈值规则、查询知识库和设置告警规则引擎信息等。
4、
告警通知管理视图
告警通知的方式,可包括短信告警、邮件告警、看板告警、桌面告警等方式。
1、短信告警:
通过调用统一的短信平台接口,使用短信猫分业务系统、为指定的用户类型发送告警信息。
2、邮件告警:
通过调用邮件系统接口,实现分业务系统、为指定的用户类型发送告警信息。
3、可灵活配置事件下发模式。
接收事件的用户类型包括:
资产负责人、值班人员以及规则引擎指定的用户。
可根据用户需求,设置不冋的事件下发时间段,如:
上班时间、非休息时间和用户自定义时间,不同的时间段可配置事件下发给不冋类型的管理员。
^口:
上班时间发送短信给管理员,下班时间下发给值班人员。
5
告警规则引擎
系统通过统一规则引擎,对数据进行了过滤、归并和审计动作,在海量的数据中提取有价值的数据。
如系统故障数据、性能瓶颈数据、安全数据等。
冋时用户可对数据进行个性化动作订制,包括发短信、发邮件、升级、自动确认等。
告警总览视图
告警总览主要通过告警类型、告警级别、告警状态以及业务系统等几个维度,对告警状况进行图形化展现,通过直观的方式为用户展现告警的各方面状况信息。
综合查询视图
告警综合查询视图提供了一个全面的告警搜索查询列表,用户可根据设定各方面的条件对告警进行查询以及处理。
告警的处理方式包括:
确认、取消确认等。
2.225统计分析报表
222.5.1资产统计报表
能够反映资源资产情况,按照生产厂商、业务系统、设备型号、设备类型、
联系部门、地理位置等多种维度组合查询功能,使维护人员能够清晰地了解IT
系统中各种设备、软件、应用的资源配置情况。
报表查询可以按照整体统计或设备明细进行,通过统计报表的向下钻取也可得到明细报表。
资源资产报表为用户
提供了详实的数据,为维护人员、管理人员掌控系统资源信息,充分了解系统资源配置情况提供非常便利的工具。
2.2.2.5.2性能报表
性能报表即可以按条件进行查询统计的性能视图。
各类性能报表指标如下:
1、网络设备报表
1)CPU利用率、内存利用率、设备各接口流量等。
2、Linux/unix主机报表
1)CPU:
CPU利用率、CPU用户时间利用率、CPU系统时间利用率等。
2)内存:
内存利用率、可用内存量、内存页交换进量、内存页交换出量等。
3)文件系统:
文件系统利用率、已用空间量、总空间量。
3、Windows报表
1)CPU:
CPU利用率、CPU用户时间利用率、CPU系统时间利用率等。
2)内存:
内存利用率、内存换页率、内存页交换进量、内存页交换出量。
3)逻辑磁盘:
逻辑磁盘可用率、逻辑磁盘可用空间、逻辑磁盘已用空间。
4、数据库报表
1)缓冲区命中率:
数据块在数据缓冲区中的命中率。
2)内存排序率:
排序操作在内存中进行的比率。
3)共享区命中率:
sql语句在共享区的命中率。
4)表空间使用率:
表空间已使用空间与总空间的比率。
5、中间件报表
1)Weblogic报表
打开的端口数、打开的连接数、JDBC当前连接数、JDBC可用的连接数、等待连接数等。
2)Websphere报表数据库池平均等待时长、数据库池平均利用率、数据库Cache平均等待时长、数据库Cache平均利用率、活动Bean数。
2.2.2.5.3告警报表
提供对当前告警和历史告警的查询、统计和分析功能,提供按照日、周、月等不同时间粒度的告警明细和统计报表。
主要细分为:
告警汇总统计、解决率统计、告警趋势统计、告警topN、告警综合查询:
1、告警汇总统计
根据时间段对所有告警统计,可分为告警级别和告警状态来统计
时间从xxxxx-xx-xx到xxxx-xx-xx告警级别(提示、一般、重大和紧急)
告警状态(消除和未消除)
2、解决率统计
根据用户选择的时间,来统计每天、每时的告警解决率,解决率=消除告
3、告警趋势统计
针对具体某个资产或者几个资产的告警趋势统计。
4、告警topN报表
根据用户选择的时间段,统计在时间段内出现告警最多的N台资产。
5、告警综合查询
根据用户输入的时间段、部门、告警级别、告警状态等查询条件查询。
2.2.2.6平台配置管理
平台配置主要包含采集策略配置、告警策略配置、权限配置等。
2.2.2.6.1采集策略配置
采集策略配置主要对监控对象的采集指标项、采集频率、性能阀值能配置项进行配置。
2.2.2.6.2告警策略配置
告警策略配置主要对告警规则进行配置,对告警规则条件及告警动作进行配
2.2.2.6.3权限配置
权限管理又分为人员管理、角色管理以及权限资源管理。
(1)权限的管理可实现对系统菜单、页面资源、设备资产、系统视图的
权限划分;
2)通过为角色分配权限,使角色拥有对系统菜单、页面资源、设备资产、资产关联数据权限等资源的访问、管理权限(可配置不同行政级别用户角色,使各级用户分别管理各自范围内的设备),根据需要将不同的角色赋予不同的用户,实现用户权限的分配。
可以为某些特定用户定制专门的权限,例如可以通过绑定IP和MAC地址,使部分用户不用登录直接访问系统,但只能让该类型用户查看信息展示页面。
对于业务领导用户,可以设定“链接导航”的层级,屏蔽部分底层数据(如事件信息等),只展示领导关心的统计数据。
2.2.2.7日志查看视图
为保证网络和系统的安全、可靠和稳定运行,集中展示平台具备自身日志管理功能。
系统记录的日志包括系统运行日志和用户操作日志。
(1)系统运行日志包括:
系统运行情况中产生的故障信息,主要系统模块的运行情况、系统定时任务的运行情况等;
(2)用户操作日志包括:
系统必须记录每个操作员进入、退出系统的时间以及在系统中的一些重要操作的操作内容;
(3)当具备日志管理权限的管理员进入日志管理功能后,可以看到日志记录的列表显示;
(4)输入一定条件(比如时间段)可以查询统计相关的日志记录;
(5)超级管理员可以删除一条或多条日志记录;
2.2.3统一管理数据库
2.2.3.1统一管理数据库中的数据
统一管理数据库中主要保存六大类数据:
(1)资源数据:
操作相关的配置信息。
(2)资产数据:
财务角度相关的设备信息。
(3)告警数据:
IT基础架构中异常状况相关的信息。
(4)性能数据:
表明IT基础架构运行状态的信息。
(5)元数据:
元数据是对统一管理数据库中存放的系统相关数据的描述。
(6)调和规则:
记录了系统在进行数据调和时的规则。
2.2.3.2功能描述
(1)数据访问服务
考虑到统一管理数据库事实上已经成为IT监控系统的核心,需要支撑
上层的集中展现平台,甚至为IT监控系统以外的应用程序提供以资源为中
心的数据共享功能,因此需要对统一管理数据库的外部调用接口进行设计。
接口框架设计如下:
接口名称
接口描述
资源维护接口
提供资源本身的维护和查询功能。
资源属性维护接口
提供资源属性的维护和查询功能。
资源关系维护接口
提供资源关系的维护和查询功能。
资源展现接口
提供指定资源的信息展现功能。
资源告警数据查询接口
提供指定资源的告警数据查询功能。
资源告警信息入库接口
提供标准化之后的资源告警信息批量入库功能。
资源性能数据查询接口
提供指定资源的性能数据查询功能。
资源性能数据入库接口
提供标准化之后的资源告警信息批量入库功能。
资源工单数据查询接口
提供指定资源的工单数据查询功能。
资源资产数据查询接口
提供指定资源的资产数据查询功能。
资源变更历史查询接口
提供指定资源的变更历史数据查询功能。
资源权限维护接口
提供资源权限的维护和查询功能。
(2)数据维护功能
统一管理数据库的数据准确性、实时性、可用性要求很高,否则将导致
整个管理平台的服务质量下降。
首先需要考虑的是制定严格数据维护的规
范、制度和流程,其次要考虑提供如下的数据维护功能:
数据来源维护:
包括自动化和手工的数据来源进行管理;
数据属性维护:
对指定的资源属性进行维护;
数据访问权限设置:
实现操作功能、数据范围和岗位的对应关系,对数
据访问权限进行合理设置;
数据维护请求管理:
包括请求的发起、核查、审批;
数据审计:
包括对资源变更信息的核查,差异数据的修正,资源数据的
统计等等;
(3)版本管理功能
统一管理数据库的资源数据不仅是整个IT环境的一个快照,同时还应
该反映整个IT环境的历史变更信息和版本比较。
要求提供如下的版本管理功能:
版本差异的发现:
包括资源数据变更的自动发现和审核、资源数据的人
工修正,在资源数据的变化确认之后需要对历史数据进行保留;版本信息的记录:
要求记录版本变更时间、相关人员、关联资源、变更内容;
版本信息比对:
要求提供对不同版本的资源信息进行比对的功能;历史版本恢复功能:
考虑到该功能的安全性、可行性,可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 集中 运行 监控 系统 解决方案 白皮书