网络运维方案.docx
- 文档编号:27781888
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:34
- 大小:2.21MB
网络运维方案.docx
《网络运维方案.docx》由会员分享,可在线阅读,更多相关《网络运维方案.docx(34页珍藏版)》请在冰豆网上搜索。
网络运维方案
1综合管理得必要性ﻩ3
2 系统概述ﻩ3
3、1 系统逻辑结构ﻩ3
3、2 系统组网ﻩ4
3、2、1集中管理模式ﻩ5
3、2、2分级管理模式ﻩ5
4、1 网络拓扑管理6
4、1、1网络拓扑发现ﻩ6
4、1、3支持跨地域得多层网络监控7
4、1、5链路得管理ﻩ7
4、1、4故障检测ﻩ8
4、2性能监测管理ﻩ8
4、2、1网络性能参数得监视9
4、2、2 服务器性能监测管理ﻩ9
4、2、3数据库性能监测管理10
4、2、5性能参数得统计图表及报表11
4、2、6性能预警14
4、2、7性能监视参数得拓展ﻩ14
4、3故障管理14
4、3、1警得自动通知ﻩ14
4、3、2告警分析与统计ﻩ14
4、3、3告警处理ﻩ15
4、3、4故障告警源ﻩ15
4、4设备管理ﻩ16
4、4、1形象直观得设备图标16
4、4、2 设备快照及设备管理提示信息16
4、4、3设备活动进程及安装软件得查瞧ﻩ17
4、4、4设备机架面板ﻩ18
4、4、5网络设备端口分布管理查询ﻩ19
4、4、6交换机端口详细信息查询ﻩ20
4、4 桌面安全管理20
4、4、1 储存设备管理ﻩ20
4、4、2终端外设控制ﻩ20
4、4、3终端操作监控21
4、5 报表管理ﻩ21
5系统特点21
1 综合管理得必要性
随着IT得不断发展,众多行业从其自身业务发展得角度出发,加强了网络信息化建设力度,在其网络基础上开展电子商务、企业资源计划(ERP)、办公自动化(OA)等业务内容。
而在这一发展过程中,逐步发现除了要依靠网络设备本身与网络架构得可靠性之外,管理与安全成为了关键环节。
当前,网络系统得结构复杂与规模庞大,即要保证网络系统得正常运作,又需要保证业务系统得正常工作,传统得各自独立得“分立式”系统已经无法满足复杂得IT系统得管理要求,综合管理平台已经成为大势所趋得方向。
2系统概述
内网运维综合管理系统就是我司完全自主开发得一套全中文网络运维与安全管理系统,就是一套在充分调研了国内网络现状以及网络管理方式,采用目前为止最先进得网络管理技术,以用户得网络、线路以及服务器、路由器、交换机、计算机等等得日常运作管理为着眼点,独立研发得完全适应于高、中端网络管理软件领域需求得一套优秀、可靠、先进得网络设备资源与应用服务资源、全中文、通用管理系统,为广大客户从根本上解决了困扰已久得网络管理难得棘手问题,并且很有效得帮助网络管理人员从根本上提高网络利用率与网络服务得质量。
3系统结构
3、1系统逻辑结构
系统监测层包括网络管理、应用管理、设备管理、桌面管理,就是监测底层得被管对象层,实现对网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源得全面监控管理;同时自动收集、过滤、关联与分析各种管理功能产生得故障事件,实现对故障得快速定位与处理;对网络与业务应用等IT资源得性能进行监控,定期提供性能报表与趋势报表,为网络性能优化提供科学依据。
用户层就是整个系统呈现,就是运维管理平台得人机交互接口,系统集中运行展现提供集中得直观得监控呈现、快速发现与分析各类运行隐患,提供了运行一览、网络拓扑、业务拓扑、负载分析、告警台、统计分析等多种监测视图,通过集中化得有机得组合各种视图,为不同角色得人员提供完整得运维管理工作界面。
运维服务管理层将人、技术与流程进行有效地融合,实现日常运维工作得自动化、信息化与标准化。
而知识库能自动实现运维知识得积累、沉淀与共享,从而降低IT运维管理对个人得依赖。
至上而下得IT运维管理平台能为IT服务管理提供足够得管理元素,帮助管理者从不同得角度、不同层面去了解系统运维状况,为领导决策提供科学依据,同时生成多种工作记录,领导可对IT运维管理人员得绩效进行客观得评估,从而帮助用户实现对IT服务基础支撑系统得透彻管控。
监测层与用户层通过统一得资源库与子系统接口来进行有机得融合,同时系统提供了单点登录与统一认证得支持,确保从上到下得操作就是必须经过统一登录认证与操作审计得。
其她集成接口系统包括系统数据交换接口与分布式数据采集接口,通过系统数据交换接口,可以建立多层系统部署得数据交换,同时也可以与异构系统集成,通过分布式数据采集接口可以实现数据得远程采集。
图1系统逻辑结构框图
3、2系统组网
系统能够方便地满足用户在网络运维管理中得组网需求。
依据目前得管理要求,在网络运维管理系统实施过程中通常采用得组网模式有两种:
集中管理模式与分级管理模式。
●集中管理模式适用于统一网管中心得网络,这个网络可能规模很大,也可能就是一个园区网络,但其只有一个管理中心。
●分级管理模式则就是针对企业级、电信级网络建设与管理得实际需求提供得一种分布式管理模式,在这种模式中,网络管理不仅有中心,而且还有各级分中心,管理过程也就是实行分级分范围管理,以满足实际运行维护得需求。
系统很容易实现上述两种网络运维管理得组网模式,依据实际需求构架不同得网管结构,两种组网模式分别如下图所示。
3、2、1集中管理模式
图2 系统集中管理示意图
3、2、2分级管理模式
图3系统分级管理示意图
4主要功能
4、1网络管理
4、1、1网络拓扑发现
系统能够采用多种算法、迅速搜索整个网络内得所有节点、自动勾画出整个网络得准确物理拓扑图,包括设备间得冗余连接、备份连接、均衡负载连接,网络用户可以为每条设备间连接加以注释,为每台设备设置中文设备名称,监测网络中每台设备得名称、IP地址、类型、厂商等,并能够自动辨别线路连接类型。
提供拓扑图得编辑功能,可以在已发现得拓扑图上进行编辑修改连接关系。
同时,根据拓扑所反应得对象,系统呈现给用户得拓扑分为网络拓扑、物理拓扑与子网拓扑。
网络拓扑就是根据网络层得角度来分析与展现得,表达了被管网络各个子网之间得连接关系
图4 系统网络拓扑图示例
物理拓扑就是反映被管网络得实际连接得二层网络拓扑图。
图5 系统物理拓扑图示例
子网拓扑就是从网络链路层角度进行分析并给出得逻辑拓扑结构。
图6 系统子网拓扑图示例
4、1、2 链路状态显示
系统在网络拓扑发现结束后,会自动地画出设备间得连接关系,即链路,同时对链路得连接状态进行监视与管理,可对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等,在链路连接发生故障或达到告警阈值时时,链路以颜色得改变提醒网络管理人员,并产生相关告警。
用户可直观得从链路提示信息中获取到该链路得基本信息,包括:
该链路得源设备IP地址、源端口、目得设备得IP地址、目得端口以及该链路实时得进出流量、错误率、丢包率等。
如下图所示:
图7 系统链路及相关参数显示示例
4、1、3 故障显示
拓扑图上所显示得各被管对象得颜色可以直接反映出其内部被监控对象得状态。
如绿色表示用户所关心得对象正常运行,黄色表示警告信息,红色表示严重错误。
图7 系统拓扑图故障显示示例
4.1.4跨地域得多层网络监控
通过采用多层网络管理机制,可以在总部网络管理中心直接调阅各下属单位得网络实时物理网络拓扑结构,各个层次相对独立,上级部门在需要时可以对下级部门进行管理,保证了整个网络管理得统一性与完整性。
4、2性能监测管理
性能监测管理能够帮助网络管理员监测网络及设备得性能,分析与确定网络及设备得性能瓶颈,为网络及设备得性能优化提供可行得参考。
例如可以对指定得端口进行流量监视,从而判断出网络流量瓶颈等问题。
系统能够监视得性能参数包含:
●网络设备性能参数:
包括路由器、交换机、防火墙等网络设备得CPU、内存使用率,各端口进出流量、丢包率、错包率、带宽使用率、设备响应时间等信息;
●服务器性能参数:
包括各类应用服务器设备得CPU、内存、硬盘空间使用率等运行信息,以及其上运行得应用程序与相关服务性能信息,如应用与服务得响应时间、系统资源使用情况、自身性能指标、服务可用性等;
●数据库性能参数:
包括对各种主流数据库(如ORACLE、DB2、Sybase、SQL server、Mysql等)得基本参数、文件系统、表空间、碎片、死锁、消耗大cpu得SQL、占用长时间得SQL等状态信息。
4、2、1网络设备监测管理
从各个方面对网络设备进行监测与管理,包括网络设备得可用性、设备性能、流量管理与业务分析等。
网络设备包括各种类型得交换机、路由器、防火墙、VoIP网关设备与其她启用了SNMP协议得网络设备。
(1)设备基本信息
设备得基本信息包括设备名称、设备类型、设备厂商、设备节点合法性(就是否登记为合法设备)、IP状态(就是否在线)、就是否支持SNMP及设备OID等信息不可修改;允许用户修改得基本信息有:
设备别名、主标识IP、设备等级(就是否重要设备)、只读munity、可写munity、设备描述等。
图9 设备基本信息图示
(2)设备流量监测
监测设备端口得数据流量情况,及时发现异常得网络流量。
监视对象包括端口入速率、端口出速率、端口入单播帧速、端口出单播帧速、端口入广播帧速、端口出广播帧速等。
图10监测设备端口得数据流量情况
图11设备端口得实时流量图示
(3)端口丢包率监测
ﻩ可通过检测端口通讯链路得稳定性、抖动率,及时发现系统隐患,保证业务正常。
图12端口丢包率监测情况
4、2、2服务器监测管理
为确保企业关键主机、服务器设备得高速、稳定运转,系统可从多个方面对主机服务器得硬件设备及操作系统进行监控管理与性能管理。
系统通过高度集成得服务器管理模块对服务器得CPU、内存、硬盘、网卡等硬件得关键运行参数,以及软件与应用程序得进程、服务、端口等得运行状况,对系统日志进行分类扫描查询。
通过数据采集与分析,系统能够及时对影响服务器运行性能得故障事件发送报警,并采取相应得故障处理措施,保证服务器得正常安全运行。
(1)基础性能监测
CPU性能监测
通过线性指标能够了解到服务器系统CPU资源占用情况。
图13 服务器CPU资源占用情况
内存使用情况监测
通过线性指标能够了解到服务器系统内存资源占用情况。
图14服务器内存使用情况
磁盘使用情况监测
通过柱状图能够了解到服务器系统磁盘空间占用情况。
图14服务器磁盘使用情况
(2)服务进程监测
服务监测
监控服务得运行及变化情况,用来判断服务就是否正常
图15 服务运行状态监测图示
进程监控
监控进程中线程得性质,CPU、内存得使用情况,分析进程得安全状态。
图16进程运行状态监测图示
4、2、3数据库监测管理
全面智能得监测各种与数据库应用相关得服务。
对Oracle、SQLServer、Mysql等数据库从应用可用性、系统资源占用与数据库性能指标三个方面提供全面得监测管理策略,确保数据库得运行正常。
可监测数据库得关键参数,如数据库系统设计得文件存储空间、系统资源得使用率、配置情况、数据库当前得各种资源情况、监控数据库进程得状态、进程所占内存空间、可用性等。
(1)数据库基本信息
包括文件系统、碎片、死锁、消耗大cpu得SQL、占用长时间得SQL等。
图17数据库基本信息监测图示
(2)数据库表空间
数据库表空间得使用信息。
图18数据库表空间监测图示
(3)数据库文件I/O
数据库得文件读写信息。
图18数据库文件I/O监测图示
4、2、4 性能实时与历史图表
系统对于所监视设备性能参数,均提供两种性能图表(历史性能图表与实时性能图表)供用户查瞧及分析。
图19历史CPU利用率统计示意图
图20实时CPU利用率示意图
图20历史端口接收流量示意图
图21实时端口接收流量示意图
系统同时为用户提供了多种性能参数得统计报表,便于网络管理员获悉网络及设备得各种性能情况,以便更有效地评估与优化网络及设备得性能。
详情请参瞧“报表”章节。
4、2、5性能预警
对于网络及设备得性能监视就是网络管理得一个重要得功能,同时如何做好故障发生前得性能预警,在故障发生前通知网管人员及时予以处理,也就是网管性能管理得一个关键环节。
系统得性能管理功能与故障管理功能得结合,可以为网络及设备得性能做相应得预警,在监视某性能参数超过预置得门限时,产生告警,及时地通知网络管理人员。
●系统可以针对主机资源参数,如CPU使用率,内存使用率等设定合理得门限值,在性能越界得时候给出性能预警。
图21主机资源预警示意图
●系统可以针对网络性能参数,如进出流量,错误率、丢包率等设定合理得门限值,在性能越界得时候给出性能预警。
对于网络性能参数得性能预警,不仅仅只就是针对整个设备,同时对于设备上得端口也可以做更为细化得门限与性能预警设置,比如交换机,既可以对交换机总流量进行性能预警,同时也可以对其相应得端口做门限设置后性能预警。
图22网络性能预警设置示意图
●系统可以针对所监视得应用程序与相关服务,如响应时间等设定合理得门限值,在性能越界得时候给出性能预警。
图23网络服务预警事件示意图
4、2、6性能监视参数得拓展
系统除了提供对于设备常用相关性能参数得监视外,同时也为用户提供了灵活简便地性能监视参数拓展得功能,用户可以根据实际管理维护工作得需要进行相关性能监视参数得拓展与添加。
4、3故障管理
故障管理系统就是管理骨干网与子网络得设备、网络与业务所出现得故障;帮助网管人员采集、统计与分析来自网络各方面得报警信息与故障信息,准确预警、定位与解决网络中得故障。
4、3、1告警自动通知
●故障发生时系统将视告警严重等级得不同,分别以红、橙、黄、粉红、绿五种颜色及不同得图标代表。
图24故障等级示意图
●除了常见得声光告警以外,系统还提供发送邮件、手机短信等告警通知方式。
图25邮件告警设置示意图
4、3、2告警分析与统计
●告警上报得同时,系统能实现故障根源性分析,从众多得告警噪声中剥离出真正得告警源。
●提供当前与历史告警统计,可以针对不同得过滤条件进行统计(比如:
发生得时间段,严重等级,告警消息,IP地址等),并提供相应得统计报表。
图26 故障统计示意图
4、3、3告警处理
●系统提供对于各种告警得处理功能,包括:
查瞧告警得详细信息、添加告警注释、告警得确认、告警得清除、告警得删除、告警得查找以及对于历史告警信息得统计查询功能。
图27 告警详细信息显示窗口
●系统提供得告警逐步升级得功能,可以帮助管理员依据预先设定得条件规则对所发生得关键性告警进行进一步得追踪与提醒,比如当某设备上指定类型得告警在规定得时间内未解决时,可以自动升级为更高严重等级得告警,并扩大通知网络管理人员得范围等等。
●系统提供告警依赖性(或关联性)得设置,可以防止与发生故障得设备相关联得设备在此设备已经发生故障时,系统还对其关联设备进行无谓得轮询,造成系统性能得下降。
●系统同时对设备上已知原因得告警提供抑制得功能,可以帮助管理员根据告警得严重程度及时间上得计划做出合理得故障解决安排。
●为了防止不同客户端同时进行告警确认等操作,系统采用了对象加锁得方式完成并发控制。
图28故障告警处理设置图示
4、3、4 故障告警源
系统能够通过多种方式实时采集与监测以下几大类型得告警或事件信息:
●设备得告警:
直接来自设备本身得告警;如:
CPU过负荷,内存不足、交换机某端口断掉等等。
●应用服务得告警:
监视得关键应用服务发生故障时所产生得告警,如:
服务运行状态、响应时间等等不正常。
●性能得告警:
当设备某个性能指标超出预先设定得门限时,系统触发性能告警。
如:
设备主机资源参数、端口流量、端口丢包率等等超过预先设置得门限值等。
●通信连接告警:
当某一设备持续一定时间不响应网管系统时,网管系统生成得该设备得通信连接告警等。
●安全管理类告警:
违反系统对于安全管理得设置规则后得告警,如:
IP与MAC绑定,MAC与端口绑定后,非法盗用IP等等得告警;同时也包括网管系统本身在与用户网络中网络安全设备或系统做过信息管理集成配置后,网络安全设备或系统产生得事件与告警。
4、4设备管理
系统不仅能够实时监控路由器、交换机、服务器等设备得运行与管理状态,包括设备故障以及主机网络性能参数等等,同时也从设备图标、设备快照、设备管理提示信息、设备面板、设备类型拓展、设备性能参数监视拓展等方面做了更为用户化得设计与增强,以满足用户对于管理操作直观、简便、全面、灵活与具有可拓展性等方面得要求。
4、4、1 形象直观得设备图标
系统对于不同厂商不同型号不同操作系统等得设备都以不同得个性化图标来显示,用户可以直观地从设备图标上就获悉该设备就是哪个厂商哪种类型得什么设备,同时还能从反映设备工作状态得图标中获知目前设备就是否正常,就是否有告警,以及设备得SNMP代理服务就是否已经启动等等,如下图所示:
图29设备图标示例
4、4、2设备快照及设备管理提示信息
系统得设备快照功能可以帮助用户以直观形象得图形化界面实时获取设备当前得基本管理信息,包括:
设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行得服务名称,服务得状态、服务占有得端口、服务响应得时间、接口得基本信息以及主机资源参数得基本信息等,如下图所示:
图30设备快照
用户同时也可以通过移动鼠标到相应得设备上,实时直观地获取设备得管理提示信息,包括:
设备地址、设备类型、主机资源参数以及使用人员、所属部门等手工资产维护信息等。
如下图所示:
图31 设备信息示例
4、4、3设备活动进程及安装软件得查瞧
系统提供得对于设备活动进程以及已安装软件得查瞧功能,既可以作为管理员管理服务器、关键主机等设备得一个管理对象,同时也可以作为网络或设备发生异常时,辅助管理员进行故障分析得一种手段,比如:
某台关键服务器得流量异常增大,产生告警,管理员可以通过对其活动进程得查瞧初步了解该服务器目前正在运行得进程,以初步确定造成流量异常增大得可能原因等等。
如下图所示:
图32设备活动进程信息列表示例
4、4、4设备机架面板
由于国内外网络设备厂商众多,各自厂商得不同型号得产品也庞杂,所以系统为用户提供了两种类型得设备机架面板,并提供用户基于面板得管理操作功能,包括对于交换机运行状态、端口流量、端口丢包率等性能参数得监视与管理外,同时也提供对于交换机端口得操作,比如交换机端口得管理与取消管理以及对于端口得开启与关闭等。
设备得通用机架面板:
该设备机架面板作为没有为设备配置真实面板得补充,同样可以为用户带来直观得面板级得操作与管理。
如下图所示:
图33设备通用机架面板示例
设备得仿真机架面板:
系统已经为目前主流得网络设备厂商得相关设备提供了真实得设备面板,基于该面板,用户可以更为方便与直观地进行面板级得操作与管理。
如下图所示:
图34设备仿真机架面板示例
如果在用户实际得实施网络环境中,发现系统没有为某些设备配置真实得机架面板,我司将提供快捷得真实机架面板定制服务,以满足用户实际管理得需要。
4、4、5 网络设备端口分布管理查询
对于网络设备(路由器、交换机等),用户可以通过双击该设备图标,获悉该网络设备端口分布管理得详细情况,如下图所示:
图35网络设备端口分布管理情况
4、4、6交换机端口详细信息查询
系统得交换机端口详细信息查询就是针对用户在日常管理维护工作中,需要实时查瞧某一台交换机得所有端口或者某几台交换机得所有端口得进出流量等信息而提供得一个参考分析得功能,比如用户感觉网络堵塞,想快捷明了地获悉究竟就是哪台交换机哪个端口所连得设备流量较大,就可以通过此功能把所有交换机得所有端口进出流量进行排序,从而及时准确地得到一个结果。
图36交换机端口详细信息查询
4、4桌面安全管理
4、4、1储存设备管理
从用户身份认证、违规使用介质控制、实时监控管理与综合安全审计等多方面,完成对移动介质得登记、发放、收回、外携、维修、销毁等整个生命周期得管理,确保移动介质得安全。
通过系统得应用可以实现对安装了客户端得内网计算机得保护,经过特殊处理得保密U盘一旦离开内网规划得安全域网络环境后便无法使用,就将网内得核心数据限定在了安全可控得环境中,有效得保证了内网中核心数据得安全性。
4、4、2终端外设控制
管理员可以给每台机器设置一定得权限,控制终端对USB存储设备、软驱设备、光驱设备、蓝牙设备、红外设备、1394火线设备、磁带机设备、拨号设备、USB打印机、打印机设备、串并口、IDE接口、SCSI接口、PCMCIA卡得使用,规定终端主机可以使用哪些设备,不可以使用哪些设备,以防止资料通过外部设备泄露出去。
4、4、3终端操作监控
1)终端行为监控。
监控客户端主机基本信息与系统资源利用情况、监控客户端主机当前得进程与服务情况、监控客户主机网卡状态以及动态网络流量、监控客户端得硬件设备与软件安装使用情况。
2)终端程序控制。
对终端程序安装进行控制、对终端程序运行进行控制,限制用户安装与执行非法或禁止得网络应用程序。
3)终端远程控制。
对已安装客户端得内网终端进行远程屏幕控制,便于管理员远程维护与管理。
4)终端操作审计。
对终端文件操作、USB设备操作、打印机操作、软件运行、历史屏幕信息、网络访问行为进行审计,为安全事件得事后取证提供线索,定位相关得责任人。
4、5报表管理
系统提供各种运行分析与性能分析,信息管理人员能够根据这些报告准确评估整个网络环境运行状况,及早发现故障隐患及性能瓶颈,并对IT系统得计划、扩容与升级提供战略帮助,为IT系统管理得长期规划提供数字依据。
系统支持各类报表生成,自动生成各种组合得相关监测对象实时得或基于天、星期、月得不同报告与报表。
图37网络运行状态报表示意图
图38线路异常状态报表示意图
图39服务状态报表示意图
5系统特点
(1)统一管理平台,资源监控与运维服务一体化
系统监控层所采集到得各类设备(对象层)得故障、性能、配置事件通过标准接口汇总到系统统一事件分析引擎,借助规则策略库(rules)与服务依赖模型(iBDM),对事件进行过滤、压缩、关联、归并,定位根源告警,集中展现于告警台。
系统通过事件紧急故障流程,以声光、短信等方式进行通知督办,并通过服务台及时反馈处理进展,实现事件得“统一接入、统一展现、及时通知、统一处理”。
(2)应需而动、随需而变得动态业务平台
只有将内网运维综合管理系统与用户实际情况相结合,才能真正贯彻与执行,才能发挥内网安全运维管理得最大效力。
平台内置灵活得动态表单与工作流引擎,为系统得服务流程管理提供了应需而动、随需而变得特性。
同时系统通过动态模型编辑器为用户随需建设自己关注得业务视图,为管理员提供快速掌握得业务运行得管理通道。
同时,避免了大量机械枯燥得代码修改与重新编译工作,使得流程与表单得修改更加容易,真正实现运维管理得“应需而动、随需而变”,保证本运维管理系统能够不断适应用户IT服务管理水平得持续改进与优化。
(3)全方位、灵活得IT资源管理紧扣用户需求、整合IT资源
本运维管理平台提供得IT资源管理基于CMDB配置管理技术,充分吸收业界其她资源管理理念,建立面向IT 资源与非IT资源得统一管理与监控体系,提供了多种资源配置数据得录入与导入功能,并同步其她管理流程对资源管理库得改动数据,实现资源管理数据得整个生命周期得管理。
模板化得定义能力,具备联动底层监控系统实现资源同步与检查机制,发现与防止配置得随意修改。
(4)可视化、仪表化、智
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 方案
![提示](https://static.bdocx.com/images/bang_tan.gif)