系统运维方案.docx
- 文档编号:30151953
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:61
- 大小:50.74KB
系统运维方案.docx
《系统运维方案.docx》由会员分享,可在线阅读,更多相关《系统运维方案.docx(61页珍藏版)》请在冰豆网上搜索。
系统运维方案
运维技术方案
陕西思宇信息技术有限公司
1.运维服务目标及服务范围
通过购买专业运维服务,进一步加强未央区城市管理监督指挥系统运行维护,对指挥系统维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维护工作提供专业的技术平台,满足未央区城市管理监督指挥系统大数据量安全存储的要求,可以满足多种应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求,可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在应用系统和硬件设备平台正常运行,满足省本级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现信息化建设的可持续发展奠定集中统一的设施基础。
设备及软件清单:
一、系统软硬件维护
序号
内容
制造商
数量
单位
说明
1
工程投影机(SONY)
上海SONY中国有限公司
1
台
维护设备正常运行
2
高级投影金属硬屏幕(三星)
江苏张家港市电教器材厂
1
台
维护设备正常运行
3
液晶监视器、MYWAY
西安英特安防设备有限公司
6
台
维护设备正常运行
4
双基色LED屏
西安
1
台
维护设备正常运行
5
会议室用投影仪(SONY)
上海SONY中国有限公司
1
台
维护设备正常运行
6
会议室用电动伸缩幕布
江苏张家港市电教器材厂
1
台
维护设备正常运行
7
核心汇聚网络交换机/博达
上海博达数据通信有限公司
2
台
维护设备正常运行
8
接入网络交换机-指挥中心/博达
上海博达数据通信有限公司
1
台
维护设备正常运行
9
接入网络交换机-执法中队端/博达
上海博达数据通信有限公司
11
台
维护设备正常运行
10
配套光模块/博达
上海博达数据通信有限公司
22
个
维护设备正常运行
11
高端服务器
IBM
4
台
维护设备正常运行
12
中端服务器
IBM
5
台
维护设备正常运行
13
IPSAN存储设备
北京邦诺存储科技有限公司
1
台
维护设备正常运行
14
防火墙/博达
上海博达数据通信有限公司
1
台
维护设备正常运行
15
UPS
艾默生
1
台
维护设备正常运行
16
蓄电池
冠军
60
块
维护设备正常运行
17
电池柜
艾默森
2
台
维护设备正常运行
18
配电柜
国产
3
台
维护设备正常运行
19
专业型笔记本电脑
THINKPAD
2
台
维护设备正常运行
20
执法票据打印专用笔记本电脑
THINKPAD
3
台
维护设备正常运行
21
指挥中心办公工作站
联想
10
台
维护设备正常运行
22
各执法中队/督查室监控指挥工作站
联想
16
台
维护设备正常运行
23
针式票据打印机
爱普生
15
台
维护设备正常运行
24
KVM
Raritan
2
台
维护设备正常运行
25
机柜—42U
华为
3
台
除尘保养
26
机柜-6U
国产
11
台
除尘保养
27
矩阵输入输出箱
美国/派尔高
1
台
维护设备正常运行
28
带线缆输入后面板扩展板
美国/派尔高
6
块
维护设备正常运行
29
视频输入卡
美国/派尔高
6
块
维护设备正常运行
30
视频输出卡
美国/派尔高
2
块
维护设备正常运行
31
带BNC接头后面板输出板
美国/派尔高
2
块
维护设备正常运行
32
串口通讯卡
美国/派尔高
1
块
维护设备正常运行
33
128*32矩阵
美国/派尔高
1
台
维护设备正常运行
34
控制键盘
美国/派尔高
1
台
维护设备正常运行
35
工作台、椅
国产
10
套
保养维修
36
彩色多功能激光一体机
惠普
1
台
维护设备正常运行
37
路由器
华为
1
台
维护设备正常运行
38
光模块
H3C
2
个
维护设备正常运行
39
交换机
H3C
2
台
维护设备正常运行
40
防火墙
H3C
2
台
维护设备正常运行
41
空调5P
格力
1
台
维护设备正常运行
42
空调2P
格力
3
台
维护设备正常运行
43
防静电地板100平米
1
组
保养维修
44
电源柜
国产
4
台
除尘保养
45
风机、新风
1
台
保养维修
46
卡巴斯基杀毒软件
北京卡巴斯基科技有限公司
50
套
更新、升级
47
赛门铁克备份软件
赛门铁克软件北京有限公司
1
套
更新、升级
48
WindowsServer2008操作系统
微软
9
套
补丁升级,系统检测
49
数据库
Oracle
2
套
补丁升级,备份,渗透测试
50
中间件
Oracle
1
套
51
工程师日常巡检维修
12
月
硬件及系统软件的运维,驻场工程师一名
二、外设硬件维护
序号
内容
数量
单位
说明
1
前端摄像机、视频信号线路、摄像机云台控制线路、接电的故障排除、设备维修
100
点
维护设备正常运行
2
监控主机的设备检测、系统维护、扩容、故障排除
100
点
维护设备正常运行
3
立杆、设备箱、防雷设施维护
100
点
维护设备正常运行
4
设备清洁(每半年一次)
200
台次
摄像机除尘
5
固定摄像机拆除
10
点
预估拆除监控点
6
固定摄像机安装
10
点
预估安装监控点
7
移动监控车运行及维护
3
辆
保证车辆正常运行
三、移动摄像头迁移
序号
内容
数量
单位
说明
1
移动摄像机拆除
16
点
预估拆除监控点
2
移动摄像机安装
16
点
预估安装监控点
四、设备意外损坏更换
序号
内容
数量
单位
说明
1
设备意外损坏更换
1
批
预估监控点设备意外损坏更换
五、外设设备运行
序号
内容
数量
单位
说明
1
摄像头电费交纳
100
点
100个摄像头,每个摄像头功率100W
2
监控点取电位置意外变更
10
点
预估变更取电监控点10个
2.服务内容
2.1运维类别
乙方为甲方提供的运行维护服务,主要包括以下以下四个方面内容:
Ø网络设备(交换机、防火墙等)
Ø主机设备(服务器)
Ø基础软件(数据库、中间件)
Ø其他硬件(视频监控设备)
Ø桌面设备(打印机、笔记本、台式机、投影仪)
2.2运维内容
2.2.1交换机
服务描述
服务内容
例行
巡检
1.检查设备的运行状态是否正常,接口状态是否正常,有无报警。
2.设备系统版本:
查看设备的软件版本是否是最新版本,是否存在已知的可能导致运行不正常的问题。
3.检查设备电源状态信息:
查看系统电源工作情况是否正常,要求电源都工作正常。
4.检查设备风扇状态信息:
查看系统风扇工作情况是否正常,要求风扇都工作正常。
5.检查设备板卡运行状态信息:
查看系统板卡工作情况是否正常,要求板卡都工作正常。
6.检查设备的温度状态:
查看设备的温度是否正常,要求设备工作温度在5-70度之间。
7.检查设备flash信息:
查看系统flash空间使用情况是否正常,要求Flash空间利用率低于80%。
8.检查内存信息:
查看系统内存使用情况是否正常,要求“Mem”占用率要低于80%。
9.检查CPU信息:
查看系统内存使用情况是否正常,要求“CPU”占用率要低于70%。
10.检查设备运行时间:
查看设备的运行时长,要求连续运行时间应在1个月以上(4周)。
11.检查设备系统时钟信息:
查看设备进时钟信息,要求设备的系统时钟偏差在5分钟以内。
12.检查光模块输入功率信息:
要求设备可插拔模块的输入光功率不超过正常范围。
13.检查光模块工作温度信息:
要求设备可插拔模块的温度保持在温度上下限之间。
14.登录用户口令安全性:
为保证设备的安全性,要求设备登录用户的口令采用加密方式显示。
15.VRRP状态:
运行VRRP协议的接口在稳定时组状态为Master、Slave或是Backup。
16.OSPF邻居状态:
基于OSPF协议正常运行的考虑,要求OSPF协议的邻居必须稳定处于FULL状态。
17.事件日志告警信息:
是否有错误或告警日志,观察设备运行参数。
18.对设备系统配置及系统更改信息进行归档。
20.每季度到现场对维保设备进行巡检,对硬件设备运行状态进行检查和分析,及时发现故障隐患,并排除系统故障或调整系统性能,必要时更换故障部件,完成巡检和故障处理报告。
响应
支持
远程:
1、网络架构标准化、可扩展性、可用性、可靠性、高性能性、安全性及可管理性等检查;2、系统日志分析;
3、网络系统通讯状态检查;
4、检查网络流量、通讯流量控制、网络访问安全、通讯数据类型的转发、VLAN划分等;
现场:
1.查看设备运行参数;
2.提供重要事件的现场支持服务(例如网络割接、设备搬迁、设备升级、网络拓扑调整等)。
3.对设备系统配置及系统更改信息进行归档。
4.完成在巡检发现的隐患、故障的解决;
5.处理日常的网络故障;
响应时间:
一级:
10分钟(交换机宕机、网络中断等造成严重后果)
二级:
30分钟(交换机告警、不影响正常使用)
三级:
60分钟(巡检、业务咨询等)
优化
改善
1.CPU、内存等系统运行瓶颈分析;
2.结合系统软硬件的系统运行状况,进行网络整体拓扑结构化分析;
3.IOS设备微码的使用管理支持及相关升级服务;
服务时间
日常运维5x9;应急响应7x24
交付方式
现场/远程
交付成果
《巡检报告》、《服务报告》
2.2.2服务器
服务描述
服务内容
例行巡检
检查硬件设备日常的物理安全
维护主机的系统主板、CPU(含CPU板)、内存条或内存板等关键部件
维护系统电源及附属设备
维护各种存储设备,包括内置磁盘或外置磁盘阵列、磁带库、光驱等设备
维护各种适配器卡和显示设备、磁盘RAID卡等设备
维护系统和I/O卡、SCSI背板等设备
维护所有连接设备的各种线缆
响应支持
远程:
1、数据备份与恢复服务
2、配置维护服务
3、数据清理服务
现场:
1、硬件故障修复服务;
2、技术支持服务;
3、辅助故障定位服务;
4、应急方案设计与预演服务;
5、完成在巡检过程发现的隐患、潜在的故障;
响应时间
一级:
10分钟(服务器宕机、应用瘫痪等造成严重后果)
二级:
30分钟(服务器告警、不影响正常使用)
三级:
60分钟(巡检、业务咨询等)
优化改善
1.系统健康检查服务
2.性能分析与调优
巡检频度
巡查:
1次/天,巡检:
1次/季(具体可以根据客户需求提供)
服务时间
日常运维5x9;应急响应7x24
交付方式
现场/远程
交付成果
《巡检报告》、《服务报告》
2.2.3数据库
服务描述
服务内容
例行巡检
检查操作系统cpu空闲率
检查磁盘空间是否不足
检查操作系统错误日志
检测数据库是否启动,侦听是否正常(客户端)
检查和启动实例(服务器端)
检测和启动侦听(服务器端)
检查状态不是“online”的数据文件
检查数据缓冲区命中率
检查数据字典缓冲区命中率
检查LIBRARYCACHE命中率
检测使用率大于80%的表空间
检查Job是否正常
了解数据库备份情况
检查阅读oracle的报警日志(服务器端)
检查当前数据库中表和索引最大可能的数据量
检查当前所有用户名和是否锁定
检查当前具有dba权限的用户名
检查当前用户的所有角色
检查当前用户使用空间的信息
检查所有表空间的大小和当前使用率
查出最大读的热点文件
查出最大写的热点文件
检查最近的归档日志生成信息
检查当前重做日志的信息
备份的数据库所有文件(物理全备)
检查mount点的数据大小分布
检查无效的trigger
检查不起作用的约束
检查主键失效的表
检查没有主键的表
获得当前重建数据库所需要的ddl和用户信息
当运维的数据库发生故障或存在异常问题时,工程师提供7*24小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。
响应支持
远程:
1、数据库日常监控服务
2、数据库补丁与升级服务
3、数据库主动巡检服务
4、数据库备份与恢复服务
现场:
1、数据库故障修复服务
2、数据库迁移及数据清理服务
3、重大事件现场顾问支持服务
响应时间:
一级:
10分钟(数据库宕机等造成严重后果)
二级:
30分钟(数据库告警、不影响正常使用)
三级:
60分钟(巡检、业务咨询等)
优化改善
1、数据库性能优化服务
巡检频度
按客户的实际需求双方商定(具体可以根据客户需求提供)
服务时间
日常运维5x9;应急响应7x24
交付方式
现场/远程
交付成果
《巡检报告》、《服务报告》
2.2.4中间件
服务描述
服务内容
例行巡检
检查JDK版本信息
检查weblogic版本信息
检查web应用包配置和运行状态
检查EJB包配置和运行状态
检查JDBC连接池配置和运行状态
检查日志信息状态
当运维的系统发生故障或存在异常问题时,工程师提供7*24小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。
响应支持
远程:
1、主动巡检服务
2、应用中间件启、停服务
现场:
1、中间件故障修复服务
2、中间件技术支持服务
3、辅助故障定位服务
响应时间:
一级:
10分钟(中间件不可用等造成严重后果)
二级:
30分钟(中间件告警、不影响正常使用)
三级:
60分钟(巡检、业务咨询等)
优化改善
1、中间件升级服务
2、中间件配置调优服务
3、中间件架构调优
巡检频度
巡检1次/季,出现故障按合同约定时间内到达现场(具体可以根据客户需求提供)
服务时间
日常运维5x9;应急响应7x24
交付方式
现场/远程
交付成果
《巡检报告》、《服务报告》
2.2.5操作系统
服务描述
服务内容
例行巡检
1)系统空间使用情况,文件系统是否有“满”.
2)查看卷组信息,有没有"stale"状态的逻辑卷
3)检查内存交换区(pagingspace)使用率是否超过70%
4)当前操作系统版本
5)系统性能检查:
CPU性能、内存使用情况、检查IO平衡使用情况、交换空间使用情况
6)网络检查
7)检查系统合法/非法登陆情况
8)检查系统是否有巨大的Core文件生成
9)网卡的状态、IP地址、路由表等
10)snap-a来搜索AIX系统的大部分配置信息
11)查看错误报告
12)有否发给root用户的错误报告(mail)
13)查看系统信息
14)检查hacmp.out,smit.log,boot.log
15)查看卷组信息,有没有"stale"状态的逻辑卷
16)使用iostat命令监控I/O
17)查看系统定时备份情况
18)HACMP
响应支持
远程:
1、操作系统日常监控服务
2、操作系统补丁与升级服务
3、操作系统主动巡检服务
4、操作系统备份与恢复服务
5、操作系统日志清理服务
现场:
1、操作系统故障修复服务
2、操作系统主动巡检服务
3、重大事件现场顾问支持服务
响应时间:
一级:
10分钟(操作系统不可用等造成严重后果)
二级:
30分钟(操作系统告警、不影响正常使用)
三级:
60分钟(巡检、业务咨询等)
优化改善
1、操作系统参数配置及优化服务
巡检频度
1次/季(具体可以根据客户需求提供)
服务时间
日常运维5x9;应急响应7x24
交付方式
现场/远程
交付成果
《巡检报告》、《服务报告》
2.2.6视频监控
服务描述
服务内容
检查网络架构的可用性、可靠性、高性能性、安全性及可管理性等;
提供设备使用管理支持及相关升级服务;
分析系统日志;
检查网络系统通讯状态;
检查录像运行;
调整及清洁云台、固定式枪机;
及时排除发现的有隐患的系统问题;
提供重要事件现场支持服务(例如割接、设备搬迁、现网测试、组网方案等);
巡检频度
根据客户报修及年度巡检(具体可以根据客户需求提供)
服务时间
日常运维5x9
响应时间
30分钟
交付方式
现场
交付成果
《服务报告》
2.3系统软件运维
乙方为甲方提供的运行环境保障工作,提供三线技术支持服务。
编号
服务项目
服务内容
服务时间
1
远程支持
1、在维护协议有效期限内,客户将获得电话支持,由陕西思宇信息技术有限公司公司资深工程师提供技术服务,进行技术咨询,故障分析,远程诊断,并对严重问题迅速升级,包括将问题升级到专家组或派遣当原厂工程师迅速到达现场。
电话支持服务为每周7天,每天24小时。
、陕西思宇信息技术有限公司公司会通过邮件系统为客户提供技术支持服务:
定期发放系统检查报告,提供技术文档等。
、通过指定电话、邮箱提供远程故障诊断和解决方案的远程支持服务。
7天×24小时
2
现场支持
、对于客户IT系统突发性的故障或突发性的性能下降,陕西思宇信息技术有限公司公司工程师将根据与客户协商确认的服务级别和故障紧急程度,在规定时间内到达现场,排除故障,响应支持服务时间为每周7天,每天24小时。
、对于客户报告的各类问题,我方工程师将本着最小化故障时间,采用现场服务、邮件支持、远程等形式进行指导和解决。
陕西思宇信息技术有限公司公司会对客户反映的技术问题进行问题级别划分,对严重程度进行级管理,应用户请求,我们可提供不限次数和时间的现场服务。
7天×24小时
3
系统巡检
、根据客户需求,陕西思宇信息技术有限公司公司将定期对客户的系统软件进行健康检查。
并提交相应的系统健康检查报告,巡检报告将评估该IT系统的可用性、安全性、稳定性和性能现状,并就发现的问题或隐患提出我方建议的解决方案。
、对可能会产生其他一些影响的问题,或者优化方案需要用户增加资源(如性能瓶颈可能是缺乏某硬件资源)我们将在提交的报告中详细描述问题的成因,影响范围,建议的解决方案,以及解决问题的风险,交予用户评估。
、指定专人按月到场例行巡检,提供系统健康检查,配合信息安全加固工作进行补丁升级服务,提供软硬件平台升级的测试环境。
每月
4
性能诊断与性能调优
此服务指对用户的IT系统进行性能方面的分析、评估、调整,以提高该系统的整体性能。
按需
2.4硬件产品维护
硬件产品维护服务内容如下:
编号
服务项目
服务范围
服务内容
服务
时间
1
远程支持
网络设备
应用软件
通过指定电话、邮箱提供远程故障诊断和解决方案的远程支持服务
7天×24小时
2
现场支持
设备清单
对不能通过远程支持方式解决或紧急事件,指定专人提供2小时到达现场服务
7天×24小时
3
系统巡检
网络设备、主机设备
指定专人按月到场例行巡检,提供硬件健康检查和系统补丁升级服务。
每季
4
备品备件服务
硬件设备
针对客户现有硬件产品范围建立备件库,提供备件服务。
7天×24小时
3.运维人员组织架构
3.1运维组织结构介绍
我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用陕西思宇信息技术有限公司严格规范的运维管理模式,进行全方位管理。
为了进一步确保运维项目的进度与质量,陕西思宇信息技术有限公司公司在项目运维阶段、质量管理、技术文档等方面进行严密规范的部署。
陕西思宇信息技术有限公司公司的运维队伍组成包括:
>运维项目总负责人(常务总经理兼任);
>运维管理委员会(项目经理、甲方代表、监理代表);
>运维驻点服务小组;
>技术支持专家组;
>备品备件供应小组;
>文档管理小组
3.2运维成员职责
项目经理职责:
1)项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。
2)对运维项目的优质、高效、安全负全责。
驻场工程师职责:
1)负责对小型机、服务器、存储设备相关的申报事件进行处理和解决。
2)负责对小型机、服务器、存储设备提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。
3)负责保障机房服务器正常运行,遵循用户的安全保障管理要求。
4)接受用户对服务器维护事件的督办、检查,协助服务台完成对用户、意见进行回访和事件统计、分析。
对服务过程和反馈的意见进行改进,同时接受服务台的绩效考评工作。
5)及时提供服务器运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。
6)负责整理和归纳服务器日常维护知识库,提交至运维服务平台。
7)负责整理和提交服务器运维过程资料和相关配套维护文档。
技术支持专家职责:
1)为客户提供7X24小时的故障响应电话支持。
2)接听客户服务热线电话和接收(电话/Email/Fax等)客户服务请求;
3)通过网络或电话为客户提供即时的远程技术支持,包括软硬件故障的诊断和排除,客户端软件的安装和设置。
4)协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信息和状态;
备品备件管理员职责:
1)组织实施备品备件的订购、运输及入库工作;
2)负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料原因、追踪处理。
3.3运维成员组织结构
针对本次维保项目我公司配备了5名专职人员具体如下表:
4.运维质量保证措施
4.1质量控制管理
按照相应的ITSS质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。
公司的施工阶段性内部验收制度,是质量控制管理的有利保证。
工程的每一个阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验收。
验收标准整体上高于用户验收标准。
4.2进度控制管理
针对本次项目我公司结合客户要求做出如下运维计划:
序号
名称
人员
周期
1
存储系统巡检报告
驻点工程师/技术支持专家
每周
2
PC服务器
驻点工程师
每周
3
网络设备
驻点工程师/技术支持专家
每周
4
机房空调巡检报告
驻点工程师
每周
5
UPS巡检报告
驻点工程师
每季
6
数据库系统运维
驻点工程师/技术支持专家
每周
7
中间件系统运维
驻点工程师/技术支持专家
每周
8
问题报告
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 方案