XX客户数据中心运维技术服务案例.docx
- 文档编号:25972355
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:67
- 大小:930.62KB
XX客户数据中心运维技术服务案例.docx
《XX客户数据中心运维技术服务案例.docx》由会员分享,可在线阅读,更多相关《XX客户数据中心运维技术服务案例.docx(67页珍藏版)》请在冰豆网上搜索。
XX客户数据中心运维技术服务案例
XX客户数据中心运维技术服务
案例
第一章运维服务管理体系建设
2.1运维服务标准
上海云道信息技术股份有限公司运维服务主要依据的标准:
ØISO27001-信息安全管理体系基本要求;
ØISO20000-信息技术服务管理体系;
ØGAT_711-2007_信息安全技术-信息系统安全等级保护基本配置;
ØGBT_20269-2006_信息安全技术-信息系统安全管理要求;
ØGBT_20282-2007_信息安全技术-信息系统安全工程管理要求;
ØGBT_20984-2007_信息安全技术-信息安全风险评估规范;
ØGBT_22239-2008-信息安全技术-信息系统安全等级保护基本要求;
ØGBT_25058-2010-信息安全技术-信息系统安全等级保护实施指南;
ØGBZ_20986-2007_信息安全技术-信息安全事件分类分级指南;
ØISOIEC_17799-2005_信息安全管理实施指南;
ØISOIEC133351996信息技术安全管理指南。
2.2运维服务管理体系
上海云道信息技术股份有限公司根据客户运维服务需求进行信息系统运维整体规划,分阶段实现完整综合运维体系的建设。
具体建设阶段及步骤如下所示。
图2.2-1运维管理体系建设步骤
2.3运维服务流程和规范
上海上海云道信息技术股份有限公司运维服务管理流程主要包含用户、服务台、二线支持、三线支持和四线支持。
具体流程图如下所示。
图2.3-1运维服务流程
2.4运维服务人员组织架构
从事IT运维活动的所有单位、部门以及具体工作人员构成IT运维活动角色,单位、部门和人员的结构良好而有力的组织形式是提供IT运维服务的重要保障。
上海上海云道信息技术股份有限公司根据以往安全运维的经验建立了一套自己的运维服务人员组织架构。
图2.4-1运维服务人员组织架构
第二章服务内容和要求
3.1日常监测服务
3.1.1日常监测服务要求
上海云道信息技术股份有限公司公司客户提供5*8的日常监测服务,保证常驻三名维护工程师,其中两名维护工程师8:
30分开始驻场数据中心,契合客户的上班时间,另一名维护工程师于9:
00开始驻场客户核心机房工作。
如特殊情况驻场维护工程师需要离开现场则需向客户该项目负责人报告,允许后才能离场。
客户数据中心核心层、汇聚层、接入层网络系统的日常监测服务内容主要包括:
1、核心层网络性能监控、核心网络设备连通性、CPU负荷、内存负荷、网络流量使用情况等指标的监控;
2、汇聚网络设备的连通性、CPU负荷、内存负荷、端口使用情况等指标的监控;
3、各接入单位接入设备(接入交换机和安全网关)的连通性、CPU负荷、内存负荷、端口使用情况等指标的监控。
3.1.2日常监测服务目标
客户是一个大规模、开放式的网络系统,应用环境比较复杂。
为满足本项目对客户安全运维环境的需求,上海上海云道信息技术股份有限公司致力于提供严密的、可靠的、及时的安全监控服务与紧急响应服务。
运维服务目标如下:
1)实时监控服务器及网络系统的运行状态与资源使用情况,以保障网络内信息系统的运行稳定性。
2)定期检测服务器及网络系统的漏洞与弱点,以增加系统的安全系数。
3)即时地将故障或威胁告警信息传递给用户管理单位。
4)每月定期提供运维服务报告。
5)及时地提供授权的安全紧急响应服务。
3.1.3性能监控服务内容
客户数据中心核心层、汇聚层、接入层网络系统的日常监测服务内容主要为网络性能监控,主要包括:
核心层、汇聚层和各接入单位网络设备的连通性、CPU负荷、内存负荷、端口使用情况等指标的监控。
针对客户内的网络设备、网络安全设备、主机设备、存储设备等进行性能监控的主要内容包括:
1)网络设备监控内容包括连通性、CPU负荷、内存负荷、端口使用情况等指标;
2)网络安全设备监控内容包括:
连通性、CPU负荷、内存负荷、端口使用情况、活动连接数等指标;
3)主机设备监控内容包括:
连通性、CPU负荷、内存负荷、磁盘利用情况、网卡使用情况等指标;
4)存储设备监控内容包括:
连通性、CPU负荷、内存负荷、磁盘利用情况、网卡使用情况等指标。
3.1.4关键业务与服务的可用性监控
“基于业务流程的应用系统预警监测”是一个实时、高效、参数化的业务取证、监管、审计、分析和信息再现的安全管理机制,可以对业务系统运行中各种内部或外部的行为过程信息进行实时监测,利用预设的规则,实时快速进行审计和分析定位,达到业务风险预警防范的目的。
服务监控内容主要对客户内的常用系统业务及服务进行监控,监测其是否正常运行,主要包括以下方面:
1)MSSQL数据库系统的服务监控;
2)Oracle数据库系统的服务监控;
3)邮件系统,如POP服务、SMTP服务的监控;
4)DNS服务监控;
5)AD服务监控;
6)Web服务监控。
关键业务与服务的可用性监控有以下两个特点:
一、用户自定义模块;二、多样的监控手段。
⏹用户自定义模块
图3.1.4-1用户自定义模块图
⏹多样的监控手段
图3.1.4-2多类型的监控手段
3.1.5主机/存储及应用监测范围
⏹主机监测
Ø监测对象
‐对用户的数据服务器、Web服务器及其他应用服务器进行性能和安全监控。
Ø监测方法
‐采用SNMPRolling、SNMPTrap、Syslog、Agent、WMI及日志采集的方式。
Ø监测内容
‐对服务器和工作站的CPU、内存、磁盘、流量超出预设阀值进行报警;
‐对主机的非授权登入情况进行通知和预警;
‐对主机的系统日志、安全日志、应用日志的错误信息进行报警;
‐对服务器开放的服务端口的流量进行监控,超过阀值进行报警;
‐对服务器的整体流量进行监控,超过阀值进行报警;
‐对服务器和服务端口的故障进行报警。
⏹网络设备监测
Ø监测对象
‐对于机房内的网络交换路由设备进行性能和流量监测。
Ø监测方法
‐采用SNMPRolling、SNMPTrap、Syslog的方式。
Ø监测内容
‐对交换机的CPU、内存、磁盘空间超出预设阀值进行报警;
‐对交换机的流量超过预设阀值进行报警;
‐对交换机所有端口的使用情况进行监控;
‐对交换机的整体流量进行实时的监控和分析;
‐对交换机的宕机和端口连接中断进行报警。
⏹安全设备监测及报警
Ø监测对象
‐包括:
防火墙、防病毒、备份设备、入侵监测、身份认证设备等。
Ø监测方法
‐采用SNMPRolling、SNMPTrap、Syslog的方式。
Ø监测内容
‐对防火墙的流量异常超过阀值进行报警;
‐对防火墙的端口流量异常超过阀值进行报警;
‐对防火墙非正常访问行为进行统计分析;
‐对入侵监测发现的攻击行为进行报警;
‐对用户登入失败进行记录与统计。
⏹应用服务监测
Ø数据库监测
‐监测数据库能否正常被访问、进程的状态;
‐监测数据库连接数大小、高速缓存命中率、空闲内存大小等数据库容量监测;
‐监测数据库表空间大小、使用率,支持设定阀值,当达到或超过阀值时触发告警;
‐监测数据库文件大小和状态,支持设定阀值,当达到或超过阀值时触发告警;
‐数据库资源锁定策略监测指定的资源和锁定时间。
ØWEB服务监测
‐包括端口和服务是否正常,计算主页存活率,并且可以对HTTP/HTTPS返回的结果进行分析,判断服务器的实际工作是否正常。
Ø邮件服务监测
‐监测邮件发送服务器的工作状态、邮件接收服务器的工作状态(包括邮件数量和邮箱使用量)。
ØFTP服务监测
‐监测FTP服务器的工作状态,在判断条件中可以选择是否允许匿名登录、验证登录、验证文件是否存在等。
ØDNS服务监测
‐包括DNS服务的运行、DNS服务的延时及DNS服务的正确性。
ØLDAP服务监测
‐包括LDAP服务的运行、LDAP服务的延时、是否可查找到指定内容等。
ØApache服务监测
‐包括Apache服务器的CPU负载、Apache运行时间、每秒钟的请求、每秒处理字节数、繁忙作业数、空闲作业数。
Ø支持对其它特定进程及应用系统运行TCP/UDP端口的监测。
⏹监测主机及应用范围
监控的网络设备(借助第三方监控设备)、安全设备、主机操作系统、数据应用以及应用协议具体监控范围如下表所示:
网络设备监测
主机系统监测
数据应用监测
应用服务监测
Checkpoin防火墙
Topsec防火墙
Cisco防火墙
NetScreen防火墙
Cisco设备
Nortel设备
HuaWei设备
RadWare设备
F5Big-IP设备
Juniper设备
NOKIA设备
Veritas设备
TCP端口
RADIUS
PING
Interface/IP端口
Time
DayTime
FINGER
CharGen
WHOIS
Echo
…
平均负载
磁盘空间
CPU
日志文件
内存使用
系统脚本
远程PING
IO状态
NetStat
PagingSpace
交换空间
NT服务
虚拟内存
文件
系统进程
文件目录
WinRegistry
AIX系统
…
数据库(JDBC)
Informix数据库
MYSQL数据库
MS-SQL数据库
Oracle数据库
Sybase数据库
DB2数据库
Tuxedo
WebLogic
Websphere
JBOSS
Resin
Apache
MS-IIS
LDAP
IBMCICS
IBMGMDDevice
IBMHACMP
IBMTSM
LotusDnominoserver
MSExchangeserver
…
IMAP
DNS
NEWS
URL
TFTP
POP3
SMTP
FTP
…
3.1.6日常监测预警流程
图3.1.6-1日常监测预警流程
3.2网络安全服务
3.2.1网络安全服务
⏹网络访问控制
根据会话状态信息(包括数据包的源地址、目的地址、源端口号、目的端口号、协议、出入的接口、会话序列号、发出信息的主机名等信息),制定访问安全策略。
⏹网络安全审计与分析
对网络系统中的网络设备运行状况、网络流量、用户行为等进行全面的监测、记录;定期对网络安全设备、上网行为审计设备进行日志查看,并进行网络安全趋势分析。
⏹网络入侵防范
通过网络出口安全设备监视以下攻击行为:
端口扫描、强力攻击、木马后门攻击、拒绝服务攻击、缓冲区溢出攻击、IP碎片攻击、网络蠕虫攻击等入侵事件的发生;当检测到入侵事件时,应记录入侵的源IP、攻击的类型、攻击的目的、攻击的时间,并在发生严重入侵事件编制事件报告,汇报给用户负责人并提供解决方案。
⏹权限策略设置
为了方便权限分离及管理,网络安全及主机系统引入三个管理员角色,即:
系统管理员、安全管理员和安全审计员。
根据最小权限原则,系统只赋予每个管理员完成任务所需的最小权限。
系统管理员具有对服务器进行日常维护的权限,其行为由系统审计机制监控。
安全管理员具有完成安全管理任务的权限,即配置服务器系统安全策略等,并且安全管理员的一切操作行为都被记入审计日志。
安全审计员负责制定审计策略、负责审计日志的存取控制。
通过“三权分立”的管理模式,使得服务器系统中的不同管理员之间相互制约,每个角色各司其职,共同保障网络及主机系统的安全。
3.2.2防病毒服务
防病毒系统能对内部网络最重要的资产进行保护、轻松管理和自动控制,能给用户提供一个安全的端点、消息传输和WEB环境,让客户及客户既能防御当前最复杂的恶意软件、数据丢失和垃圾邮件威胁,又可以在发生故障之后快速恢复。
另外,根据客户和客户现状,制定防病毒安全策略和巡检机制,将客户和客户的安全风险降到最低。
在客户和客户的安全运维工作中,上海上海云道信息技术股份有限公司会运用计算机病毒检测方法如现象观察法、对比法、加和对比法、搜索法、软件仿真扫描法等检测方法,并且使用病毒专杀工具对客户应用平台定期进行病毒检测和处理。
图3.2.3-1计算机病毒检测方法
3.3维护服务
3.3.1基础维护服务
客户网络的维护服务根据操作类型来分主要分为4类操作,分别是设备/系统配置文件更改、机房进出设备、设备/系统故障排除以及设备重启请求处理。
●设备/系统配置文件更改主要是指对交换机、路由器、防火墙等网络设备或者数据库系统、Web系统等系统服务、DNS记录的配置调整,比如防火墙增加安全访问控制策略、路由器中添加路由等。
●机房进出设备主要是指针对客户数据中心机房内进入或搬出设备。
●设备/系统故障排除使这部分服务的重点,主要是指设备损坏、系统故障等故障现象的排除和解决。
●设备重启请求是指对客户机房内的网络设备、网络安全设备或主机设备等进行重新启动,包括立即重启和延时重启。
上述4类操作所要求的响应时间均为半小时,上海云道信息技术股份有限公司承诺具体处理完成的时间如下:
操作内容
处理时限
设备/系统配置文件更改
4小时
机房进出设备
24小时
设备/系统故障排除
2小时
设备重启请求
5分钟
如硬件维护服务的被维护对象发生硬件故障或损坏,配合设备供应商进行维修工作。
在完成客户常规维护操作的基础上,本年度还将扩展以下维护工作内容:
●在南北片数据中心机房合并后,协助南片的数据中心维护服务供应商,做好南片数据中心接入部分的配置、检查以及故障排除工作;
●协助绩效工资系统维护服务供应商,做好网络部分的保障工作;
●双休日以及公共假期,维护工作以远程工作为主,如有需要保证1小时之内到达现场,进行保障和维护工作。
上海云道信息技术股份有限公司在满足上述数据中心的维护需求外,另提供下列资产管理与运维服务:
●机房资产管理
●服务器安全服务
●安全设备安全服务
●网站安全服务
●应急预案
3.3.2服务器安全服务
3.3.2.1服务器安全服务目标
(1)每月对机房内的服务器进行学期巡检,达到服务器本身的安全;
(2)每月对服务器进行漏洞检测工作,保证服务器的系统补丁、安全更新无遗漏;
(3)针对服务器漏洞或弱点,进行针对性的安全加固;
(4)对服务器系统、数据进行备份策略的制定。
保证数据的完整性;
(5)对服务器系统日志,病毒更新日志进行收集及分析;
(6)加强服务器监控能力。
3.3.2.2服务器安全服务内容
⏹服务时间
服务内容
服务时间
交付物
备注
服务器巡检
1次/每月
巡检报告
服务器漏洞扫描
1次/每月
漏洞扫描报告加固方案
数据备份服务
按备份策略自动实施
服务器监控
常态服务(时时)
性能月报
⏹服务器巡检内容
✧服务器硬件状态:
磁盘、CPU、内存;
✧服务器补丁更新安装情况:
微软补丁更新、linux软件补丁更新、WEB应用补丁更新;
✧服务器防病毒定义更新状况;
✧系统日志审计:
系统日志、应用日志、安全日志;
✧服务器安全策略检查:
管理员帐号、密码策略、用户安全策略;
✧应用安全检测:
IIS、MSSQL或者其他类似应用系统。
⏹服务器漏洞扫描
通过NESSUS、MBSA等相关基于安全标准的工具,自动化对服务器进行扫描,内容包括如下:
✧服务器端口弱点;
✧服务器补丁状态;
✧服务器系统弱密码;
✧服务器应用BUG;
✧共享盘弱点;
✧系统安全配置策略。
⏹服务器安全加固
基于以上种种安全漏洞评估的方法,通过工具+人工的方式,得出了服务器所存在的安全漏洞。
根据最佳实践的要求与实际环境的配合,制定既安全又可靠的,且不影响应用正常运作的加固方法。
针对服务安全加固的目的:
提升服务器安全;保证服务器可以正常运行;避免加固造成的潜在风险发生。
⏹数据库备份
数据备份顾名思义,就是将数据以某种方式加以保留,以便在系统遭受破坏或其他特定情况下,重新加以利用的一个过程。
数据备份的根本目的,是重新利用,这也就是说,备份工作的核心是恢复,一个无法恢复的备份,对任何系统来说都是毫无意义的。
数据备份作为存储领域的一个重要组成部分,其在存储系统中的地位和作用都是不容忽视的。
对一个完整的企业IT系统而言,备份工作是其中必不可少的组成部分。
其意义不仅在于防范意外事件的破坏,而且还是历史数据保存归档的最佳方式。
换言之,即便系统正常工作,没有任何数据丢失或破坏发生,备份工作仍然具有非常大的意义----为我们进行历史数据查询、统计和分析,以及重要信息归档保存提供了可能。
因此,制定完善的备份策略也就成为了备份是否有效的根本所在。
我们需要通过完全备份,差异备份,增量备份,日志备份相结合的备份策略,来完善以及减轻还原时所需要的时间和人力。
完全备份:
备份全部选中的文件夹,并不依赖文件的存档属性来确定备份哪些文件。
(在备份过程中,任何现有的标记都被清除,每个文件都被标记为已备份,换言之,清除存档属性)
差异备份:
针对完全备份,且备份上一次的完全备份后发生变化的所有文件。
(差异备份过程中,只备份有标记的那些选中的文件夹和文件。
它不清楚标记)
增量备份:
备份上一次备份后,所有发生变化的文件(增量备份过程中,只备份有标记的选中的文件和文件夹,它不清除标记,既:
备份后标记文件,换言之,清除存档属性)
完全备份和差异备份:
在星期一进行完全备份,在星期二至星期五进行差异备份。
如果在星期五数据被破坏了,则你只需要还原星期一完全的备份和星期四的差异备份。
这种策略备份数据需要较少的时间,但还原数据使用较少的时间
完全备份与增量备份:
在星期一进行完全备份,在星期二至星期五进行增量备份。
如果在星期五数据被破坏了,则你需要还原星期一正常的备份和从星期二至星期五的所有增量备份。
这种策略备份数据需要较少的时间,但还原数据使用较多的时间
⏹服务器病毒更新、查杀情况跟踪
基于防病毒系统平台,对于所有的管辖范围内的客户端、服务器、都可以根据自定义策略进行报告的制作。
可以时时的,阶段性的跟踪哪些主机中毒频率比较高,病毒定义更新是否正常等状态。
3.3.3安全设备运维服务
3.3.3.1安全设备服务目标
(1)对机房内的完全设备及机房环境进行巡检;
(2)安全设备策略维护;
(3)安全设备故障响应;
(4)安全设备可用性日常监控;
(5)网络流量安全分析。
3.3.3.2安全设备及机房环境例行巡检
⏹例行巡检时间安排
‐每月一次对安全设备及机房环境进行巡检
⏹例行巡检内容
‐安全设备日志;
‐安全设备硬件状况;
‐安全设备策略;
‐机房温度、湿度、电力、空气质量等检查。
⏹巡检交付物
‐网络设备检测报告
‐机房环境检测报告
3.3.3.3安全设备策略维护
⏹安全设备策略审核标准
‐安全策略应使用最小安全原则,即除非明确允许,否则就禁止;
‐安全策略应包含基于源IP地址、目的IP地址的访问控制;
‐安全策略应包含基于源端口、目的端口的访问控制;
‐安全策略应包含基于协议类型的访问控制;
‐安全策略可包含基于MAC地址的访问控制;
‐安全策略可包含基于时间的访问控制;
‐应支持用户自定义的安全策略,安全策略可以是MAC地址、IP地址、端口、协议类型和时间的部分或全部组。
⏹安全设备应用模式审核标准
‐对于内部网络访问外部网络应采用NAT转换形式;
‐不能设置为透明模式。
⏹安全设备软件审核标准
‐软件应为最新版本且通过官网的测试。
⏹安全设备管理审核标准
‐管理应具备完善的访问审核机制;
‐远程维护应该通过VPN进行管理;
‐远程IE维护界面应开启SSL安全设置,关闭TELNET功能;
‐用户必须按照权责规范,实行权限最小化原则,给予合适的访问运维管理策略。
⏹安全设备日志审核标准
‐应记录所有相关日志,并且有日志收集服务器
‐日志记录级别应该从最低级别开启,记录相关操作内容
‐日志传输应该通过VPN或SSL通道进行收集备案
3.4系统补丁升级服务
3.4.1系统补丁更新服务概述
上海云道信息技术股份有限公司使用最快捷有效的方式对数据中心内的操作系统、常用系统服务以及网络安全设备进行补丁升级,比如Windows操作系统补丁升级、MSSQL数据库系统补丁升级、防火墙漏洞补丁升级、MSSQL数据库系统补丁升级等。
对系统补丁升级的工作将经过测试,部署到审核的流程,确保这一过程的准确性、有效性和保障系统安全性。
对windows操作系统和MSSQL的补丁升级将通过部署wsus的方式进行。
3.4.2如何准备安全补丁升级测试
为确保成功地对安全补丁升级进行测试,上海上海云道信息技术股份有限公司运维团队将完成以下准备工作:
(1)负责补丁管理的人员将确认以下问题:
Ø解决什么问题?
Ø会影响哪些系统会造成什么影响?
Ø会影响对哪些文件有影响?
Ø应用的系统是否需要重启?
Ø应用的软件是否需要重新运行?
Ø是否有卸载或回退功能?
Ø如果安装过程失败,如何保恢复系统?
(2)根据严重性对补丁漏洞进行评级和优先级排序。
表1显示如何依据标准则进行评级,并为每个级别提供了推荐的应对时间和最迟的应对时间。
当设备商或软件上发布补丁或病毒码后,可用这个表确定补丁的等优先级。
表1评级标准:
优先级
表示优先级的颜色
分级标准
推荐应对时间
最迟的应对时间
1危急(Emergency)
红色
易受攻击,攻击已出现,其他组织正在受到该问题的影响
6-12小时之内
12~18小间之内
2关键(Critical)
橙色
易受攻击,但未发现漏洞利用
48小时之内
2周之内
3紧急(Urgent)
黄色
已出现攻击技术,但难以实施
1周之内
2周之内
4严重(Important)
绿色
已出现攻击技术,但难以实施,且危害性很有限或很小
1个月之内,根据易受攻击的程度,配置新的servicepack或更新,其中包括对漏洞的修补
2个月之
内进行升
级
5通知(Information)
蓝色
没有攻击技术
3个月之内,根据易受攻击的程度,配置新的servicepack或更新,其中包括对漏洞的修补
5个月之内进行升级,或是不进行任何处理
(3)启动变更控制管理程序。
变更控制管理程序是用以确保所有的变更操作在部署或实施前都经过审核授权及通过验证,所有项目管理及操作人员都遵守有文档记录的变更控制流程。
根据系统漏洞的严重等级,比如,如果严重性等级为危急(Emergency)或是“红色”,应实施与其对应版本的快速的变更控制过程以确保在所要求需的允许时间内完成补丁安装。
3.4.3系统补丁升级的测试和部署
(1)测试系统补丁
对于系统补丁,测试的目标是确保部署补丁后,系统的操作和应用不受影响,且业务不受干扰。
为达到这一目标,在部署之前至少必须满足以下的前提条件,且满足之后将其记录下来:
◆测试环境可以最大程度地模拟目标平台
◆补丁软件更新码成功地传输到目标测试平台上
◆补丁软件更新码安装在目标(测试)平台上,且没有明显问题
◆目标(测试)平台上以往的功能性操作在安装补丁更新码之后照常运行
◆如果出现问题,补丁更新码可以成功删除
如果没有满足任何一个条件,在部署补丁之前都要对易受攻击的系统进行额外的测试。
可能需要进行多次重复工作,以确保成功的部署补丁,并降低对受影响的系统带来负面影响的风险。
(2)部署系统补丁
补丁更新码成功通过测试之后,就可以进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 客户 数据中心 技术服务 案例