数字电视双向平台网络系统应用监控管理扬州.docx
- 文档编号:30142717
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:17
- 大小:643.63KB
数字电视双向平台网络系统应用监控管理扬州.docx
《数字电视双向平台网络系统应用监控管理扬州.docx》由会员分享,可在线阅读,更多相关《数字电视双向平台网络系统应用监控管理扬州.docx(17页珍藏版)》请在冰豆网上搜索。
数字电视双向平台网络系统应用监控管理扬州
数字电视双向平台网络、系统、应用监控管理
江苏有线扬州广电网络有限公司支撑部黄强丁晶
摘要:
本文阐述了系统平台的硬件系统资源的监控,包括CPU、内存、磁盘空间、网络延时、网络流量等;各个系统平台中软件的运行状态、承载压力监控等等。
利用LINUX开源应用监控软件实施部署了一整套的监控,大大方便了值班人员的监看。
关键字
LINUX,UNIX,NAGIOS开源程序代码,DVB-C,SNMP
1、引言
随着数字电视技术的应用,广电网络形成两类产品:
单向直播频道和双向点播类业务,这些产品首先需要稳定的承载网络,其次,需要高效、可靠的应用技术平台支撑业务运行,并提供可扩展、冗余的技术平台方案。
我们针对现有DVB传输、IP-CDN等重要应用,基于SNMP监控协议、LINUX开源软件,在网络级、系统级、应用级监控管理上整合现有的资源,部署、实施了一整套高效可用,且廉价的监控平台。
做好监控后,我们的值班人员通过监控报表能直观的查看各个系统状态,细化到各个应用服务器、进程的状态和并发数等,达到事半功倍的效果,提高了工作效率。
如今,在各个领域被数字化的今天,所有的新产品推出后,首先需考量和注重的是用户良好体验,因为这关系到产品的发展和市场推广,所以,我们必须保障系统稳定、网络传输通畅。
通过建立这一整套的监控平台,经过多年实际检验,已经发挥了重要作用,现整理出来,供参考。
2、网络平台监测实施方案:
1)网络平台监测
由于机顶盒双向处理机制,决定了IP网络的重要性。
IPTV服务器对双向机顶盒提供盒子开户状态认证、用户帐户计费方式审核、流媒体点播等业务,为确保网络正常运行,必须第一时间发现IPTV外部、内部的网络故障,最短时间内解决网络承载故障。
我们部署了SOLOAWEINDTOOLS实时侦测各个网络节点的通畅性:
图1(网络丢包率排名)
实时刷新各个重要节点的网络通畅性,在监控过程中可以对节点的丢包率排名,对丢包严重的节点着重分析,并查找、分析问题。
(在监控工具机器上,部署宏点击软件,让机器自动点击排行,把丢包率高的节点排到顶端,便于值班人员查看)
图2(网络突发延迟)
每个周巡检时,逐个对网络节点查看一周的网络通畅情况,可以发现一些时间点还是存在问题,可以有针对的进行分析。
2)问题节点故障分析处理,跟踪网络路由,寻找故障中间点:
图3(追踪延迟节点)
2、服务器系统资源状态监控
(服务器系统网络、CPU、内存、磁盘空间等状态检测)
数字电视服务器涉及的操作系统:
WIN、SunSolaris10、LinuxASX、OS,这些系统OS平台是应用业务的基础。
随着业务的运行,业务进程本身会产生用户访问类的日志,如果长期不去管理,势必造成磁盘空间爆满,导致应用停止服务。
我们现在采用的监控软件是SOLOAWINDORION监控,后台使用MS-SQL2005数据库记录历史数据,并提供报表。
1)服务器端的安装配置:
首先,安装SQLSERVER服务,用于记录监控数据,便与分析统计:
图4(SQLSERVER运行状态)
第二步,安装ORION分析监控软件,按照软件安装说明,逐步配置,添加各个需要监控的服务器,最终能看到如下界面:
图5(添加的被监控客户服务器)
2)被监控端SNMP配置:
首先,需要下载snmp压缩程序包,并编译、安装。
其次,修改配置文件:
vi/etc/snmp/snmpd.conf
设置内部管理网段监控机的ip或网段:
10.0.0.0/24,通讯字符串iptv:
设置MIBsubtree视图:
由于SNMP模板配置中,基本包括了所有常用的监控参数,可以不去做修改。
3)实际监控统计:
监控统计前10个磁盘空间占比:
监控统计网络流量前10个:
一小时内网络端口错误包数量统计:
(对于流量大的服务器,通过这两个参数查看网络承载的量是否超过上限)
一天内网络端口错误数据包数量统计:
针对单个网络接口查看近7天的网络流量:
偶尔时间点,网络数据流量异常:
从这张端口流量图中,看出页面服务器在1月15日凌晨时收到大量数据包,并导致网络流量暴增,可能是收到网络风暴攻击,我们就针对该服务器加强监控。
4)具体问题点有针对性的分析:
基于多年的系统平台搭建、运维经历看,复杂的应用要想运行良好,必须要有健壮的网络承载,更要有良好的服务器硬件和稳定的操作系统支撑。
通过监控软件的统计数据,可以直观的看出问题的点,比如:
磁盘空间突然满,如果没有历史监控图展现,我们不知道该目录爆满的具体原因,无从下手解决问题:
从这张图中,我们可以清晰的看到计费系统5号服务器在过去12个月中,数次达到磁盘空间用满的危险情况,经过数次调整软件,结合LINUX的CRONTAB定时任务调整,最终彻底的解决故障。
3、实时的应用、业务服务状态监测(基于LINUX开源代码部署实施)
系统状态稳定了,就需要考虑系统之上的具体应用的运行状态,查看应用是否在线,应用并发数是否超过上限等等。
我们采用NAGRIOS-APP监控软件,在现有LINUX平台上面部署、配置了应用监控。
1)监控汇总数据;
被监控的服务器总体状况统计,一目了然的显示几台服务器正常,几台离线:
显示被监控的所有应用状态:
区域分组显示被监控统计概况,中心片源区域服务器状况:
边缘节点服务器概况:
被监控机器按照区域组统计状态:
2)应用并发压力监控数据;
应用监控中的深层次作用,就是对单个应用的具体压力监控,图中显示了西区1号服务器并发用户数是158个(currentVODusers158)。
3)NAGIOS-APP服务器端配置:
首先,在监控主机上安装NAGIOS,步骤是:
到官方网站下载开源的NAGIOS主程序,编译,然后开始安装(需要注意的是需要先新建好nagios用户和目录,并赋予权限)。
NAGIOS的主要目录:
/binNagios执行程序所在目录,nagios文件即为主程序
/etcNagios配置文件位置,初始安装完后,只有几个*.cfg-sample文件
/sbinNagiosCgi文件所在目录,也就是执行外部命令所需文件所在的目录
/ShareNagios网页文件所在的目录
/VarNagios日志文件、spid等文件所在的目录
/var/archivesEmptydirectoryforthearchivedlogs
/var/rwEmptydirectoryfortheexternalcommandfile
安装完住程序后,需要补各个插件:
nagios-plugins-1.4.9.tar.gz
修改apache配置文件
/var/download/nagios-3.0.1/sample-config/httpd.conf:
增加:
AuthUserFile/usr/local/nagios/etc/htpasswd.users(指定用户访问身份验证的文件)
增加验证用户:
/usr/local/nagios/etc/htpasswdnagiosadmin,按照提示输入两次密码,完成密码设定。
查看认证文件的内容:
完成NAGIOS的安装后,就可以登录测试:
接下来就是配置具体的NAGIOS文件:
修改nagios的主配置文件nagios.cfg:
log_file=/usr/local/nagios/var/nagios.log(nagios监看日志)
cfg_file=/usr/local/nagios/etc/objects/commands.cfg(执行命令定义)
cfg_file=/usr/local/nagios/etc/objects/contacts.cfg(联系人配置表)
cfg_file=/usr/local/nagios/etc/objects/hosts.cfg(服务器细节配置表)
cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg(监控时段配置)
cfg_file=/usr/local/nagios/etc/objects/services.cfg(应用进程)
cfg_file=/usr/local/nagios/etc/objects/hostgroups.cfg(服务器组)
cfg_file=/usr/local/nagios/etc/objects/servicegroups.cfg(服务组)
定义联系人,vi/usr/local/nagios/etc/objects/contacts.cfg:
definecontact{
contact_nameadmin#联系人的名称#
aliassysadmin#联系人别名#
service_notification_period24x7#服务出了状况通知的时间段,这个时间段就是上面在timeperiods.cfg中定义的#
host_notification_period24x7#主机出了状况通知的时间段#
service_notification_optionsw,u,c,r#当服务出现w—报警(warning),u—未知(unkown),c—严重(critical),或者r—从异常情况恢复正常,发生这四种情况后,发信息给联系人邮箱#
host_notification_optionsd,u,r#当主机出现d—当机(down),u—返回不可达(unreachable),r—从异常情况恢复正常,在这3种情况下通知联系人#
service_notification_commandsnotify-by-email#服务出问题通知采用的命令notify-by-email,这个命令是在commands.cfg中定义的,作用是给联系人发邮件#
host_notification_commandshost-notify-by-email#主机出问题时采用的也是发邮件的方式通知联系人#
emailhq@#联系的人email地址#
pager139219XXXXXX#联系人的手机#
address1XXXXXXX#地址#
address2XXXXXXX#地址#
}
接下来定义被监控的主机表,vi/usr/local/nagios/etc/objects/hosts.cfg:
[root@YZ-MONITORetc]#more/usr/local/nagios/etc/objects/hosts.cfg
definehost{
uselinux-server
host_nameYZ-MEDIA-01#媒资服务器#
aliasYZ-MEDIA-01
address10.0.0.200
}
definehost{
uselinux-server
host_nameYZ-MDB-01#媒资ORACLE数据库#
aliasYZ-MDB-01
address10.0.0.205
}
definehost{
uselinux-server
host_nameYZ-EMM-01
aliasYZ-EMM-01
address10.0.0.218
}
definehost{
uselinux-server
host_nameYZ-CDM-01#媒资认证#
aliasYZ-CDM-01
address10.0.0.219
}
definehost{
uselinux-server
host_nameYZ-EPG-01#机顶盒页面服务器#
aliasYZ-EPG-01
address10.0.0.209
}。
。
。
等等
定义监控的应用服务,vi/usr/local/nagios/etc/objects/services.cfg:
defineservice{
uselocal-service
host_nameYZ-CRD-02,YZ-CRD-02
service_descriptionCRD.exe#监控调度进程#
check_commandcheck_nrpe!
check_procs_CRD
}
defineservice{
uselocal-service
hostgroup_nameyzcncCDN
service_descriptionCSG.exe#内容分发进程#
check_commandcheck_nrpe!
check_procs_CSG
}
defineservice{
uselocal-service
hostgroup_nameyzcncCDN
service_descriptionServer.exe#流媒体进程#
check_commandcheck_nrpe!
check_procs_Server
}
defineservice{
uselocal-service
hostgroup_nameyzcncCDN
service_descriptionmpeg4usvr#实际吐流进程#
check_commandcheck_nrpe!
check_procs_mpeg4usvr
}
defineservice{
uselocal-service
host_nameYZ-CDM-01
service_descriptionCDM.exe#媒资分发#
check_commandcheck_nrpe!
check_procs_CDM
}
defineservice{
uselocal-service
host_nameYZ-CDM-01
service_descriptionAuthView.exe#计费认证#
check_commandcheck_nrpe!
check_procs_AuthView
}
defineservice{
uselocal-service
host_nameYZ-MEDIA-01
service_descriptiondisk_ocs#中心存储磁盘空间#
check_commandcheck_nrpe!
check_disk_ocs
}。
。
。
等等
最后,要定义COMMANDS,/usr/local/nagios/etc/objects/commands.cfg:
definecommand{
command_namecheck_ftp
command_line$USER1$/check_ftp-H$HOSTADDRESS$$ARG1$
}
definecommand{
command_namecheck-host-alive
command_line$USER1$/check_ping-H$HOSTADDRESS$-w3000.0,80%-c5000.0,100%-p5
}
definecommand{
command_namecheck_nrpe
command_line$USER1$/check_nrpe-H$HOSTADDRESS$-c$ARG1$
}。
。
。
等等
4)被监控应用端的配置:
首先,在被监控的服务器上,安装nagios插件、nrpe模块、check_nrpe插件,最后安装最重要的xinetd脚本:
配置八怪机房2号流媒体服务器被监控数据通讯端口:
5666,被允许的主机是10.0.0.228;
其次编辑/etc/services文件,增加NRPE服务:
增加:
nrpe5666/tcp#nrpe
重启xinetd服务:
查看确认被监控机器的NRPE服务是否在线等待:
需要注意:
被监控的服务器本地防火墙中,要打开5666tcp端口,否则监控主机无法访问、建立通讯。
最后,就是要配置允许监控哪些应用及参数:
Vi/usr/local/nagios/etc/nrpe.cfg
监控系统登陆用户、cpu负载,hda1的容量,僵尸进程,总进程数:
监控具体进程Keeper、EMM、CRD、CSG、Server、CDM、AuthView、mpeg4usvr:
3、服务器系统事务日志统一监控
实施方法:
安装一台LINUX系统服务器,打开SYSLOG服务,并接受其它服务器出来的MESSAGES,被监控的服务器把SYSLOG信息传给本地log文件的同时发送一份给接受服务器。
LINUX、WIN、UNIX系统每天都会产生大量的日志信息,由于服务器数量很多,很难做到逐一巡看,所以,针对这样的需求,拿出单独的服务器,专门采集、接受其它各个服务器产生的日志信息,这样,值班人员只需要监看这一台服务器,就足以发现有异常的日志。
4、系统支撑总结
系统值班人员定期查看各平台的历史日志,及时处理预警、告警的事件,避免大级别的故障发生,为系统周期化维护赢得足够时间。
最终,需要把监控故障处理流程进一步标准化、模式化。
由于双向产品策略较复杂,制定多部门业务需求规范流程。
制定每一个策略时,考虑到业务需求的同时,要考虑系统实施的可行性;考虑眼前需求的同时,要考虑长期的不确定性;以制定出可修改、易扩展的策略
保障好网络、系统、应用的稳定性,才能确保广电各个种类产品的良好体验,才能赢得更多数字电视用户的好评,才能留住宝贵的用户资源。
守住用户资源,我们的平台才有存在的意义和价值,开发新产品才有基础动力,特别是针对下一代智能平台的产品开发,这是一个划时代的转机,错失这个机会,将是逆转的结果。
智能平台上所有的产品、应用都是开放式的,融合各种硬件终端,包括手机、PAD、PC等移动终端,智能机顶盒、智能播放器等家庭智能媒体终端,一方面容易做到系统平台的统一支撑,另一方面,终端的应用可以做到很好的兼容,能够更好的带给用户很好的体验。
参考文献:
《NET-SNMP安装配置手册》
《NAGIOS3.X应用配置手册》
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字电视双向平台网络系统应用监控管理 扬州 数字电视 双向 平台 网络 系统 应用 监控 管理