NPM网络流量分析平台技术实施方案.docx
- 文档编号:26077899
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:38
- 大小:7.38MB
NPM网络流量分析平台技术实施方案.docx
《NPM网络流量分析平台技术实施方案.docx》由会员分享,可在线阅读,更多相关《NPM网络流量分析平台技术实施方案.docx(38页珍藏版)》请在冰豆网上搜索。
NPM网络流量分析平台技术实施方案
1
背景分析(需求分析)
随着业务的持续增长,用户数量逐年增加,为了适应业务的需求,IT设施也在不断地完善和扩建。
网络线路、网络设备和服务器等基础设备的不断增加,使得整个网络结构变得非常庞大而且复杂。
此外,许多关键的业务系统,往往包括了网络线路、网络设备、前端应用服务器、中间件、数据库和存储等软硬件设施,这在一定程度上也增加了监控和管理的难度。
为了解决该些困难,现计划在原有网络流量分析系统的基础上,增强基于应用的网络流量分析能力,希望能够理清网络中各类应用服务器之间的关联,并且根据网络流量中的数据包的各类指标,进一步分析网络、系统及应用的运行情况,及时检测到可能存在的故障。
本文阐述如何使用CrossflowNPM方案解决以上的管理需求
2
网络流量分析方案
2.1概述
CrossflowNPM用人以为本的理念为网络部门量身打造了新一代网络性能管理系统,充分利用网络数据包建立覆盖重要链路、关键设备端口、核心服务的全面监控视图,并且按照网络部门的工作流程组织功能与操作,使其能够广泛适用于各种需要场景。
以服务为导向的网络性能管理方法使CrossflowNPM能够直接体现网络基础架构对业务应用的支撑能力,为评估、判定网络服务质量提供可以信赖的数据依据。
依托真实的网络流量,快速发现、定义应用,梳理服务路径,并提供数据正确性、变更结果验证能力,大大提升网络流量的可视化覆盖率和工作效率。
运用先进的数据统计分析技术,发现、告警模拟等功能极大简化了过去繁冗复杂的操作过程。
2.2产品架构及层级
NPM3产品架构由3部分组成:
数据采集、SP(SmartProbe)和NPMServer。
SP负责网络数据处理,包括数据存储和数据分析统计。
NPMServer由6大功能模块组成,分别是仪表台、视图、告警、报表、发现、管理。
2.3数据采集方式
监控完整全面的重要链路、关键设备及核心服务,数据采集应该覆盖到多个设备前后的流量,需要在多个点做交换机数据镜像。
当来源交换机较多,可以通过以下2种方式进行流量汇聚。
1.TAP+PacketEngine
当网络带宽利用率偏高,使用TAP做流量汇聚能保证镜像数据不会丢包,比SPAN更理想。
PacketEngine是Crossflow产品家族中专门用来汇聚和梳理来自TAP或镜像的流量并提供给上层产品(NPM/BPC)使用的一款硬件设备。
2.SPAN+PacketEngine
当网络带宽处于低利用率,镜像数据不丢包的前提下,使用SPAN是低成本的首选。
PacketEngine输入输出示意图
多节点应用端到端监控部署示意
2.4数据存储方式
NPM3支持2种原始数据存储方式,针对不同的应用,可选择是全包存储,还是截取包头一部分存储。
同时,所有的原始数据可以选择压缩保存,来提高I/O资源利用率。
2.5NPM呈现方式
用户通过访问Web浏览器访问NPM监控主界面,进行仪表台监控、视图操作、配置和告警查看等。
目前支持Firefox和Chrome浏览器。
3性能管理方案设计
3.1设计原则
3.1.1安全性
从数据源层面来说,NPM3解决方案完全通过旁路方式获取所需数据,对生产应用和网络没有风险和影响,具有极高的安全性。
从数据采集层面来说,SmartProbe接口不配置IP地址,因此无IP栈,在网络上是隐形的,安全的,无法向网络发回任何数据,因此不会对网络和网络上的主机产生任何影响。
从系统层面来说,NPM3运行在64位Linux平台上,本身具备很高的安全性和可靠性,而产品本身具有完备的用户权限控制,也最大程度地提高了用户访问安全性。
3.1.2扩展性
NPM3的产品架构支持非常灵活的部署模式,既支持传统的分布式探针加单台服务器的模式,也支持集群化的多级主从服务器加分布式探针的模式,因此可以灵活地适配用户的实际环境,无论是双中心、多中心、主备或双活、负载分摊等场景。
同时,由于授权模式没有限制部署规模,因此用户可以随时按需调整,不再需要为端口数量和存储空间而担忧。
3.1.3可用性
NPM3部署在高可靠性的64位Linux平台上,依靠自身设计的多线程并行化和自我监控机制,能够提供优秀的可用性,同时,支持平滑扩展的架构能够在高负载情况下按需扩展,保证系统持续平稳运行。
3.1.4先进性
NPM3架构设计先进,产品在敏捷模式中快速迭代开发,拥有非常高的运行效率与非常灵活的架构,可以根据实际需要进行单点、多点、分布式、主从集群式等模式的调整,同时NPM3的数据包分析技术能够帮助快速梳理应用架构,并能够进行自动化的数据包诊断分析,先进的设计理念让能够从数据包中挖掘出最大的运维价值。
3.2方案设计
3.2.1部署架构图
从重要线路、设备端口或各业务系统群镜像或分光出来的流量经过TAPSwitch后,可完成汇聚、过滤及等功能,经过TAPSwitch处理后的流量再进入SmartProbe采集探针,SmartProbe对流量进行存储和处理,并将处理后的数据发送给NPMServer进行应用梳理、实时监控、故障诊断及报表等功能.
3.2.2数据捕获点设计
NPM3利用采集和分析网络数据包来实现对重要链路、关键设备和核心服务的监控。
如果要建立全面的监控视图,数据采集需要覆盖到这些重要链路、关键设备和核心服务。
数据采集可通过交换机把数据镜像(SPAN)给流量管理设备。
除此之外,如果来源交换机较多,则需要先采用CrossFlowPacketEngine进行流量汇聚处理,再把汇聚处理过的数据接入Smartprobe设备。
3.2.2.1网络拓扑
如上图所示,在主数据中心以及备数据中心进行相关数据采集,主数据中心主要包含核心服务器一区二区、网银区、同城汇聚区、外联网区,备数据中心采集数据相关区域待定,对相关链路上的路由器、防火寺及负载均衡设备通过交换机镜像或分光进行监控。
3.2.3部署阶段性考虑
NPM3.0支持灵活的分布式架构,数据捕获、解码、存储与中央管理平台相互独立,支持一对多的管理模式;多数据中心之间支持分布式部署NPM服务器,灵活互联,集中呈现,集中管理;易于扩容监控设备、链路和重要服务;支持跨越多中心部署。
增加被监控元素的扩容方式:
以需要增加对负载均衡器的监控为例,只需将进出负载均衡器的流量镜像到SmartProbe上,在NPM3上建立设备视图,即可监控该设备的流量、性能以及对网络、应用的影响。
跨越双中心的扩容方法:
比如以数据中心A为主中心,增加数据中心B为从中心的监控。
A中心的拓扑和配置均不变,在B中心部署本地SmartProbe和NPM从服务器,将B中心的流量镜像到本地SmartProbe,所有网络数据分析在本地NPM从服务器上进行处理并发送统计结果给A中心的NPM主服务器进行呈现。
A、B中心各自独立处理数据,互不干扰。
增加监控应用的扩容方法:
NPM3拥有简单人性化的操作,通过拖拉现有组件即可配置成可监控的服务器路径图,实现所见即所得的应用监控方式。
4性能管理方案功能
4.1仪表台
链路仪表台:
侧重广域网、外联机构、因特网等重要链路的负载量和通、断。
设备仪表台:
侧重关键设备接口的性能,体现设备对网络、应用的影响。
服务路径仪表台:
以服务为导向,直接体现网络为应用提供的服务质量。
4.2视图
4.2.1链路视图
实时刷新被定义链路的吞吐量,其颗粒度为15秒(s)、1分钟(m);图形呈现可选曲线图、柱状图、堆叠柱状图、条形图、堆叠条形图、饼图;吞吐量的统计单位可选利用率(%)、比特率(bps)、字节率(Bps)、总量(字节)、包数(pps)、平均包长、包大小分布。
默认显示吞吐率及应用构成两个维度的视图,如果需要继续drilldown扩展,可以将鼠标移动到视图下方区域,可以看到诸多小图标,根据需要分别进行选择
吞吐率视图
应用分布视图
站点视图
IP构成视图
TCP会话FLOW视图
TCP微观指标视图,包括如重传,SYN,FIN,RST等指标
TCP响应时间视图
应用协议发现
导出数据包
4.2.1.1链路吞吐率
4.2.1.2应用协议构成
点击比特率值最大的绿色柱状条(此处绿色柱状表示“未知”流量)
4.2.1.3主机流量TOPN
点击排名第一的主机条形图(如图灰色条形图),鼠标放置“主机-Top10”的下方,点击
,查看指定主机的吞吐量分布情况。
4.2.1.4TCPflow会话对TOPN
4.2.1.5响应时间占比
可以实时监控网络时延和服务器响应时间的占比
4.2.1.6TCP指标
可实时统计SYN,FIN,RST,重传及零窗口等关键TCP指标
4.2.2设备视图:
通过分析TCP指标(如SYN、FIN、RST、重传、零窗口)来体现设备接口的性能,及设备接口对网络和应用产生的影响。
并且,实时刷新被定义的设备接口的吞吐量;其颗粒度为15秒(s)、1分钟(m);图形呈现可选曲线图、柱状图、堆叠柱状图、条形图、堆叠条形图、饼图;吞吐量的统计单位可选利用率(%)、比特率(bps)、字节率(Bps)、总量(字节)、包数(pps)、平均包长、包大小分布。
设备视图Drilldown操作方式:
进入设备视图,第一、二张默认为“吞吐量”、应用-Top10”。
鼠标放置“应用-Top10”的下方,点击
,查看TCP指标。
鼠标放置TCP指标柱状图的下方,点击
,可查看最近30分钟内零窗口的分布情况。
在同一张图中,可切换TCP指标进行查看。
点击
,可切换查看最近30分钟内重传的分布情况。
在上图中保持重传指标,再将鼠标放置“应用-Top10”图的下方,点击
,可查看重传的前10名主机IP,如下图。
在上图中,点击Top排名第一的主机条形图,再点击
,可查看该主机在最近30分钟内的重传情况。
4.2.3服务路径视图
4.2.3.1概览
NPM3增强了端到端的用户体验测量:
支持网状化的服务路径图;支持实时分析比特率(Mbps)、连接数、响应时间(ms)等网络指标;支持即时告警,点击告警条目可由告警关联到视图进行深入分析。
4.2.3.2站点视图
通过站点视图,可实时了解各分支机构连接到数据中心某业务应用的实时网络状况
4.2.3.3自动故障诊断
故障诊断模块可以直接分析Crossflow采集的数据资源,通过数据分析,提供故障诊断和定位信息。
4.2.3.3.1自动故障诊断与定位概览
1.选择进入故障诊断与定位。
2.填写需诊断问题的时间初始、结束,后点击“应用”,Crossflow会自动生成故障定位诊断报告。
3.通过“展开/关闭”打开选项内容。
4.注释,填写相应故障的注释,方便后续读取理解,通过“展开/关闭”打开内容。
5.Crossflow自动将诊断报告生成在“诊断结果”中。
通过“详细诊断结果选项”开启完整结果。
6.点击保存定位结果,被保存定位可在历史诊断中查询。
4.2.3.3.2自动故障诊断和定位
在诊断定位图中,使用定义好的网络服务路径图,根据数据分析结果,给出故障诊断结果并指出故障位置。
诊断定位图
支持的故障分析包括可用性:
建连失败率判断,以及性能部分:
用户体验分布、网络传输延迟分布、重传延迟比例、0窗口延迟比例、ACK延迟比例。
4.2.3.3.3自动故障诊断报告
诊断报告主要汇集各项诊断指标结果,以及给出故障主要原因。
故障诊断报告样例
4.2.3.3.4故障数据样本
故障数据样本是针对诊断结果中的主要原因,找到一个故障现象点,把这个原始的故障过程片段直接提取出来,并用红色标记出问题点,以便故障分析人员做底层采样和取证,并帮助分析人员了解故障发生的细节。
故障数据样本
4.2.3.3.5历史诊断记录
历史诊断记录
1.选择进入历史诊断记录。
2.显示保存时间、名称、保存者以及诊断结果关联地址。
选择进入诊断结果。
3.通过点击“删除”可以删除历史记录。
历史记录,界面与故障诊断界面类似。
点击“保存”,可将原始数据包(PCAP格式)导出到本地。
4.2.3.4指标统计分析及追踪
Crossflow可以实时统计网络服务的指标数据,通过服务路径图导航,总体指标分为:
可用性、性能、负载量三大影响网络服务质量的关键因素,提供历史数据的保存和查询,把握网络服务状态。
4.2.3.4.1负载量统计
对于网络服务负载量,主要统计指标包括:
总体流量、客户端数量、并发连接数。
其中,总体流量表征了当前选择的捕获点或者主机,为该网络服务所产生的流量。
总体流量
客户端数量,表征了访问当前选择的捕获点或者服务IP的独立客户端(以IP为区分)的数量。
客户端数量
并发连接数,表征了当前所选择的捕获点或者服务IP提供服务所产生的并发连接数量。
并发连接数
4.2.3.4.2可用性统计
网络服务的可用性,主要体现在建立连接是否成功,连接通道是否正常运行这两方面。
可用性统计指标包括:
TCPSYN、TCPFIN、TCPRESET三个基础指标,以及建连失败率统计。
其中TCPSYN反映了访问该服务的连接建立数量趋势。
TCPSYN
TCPFIN反映了连接正常终止的数量及变化趋势。
TCPFIN
TCPRESET则反映该服务的连接通道被异常终止的数量及变化趋势,若TCPRESET出现大的波动,并且该时段出现用户体验问题,则表征在该服务环节因某种原因异常终止了服务通道。
TCPRESET
建连失败率统计新建连接的成功失败比例,若出现连续的新建连接失败比率过高的情况,则表征网络服务可用性差。
建连失败率
4.2.3.4.3性能统计(响应时间等指标)
性能指标主要包括TCP重传和TCP零窗口及响应时间
●TCP零窗口
在网络数据传输过程中出现TCP零窗口事件,往往表示着数据接收方上层应用产生了性能问题,该指标的统计可以帮助用户迅速判断性能问题在网络侧还是应用侧。
●丢包与重传
因服务路径上某些网络设备或服务器原因产生丢包,此时NPM可以帮助用户定位到丢包位置并进一步分析。
如果网络指标统计中看到大量的TCP重传,可以判断TCP的传输性能变差。
●网络时延
TCP三次握手时候的时间
●响应时间
最后一个请求报文到第一个响应报文之间的时间差值
●数据传输时间
指一次请求响应中,客户端或者服务器发送出去连续的一段数据,这些数据发送所消耗的时间,最后算出来的是一次请求响应的传输时间平均值
4.2.3.4.4长连接状态统计
长连接状态统计
4.3告警设置和告警模拟功能
NPM3具备模拟告警功能,通过模拟调优参数,设定切实有效的告警,确保告警真实有效,极大简化了繁冗复杂的告警参数调整过程。
告警模拟器操作方式:
在告警模拟器中,设置初步的告警值、告警持续时间、告警排期,即可查看选定时间内的告警分布。
根据模拟告警结果,结合告警需求调整告警值,再次模拟。
在模拟器中调优的告警参数,可以一键应用到告警设置中,保存即生效。
4.4发现功能
4.4.1站点发现
站点功能作用于在链路视图中区分每条链路的站点吞吐量分布情况,及每个站点的流量分析情况。
站点发现操作简易,上传自定义的站点列表即刻生效。
4.4.2应用发现
NPM3支持自动发现知名应用、自动发现私有应用及自定义应用。
应用发现有2种模式,分别是发现模式和列表模式。
发现模式中,被管理流量中存在的知名应用、私有应用以柱状图的方式呈现,并且可视化了流量的覆盖率。
4.4.3自动发现知名应用的操作方式:
进入发现模式,通过自动发现知名协议降低“unknown”流量的覆盖率。
点击发现模式中的“自动发现知名应用”,在新页面中勾选需要添加的应用列表,点击“添加为新的应用”即可。
1.自动发现私有应用的操作方式:
使用自动发现知名应用后,知名应用覆盖率增长,unknown应用的覆盖率明显降低,接下来可以通过“自动发现私有应用”进一步降unknown应用的覆盖率。
点击发现模式中的“自动发现私有应用”,在新页面中勾选需要添加的应用列表,点击“添加为新的应用”即可。
4.4.4服务路径发现
SPVDiscovery产品依托于真实网络流量,实现应用服务路径的可视化,为IT部门提供准确有效的应用组件、交付设备之间的访问依赖关系信息,并且可以被持续管理,为应用项目的建设、监控、排障、迁移提供可靠的信息支持。
通过简单快捷的合并、拆分、筛选操作,以及自动化的梳理功能,SPVDiscovery产品为使用者提供了一种高效的应用梳理方法,可大大减少此项工作的时间和人力资源投入,提升IT管理的效率和价值。
SPDDisvery功能可以自动呈现被监控网络数据的IP连接性,快速梳理
应用组件之间的逻辑访问关系,为Crossflow提供SPV定义使用的客户端、服务器、服务端口等准确数据
●可根据应用服务的网络流量数据,自动生成IP连接关系图。
●支持协议识别,能够根据采集的数据样本识别特定服务端口的协议类型和名称。
●支持统计TCP会话记录信息,包括源IP地址、目标IP地址、源端口、目标端口、总字节数、单向字节数、TCPSYN标志位、TCPFIN标志位、TCPRST标志位。
●支持分析TCP连接的模式,包括同步TCP、异步TCP。
●支持分析TCP连接的可用性,包括单向会话、重复数据
●支持按照IP地址、端口、设备名,或者以上条件的复合条件进行搜索,并在拓扑图上对搜索结果进行标识。
●支持多次提取数据,能够在一张拓扑图中更换使用多份数据,并自动对比不同数据源中数据内容的增减。
●支持IP节点合并,以及节点命名。
●支持自定义节点的服务端口,并在拓扑图上标识客户端、服务器之间的访问方向。
●支持IP地址的过滤。
●支持按照组件与IP地址的对照表自动完成梳理。
●支持IP地址与设备名的转换显示。
●支持即时创建快照,在快照中提供访问关系、节点IP地址和服务端口列表。
●支持以快照为编辑的起始点,重新加载数据再次进行编辑。
●支持数据包导出,能够按照服务端口导出数据包,能够全局打包导出数据包。
NPM3的服务路径发现(SPVD)功能依托真实网络流量,快速发现、定义应用,梳理服务路径,并提供数据正确性、变更结果验证能力,大大提升网络流量的可视化覆盖率和工作效率。
服务路径发现的操作方式:
提取数据源
加载业务数据,即可呈现原始服务路径图。
通过拖拉、合并、命名组件,得到基于应用的网路服务路径图。
4.5报表
NPM3支持生成周期报表和即时报表,以及进行自动故障诊断的结果报告。
周期报表按照一定周期自动产生,例如每天、每周和每月。
内置数种报告模板,包括容量规划、服务性能等。
即时报表可在操作链路视图、设备视图时,随时点击“即时报表”直接生成PDF。
自动故障诊断报表包含故障定位、分析结论、支撑依据三个章节的内容。
5平台性能管理方案优势及价值
5.1优势总结
本方案根据实际需求,通过选用业界领先的CrossflowNPM3产品并设计部署方式,对的关键网络链路、重要的网络防火墙、负载均衡设备、业务集中系统群、IPP、网银系统群、信用卡系统群、客服系统群的通信情况进行自动化的梳理,建立网络服务视图并对该些系统在网络中的运行状态进行实时监控、告警。
本方案相比其他解决方案有着以下突出优势:
✓快速部署,即刻使用——通过梳理、配置、使用三个步骤,即可将网络性能监控投入运行,在运维中迅速发挥价值,完全避免了传统方案部署实施周期长、投入大、见效慢的缺点。
✓架构灵活,按需扩展——NPM3支持分布式和集群式部署,能够方便地部署在双中心架构中,并覆盖更大范围。
NPM3对监控端口数量没有限制,让整个方案的投资回报比远远超过其他解决方案,同时NPM3不限制存储容量的策略,让用户可以全包保存数据用于审计或回溯分析,并且没有成本压力。
✓高效的自动梳理和发现——相比其他解决方案,NPM3能够更快速地梳理应用架构,能够更精细地发现网络中的应用协议分布情况,并进行定义。
这要归功于NPM3强大的数据解码分析能力和人性化的UI以及工作流设计。
✓沉浸式界面,工作流设计——按照日常运维与排障的工作流进行设计,无论是监控和告警,还是一步步的逐层深入分析,用户均无需离开NPM3的界面,可以完全专注于工作中。
✓定位明确的视图设计——链路视图、设备视图和服务路径图分别针对网络运维中常见的场景而设计,不管是监控重要元素的状态,还是进行钻取分析,都非常方便,不像其他解决方案常见的指标泛滥、脱离场景的陈旧式视图设计。
✓自动故障诊断——其他解决方案还在沿用传统的“数据采集、提供分析界面、人工分析”的方式,而NPM3已经完成了创新的自动数据包分析诊断的实现,将专家知识固化在产品内,自动根据应用服务路径上前后数据对比分析,在海量数据包中发现异常、判定问题所在并生成报告,大大提高了排障的效率和准确性,并且将对人的依赖降低,这是NPM3特有的优势。
✓告警试算,精确设计告警——传统解决方案往往在使用中会面临一个挑战,那就是如何设置告警阈值才能让告警既准确,又不会过多。
因阈值设置不当而导致的大量告警容易让运维人员麻痹大意,并淹没真正需要关注的告警。
因此,NPM3的告警模拟器很好地解决了这个问题,通过设置阈值并根据历史数据进行试算,来直观告诉用户阈值设置是否合理,并帮助用户优化,这也成为NPM3的独特优势之一。
5.2价值与收益
5.2.1面向日常工作场景的视图
NPM3通过特色的三个视图:
线路视图、设备视图和服务路径图来涵盖日常的线路管理,容量规划,服务保障工作;利用NPM3的发现功能,用户能够高效地进行应用梳理;告警中心和告警模拟功能,帮助进行精确的告警阈值定义,及时发现网络上的故障和异常。
以上功能贯穿在新系统建设或日常运维、变更操作中,除此之外,NPM3的自动故障诊断功能被用来进行紧急的故障诊断,帮助满足高要求的服务水平。
5.2.2无与伦比的可视性
NPM3分析被监控网络上的每一个数据包,不作任何采样,能够洞察网络的最真实情况,无论是基本的链路流量、应用分布、通信对,还是访问关系、TCP指标,以及应用服务的通讯状态,都尽收眼底,提供给无与伦比的可视性。
5.2.3沉浸式工作流界面
精心设计的沉浸式界面,完全按照日常运维与排障的工作流进行设计,保证的使用体验与实际需求相一致,无论是监控和告警,还是一步步的逐层深入分析,均无需离开NPM3的界面,可以完全专注于界面中完成手头的工作。
5.2.4站在统一视角进行运维和排障
不同于传统的网络运维方式,NPM3超越了网络和基础设施视角,将网络运维的视角放在了线路、重要设备和应用服务路径上,专利的应用服务路径视图与应用架构一一对应,以一个个应用组件的网络行为作为监控对象,真正与整个IT运维团队站在了统一视角上,让沟通变得史无前例的高效,避免将宝贵的排障时间窗口浪费在额外的沟通上。
5.2.5自动诊断能力
从NPM2以来就备受好评的自动故障诊断功能,在NPM3中继续进化,该功能能够对海量数据包进行端到端的自动关联分析,即刻定位问题所在位置,给出分析结论,同时附上支撑结论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NPM 网络流量 分析 平台 技术 实施方案