书签分享收藏举报版权申诉 / 38

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 职业规划 > NPM网络流量分析平台技术实施方案.docx

NPM网络流量分析平台技术实施方案.docx

文档编号：26077899
上传时间：2023-06-17
格式：DOCX
页数：38
大小：7.38MB

《NPM网络流量分析平台技术实施方案.docx》由会员分享，可在线阅读，更多相关《NPM网络流量分析平台技术实施方案.docx（38页珍藏版）》请在冰豆网上搜索。

NPM网络流量分析平台技术实施方案.docx

NPM网络流量分析平台技术实施方案

1

背景分析（需求分析）

随着业务的持续增长，用户数量逐年增加，为了适应业务的需求，IT设施也在不断地完善和扩建。

网络线路、网络设备和服务器等基础设备的不断增加，使得整个网络结构变得非常庞大而且复杂。

此外，许多关键的业务系统，往往包括了网络线路、网络设备、前端应用服务器、中间件、数据库和存储等软硬件设施，这在一定程度上也增加了监控和管理的难度。

为了解决该些困难，现计划在原有网络流量分析系统的基础上，增强基于应用的网络流量分析能力，希望能够理清网络中各类应用服务器之间的关联，并且根据网络流量中的数据包的各类指标，进一步分析网络、系统及应用的运行情况，及时检测到可能存在的故障。

本文阐述如何使用CrossflowNPM方案解决以上的管理需求

2

网络流量分析方案

2.1概述

CrossflowNPM用人以为本的理念为网络部门量身打造了新一代网络性能管理系统，充分利用网络数据包建立覆盖重要链路、关键设备端口、核心服务的全面监控视图，并且按照网络部门的工作流程组织功能与操作，使其能够广泛适用于各种需要场景。

以服务为导向的网络性能管理方法使CrossflowNPM能够直接体现网络基础架构对业务应用的支撑能力，为评估、判定网络服务质量提供可以信赖的数据依据。

依托真实的网络流量，快速发现、定义应用，梳理服务路径，并提供数据正确性、变更结果验证能力，大大提升网络流量的可视化覆盖率和工作效率。

运用先进的数据统计分析技术，发现、告警模拟等功能极大简化了过去繁冗复杂的操作过程。

2.2产品架构及层级

NPM3产品架构由3部分组成：

数据采集、SP（SmartProbe）和NPMServer。

SP负责网络数据处理，包括数据存储和数据分析统计。

NPMServer由6大功能模块组成，分别是仪表台、视图、告警、报表、发现、管理。

2.3数据采集方式

监控完整全面的重要链路、关键设备及核心服务，数据采集应该覆盖到多个设备前后的流量，需要在多个点做交换机数据镜像。

当来源交换机较多，可以通过以下2种方式进行流量汇聚。

1.TAP+PacketEngine

当网络带宽利用率偏高，使用TAP做流量汇聚能保证镜像数据不会丢包，比SPAN更理想。

PacketEngine是Crossflow产品家族中专门用来汇聚和梳理来自TAP或镜像的流量并提供给上层产品（NPM/BPC）使用的一款硬件设备。

2.SPAN+PacketEngine

当网络带宽处于低利用率，镜像数据不丢包的前提下，使用SPAN是低成本的首选。

PacketEngine输入输出示意图

多节点应用端到端监控部署示意

2.4数据存储方式

NPM3支持2种原始数据存储方式，针对不同的应用，可选择是全包存储，还是截取包头一部分存储。

同时，所有的原始数据可以选择压缩保存，来提高I/O资源利用率。

2.5NPM呈现方式

用户通过访问Web浏览器访问NPM监控主界面，进行仪表台监控、视图操作、配置和告警查看等。

目前支持Firefox和Chrome浏览器。

3性能管理方案设计

3.1设计原则

3.1.1安全性

从数据源层面来说，NPM3解决方案完全通过旁路方式获取所需数据，对生产应用和网络没有风险和影响，具有极高的安全性。

从数据采集层面来说，SmartProbe接口不配置IP地址，因此无IP栈，在网络上是隐形的，安全的，无法向网络发回任何数据，因此不会对网络和网络上的主机产生任何影响。

从系统层面来说，NPM3运行在64位Linux平台上，本身具备很高的安全性和可靠性，而产品本身具有完备的用户权限控制，也最大程度地提高了用户访问安全性。

3.1.2扩展性

NPM3的产品架构支持非常灵活的部署模式，既支持传统的分布式探针加单台服务器的模式，也支持集群化的多级主从服务器加分布式探针的模式，因此可以灵活地适配用户的实际环境，无论是双中心、多中心、主备或双活、负载分摊等场景。

同时，由于授权模式没有限制部署规模，因此用户可以随时按需调整，不再需要为端口数量和存储空间而担忧。

3.1.3可用性

NPM3部署在高可靠性的64位Linux平台上，依靠自身设计的多线程并行化和自我监控机制，能够提供优秀的可用性，同时，支持平滑扩展的架构能够在高负载情况下按需扩展，保证系统持续平稳运行。

3.1.4先进性

NPM3架构设计先进，产品在敏捷模式中快速迭代开发，拥有非常高的运行效率与非常灵活的架构，可以根据实际需要进行单点、多点、分布式、主从集群式等模式的调整，同时NPM3的数据包分析技术能够帮助快速梳理应用架构，并能够进行自动化的数据包诊断分析，先进的设计理念让能够从数据包中挖掘出最大的运维价值。

3.2方案设计

3.2.1部署架构图

从重要线路、设备端口或各业务系统群镜像或分光出来的流量经过TAPSwitch后，可完成汇聚、过滤及等功能，经过TAPSwitch处理后的流量再进入SmartProbe采集探针，SmartProbe对流量进行存储和处理，并将处理后的数据发送给NPMServer进行应用梳理、实时监控、故障诊断及报表等功能.

3.2.2数据捕获点设计

NPM3利用采集和分析网络数据包来实现对重要链路、关键设备和核心服务的监控。

如果要建立全面的监控视图，数据采集需要覆盖到这些重要链路、关键设备和核心服务。

数据采集可通过交换机把数据镜像（SPAN）给流量管理设备。

除此之外，如果来源交换机较多，则需要先采用CrossFlowPacketEngine进行流量汇聚处理，再把汇聚处理过的数据接入Smartprobe设备。

3.2.2.1网络拓扑

如上图所示，在主数据中心以及备数据中心进行相关数据采集，主数据中心主要包含核心服务器一区二区、网银区、同城汇聚区、外联网区，备数据中心采集数据相关区域待定，对相关链路上的路由器、防火寺及负载均衡设备通过交换机镜像或分光进行监控。

3.2.3部署阶段性考虑

NPM3.0支持灵活的分布式架构，数据捕获、解码、存储与中央管理平台相互独立，支持一对多的管理模式；多数据中心之间支持分布式部署NPM服务器，灵活互联，集中呈现，集中管理；易于扩容监控设备、链路和重要服务；支持跨越多中心部署。

增加被监控元素的扩容方式：

以需要增加对负载均衡器的监控为例，只需将进出负载均衡器的流量镜像到SmartProbe上，在NPM3上建立设备视图，即可监控该设备的流量、性能以及对网络、应用的影响。

跨越双中心的扩容方法：

比如以数据中心A为主中心，增加数据中心B为从中心的监控。

A中心的拓扑和配置均不变，在B中心部署本地SmartProbe和NPM从服务器，将B中心的流量镜像到本地SmartProbe，所有网络数据分析在本地NPM从服务器上进行处理并发送统计结果给A中心的NPM主服务器进行呈现。

A、B中心各自独立处理数据，互不干扰。

增加监控应用的扩容方法：

NPM3拥有简单人性化的操作，通过拖拉现有组件即可配置成可监控的服务器路径图，实现所见即所得的应用监控方式。

4性能管理方案功能

4.1仪表台

链路仪表台：

侧重广域网、外联机构、因特网等重要链路的负载量和通、断。

设备仪表台：

侧重关键设备接口的性能，体现设备对网络、应用的影响。

服务路径仪表台：

以服务为导向，直接体现网络为应用提供的服务质量。

4.2视图

4.2.1链路视图

实时刷新被定义链路的吞吐量，其颗粒度为15秒（s）、1分钟（m）；图形呈现可选曲线图、柱状图、堆叠柱状图、条形图、堆叠条形图、饼图；吞吐量的统计单位可选利用率（%）、比特率（bps）、字节率（Bps）、总量（字节）、包数（pps）、平均包长、包大小分布。

默认显示吞吐率及应用构成两个维度的视图，如果需要继续drilldown扩展，可以将鼠标移动到视图下方区域，可以看到诸多小图标，根据需要分别进行选择

吞吐率视图

应用分布视图

站点视图

IP构成视图

TCP会话FLOW视图

TCP微观指标视图，包括如重传，SYN,FIN,RST等指标

TCP响应时间视图

应用协议发现

导出数据包

4.2.1.1链路吞吐率

4.2.1.2应用协议构成

点击比特率值最大的绿色柱状条（此处绿色柱状表示“未知”流量）

4.2.1.3主机流量TOPN

点击排名第一的主机条形图（如图灰色条形图），鼠标放置“主机-Top10”的下方，点击

，查看指定主机的吞吐量分布情况。

4.2.1.4TCPflow会话对TOPN

4.2.1.5响应时间占比

可以实时监控网络时延和服务器响应时间的占比

4.2.1.6TCP指标

可实时统计SYN,FIN,RST,重传及零窗口等关键TCP指标

4.2.2设备视图：

通过分析TCP指标（如SYN、FIN、RST、重传、零窗口）来体现设备接口的性能，及设备接口对网络和应用产生的影响。

并且，实时刷新被定义的设备接口的吞吐量；其颗粒度为15秒（s）、1分钟（m）；图形呈现可选曲线图、柱状图、堆叠柱状图、条形图、堆叠条形图、饼图；吞吐量的统计单位可选利用率（%）、比特率（bps）、字节率（Bps）、总量（字节）、包数（pps）、平均包长、包大小分布。

设备视图Drilldown操作方式：

进入设备视图，第一、二张默认为“吞吐量”、应用-Top10”。

鼠标放置“应用-Top10”的下方，点击

，查看TCP指标。

鼠标放置TCP指标柱状图的下方，点击

，可查看最近30分钟内零窗口的分布情况。

在同一张图中，可切换TCP指标进行查看。

点击

，可切换查看最近30分钟内重传的分布情况。

在上图中保持重传指标，再将鼠标放置“应用-Top10”图的下方，点击

，可查看重传的前10名主机IP，如下图。

在上图中，点击Top排名第一的主机条形图，再点击

，可查看该主机在最近30分钟内的重传情况。

4.2.3服务路径视图

4.2.3.1概览

NPM3增强了端到端的用户体验测量：

支持网状化的服务路径图；支持实时分析比特率（Mbps）、连接数、响应时间（ms）等网络指标；支持即时告警，点击告警条目可由告警关联到视图进行深入分析。

4.2.3.2站点视图

通过站点视图，可实时了解各分支机构连接到数据中心某业务应用的实时网络状况

4.2.3.3自动故障诊断

故障诊断模块可以直接分析Crossflow采集的数据资源，通过数据分析，提供故障诊断和定位信息。

4.2.3.3.1自动故障诊断与定位概览

1.选择进入故障诊断与定位。

2.填写需诊断问题的时间初始、结束，后点击“应用”，Crossflow会自动生成故障定位诊断报告。

3.通过“展开/关闭”打开选项内容。

4.注释，填写相应故障的注释，方便后续读取理解，通过“展开/关闭”打开内容。

5.Crossflow自动将诊断报告生成在“诊断结果”中。

通过“详细诊断结果选项”开启完整结果。

6.点击保存定位结果，被保存定位可在历史诊断中查询。

4.2.3.3.2自动故障诊断和定位

在诊断定位图中，使用定义好的网络服务路径图，根据数据分析结果，给出故障诊断结果并指出故障位置。

诊断定位图

支持的故障分析包括可用性：

建连失败率判断，以及性能部分：

用户体验分布、网络传输延迟分布、重传延迟比例、0窗口延迟比例、ACK延迟比例。

4.2.3.3.3自动故障诊断报告

诊断报告主要汇集各项诊断指标结果，以及给出故障主要原因。

故障诊断报告样例

4.2.3.3.4故障数据样本

故障数据样本是针对诊断结果中的主要原因，找到一个故障现象点，把这个原始的故障过程片段直接提取出来，并用红色标记出问题点，以便故障分析人员做底层采样和取证，并帮助分析人员了解故障发生的细节。

故障数据样本

4.2.3.3.5历史诊断记录

历史诊断记录

1.选择进入历史诊断记录。

2.显示保存时间、名称、保存者以及诊断结果关联地址。

选择进入诊断结果。

3.通过点击“删除”可以删除历史记录。

历史记录，界面与故障诊断界面类似。

点击“保存”，可将原始数据包（PCAP格式）导出到本地。

4.2.3.4指标统计分析及追踪

Crossflow可以实时统计网络服务的指标数据，通过服务路径图导航，总体指标分为：

可用性、性能、负载量三大影响网络服务质量的关键因素，提供历史数据的保存和查询，把握网络服务状态。

4.2.3.4.1负载量统计

对于网络服务负载量，主要统计指标包括：

总体流量、客户端数量、并发连接数。

其中，总体流量表征了当前选择的捕获点或者主机，为该网络服务所产生的流量。

总体流量

客户端数量，表征了访问当前选择的捕获点或者服务IP的独立客户端（以IP为区分）的数量。

客户端数量

并发连接数，表征了当前所选择的捕获点或者服务IP提供服务所产生的并发连接数量。

并发连接数

4.2.3.4.2可用性统计

网络服务的可用性，主要体现在建立连接是否成功，连接通道是否正常运行这两方面。

可用性统计指标包括：

TCPSYN、TCPFIN、TCPRESET三个基础指标，以及建连失败率统计。

其中TCPSYN反映了访问该服务的连接建立数量趋势。

TCPSYN

TCPFIN反映了连接正常终止的数量及变化趋势。

TCPFIN

TCPRESET则反映该服务的连接通道被异常终止的数量及变化趋势，若TCPRESET出现大的波动，并且该时段出现用户体验问题，则表征在该服务环节因某种原因异常终止了服务通道。

TCPRESET

建连失败率统计新建连接的成功失败比例，若出现连续的新建连接失败比率过高的情况，则表征网络服务可用性差。

建连失败率

4.2.3.4.3性能统计（响应时间等指标）

性能指标主要包括TCP重传和TCP零窗口及响应时间

●TCP零窗口

在网络数据传输过程中出现TCP零窗口事件，往往表示着数据接收方上层应用产生了性能问题，该指标的统计可以帮助用户迅速判断性能问题在网络侧还是应用侧。

●丢包与重传

因服务路径上某些网络设备或服务器原因产生丢包，此时NPM可以帮助用户定位到丢包位置并进一步分析。

如果网络指标统计中看到大量的TCP重传，可以判断TCP的传输性能变差。

●网络时延

TCP三次握手时候的时间

●响应时间

最后一个请求报文到第一个响应报文之间的时间差值

●数据传输时间

指一次请求响应中，客户端或者服务器发送出去连续的一段数据，这些数据发送所消耗的时间，最后算出来的是一次请求响应的传输时间平均值

4.2.3.4.4长连接状态统计

长连接状态统计

4.3告警设置和告警模拟功能

NPM3具备模拟告警功能，通过模拟调优参数，设定切实有效的告警，确保告警真实有效，极大简化了繁冗复杂的告警参数调整过程。

告警模拟器操作方式：

在告警模拟器中，设置初步的告警值、告警持续时间、告警排期，即可查看选定时间内的告警分布。

根据模拟告警结果，结合告警需求调整告警值，再次模拟。

在模拟器中调优的告警参数，可以一键应用到告警设置中，保存即生效。

4.4发现功能

4.4.1站点发现

站点功能作用于在链路视图中区分每条链路的站点吞吐量分布情况，及每个站点的流量分析情况。

站点发现操作简易，上传自定义的站点列表即刻生效。

4.4.2应用发现

NPM3支持自动发现知名应用、自动发现私有应用及自定义应用。

应用发现有2种模式，分别是发现模式和列表模式。

发现模式中，被管理流量中存在的知名应用、私有应用以柱状图的方式呈现，并且可视化了流量的覆盖率。

4.4.3自动发现知名应用的操作方式：

进入发现模式，通过自动发现知名协议降低“unknown”流量的覆盖率。

点击发现模式中的“自动发现知名应用”，在新页面中勾选需要添加的应用列表，点击“添加为新的应用”即可。

1.自动发现私有应用的操作方式：

使用自动发现知名应用后，知名应用覆盖率增长，unknown应用的覆盖率明显降低，接下来可以通过“自动发现私有应用”进一步降unknown应用的覆盖率。

点击发现模式中的“自动发现私有应用”，在新页面中勾选需要添加的应用列表，点击“添加为新的应用”即可。

4.4.4服务路径发现

SPVDiscovery产品依托于真实网络流量，实现应用服务路径的可视化，为IT部门提供准确有效的应用组件、交付设备之间的访问依赖关系信息，并且可以被持续管理，为应用项目的建设、监控、排障、迁移提供可靠的信息支持。

通过简单快捷的合并、拆分、筛选操作，以及自动化的梳理功能，SPVDiscovery产品为使用者提供了一种高效的应用梳理方法，可大大减少此项工作的时间和人力资源投入，提升IT管理的效率和价值。

SPDDisvery功能可以自动呈现被监控网络数据的IP连接性，快速梳理

应用组件之间的逻辑访问关系，为Crossflow提供SPV定义使用的客户端、服务器、服务端口等准确数据

●可根据应用服务的网络流量数据，自动生成IP连接关系图。

●支持协议识别，能够根据采集的数据样本识别特定服务端口的协议类型和名称。

●支持统计TCP会话记录信息，包括源IP地址、目标IP地址、源端口、目标端口、总字节数、单向字节数、TCPSYN标志位、TCPFIN标志位、TCPRST标志位。

●支持分析TCP连接的模式，包括同步TCP、异步TCP。

●支持分析TCP连接的可用性，包括单向会话、重复数据

●支持按照IP地址、端口、设备名，或者以上条件的复合条件进行搜索，并在拓扑图上对搜索结果进行标识。

●支持多次提取数据，能够在一张拓扑图中更换使用多份数据，并自动对比不同数据源中数据内容的增减。

●支持IP节点合并，以及节点命名。

●支持自定义节点的服务端口，并在拓扑图上标识客户端、服务器之间的访问方向。

●支持IP地址的过滤。

●支持按照组件与IP地址的对照表自动完成梳理。

●支持IP地址与设备名的转换显示。

●支持即时创建快照，在快照中提供访问关系、节点IP地址和服务端口列表。

●支持以快照为编辑的起始点，重新加载数据再次进行编辑。

●支持数据包导出，能够按照服务端口导出数据包，能够全局打包导出数据包。

NPM3的服务路径发现（SPVD）功能依托真实网络流量，快速发现、定义应用，梳理服务路径，并提供数据正确性、变更结果验证能力，大大提升网络流量的可视化覆盖率和工作效率。

服务路径发现的操作方式：

提取数据源

加载业务数据，即可呈现原始服务路径图。

通过拖拉、合并、命名组件，得到基于应用的网路服务路径图。

4.5报表

NPM3支持生成周期报表和即时报表，以及进行自动故障诊断的结果报告。

周期报表按照一定周期自动产生，例如每天、每周和每月。

内置数种报告模板，包括容量规划、服务性能等。

即时报表可在操作链路视图、设备视图时，随时点击“即时报表”直接生成PDF。

自动故障诊断报表包含故障定位、分析结论、支撑依据三个章节的内容。

5平台性能管理方案优势及价值

5.1优势总结

本方案根据实际需求，通过选用业界领先的CrossflowNPM3产品并设计部署方式，对的关键网络链路、重要的网络防火墙、负载均衡设备、业务集中系统群、IPP、网银系统群、信用卡系统群、客服系统群的通信情况进行自动化的梳理，建立网络服务视图并对该些系统在网络中的运行状态进行实时监控、告警。

本方案相比其他解决方案有着以下突出优势：

✓快速部署，即刻使用——通过梳理、配置、使用三个步骤，即可将网络性能监控投入运行，在运维中迅速发挥价值，完全避免了传统方案部署实施周期长、投入大、见效慢的缺点。

✓架构灵活，按需扩展——NPM3支持分布式和集群式部署，能够方便地部署在双中心架构中，并覆盖更大范围。

NPM3对监控端口数量没有限制，让整个方案的投资回报比远远超过其他解决方案，同时NPM3不限制存储容量的策略，让用户可以全包保存数据用于审计或回溯分析，并且没有成本压力。

✓高效的自动梳理和发现——相比其他解决方案，NPM3能够更快速地梳理应用架构，能够更精细地发现网络中的应用协议分布情况，并进行定义。

这要归功于NPM3强大的数据解码分析能力和人性化的UI以及工作流设计。

✓沉浸式界面，工作流设计——按照日常运维与排障的工作流进行设计，无论是监控和告警，还是一步步的逐层深入分析，用户均无需离开NPM3的界面，可以完全专注于工作中。

✓定位明确的视图设计——链路视图、设备视图和服务路径图分别针对网络运维中常见的场景而设计，不管是监控重要元素的状态，还是进行钻取分析，都非常方便，不像其他解决方案常见的指标泛滥、脱离场景的陈旧式视图设计。

✓自动故障诊断——其他解决方案还在沿用传统的“数据采集、提供分析界面、人工分析”的方式，而NPM3已经完成了创新的自动数据包分析诊断的实现，将专家知识固化在产品内，自动根据应用服务路径上前后数据对比分析，在海量数据包中发现异常、判定问题所在并生成报告，大大提高了排障的效率和准确性，并且将对人的依赖降低，这是NPM3特有的优势。

✓告警试算，精确设计告警——传统解决方案往往在使用中会面临一个挑战，那就是如何设置告警阈值才能让告警既准确，又不会过多。

因阈值设置不当而导致的大量告警容易让运维人员麻痹大意，并淹没真正需要关注的告警。

因此，NPM3的告警模拟器很好地解决了这个问题，通过设置阈值并根据历史数据进行试算，来直观告诉用户阈值设置是否合理，并帮助用户优化，这也成为NPM3的独特优势之一。

5.2价值与收益

5.2.1面向日常工作场景的视图

NPM3通过特色的三个视图：

线路视图、设备视图和服务路径图来涵盖日常的线路管理，容量规划，服务保障工作；利用NPM3的发现功能，用户能够高效地进行应用梳理；告警中心和告警模拟功能，帮助进行精确的告警阈值定义，及时发现网络上的故障和异常。

以上功能贯穿在新系统建设或日常运维、变更操作中，除此之外，NPM3的自动故障诊断功能被用来进行紧急的故障诊断，帮助满足高要求的服务水平。

5.2.2无与伦比的可视性

NPM3分析被监控网络上的每一个数据包，不作任何采样，能够洞察网络的最真实情况，无论是基本的链路流量、应用分布、通信对，还是访问关系、TCP指标，以及应用服务的通讯状态，都尽收眼底，提供给无与伦比的可视性。

5.2.3沉浸式工作流界面

精心设计的沉浸式界面，完全按照日常运维与排障的工作流进行设计，保证的使用体验与实际需求相一致，无论是监控和告警，还是一步步的逐层深入分析，均无需离开NPM3的界面，可以完全专注于界面中完成手头的工作。

5.2.4站在统一视角进行运维和排障

不同于传统的网络运维方式，NPM3超越了网络和基础设施视角，将网络运维的视角放在了线路、重要设备和应用服务路径上，专利的应用服务路径视图与应用架构一一对应，以一个个应用组件的网络行为作为监控对象，真正与整个IT运维团队站在了统一视角上，让沟通变得史无前例的高效，避免将宝贵的排障时间窗口浪费在额外的沟通上。

5.2.5自动诊断能力

从NPM2以来就备受好评的自动故障诊断功能，在NPM3中继续进化，该功能能够对海量数据包进行端到端的自动关联分析，即刻定位问题所在位置，给出分析结论，同时附上支撑结论