首页
解决方案
产品+服务
技术中心
新闻动态
公司介绍
首页
解决方案
服务
加快入市速度
在数周内实现新技术的发布
降低复杂性和成本
管理厂商来降低成本
优化用户体验
快速发现和解决问题
强化安全防御
以前瞻方式发现和解决漏洞
需求
测试测量
网络安全
等保云灾备
智慧厕所
技术
5G
SD-WAN
SRv6
语音质量
测试自动化
DDOS攻击
物联网
云
产品+服务
服务
服务套装
发现我们的咨询和产品服务
服务套装
发现我们的咨询和产品服务
测试服务
物理层交换机
移动网络
以太网+ip
网络安全
物联网
SD-WAN
安全保障
网络通信
云灾备
网络安全
自动化
实验室
现网
智慧厕所
云
下载中心
新闻动态
公司介绍
服务
加快入市速度
在数周内实现新技术的发布
降低复杂性和成本
管理厂商来降低成本
优化用户体验
快速发现和解决问题
强化安全防御
以前瞻方式发现和解决漏洞
需求
测试测量
网络安全
等保云灾备
智慧厕所
技术
5G
SD-WAN
SRv6
语音质量
测试自动化
DDOS攻击
物联网
云
服务
服务套装
发现我们的咨询和产品服务
服务套装
发现我们的咨询和产品服务
测试服务
物理层交换机
移动网络
以太网+ip
网络安全
物联网
SD-WAN
安全保障
网络通信
云灾备
网络安全
自动化
实验室
现网
智慧厕所
云
产品+服务
面临技术挑战,容域科技让您无需等待,无论是数字新基建的建设,还是以太网络的搭建及测试,都能得到积极快速的响应,专业的技术团队为您的需求提供优质服务
了解更多
了解更多
网络智能分析系统NPM-K5
作者:容域科技
发布时间:2021-07-11
前言
当今企业的IT运行环境正面临着一系列的重大变化,随着云计算时代的到来,企业的IT主管们都将注意力放到了服务器虚拟化、数据中心整合和基于Web的应用这些新技术的运用上。同时这些新兴的IT技术也在不断改变着企业的IT环境。
一个企业数据中心的核心交换机的流量上可能包含了成百上千个应用,而且每种应用所采用的协议格式也不尽相同。对于数目庞大,交互复杂的应用,IT运维实际上无法做到对每一个应用都进行具体关注。通常IT的做法是从网络流量的视角去监控所有应用的整体性能,或者是重点关注某些关键应用服务器的流量,这种基于流量的分析在绝大部分情况下是无法反应出应用的运行状况。例如,防火墙的上的连接数到达上限,新建连接将被重置,造成客户端有时连接不上的故障。如果从流量的角度去看这个问题,应用的流量不会出现明显的增加,所以问题无法得到及时发现和定位。
网络智能分析系统将端到端业务和应用在交付相关性方面的可见性与网络行为分析相结合,来解决这一网络管理方面的挑战。网络智能分析系统可以分析应用每一跳路径上TCP层的行为或者是某个核心节点上的所有基于TCP的应用的行为,并且在出现故障的时候及时发现问题和定位问题,从而为IT的运维保障提供手段。
部署示意
网络智能分析系统使用”网络探针”来对网络中的真实生产数据进行分析,从交换机的镜像端口或通过数据分流/分光设备获取原始流量。对复杂网路系统的监测,有时需要在业务路径上的多个重要节点进行监测分析,因此可能引入TAP,将各节点的数据进行合并后,统一送到网络探针进行分析。 通常的情况下,智能网络分析系统的部署方式可概括如下图:
其中网络探针负责对原始流量进行分析,客户可通过WEB客户端和报表服务器查看数据。
核心功能
实时监控
实时监控关键业务群的网络性能指标,一旦业务出现告警,出现告警的那个时间段会立即显示为红色,用户可以点击告警发生的时间点,进行深入分析。
根据用户的网络情况自定义网络拓扑图。例如,下图是一个企业网银应用的逻辑拓扑结构,通过对多个交换机(一般是大核心和区域核心)的镜像流量分析,可以实现内部网络端到端的实时监控。
用户定义完拓扑以后,可以在界面上看到该拓扑的实时网络性能指标。
故障排查
我们遵循从KPI到单个会话,再到原始数据包的“三步走”故障排查思路,化繁为简,快速定位问题。
KPI
我们将主要的参考KPI分为网络负载,性能和可用性三大类。
负载量分析:通过流量曲线图,客户端数量曲线图,并发量曲线图和包总数曲线图来刻画该分析点的网络负载情况。特别地,客户端数量和并发量KPI对于分析防火墙相关问题非常有意义。
性能分析:TCP的重传数量和TCP零窗口数量是表征网络性能的最具代表性的KPI。超时重传是TCP协议保证数据可靠性的另一个重要机制,其原理是在发送某一个数据以后就开启一个计时器,在一定时间内如果没有得到发送的数据报的ACK报文就重新发送数据,直到发送成功为止。通常情况下,重传的严重情况反映了网络的拥塞状况。如果网络中有大量的重传,会导致应用响应慢甚至超时。
滑动窗口协议:是TCP使用的一种流量控制方法。该协议允许发送方在停止并等待确认前可以连续发送多个分组。由于发送方不必每发一个分组就停下来等待确认,因此该协议可以加速数据的传输。一旦TCP的通告窗口下降到0(即:零窗口事件出现),则表示客户端或者是服务器无法进一步接收数据,需要等待一段时间后继续接收。这意味着网络的传输效率的下降。
可用性分析:通过TCP SYN包数量(区分客户端SYN和服务器SYN)、TCP FIN包数量、TCP Rest包数和TCP建立连接成功/失败次数来刻画该分析点的网络可用性情况。尤其是TCP建立连接的成功和失败比率,可以非常有效直观的反应网络是否存在问题。一旦发现失败比率很高,可以通过系统特有的建连分析功能,快速定位到出问题的服务器或者是客户端。
详单
当在KPI的图表中发现指标异常,就可以进一步深入钻取,找到出问题的会话。在会话详单中,我们保留了客户端IP、客户端端口、服务器 IP 和服务器端口,以及针对这个特定会话的所有KPI指标,从而能将问题进一步缩小范围到一个或少量几个会话。
原始数据包
通过详单分析我们已经可以定位出问题的客户端、服务器以及问题发生的具体时间点。一般通过多段的KPI对比就可以定位问题出在哪个设备上。要进一步揭示问题的根本原因,或者再深入分析问题的本质,那么对原始数据包进行提取并进行解码分析。 系统提供了丰富易用的过滤器,可供用户快速提出故障证据:原始数据包。
智能预警
网络性能分析系统可以针对主要的KPI进行告警设置,一旦超过阈值或者基线就会产生告警,同时实时监控的拓扑图中该指标的颜色也会变红,以提醒用户注意。告警可以通过邮件、SNMP Trap 或者是Syslog形式发送给管理员。
传统的基于阈值的告警并不能准确地反映网络中的异常,特别当网络环境发生变化时(并非恶化),阈值告警通常会产生大量的误报,造成管理成本的上升。针对这一问题, 此系统采用了独特的智能基线告警算法,可以更加准确地对应用和网络异常进行预警。
系统的基线计算采用周期性基线算法和非周期性基线算法:
周期性基线对比的是同一业务时间过去四周的表现,适用于KPI随着业务时间不同而不同的情况,例如:交易量,流量等。
非周期性基线是所有历史数据的平均,适用于KPI稳定的情况,例如:响应时间,重传率等。
技术指标
推荐运行环境:
网络智能分析系统的推荐运行环境如下:
CPU:2 颗 Inter Quad Core 2.4GHz或以上
内存:32GB或以上
存储:本地RAID-5磁盘阵列
浏览器:Internet Explorer 11及以上
操作系统:CentOS 7.0
支持的网络适配器有:
1000M 以太网适配器
10GE高速网卡
时间精度
数据包捕获精度:1 微秒(普通网卡);1 纳秒(专用网卡);
KPI指标精度:1分钟(提供毫秒级别的高精度流量曲线);
详单时间精度:1分钟。
1000M 以太网适配器
10GE高速网卡
上一篇: nGenius ONE业务保障平台
下一篇:适用于CyberFlood和 Avalanche的
产品推荐
网络和应用性能主动监测系统H5
nGenius ONE业务保障平台
Infinistream智能探针
应用性能管理系统APM-K6
Cloudshell自动化测试系统
全部产品
数字新基建
智慧厕所
等保云灾备
云灾备
网络通信
物理层交换机
移动网络
以太网+ip
网络安全
语音质量
SD-WAN
网络通信
网络安全
010-62342972