网络智能分析系统NPM-K5

前言

当今企业的IT运行环境正面临着一系列的重大变化,随着云计算时代的到来,企业的IT主管们都将注意力放到了服务器虚拟化、数据中心整合和基于Web的应用这些新技术的运用上。同时这些新兴的IT技术也在不断改变着企业的IT环境。 

一个企业数据中心的核心交换机的流量上可能包含了成百上千个应用,而且每种应用所采用的协议格式也不尽相同。对于数目庞大,交互复杂的应用,IT运维实际上无法做到对每一个应用都进行具体关注。通常IT的做法是从网络流量的视角去监控所有应用的整体性能,或者是重点关注某些关键应用服务器的流量,这种基于流量的分析在绝大部分情况下是无法反应出应用的运行状况。例如,防火墙的上的连接数到达上限,新建连接将被重置,造成客户端有时连接不上的故障。如果从流量的角度去看这个问题,应用的流量不会出现明显的增加,所以问题无法得到及时发现和定位。 

网络智能分析系统将端到端业务和应用在交付相关性方面的可见性与网络行为分析相结合,来解决这一网络管理方面的挑战。网络智能分析系统可以分析应用每一跳路径上TCP层的行为或者是某个核心节点上的所有基于TCP的应用的行为,并且在出现故障的时候及时发现问题和定位问题,从而为IT的运维保障提供手段。 

部署示意 

网络智能分析系统使用”网络探针”来对网络中的真实生产数据进行分析,从交换机的镜像端口或通过数据分流/分光设备获取原始流量。对复杂网路系统的监测,有时需要在业务路径上的多个重要节点进行监测分析,因此可能引入TAP,将各节点的数据进行合并后,统一送到网络探针进行分析。 通常的情况下,智能网络分析系统的部署方式可概括如下图: 

其中网络探针负责对原始流量进行分析,客户可通过WEB客户端和报表服务器查看数据。 


核心功能 

实时监控 

实时监控关键业务群的网络性能指标,一旦业务出现告警,出现告警的那个时间段会立即显示为红色,用户可以点击告警发生的时间点,进行深入分析。


根据用户的网络情况自定义网络拓扑图。例如,下图是一个企业网银应用的逻辑拓扑结构,通过对多个交换机(一般是大核心和区域核心)的镜像流量分析,可以实现内部网络端到端的实时监控。

用户定义完拓扑以后,可以在界面上看到该拓扑的实时网络性能指标。

故障排查 

我们遵循从KPI到单个会话,再到原始数据包的“三步走”故障排查思路,化繁为简,快速定位问题。 

KPI

我们将主要的参考KPI分为网络负载,性能和可用性三大类。

  • 负载量分析:通过流量曲线图,客户端数量曲线图,并发量曲线图和包总数曲线图来刻画该分析点的网络负载情况。特别地,客户端数量和并发量KPI对于分析防火墙相关问题非常有意义。


  • 性能分析:TCP的重传数量和TCP零窗口数量是表征网络性能的最具代表性的KPI。超时重传是TCP协议保证数据可靠性的另一个重要机制,其原理是在发送某一个数据以后就开启一个计时器,在一定时间内如果没有得到发送的数据报的ACK报文就重新发送数据,直到发送成功为止。通常情况下,重传的严重情况反映了网络的拥塞状况。如果网络中有大量的重传,会导致应用响应慢甚至超时。 

滑动窗口协议:是TCP使用的一种流量控制方法。该协议允许发送方在停止并等待确认前可以连续发送多个分组。由于发送方不必每发一个分组就停下来等待确认,因此该协议可以加速数据的传输。一旦TCP的通告窗口下降到0(即:零窗口事件出现),则表示客户端或者是服务器无法进一步接收数据,需要等待一段时间后继续接收。这意味着网络的传输效率的下降。 

  • 可用性分析:通过TCP SYN包数量(区分客户端SYN和服务器SYN)、TCP FIN包数量、TCP Rest包数和TCP建立连接成功/失败次数来刻画该分析点的网络可用性情况。尤其是TCP建立连接的成功和失败比率,可以非常有效直观的反应网络是否存在问题。一旦发现失败比率很高,可以通过系统特有的建连分析功能,快速定位到出问题的服务器或者是客户端。 

详单 

当在KPI的图表中发现指标异常,就可以进一步深入钻取,找到出问题的会话。在会话详单中,我们保留了客户端IP、客户端端口、服务器 IP 和服务器端口,以及针对这个特定会话的所有KPI指标,从而能将问题进一步缩小范围到一个或少量几个会话。 

原始数据包 

通过详单分析我们已经可以定位出问题的客户端、服务器以及问题发生的具体时间点。一般通过多段的KPI对比就可以定位问题出在哪个设备上。要进一步揭示问题的根本原因,或者再深入分析问题的本质,那么对原始数据包进行提取并进行解码分析。 系统提供了丰富易用的过滤器,可供用户快速提出故障证据:原始数据包。 

智能预警 

网络性能分析系统可以针对主要的KPI进行告警设置,一旦超过阈值或者基线就会产生告警,同时实时监控的拓扑图中该指标的颜色也会变红,以提醒用户注意。告警可以通过邮件、SNMP Trap 或者是Syslog形式发送给管理员。 

传统的基于阈值的告警并不能准确地反映网络中的异常,特别当网络环境发生变化时(并非恶化),阈值告警通常会产生大量的误报,造成管理成本的上升。针对这一问题, 此系统采用了独特的智能基线告警算法,可以更加准确地对应用和网络异常进行预警。 

系统的基线计算采用周期性基线算法和非周期性基线算法: 

  • 周期性基线对比的是同一业务时间过去四周的表现,适用于KPI随着业务时间不同而不同的情况,例如:交易量,流量等。 

  • 非周期性基线是所有历史数据的平均,适用于KPI稳定的情况,例如:响应时间,重传率等。 

技术指标

推荐运行环境

网络智能分析系统的推荐运行环境如下:

  • CPU:2 颗 Inter Quad Core 2.4GHz或以上 

  • 内存:32GB或以上 

  • 存储:本地RAID-5磁盘阵列 

  • 浏览器:Internet Explorer 11及以上

  • 操作系统:CentOS 7.0 

支持的网络适配器

网络智能分析系统支持的网络适配器有:

  • 1000M 以太网适配器

  • 10GE高速网卡 

时间精度 

数据包捕获精度:1 微秒(普通网卡);1 纳秒(专用网卡);

KPI指标精度:1分钟(提供毫秒级别的高精度流量曲线);

详单时间精度:1分钟。 


产品中心

本网站由阿里云提供云计算及安全服务 Powered by CloudDream