首页
解决方案
产品+服务
技术中心
新闻动态
公司介绍
首页
解决方案
服务
加快入市速度
在数周内实现新技术的发布
降低复杂性和成本
管理厂商来降低成本
优化用户体验
快速发现和解决问题
强化安全防御
以前瞻方式发现和解决漏洞
需求
测试测量
网络安全
等保云灾备
智慧厕所
技术
5G
SD-WAN
SRv6
语音质量
测试自动化
DDOS攻击
物联网
云
产品+服务
服务
服务套装
发现我们的咨询和产品服务
服务套装
发现我们的咨询和产品服务
测试服务
物理层交换机
无线网络
以太网+ip
网络安全
物联网
SD-WAN
安全保障
网络通信
云灾备
网络安全
自动化
实验室
现网
智慧厕所
云
下载中心
新闻动态
公司介绍
服务
加快入市速度
在数周内实现新技术的发布
降低复杂性和成本
管理厂商来降低成本
优化用户体验
快速发现和解决问题
强化安全防御
以前瞻方式发现和解决漏洞
需求
测试测量
网络安全
等保云灾备
智慧厕所
技术
5G
SD-WAN
SRv6
语音质量
测试自动化
DDOS攻击
物联网
云
服务
服务套装
发现我们的咨询和产品服务
服务套装
发现我们的咨询和产品服务
测试服务
物理层交换机
无线网络
以太网+ip
网络安全
物联网
SD-WAN
安全保障
网络通信
云灾备
网络安全
自动化
实验室
现网
智慧厕所
云
产品+服务
面临技术挑战,容域科技让您无需等待,无论是数字新基建的建设,还是以太网络的搭建及测试,都能得到积极快速的响应,专业的技术团队为您的需求提供优质服务
了解更多
了解更多
人工智能测试解决方案
作者:容域科技
发布时间:2024-11-18
在当今技术环境快速发展的背景下,企业和数据中心网络已经取得了重大进步。随着人工智能/机器学习(AI/ML)、边缘计算与高性能计算(HPC)系统的广泛应用,现代数据中心需要一个能够提供卓越性能与最小延迟的网络。这一网络还必须实现无缝适应,从而能够应对数据密集型及计算密集型应用程序所驱动的数据传输需求的激增。
人工智能AI测试解决方案的技术:
1.远程直接内存访问技术(
RDMA
)
为AI集群内在XPU之间移动数据提供了高效、快速 的方法,同时还能够以更低的延迟、更低的CPU负载与更高的带宽实现网络性能与主 机性能的提升。
2.基于融合以太网的
RDMA
(
RoCE
)
在现有以太网中提供了RDMA的所有优势,从而 能够显著降低资本支出。由于与密集型AI/ML及存储工作负载相关的计算要求十分 繁重,在为现代数据中心提供可靠的端到端传输解决方案时,RoCE是必不可少的 组成要素。这一技术进一步增强了搜索、存储、数据库、金融及高事务率应用程序 的性能。
3.基于融合以太网的
RDM
A
version
2
(
RoCEv2
)
对RDMA技术的应用范围实现了扩 展,可在具有多个子网的L2和L3网络上使用。该功能可以实现高效的集群,从而实现具备弹性及可扩展性的部署。
自2014年推出以来,RoCEv2已经在众多企业及组织机构的数据中心中得到了部署。然而,在这些大规模环境中,错误的或未得到优化的网络设置可能会导致应用程序 性能不佳。因此,验证交换网络架构性能、优化配置并确保拥塞条件下的网络稳定性是至关重要的。
由交换机与NIC所推动的关键拥塞控制机制包括数据中心量化拥塞通知(DCQCN)和优先级流量控制(PFC)。虽然使用通过利用真实服务器自行开发的开源测试解决 方案进行测试可能具备一定价值,但它们通常无法满足规模与效率的要求。我司提供全面的RoCEv2测试解决方案,从而满足现代数据中心对计算密集和数据 密集型应用、单个交换机以及整个数据中心交换网络架构的性能测试需求。
人工智能AI测试解决方案特点与优势综述:
AI集群内的XPU之间通过RoCEv2 的真实AI流量
:在不同拥塞条件下以端口线速率模拟连续或突发 数据包调度,并通过PFC和 DCQCN优化网络中的流量控制
降低拥有成本
:取代测试床中的 真实服务器与XPU机架,从而节省库存成本、降低复杂性、减少 维护成本
加快上市时间
:在AI环境中验证交换机和网络,从而将产品更快 推向市场 •
保护投资
:通过下列多种方式利用A1/FX3/MX3高密度、多速度测 试模块:
通过获得许可证的方式,将现有A1/FX3/MX3高密度测试模块升级到RoCEv2测试
重复使用测试模块进行常规的L2-7测试
利用额外获得的速度进行 RoCEv2测试
集成的集合通信库
:通过基于 GUI的向导生成多种AI流量模型。
集合通信库
在人工智能数据中心的XPU之间存在大量数据通信,而这些数据无法由单个XPU处理,因此必须将其分布在不同的XPU上。基于开放MPI构建的CCL可以在AI数据中心实现高性能计算和并行处理。CCL库支持最流行的CCL流量模式,例如:NCCL的AlltoAll。通过向导可以轻松生成人工智能流量模式。当发生网络拥塞时,人工智能测试解决方案能够支持DCQCN和PFC流量控制,从而实现对于真实AI网络的镜像。在测试结束后会显示任务完成时间(JCT),这将有助于对AI数据中心网络架构的性能进行评估。
人工智能测试解决方案提供了高密度、多速度的测试环境,经济高效且易于部署。它建立在开放、透明的架构之上,从而确保结果具备一致性和可重复性。通过CCL,这一解决方案可以在线速率下生成真实的AI流量模式,同时还可以支持拥塞控制。用户可以测量关键网络的KPI,其中包括:JCT、吞吐量、延迟、丢包、乱序的数据包计数、迟到的数据包计数和测量、拥塞条件和链路抖动情况下的网络稳定性等。
它使用户能够表征交换网络架构的性能并优化相关网络配置,包括缓冲区大小、ECN、负载平衡算法和QoS设置等。作为一项创新产品,思博伦的人工智能测试解决方案可在现有的
四个世界顶级的高密度、多速度以太网测试模块上运行。A1-400-QD-16是业界当前密度最高的400GE平台,能够为AI工作负载仿真提供支持;多用途的A1设备能够同时测试人工智能及路由/交换用例;FX3-QSFP28-6提供3个100G端口或扇出至12个25G端口;此外,MX3-QSFP28-4和FX3-QSFP28-4均能提供2个100G端口或扇出至8个25G端口,因此非常适合进行RoCEv2测试。
通过按端口预留用户可以提供多用户支持,从而能够在单个或多个并发测试会话中使用单个测试设备/模块的端口。与此同时, 在RoCEv2配置文件之外,这些测试设备/模块还可用于400/200/100/50/40/25/10G速度的常规L2-7层测试。
特性
•通过有损和无损网络的RoCEv2流量,利用ECN和PFC机制进行基于硬件的拥塞控制
•任务完成时间(JCT)报告
•模拟队列对(QP)之间的一对一数据传输
•通过简洁易用的向导对CCL流量模型进行集成
•根据网络需求,对拥塞控制机制DCQCN和PFC的优化进行配置
•仿真背景流量仿真引发拥塞
•通过使用不同的流量调度机制与拓扑方式对GPU和存储数 据传输进行模拟
•每个端口进行多个XPU及RoCEv2服务器模拟并具备高规模 的数千个队列对
•L2(VLAN)和L3(DSCP)模式的QoS设置
•每个QP/Flow的拥塞控制支持
•模拟XPU进行大规模测试,通过RoCEv2和CCL向导简化流 量模型的复杂配置
•在测试床中模拟服务器,从而显著降低设备成本及维护成本
•通过轻松配置具备真实性的测试拓扑来缩短测试时间
•通过使用向导,只需点击几下即可轻松扩展数千个队列对
•使用TestCenter IQ收集关键统计数据并生成直观的报告
上一篇: L1物理层交换机助力实验室自动化
下一篇:很抱歉没有了
产品推荐
人工智能测试解决方案
L1物理层交换机助力实验室自动化
全部产品
数字新基建
智慧厕所
等保云灾备
云灾备
网络通信
物理层交换机
无线网络
以太网+ip
网络安全
语音质量
SD-WAN
网络通信
网络安全
010-62342972