您订阅的产品有更新,,,,,请实时查阅
查看详情
颁布功夫:2023-03-20
AIGC(AI-Generated Content,,,,,人为智能出产内容)近期发展迅猛,,,,,迭代速度更是出现指数级的发作式增长。。。。。。其中,,,,,GPT-4和文心一言的推出引起了人们对其贸易价值和利用场景的高度关注。。。。。。随着AIGC的发展,,,,,训练模型参数规模从千亿到万亿级别,,,,,底层GPU支持规模也达到了万卡级别。。。。。。由此导致的网络规模不休增大,,,,,网络节点间通鸭对着越来越大的挑战。。。。。。在此布景下,,,,,若何提升AI服务器推算能力和组网通讯能力并两全成本,,,,,已成为当前人为智能领域的沉要钻研方向之一。。。。。。
全发国际网络针对AIGC算力、GPU利用率与网络的关系,,,,,以及主流HPC组网面对的挑战,,,,,推出了业界先进的“智速”DDC(Distributed Disaggregated Chassis,,,,,散布式分散式机箱)高机能网络规划,,,,,为AIGC业务买通“任督二脉”,,,,,助力算力突飞猛进。。。。。。
全发国际网络DDC产品衔接方式示意图
以ChatGPT为例,,,,,在算力方面,,,,,使用微软Azure AI超算基础设施(由10000块 V100 GPU组成的高带宽集群)上进行训练,,,,,总算力亏损约3640PF-days(即每秒一千万亿次推算,,,,,运行3640天),,,,,这里做个公式换算一下10000块V100必要训练多久:

ChatGPT算力和训练功夫表
注:ChatGPT算力需要为网上获取!。。。。,,,在此仅供参考。。。。。。OpenAI 在他们的文章“AI and Compute”中如果利用率为 33%。。。。。。NVIDIA、斯坦福和微软的一组钻研人员在散布式系统上训练大型说话模型的利用率达到了 44% 到 52%。。。。。。

ChatGPT关于训练功夫的回覆
凭据ChatGPT的回复来看,,,,,比力切合上面表格推算出来的功夫,,,,,利用率应该会在50%左右。。。。。。
能够看出影响一个模型的训练时长重要成分在于GPU的利用率,,,,,以及GPU集群处置能力。。。。。。而这些关键指标又与网络效能亲昵有关。。。。。。网络效能是影响AI集群中GPU利用率的一个沉要成分。。。。。。在AI集群中,,,,,GPU通常是推算节点的主题资源,,,,,由于它们能够高效地处置大规模的深度进建工作。。。。。。然而,,,,,GPU的利用率受到多个成分的影响,,,,,其中网络效能是一个关键成分。。。。。。
网络在AI训练中表演着至关沉要的角色。。。。。。AI集群通常由多个推算节点和存储节点组成,,,,,这些节点必要频仍地进行通讯和数据互换。。。。。。若是网络效能低下,,,,,这些节点之间的通讯将会变得缓慢,,,,,这将直接影响到AI集群的算力。。。。。。
低效的网络可能导致以下问题,,,,,从而降低GPU利用率:
数据传输功夫增长:在低效的网络中,,,,,数据传输的功夫将会增长。。。。。。当GPU必要期待数据传输实现后能力进行推算时,,,,,GPU利用率将会降低;;;;;;;;
网络带宽瓶颈:在AI集群中,,,,,GPU通常必要频仍地与其他推算节点进行数据互换。。。。。。若是网络带宽不及,,,,,GPU将无法获得足够的数据进行推算,,,,,从而导致GPU利用率降低;;;;;;;;
工作调度不平衡:在低效的网络中,,,,,工作可能会被分配到与GPU分歧的推算节点上。。。。。。当必要大量的数据传输时,,,,,这可能会导致GPU闲置期待,,,,,从而降低GPU利用率。。。。。。
为了提高GPU利用率,,,,,必要优化网络效能。。。。。。这能够通过选取更快的网络技术、优化网络拓扑结构、合理配置带宽等步骤来实现。。。。。。在训练模型中,,,,,散布式训练的并行度:数据并杏注张量并行与流水并行决定了GPU处置的数据之间的通讯模型。。。。。。模型之间的通讯效能受到以下几个成分的影响:

影响通讯的成分
其中,,,,,带宽和设备转发时延受到硬件限度,,,,,端处置时延受技术选择(TCP or RDMA)影响,,,,,RDMA会更低,,,,,列队和沉传则受到网络优化和技术选择的影响。。。。。。
凭据量化模型[1]:GPU利用率 = GPU内迭代推算功夫/(GPU内迭代推算功夫+网络总体通讯功夫)来推算得出以下结论:

带宽吞吐与GPU利用率的曲线图 动态时延和GPU利用率的曲线图
能够看到网络带宽吞吐、动态时延(拥塞/丢包)对GPU利用率影响显著。。。。。。
凭据通讯总时延的组成来看:

通讯总时延组成图
静态时延相较之下影响更幼!。。。。,,,所以更应该着沉去思考若何削减动态时延,,,,,这样能够有效的提升GPU的利用率,,,,,从而达到提升算力的指标。。。。。。
Infiniband组网是当前高机能网络的成效最优解,,,,,利用超高带宽和基于Credit的机造确保无拥塞和超低时延,,,,,但是也是最昂贵的解法,,,,,相比同带宽下传统以太网的组网会贵数倍。。。。。。同时Infiniband技术封关,,,,,业内目前成熟供给商仅1家,,,,,对于最终用户来说,,,,,无法实现第二货源。。。。。。
所以业内大无数用户会选择传统以太网组网的规划。。。。。。
当前高机能网络主流组网规划是基于RoCE v2来组建支持RDMA的网络。。。。。。其中沉要的两项搭配技术是PFC和ECN,,,,,两者均是为了预防链路中的拥塞而产生的技术。。。。。。
多级PFC组网下会针对互换机入口(Ingress)拥塞,,,,,逐级反压到源端服务器暂停发送,,,,,缓解网络拥塞,,,,,躲避丢包;;;;;;;;但该规划在多级组网下可能会晤对PFC Deadlock导致RDMA流量终场转发的风险。。。。。。
图片
PFC工作机造示意图
而ECN则会基于对互换机出口(Egress)拥塞的主张端感知,,,,,直接天生一个RoCEv2 CNP包通知源端降速,,,,,源服务器收到CNP报文,,,,,精准降低对应QP的发送速度,,,,,缓解拥塞的同时预防无差距降速。。。。。。

ECN象征位示意图
这两项技术自身并没有什么问题,,,,,都是为相识决拥塞而诞生的技术,,,,,但是选取这种技术后可能会被网络中可能产生的拥塞而频仍触发,,,,,最终会导致源端暂;;;;;;;;蚪邓俜⑺停,,,通讯带宽会降低,,,,,会对GPU利用率产生比力大的影响,,,,,从而造成整个高机能网络的算力被拉低。。。。。。
在AI训练推算中会有All-Reduce和All-to-All两种重要的模型,,,,,两种模型都必要频仍的从一个GPU到另表多个GPU进行通讯。。。。。。

All-to-All模型 All-Reduce模型
在传统组网下,,,,,ToR和Leaf设备选取路由+ECMP的组网模式,,,,,ECMP会基于流进行哈希负载选路,,,,,有一种极端情况就是某一条ECMP链路由于一条大象流而跑满,,,,,其余多条ECMP链路相对空闲,,,,,造成负载不均的情况。。。。。。

传统ECMP部署图
在内部仿照8条ECMP链路的测试环境下,,,,,测试了局如下:

ECMP流量测试了局
能够看出,,,,,基于流的ECMP会造成较显著的某几条链路占用(ECMP1-5和1-6)和空闲(ECMP1-0至1-3较空闲),,,,,而在All-Reduce和All-to-All的两种模型下,,,,, 就很容易造成一条路线由于ECMP的负载不均而拥塞,,,,,一旦拥塞造成沉传,,,,,就会提升总体的通讯总时延,,,,,从而降低GPU利用率。。。。。。
所以,,,,,为相识决此类问题,,,,,钻研界提出了phost、Homa、NDP、1RMA 和 Aeolus等丰硕的解决规划,,,,,它们在分歧水平上解决了 incast,,,,, 还解决了负载平衡和低延长要求/响应流量的问题。。。。。。但是也带来了新的挑战,,,,,往往这些钻研的规划都是必要端到端来解决问题,,,,,对主机、网卡、网络的扭转较大,,,,,对于通常用户而言,,,,,成本较高。。。。。。
海表有部门互联网公司寄但愿于利用选取DNX芯片支持VOQ技术的框式互换机来解决负载不平衡带来的带宽利用率低的问题,,,,,但也面对以下几个挑战。。。。。。
扩大能力通常,,,,,机框大幼限度了最大端口数,,,,,如想做更大规模的集群,,,,,必要横向扩大多个机框,,,,,也会产生多级PFC和ECMP的链路,,,,,所以框只适合于幼规模部署;;;;;;;;
设备功耗大,,,,,机框内线卡芯片、Fabric芯片、电扇等数量多多,,,,,单设备的功耗极大,,,,,轻松超过2万瓦,,,,,有的甚至3万多瓦,,,,,对机柜电力要求高;;;;;;;;
单设备端口数量多,,,,,故障域大。。。。。。
所以基于以上原因,,,,,框式设备只适合幼规模部署AI推算集群。。。。。。
DDC是一种散布式解耦机框设备的解决规划,,,,,选取的芯片和关键技术与传统框式互换机险些一样,,,,,但DDC架构单一支持弹性扩大和职能急剧迭代、更易部署、单机功耗低。。。。。。
如下图所示,,,,,业务线卡作为前端成为NCP角色,,,,,互换网板作为后端成为NCF角色,,,,,原先两者之间的衔接器组件此刻被光纤线缆包办,,,,,原有框式设备的治理引擎在DDC架构中也成为了NCC集中/散布式的治理组件。。。。。。

DDC产品衔接方式示意图
DDC架构相较于框式架构的优势在于能够提供弹性可扩大性,,,,,组网规模浚?????D芄黄揪軦I集群大幼来矫捷选择。。。。。。
单POD组网中,,,,,选取96台NCP作为接入,,,,,其中NCP下行共36个200G接口,,,,,掌管衔接AI推算集群的网卡。。。。。。上行共40个200G接口最大能够衔接40台NCF,,,,,NCF提供96个200G接口,,,,,该规模高低行带宽为超速比1.1:1。。。。。。整个POD可支持3456个200G网络接口,,,,,依照一台服务器配8块GPU来推算,,,,,可支持432台AI推算服务器。。。。。。

单POD组网架构图
多级POD组网中,,,,,能够实现基于POD的按需建设。。。。。。由于该场景POD中NCF设备要就义一半的SerDes用于衔接第二级的NCF,,,,,所以此时单POD选取48台NCP作为接入,,,,,下行共36个200G接口,,,,,单POD内能够支持1728个200G接口。。。。。。通过横向增长POD实现规模的扩容,,,,,整体最大可支持10368多个200G网络端口。。。。。。
NCP上行40个200G接POD内40台NCF,,,,,POD内NCF选取48个200G接口下行,,,,,48个200G接口分为16个一组上行到第二级的NCF。。。。。。第二级NCF选取40个平面,,,,,每个平面3台的设计,,,,,别离对应在POD内的40台NCF。。。。。。
整个网络的POD内实现了超速比1.1:1,,,,,而在POD和二级NCF之间实现了1:1的收敛比。。。。。。
200G的网络端口兼容100G网卡接入,,,,,特殊情况下可利用1分2或1分4线缆兼容25/50G网卡。。。。。。
依附吩飕后的Cells转发机造进行动态负载平衡,,,,,实现延长的不变性,,,,,降低了分歧链路的带宽峰值差。。。。。。
转发流程如图所示:
首先发送端从网络中接管数据包并分类到VOQs中存储,,,,,在发送数据包之前会先发送Credit报文确定接管端是否有足够的缓存空间处置这些报文;;;;;;;;
若是能够则将数据包吩飕成Cells并且动态负载平衡到中央的Fabric节点。。。。。。这些Cells在接管端会进行沉组和存储,,,,,进而转发到网络钟祝。。。。。
Cells是基于数据包的切片技术,,,,,通常大幼为 64-256Byte。。。。。。
切片后的Cells凭据reachability table 中 cell destination 的查问来决定若何转发,,,,,并选取轮询的机造发送。。。。。。这样做的益处相比ECMP按流进行哈希推算后选择某一条路的模式,,,,,切片后的Cells负载会充分利用到每一条上行链路,,,,,所有上行链路的传输数据量会近似相称。。。。。。
若是接管端临时没能力处置报文,,,,,报文会在发送端的VOQ中暂存,,,,,并不会直接转发到接管端导致丢包问题的产生,,,,,每片DNX芯片能够提供芯片内OCB缓存以及片表8GB的HBM高速缓存,,,,,对200G端口相当于能够缓存150ms左右的数据。。。。。。只有当对端Credit报文化确能够接受时才会发送。。。。。。这样的机造下,,,,,充分利用缓存能够大幅度削减丢包,,,,,甚至不会产生丢包情况。。。。。。削减数据沉传,,,,,整体通讯时延更不调换低,,,,,从而能够提高带宽利用率,,,,,进而提升业务吞吐效能。。。。。。
依照DDC的逻辑来看,,,,,所有NCP和NCF能够当作一台设备,,,,,所以在此网络中部署RDMA域后,,,,,只在针对服务器的接口处存在1级的PFC,,,,,不会像传统网络一样产生多级PFC的压造与死锁。。。。。。另表凭据DDC的数据转发机造,,,,,可在接口处部署ECN,,,,,一旦在内部的Credit缓和存机造无法支持突发流量,,,,,能够向服务器端发送CNP报文要求降速(通常情况下在AI的通讯模型下,,,,,All-to-All和All-Reduce+Cell切片能够将流量尽可能的平衡,,,,,很难出现1个端口被打满的情况,,,,,所以ECN在无数情况能够不配置)。。。。。。
在治理节造平面上,,,,,为相识决治理网故障以及NCC单点故障的影响,,,,,我们取缔了NCC的集中节造面,,,,,构建了散布式OS,,,,,通过SDN运维节造器通过尺度接口(Netconf、GRPC等)配置治理设备,,,,,每台NCP和NCF独立治理,,,,,有独立的节造面和治理面。。。。。。
从规划理论上说,,,,,DDC占有支持弹性扩大和职能急剧迭代、更易部署、单机功耗低等多多优势;;;;;;;;但从现实角度启程,,,,,传统组网也占有诸如市面可选品牌和产品路线较多、可支持更大规模的集群等技术成熟带来的优势。。。。。。因而在客户面对项目需要时到底是选择更高机能的DDC,,,,,还是更大规模部署的传统组网,,,,,能够参考下面的对比及测试了局:

传统组网与DDC测试对比了局图
同时我们使用OpenMPI测试套件进行了框式设备(框式设备和DDC道理一样,,,,,本次选取框式测试)和传统组网设备的对比仿照测试,,,,,结论是在All-to-All场景下,,,,,相较于传统的组网,,,,,框式设备带宽利用率提升约20%(对应GPU利用率提升8%左右)。。。。。。

框式设备和传统组网设备的对比仿照测试
基于对客户需要的深刻理解,,,,,全发国际网络已经率先推出了两款可交付产品,,,,,别离是200G NCP互换机和200G NCF互换机。。。。。。
该互换机2U高度,,,,,提供36个200G的面板口,,,,,40个200G的Fabric内联口,,,,,4个电扇和2个电源。。。。。。
该互换机4U高度,,,,,提供96个200G的Fabric内联口,,,,,8个电扇和4个电源。。。。。。
将来全发国际网络还会持续研发、推出400G端口状态产品,,,,,敬请等待。。。。。。
全发国际网络(证券代码:301165)作为行业辅导者,,,,,一向致力于提供高品质、高靠得住性的网络设备和解决规划,,,,,以满足客户对于智算中心不休提高的需要。。。。。。在推出“智速“DDC解决规划的同时,,,,,全发国际网络也在积极索求和开发传统组网中的端网优化规划,,,,,通过充分利用服务器智能网卡搭配网络设备和谈的优化,,,,,实现整网带宽利用率提升,,,,,援手客户更快迎来AIGC智算时期。。。。。。
参考文件:
[1]Deepak Narayanan, Mohammad Shoeybi, Jared Casper,,,,,Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM,,,,,arXiv:2104.04473v5 [cs.CL] 23 Aug 2021
