全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
铸数基 · 智运维 丨 全发国际乐享3.0智能运维解决规划颁布会
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新, ,,,,,,请实时查阅

查看详情

支持AI的高机能数据中心网络架构若何设计? ??? ????

全发国际(中国)有限公司官网 颁布功夫:2017-12-22
全发国际(中国)有限公司官网

近日, ,,,,,,工信部印发《推进新一代人为智能产业发展三年行动打算(2018-2020年)》, ,,,,,,意在加快人为智能从战术到落地, ,,,,,,推动人为智能和实体经济深度融合。。。。。。。。在新工业革命的布景下, ,,,,,,大数据、推算力、算法等急剧迭代, ,,,,,,正驱动人为智能进入新阶段。。。。。。。。2017年Q3, ,,,,,,全球AI公司融资金额突破77亿美元, ,,,,,,是2012年的70余倍。。。。。。。。 ??? ????赡芑嵊腥怂嫡馐“泡沫”, ,,,,,,而我更愿意相信这是人为智能发展的必然了局。。。。。。。。

在AI技术的利用过程中, ,,,,,,各个企业都在寻找可能更好支持高机能推算的基础网络解决规划。。。。。。。。在《数据中心基础网络架构成功实际及将来发展趋向》这篇文章中, ,,,,,,我分享了若何设计一个不变靠得住的数据中心网络, ,,,,,,下面我们再来探求支持AI利用的高机能无损网络应该若何设计。。。。。。。。

前面提到大数据、推算力、算法等急剧迭代, ,,,,,,正驱动人为智能进入新阶段, ,,,,,,而这些技术的实现对网络的低时延、无丢包、高机能这三个方面提出更高要求。。。。。。。。

▲ AI利用的技术系统及对数据中心网络的要求

高机能和无丢包比力好理解, ,,,,,,就是指网络带宽机能的提升以及网络中不存在拥塞导致的丢包。。。。。。。。产生时延的环节较多, ,,,,,,要实现端到端的低时延, ,,,,,,必要多角度分析:

其中, ,,,,,,光电传输时延和数据串行时延相对较幼!!。。。。。 ,,,,,,且很难通过架构设计来优化, ,,,,,,我们应沉点关注主机处置时延和设备转发时延。。。。。。。。在各大企业积极追求的高机能推算规划中, ,,,,,,基于以太网的RDMA(Remote Direct Memory Access)凭借其高机能和低成本优势逐步取代InfiniBand而成为主流技术。。。。。。。。RoCEv2(RDMA over Converged Ethernet)技术基于UDP和谈, ,,,,,,对于建设支持AI利用的高机能无损以太网络变得尤为沉要。。。。。。。。

结合设备转发层面的时延优化伎俩, ,,,,,,高机能无损网络的实现取决于两个身分:

  • 无带宽收敛(1:1)的网络架构设计
  • 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)职能的优先队列治理和拥塞治理

综上, ,,,,,,AI集群高机能推算和网络规划实际思路如下图所示:

AI集群高机能规划关键技术组合

在这里, ,,,,,,我以25G网络为例, ,,,,,,结合业界主流产品状态, ,,,,,,分享AI网络架构设计和实现思路。。。。。。。。

重要设计理想:

  • 主题设备全线速高机能转发, ,,,,,,主题之间不互联, ,,,,,,选取Fabric架构, ,,,,,,隔离主题故障, ,,,,,,有效降低主题故障的影响;;;;; ;
  • 三层路由组网, ,,,,,,通过ECMP提高冗余度, ,,,,,,降低故障风险;;;;; ;
  • TOR高低行收敛比严格实现1:1, ,,,,,,通过提高主题设备接口密度扩大单集群服务器规模;;;;; ;
  • 利用PFC+ECN职能, ,,,,,,实现低延时无损网络。。。。。。。。

网络架构设计:

1.中幼型(集群规模1000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台32口100G BOX互换机, ,,,,,,OSPF/BGP组网
  • 合用集群规模1000台
  • 每台TOR下联32台Servers, ,,,,,,IDC内收敛比1:1 , ,,,,,,集群带宽25Tbps

2.中型(集群规模2000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台64口100G BOX, ,,,,,,OSPF/BGP组网
  • 合用集群规模2000台
  • 每台TOR下联32台Servers, ,,,,,,IDC内收敛比1:1 , ,,,,,,集群带宽50Tbps

3.大型(集群规模2000-18000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联4~8台主题(机框式), ,,,,,,BGP组网
  • 合用集群规模2000~18000台
  • 每台TOR下联32台Servers, ,,,,,,IDC内收敛比1:1 , ,,,,,,集群带宽50~450Tbps

4.超大型(集群规模20000+台)

▲  架构设计

架构个性:

  • 单POD集群规模1000~2000台, ,,,,,,数据中心集群规模20000+, ,,,,,,BGP组网
  • POD内收敛比1:1, ,,,,,,单POD集群带宽25Tbps, ,,,,,,总集群带宽500Tbps+
  • POD内收敛比和上行带宽凭据集群带宽需要矫捷配置, ,,,,,,合用与非AI利用混合部署

在数据中心网络中, ,,,,,,PFC和ECN职能将部署在Leaf和Spine设备上。。。。。。。。PFC作用于设备互联端口, ,,,,,,通过反压影响上游端口队列的发送速度, ,,,,,,而ECN是作用在设备转发过程, ,,,,,,最终影响的是数据流的发送方, ,,,,,,通过降低某条数据流发送速度躲避数据丢包。。。。。。。。

  • PFC 机造将以太链路上的流量分辨为分歧的等级, ,,,,,,基于每条流量单独发送“不许可证”。。。。。。。。相对于PAUSE帧而言, ,,,,,,PFC能够将链路虚构出8条不一致级的虚构通路, ,,,,,,当某条通路出现拥塞后不会影响其它通路。。。。。。。。
  • RoCEv2 界说了 RoCEv2 Congestion Management ( RCM ), ,,,,,,其中拥塞治理用的个性ECN(RFC 3168)是在互换机出口(egress port)提议的拥塞节造机造。。。。。。。。当互换机的出口buffer达到设定的阈值时, ,,,,,,互换机遇扭转数据包头中的ECN位来给数据打上ECN标签, ,,,,,,当带ECN标签的数据达到接管端以来, ,,,,,,接管端会天生CNP(Congestion Notification Packet)并将它发送给发送端。。。。。。。。CNP蕴含了导致拥塞的flow或QP的信息, ,,,,,,当发送端收到CNP后, ,,,,,,会采取措施降低发送速度。。。。。。。。
  • 由于PFC作用于整个队列, ,,,,,,而ECN只针对产生拥塞的具体味话, ,,,,,,在设置PFC和ECN有关水线时, ,,,,,,应做到先触发ECN后再触发PFC。。。。。。。。

从表卖订单和叫车订单的智能调度, ,,,,,,到电商平台的智能推荐, ,,,,,,再到人脸鉴别支付以及即将实现的全自动无人驾驶汽车量产, ,,,,,,AI技术的利用已在方方面面影响着人们的生涯和工作, ,,,,,,让各人的生涯越来越便捷、功夫利用越来越合理。。。。。。。。但是, ,,,,,,这都离不开基础设施的支持。。。。。。。。全发国际网络将凭借在数据通讯领域近20年的技术堆集和行业经验, ,,,,,,创新出更好的产品和解决规划, ,,,,,,助力AI技术的蓬勃发展。。。。。。。。

关注全发国际
关注全发国际官网微信
随时相识公司最新动态
全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题? ??? ????
您对当前页面的中意度若何? ??? ????
不咋滴
极度好
您中意的原因是(多选!!。。。。。 ??? ????
您对文档是否还有其它的问题或建议? ??? ????
为尽快解决问题, ,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反馈!!。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】