全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期 , ,, ,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新 , ,, ,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

技术盛宴|浅谈AIGC算力网络中LPO模??????榈募际跤攀

有网络的处所就会有光模??????榈睦 , ,, ,,,那么算力网络中会部署哪种光模??????槟兀??????本文将萦绕光模??????槭 , ,, ,,,分析传统DSP模??????榈闹匾г , ,, ,,,结合LPO技术进行失效能对比分析 , ,, ,,,会商LPO模??????榈挠攀频氐。。。。。。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2024-08-06

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

随着AI技术的迅猛发展 , ,, ,,,形形色色的AI利用走入各人的工作、进建和生涯傍边 , ,, ,,,好比Chatbot(谈天机械人)、虚构主播、AIPC(人为智能幼我电脑 , ,, ,,,Artificial Intelligence Personal Computer)等。。。。。。。。为了让用户获取更好的利用履历 , ,, ,,,更快地响应时效要求 , ,, ,,,必要更好的大说话模型 , ,, ,,,更大规模的模型参数量。。。。。。。。

相信各人也关注到 , ,, ,,,近期行业颁布的Llama 3.1 模型 , ,, ,,,参数规模已达到惊人的4050亿。。。。。。。。

如此重大的模型训练离不开超大规模智算中心的支持 , ,, ,,,近期马斯克在社交平台上颁发:xAI公司已经起头在超等推算中心的“Supercluster”进行训练 , ,, ,,,该集群由10万个液冷H100 GPU组成 , ,, ,,,10万张GPU算力卡的互联必要高速网络通路。。。。。。。。

随着智算中心集群规模的不休扩张 , ,, ,,,光市场已经占据数据中心越来越多的份额。。。。。。。。在100G时期 , ,, ,,,光模??????楹屯绲谋壤嘉1:1;;;;;到了400G时期 , ,, ,,,光模??????楹屯绲谋壤湮7:3 , ,, ,,,光模??????樵诩褐械某烈圆谎远。。。。。。。。本文将萦绕光模??????槭 , ,, ,,,分析传统DSP模??????榈闹匾г , ,, ,,,结合LPO技术进行失效能对比分析 , ,, ,,,会商LPO模??????榈挠攀频氐。。。。。。。。

 

一、算力网络中光模??????榈慕

谈到光模??????楦魅瞬换崮吧 , ,, ,,,有网络的处所就会有光模??????榈睦。。。。。。。。那么算力网络中会部署哪种光模??????槟兀??????

下图展示了目前智算中心RoCE以太网规划的主流网络架构 , ,, ,,,服务器端通过400G高速网卡接入到算力网络中 , ,, ,,,搭载51.2T互换芯片的数据中心互换机组成三级架构支持万卡以上的集群规模。。。。。。。。

 

智算中心RoCE以太网规划的主流网络架构

 

不难看出智算中心对模??????樗俣鹊囊笠丫锏搅400G , ,, ,,,互换机互联的部门甚至能够思考选取800G互联。。。。。。。。

目前主流51.2T的互换芯片是112G SerDes , ,, ,,,因而互换机侧的400G光模??????槎杂κ荙112的封装 , ,, ,,,网卡侧目前重要是OSFP的封装 , ,, ,,,部署时凭据距离选择对应长度的型号即可。。。。。。。。

 

互换机网卡部署

 

二、DSP光模??????楣ぷ鞯览

以400G Q112 VR4模??????槲治鯠SP光模??????榈墓ぷ鞯览硪约案鞑考的关键作用。。。。。。。。(SR、DR模??????榻峁雇即筇逡谎 , ,, ,,,只是所用的电光转换规划分歧 , ,, ,,,SR用VCSEL , ,, ,,,DR用EML或者硅光) 

DSP光模??????楣ぷ鞯览

 

1、互换芯片发送4*112Gbps PAM4电信号进入光模??????橹

2、DSP芯片会将经过的电信号进行沉整形而后发到Driver端

3、Driver作为驱动将电信号传输到激光器处

4、VCSEL激光器把电信号转光信号并发到光纤

5、光信号经过光纤达到对端光模??????榈腜D光电二极管阵列后被转换成电信号

6、TIA将转换后的电信号进行信号放大并送到DSP芯片

7、DSP芯片再次将电信号进行沉整型后发送到互换机芯片上

 

三、光模??????槭苤副

失效能为何被关注

相较于互换机、服务器等设备 , ,, ,,,光模??????榈慕峁蛊涫凳潜攘Φヒ坏 , ,, ,,,但就是如此单一的光模??????樵谒懔ν缰幸彩侵凉爻烈拇嬖。。。。。。。。固然单一模??????榈氖鼙攘Φ , ,, ,,,但是放在万卡以上的集群中也会被放大数倍。。。。。。。。模??????榈氖Щ嵩斐煽隙ǜ怕实墓收喜 , ,, ,,,故障又会导致训练业务的中断 , ,, ,,,沉新启动训练必要额表的耗时 , ,, ,,,无形中增长了集群的运营成本。。。。。。。。因而光模??????榈氖鼙匾黄鞒疗鹄。。。。。。。。

 

失效能指标界说

FIT(Failures In Time)失效能是一个衡量产品或系统在单元功夫内产生故障的频率的指标。。。。。。。。它通常用来描述在一按功夫领域内 , ,, ,,,特定数量的产品或系统预计会出现几多次故障。。。。。。。。FIT是一个无穷纲值 , ,, ,,,暗示的是每十亿幼时内的故障次数。。。。。。。。例如 , ,, ,,,若是一个产品在10亿幼时内产生了100次故障 , ,, ,,,那么它的FIT失效能就是100 FIT。。。。。。。。这暗示在观察的功夫段内 , ,, ,,,每十亿幼时能够预期会产生100次故障。。。。。。。。

光模??????榈氖=模??????橹兴性骷失效能的求和 , ,, ,,,好比某个光模??????榈睦砺凼=155.63FIT , ,, ,,,意味着在十亿幼时内能够预期会产生155.63次失效。。。。。。。。

单一模??????椴淮问匾挠资笔=10亿/155.63≈8647744(幼时)换算成一个好理解的方式即为单个模??????樵8647744个幼时内会出现一次失效 , ,, ,,,单看这个数据感触模??????榈目康米⌒约雀 , ,, ,,,但放在整个集群中我们来看看具体数据。。。。。。。。

 

光模??????槭苤副

 

如图所示 , ,, ,,,我们列举了分歧集群规模下所必要的光模??????槭恳约八泄饽???????椴淮文???????槭У木嗬牍Ψ , ,, ,,,不难看出这是一个随着模??????槭勘浯蠖サ鞯菁醯暮。。。。。。。。

单一模??????榈氖茉谕蚩ㄒ陨系募汗婺V斜环糯罅 , ,, ,,,理论上在32K卡的集群中或许每两天就会产生一次模??????槭 , ,, ,,,这样来看模??????榈氖芑故窍嗟敝档霉刈⒌。。。。。。。。

 

导致光模??????槭鼙涠闹匾煞

有两个重要成分会引起失效能变动 , ,, ,,,一个是模??????槟诓康脑骷数量 , ,, ,,,另一个是模??????樽陨淼墓ぷ魑露。。。。。。。。

具体变动关系是:

1、模??????樵骷越少 , ,, ,,,失效能越低

2、模??????楣ぷ魑露仍降 , ,, ,,,失效能越低

 

传统DSP光模??????槭芊治

传统DSP模??????楣婊谑芊矫婊勾嬖谝韵氯钡悖

1、模??????樵骷多、工作温度高:DSP模??????椴唤鲇蠨SP芯片 , ,, ,,,还蕴含周边的晶体振荡器、Flash、电源等一系列芯片 , ,, ,,,且功耗占比超过50% , ,, ,,,会显著提升模??????榈墓ぷ魑露。。。。。。。。

2、模??????樵骷自身失效能高:DSP模??????槿羰茄∪ML或VCSEL规划 , ,, ,,,会蕴含多颗分离的III-V族激光器 , ,, ,,,而激光器自身的失效能就会偏高。。。。。。。。

基于以上分析能够看到导致DSP模??????槭У闹匾蚴瞧骷数量多、工作温度高 , ,, ,,,好比DSP及周边芯片、EML/VCSEL激光器等。。。。。。。。要想降低模??????榈氖芑故堑么颖驹饩鑫侍 , ,, ,,,下面我们来介绍一下LPO(Linear-drive Pluggable Optics)模??????楣婊。。。。。。。。

 

四、LPO光模??????榻饩龉婊

LPO模?????? 

LPO模?????? 

LPO 模??????槿サ袅舜矰SP模??????橹械腄SP芯片 , ,, ,,,利用互换芯片中DSP进行电信号的处置 , ,, ,,,模??????榈毖∪⊥ɡ艿腄river和TIA芯片 , ,, ,,,并选用相宜的电光转换规划 , ,, ,,,即能够实现优异的传输机能。。。。。。。。电光转换部门能够选取VCSEL、EML或者硅光规划 , ,, ,,,硅光拥有更好的线性度、更低的电反射。。。。。。。。为了保险供给以及更高的靠得住性 , ,, ,,,全发国际网络选取了硅光技术规划。。。。。。。。更多LPO基础概想的介绍能够参考往期文章揭秘智算中心网络建设新利器:LPO技术的出现。。。。。。。。

 

LPO模??????槭芊治 

LPO模??????槭芊治 

LPO模??????槭芊治

 

上述图表展示了400G模??????樵谝谎???????楣ぷ魑露55°C情况下 , ,, ,,,分歧技术规划的失效能比例关系。。。。。。。。?????D芄豢吹皆谝谎???????楣ぷ魑露认 , ,, ,,,LPO+硅光规划的失效能更低 , ,, ,,,其他规划失效能为LPO+硅光规划的1.31~2.34倍左右。。。。。。。。

这样的对譬喻式是从理论上评估分歧模??????榈氖 , ,, ,,,因而会节造工作温度维持不变。。。。。。。。而在现实部署中 , ,, ,,,LPO+硅光模??????榈墓ぷ魑露认嘟嫌贒SP规划会更低 , ,, ,,,因而失效能能够得到进一步的降低。。。。。。。。 

壳温对比

 

如上图所示 , ,, ,,,在一样的环境温度情况下 , ,, ,,,LPO模??????榈工作温度比DSP模??????橐15°C左右。。。。。。。。 

Radom Failure Rate VS Temperature 

结合上述图表 , ,, ,,,能够看到LPO模??????槲露却55°C降低到40°C后 , ,, ,,,失效能降落了50% , ,, ,,,具备更高的靠得住性。。。。。。。。 

400G DR4/SR4 Radom Failure Rate @ CL=60% 环境温度一样 

从现实部署场景来看 , ,, ,,,将分歧技术规划的400G模??????榉旁谝谎环境温度下进行对比 , ,, ,,,可能看到LPO+硅光规划的失效能得到进一步降低 , ,, ,,,这就是模??????楣ぷ魑露较低带来的收益。。。。。。。。

 

总结

基于以上理论分析结合现实数据来看 , ,, ,,,LPO+硅光的规划相较于其他规划而言失效能是较低的。。。。。。。。主题原因在于以下两点:

1、移除DSP芯片:去掉DSP芯片后能够较大幅度降低模??????楣ぷ魑露 , ,, ,,,降低因高温给激光器带来的影响。。。。。。。。

2、选取硅光技术:如下图所示 , ,, ,,,光电转换部门选取硅光规划后能够让硅光芯片掌管信号调造 , ,, ,,,Laser仅必要提供直流光 , ,, ,,,无需调造信号。。。。。。。。对比EML规划必要4个激光器以及TEC , ,, ,,,硅光规划的Laser只必要1个 , ,, ,,,削减了模??????樵骷的数量 , ,, ,,,降低失效能。。。。。。。。

 

选取硅光技术 

 

五、LPO光模??????榛懿问

只具备更低的模??????槭芑共患耙匀肔PO模??????榇鍰SP模?????? , ,, ,,,我们还应评估光模??????榈目捎眯 , ,, ,,,也就是关注BER(误码率)和SEN(活络度) , ,, ,,,这两个指标的机能参数必要能达到和谈门限的尺度。。。。。。。。

 

光模??????锽ER&SEN评估步骤 

光模??????锽ER&SEN评估步骤 

通过调节光衰减的大幼 , ,, ,,,得到分歧RX光功率下的BER , ,, ,,,将所有测试了局汇总到一路绘造成BO曲线。。。。。。。。 

全发国际(中国)有限公司官网 

当光功率一向调。。。。。。。。ㄍ急碇泻嶙晗蜃蟮髡飨颍 , ,, ,,,直到BER蹬宗FEC门限划定的2.4e-4(图表中纵坐标向上调整趋向)时 , ,, ,,,纪录此时的光功率就是光模??????榈幕盥缍龋⊿EN)。。。。。。。。通常的BER都是在没有加光衰减器的情况下测试的 , ,, ,,,即在BER error floor区间测试的了局。。。。。。。。

SEN越幼注明光模??????樵侥苋萑谈椎墓夤β , ,, ,,,对现实的部署有比力大的援手 , ,, ,,,好比由于接头脏污、发端光功率变幼、光纤接头插损大等会造成光功率变幼的情况。。。。。。。。

 

LPO DR模??????榈幕懿问

以下是分歧规划模??????樵诔N露滔顺【爸械牟馐允 

全发国际(中国)有限公司官网 

从BER图表数据能够看到以下景象:

1、LPO DR模??????榈腂ER和和谈门限相迸仔5个数量级的余量。。。。。。。。

2、LPO DR与DSP+硅光规划的BER参数靠近 , ,, ,,,且优于DSP+EML规划 2~3个数量级。。。。。。。。 

全发国际(中国)有限公司官网 

从SEN图表数据看到以下景象:

1、LPO DR模??????榈腟EN和和谈门限相迸仔3.5dB的左右余量。。。。。。。。

2、三种规划在SEN参数方面相差不大。。。。。。。。

 

基于以上景象能够得出结论:LPO+硅光机能参数靠近DSP+硅光 , ,, ,,,优于DSP+EML规划 , ,, ,,,因而能够代替现有的DSP DR规划。。。。。。。。

 

六、LPO光模??????榈钠渌找

LPO光模??????槌烁呖康米⌒约案呖捎眯哉饬降惚 , ,, ,,,在其他维度也具备肯定的价值收益。。。。。。。。

1、更低功耗:去掉DSP芯片后 , ,, ,,,光模??????榈淖畲蠊哪芄唤档51.3%左右 , ,, ,,,低于4W(壳温70℃测试)。。。。。。。。 

LPODR4 VS DSP DR4模??????楣亩员

 

2、更低时延:模??????橹猩倭薉SP芯片 , ,, ,,,削减一跳 , ,, ,,,时延能够降低95% , ,, ,,,满足更低延长的利用场景。。。。。。。。 

LPODR4 VS DSP DR4模??????槭毖佣员

 

3、优良供给:传统DSP模??????榈腄SP芯片和VCSEL激光器目前供给比力严重 , ,, ,,,且交期比力长 , ,, ,,,大规模交付有供给风险。。。。。。。。LPO模??????楣婊サ袅薉SP芯片 , ,, ,,,并且选取硅光技术 , ,, ,,,预防使用供给严重的DSP芯片和VCSEL芯片 , ,, ,,,在肯定水平上躲避了关键器件的供给风险。。。。。。。。

 

七、全发国际LPO光模??????椴 

全发国际(中国)有限公司官网 

全发国际(中国)有限公司官网

 

全发国际网络聚焦AIGC算力网络场景规划设计了三款LPO DR的自研光模?????? , ,, ,,,满足以下三种网络架构的互联需要。。。。。。。。

 

全发国际(中国)有限公司官网

 

目前在共同各大厂进行适配测试工作 , ,, ,,,敬请等待。。。。。。。。

全发国际网络 , ,, ,,,作为GenAI时期的全栈服务专家 , ,, ,,,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。。。。。。。。全发国际产品覆盖高机能网络与GPU算力优化调度 , ,, ,,,旨在通过创新技术解决规划 , ,, ,,,援手客户实现出产效能的飞跃与运营成本的优化。。。。。。。。我们坚信 , ,, ,,,通过全发国际致力 , ,, ,,,可能为客户打造一个越发智能、高效和靠得住的将来。。。。。。。。让我们携手 , ,, ,,,共同索求AI时期的每一个机缘。。。。。。。。

全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

点赞

更多技术博文

任何必要 , ,, ,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题???????
您对当前页面的中意度若何???????
不咋滴
极度好
您中意的原因是(多。。。。。。。。??????
您对文档是否还有其它的问题或建议???????
为尽快解决问题 , ,, ,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反。。。。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】