iSlot官方网站

无线新履历 ,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此 ,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新 ,请实时查阅

查看详情
iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

技术盛宴|浅谈AIGC算力网络中LPO?榈募际跤攀

有网络的处所就会有光?榈睦 ,那么算力网络中会部署哪种光?槟?本文将萦绕光?槭 ,分析传统DSP?榈闹匾г ,结合LPO技术进行失效能对比分析 ,会商LPO?榈挠攀频氐。

  • iSlot官方网站 - 引领潮水

    颁布功夫:2024-08-06

  • iSlot官方网站 - 引领潮水

    点击量:

  • iSlot官方网站 - 引领潮水

    点赞:

分享至

iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水

我想评论

随着AI技术的迅猛发展 ,形形色色的AI利用走入各人的工作、进建和生涯傍边 ,好比Chatbot(谈天机械人)、虚构主播、AIPC(人为智能幼我电脑 ,Artificial Intelligence Personal Computer)等。为了让用户获取更好的利用履历 ,更快地响应时效要求 ,必要更好的大说话模型 ,更大规模的模型参数量。

相信各人也关注到 ,近期行业颁布的Llama 3.1 模型 ,参数规模已达到惊人的4050亿。

如此重大的模型训练离不开超大规模智算中心的支持 ,近期马斯克在社交平台上颁发:xAI公司已经起头在超等推算中心的“Supercluster”进行训练 ,该集群由10万个液冷H100 GPU组成 ,10万张GPU算力卡的互联必要高速网络通路。

随着智算中心集群规模的不休扩张 ,光市场已经占据数据中心越来越多的份额。在100G时期 ,光?楹屯绲谋壤嘉1:1;到了400G时期 ,光?楹屯绲谋壤湮7:3 ,光?樵诩褐械某烈圆谎远。本文将萦绕光?槭 ,分析传统DSP?榈闹匾г ,结合LPO技术进行失效能对比分析 ,会商LPO?榈挠攀频氐。

 

一、算力网络中光?榈慕

谈到光?楦魅瞬换崮吧 ,有网络的处所就会有光?榈睦。那么算力网络中会部署哪种光?槟?

下图展示了目前智算中心RoCE以太网规划的主流网络架构 ,服务器端通过400G高速网卡接入到算力网络中 ,搭载51.2T互换芯片的数据中心互换机组成三级架构支持万卡以上的集群规模。

 

智算中心RoCE以太网规划的主流网络架构

 

不难看出智算中心对?樗俣鹊囊笠丫锏搅400G ,互换机互联的部门甚至能够思考选取800G互联。

目前主流51.2T的互换芯片是112G SerDes ,因而互换机侧的400G光?槎杂κ荙112的封装 ,网卡侧目前重要是OSFP的封装 ,部署时凭据距离选择对应长度的型号即可。

 

互换机网卡部署

 

二、DSP光?楣ぷ鞯览

以400G Q112 VR4?槲治鯠SP光?榈墓ぷ鞯览硪约案鞑考的关键作用。(SR、DR?榻峁雇即筇逡谎 ,只是所用的电光转换规划分歧 ,SR用VCSEL ,DR用EML或者硅光) 

DSP光?楣ぷ鞯览

 

1、互换芯片发送4*112Gbps PAM4电信号进入光?橹

2、DSP芯片会将经过的电信号进行沉整形而后发到Driver端

3、Driver作为驱动将电信号传输到激光器处

4、VCSEL激光器把电信号转光信号并发到光纤

5、光信号经过光纤达到对端光?榈腜D光电二极管阵列后被转换成电信号

6、TIA将转换后的电信号进行信号放大并送到DSP芯片

7、DSP芯片再次将电信号进行沉整型后发送到互换机芯片上

 

三、光?槭苤副

失效能为何被关注

相较于互换机、服务器等设备 ,光?榈慕峁蛊涫凳潜攘Φヒ坏 ,但就是如此单一的光?樵谒懔ν缰幸彩侵凉爻烈拇嬖。固然单一?榈氖鼙攘Φ ,但是放在万卡以上的集群中也会被放大数倍。?榈氖Щ嵩斐煽隙ǜ怕实墓收喜 ,故障又会导致训练业务的中断 ,沉新启动训练必要额表的耗时 ,无形中增长了集群的运营成本。因而光?榈氖鼙匾黄鞒疗鹄。

 

失效能指标界说

FIT(Failures In Time)失效能是一个衡量产品或系统在单元功夫内产生故障的频率的指标。它通常用来描述在一按功夫领域内 ,特定数量的产品或系统预计会出现几多次故障。FIT是一个无穷纲值 ,暗示的是每十亿幼时内的故障次数。例如 ,若是一个产品在10亿幼时内产生了100次故障 ,那么它的FIT失效能就是100 FIT。这暗示在观察的功夫段内 ,每十亿幼时能够预期会产生100次故障。

光?榈氖=?橹兴性骷失效能的求和 ,好比某个光?榈睦砺凼=155.63FIT ,意味着在十亿幼时内能够预期会产生155.63次失效。

单一?椴淮问匾挠资笔=10亿/155.63≈8647744(幼时)换算成一个好理解的方式即为单个?樵8647744个幼时内会出现一次失效 ,单看这个数据感触?榈目康米⌒约雀 ,但放在整个集群中我们来看看具体数据。

 

光?槭苤副

 

如图所示 ,我们列举了分歧集群规模下所必要的光?槭恳约八泄饽?椴淮文?槭У木嗬牍Ψ ,不难看出这是一个随着?槭勘浯蠖サ鞯菁醯暮。

单一?榈氖茉谕蚩ㄒ陨系募汗婺V斜环糯罅 ,理论上在32K卡的集群中或许每两天就会产生一次?槭 ,这样来看?榈氖芑故窍嗟敝档霉刈⒌。

 

导致光?槭鼙涠闹匾煞

有两个重要成分会引起失效能变动 ,一个是?槟诓康脑骷数量 ,另一个是?樽陨淼墓ぷ魑露。

具体变动关系是:

1、?樵骷越少 ,失效能越低

2、?楣ぷ魑露仍降 ,失效能越低

 

传统DSP光?槭芊治

传统DSP?楣婊谑芊矫婊勾嬖谝韵氯钡悖

1、?樵骷多、工作温度高:DSP?椴唤鲇蠨SP芯片 ,还蕴含周边的晶体振荡器、Flash、电源等一系列芯片 ,且功耗占比超过50% ,会显著提升?榈墓ぷ魑露。

2、?樵骷自身失效能高:DSP?槿羰茄∪ML或VCSEL规划 ,会蕴含多颗分离的III-V族激光器 ,而激光器自身的失效能就会偏高。

基于以上分析能够看到导致DSP?槭У闹匾蚴瞧骷数量多、工作温度高 ,好比DSP及周边芯片、EML/VCSEL激光器等。要想降低?榈氖芑故堑么颖驹饩鑫侍 ,下面我们来介绍一下LPO(Linear-drive Pluggable Optics)?楣婊。

 

四、LPO光?榻饩龉婊

LPO? 

LPO? 

LPO ?槿サ袅舜矰SP?橹械腄SP芯片 ,利用互换芯片中DSP进行电信号的处置 ,?榈毖∪⊥ɡ艿腄river和TIA芯片 ,并选用相宜的电光转换规划 ,即能够实现优异的传输机能。电光转换部门能够选取VCSEL、EML或者硅光规划 ,硅光拥有更好的线性度、更低的电反射。为了保险供给以及更高的靠得住性 ,iSlot官方网站网络选取了硅光技术规划。更多LPO基础概想的介绍能够参考往期文章揭秘智算中心网络建设新利器:LPO技术的出现。

 

LPO?槭芊治 

LPO?槭芊治 

LPO?槭芊治

 

上述图表展示了400G?樵谝谎?楣ぷ魑露55°C情况下 ,分歧技术规划的失效能比例关系D芄豢吹皆谝谎?楣ぷ魑露认 ,LPO+硅光规划的失效能更低 ,其他规划失效能为LPO+硅光规划的1.31~2.34倍左右。

这样的对譬喻式是从理论上评估分歧?榈氖 ,因而会节造工作温度维持不变。而在现实部署中 ,LPO+硅光?榈墓ぷ魑露认嘟嫌贒SP规划会更低 ,因而失效能能够得到进一步的降低。 

壳温对比

 

如上图所示 ,在一样的环境温度情况下 ,LPO?榈工作温度比DSP?橐15°C左右。 

Radom Failure Rate VS Temperature 

结合上述图表 ,能够看到LPO?槲露却55°C降低到40°C后 ,失效能降落了50% ,具备更高的靠得住性。 

400G DR4/SR4 Radom Failure Rate @ CL=60% 环境温度一样 

从现实部署场景来看 ,将分歧技术规划的400G?榉旁谝谎环境温度下进行对比 ,可能看到LPO+硅光规划的失效能得到进一步降低 ,这就是?楣ぷ魑露较低带来的收益。

 

总结

基于以上理论分析结合现实数据来看 ,LPO+硅光的规划相较于其他规划而言失效能是较低的。主题原因在于以下两点:

1、移除DSP芯片:去掉DSP芯片后能够较大幅度降低?楣ぷ魑露 ,降低因高温给激光器带来的影响。

2、选取硅光技术:如下图所示 ,光电转换部门选取硅光规划后能够让硅光芯片掌管信号调造 ,Laser仅必要提供直流光 ,无需调造信号。对比EML规划必要4个激光器以及TEC ,硅光规划的Laser只必要1个 ,削减了?樵骷的数量 ,降低失效能。

 

选取硅光技术 

 

五、LPO光?榛懿问

只具备更低的?槭芑共患耙匀肔PO?榇鍰SP? ,我们还应评估光?榈目捎眯 ,也就是关注BER(误码率)和SEN(活络度) ,这两个指标的机能参数必要能达到和谈门限的尺度。

 

光?锽ER&SEN评估步骤 

光?锽ER&SEN评估步骤 

通过调节光衰减的大幼 ,得到分歧RX光功率下的BER ,将所有测试了局汇总到一路绘造成BO曲线。 

iSlot官方网站 - 引领潮水 

当光功率一向调。ㄍ急碇泻嶙晗蜃蟮髡飨颍 ,直到BER蹬宗FEC门限划定的2.4e-4(图表中纵坐标向上调整趋向)时 ,纪录此时的光功率就是光?榈幕盥缍龋⊿EN)。通常的BER都是在没有加光衰减器的情况下测试的 ,即在BER error floor区间测试的了局。

SEN越幼注明光?樵侥苋萑谈椎墓夤β ,对现实的部署有比力大的援手 ,好比由于接头脏污、发端光功率变幼、光纤接头插损大等会造成光功率变幼的情况。

 

LPO DR?榈幕懿问

以下是分歧规划?樵诔N露滔顺【爸械牟馐允 

iSlot官方网站 - 引领潮水 

从BER图表数据能够看到以下景象:

1、LPO DR?榈腂ER和和谈门限相迸仔5个数量级的余量。

2、LPO DR与DSP+硅光规划的BER参数靠近 ,且优于DSP+EML规划 2~3个数量级。 

iSlot官方网站 - 引领潮水 

从SEN图表数据看到以下景象:

1、LPO DR?榈腟EN和和谈门限相迸仔3.5dB的左右余量。

2、三种规划在SEN参数方面相差不大。

 

基于以上景象能够得出结论:LPO+硅光机能参数靠近DSP+硅光 ,优于DSP+EML规划 ,因而能够代替现有的DSP DR规划。

 

六、LPO光?榈钠渌找

LPO光?槌烁呖康米⌒约案呖捎眯哉饬降惚 ,在其他维度也具备肯定的价值收益。

1、更低功耗:去掉DSP芯片后 ,光?榈淖畲蠊哪芄唤档51.3%左右 ,低于4W(壳温70℃测试)。 

LPODR4 VS DSP DR4?楣亩员

 

2、更低时延:?橹猩倭薉SP芯片 ,削减一跳 ,时延能够降低95% ,满足更低延长的利用场景。 

LPODR4 VS DSP DR4?槭毖佣员

 

3、优良供给:传统DSP?榈腄SP芯片和VCSEL激光器目前供给比力严重 ,且交期比力长 ,大规模交付有供给风险。LPO?楣婊サ袅薉SP芯片 ,并且选取硅光技术 ,预防使用供给严重的DSP芯片和VCSEL芯片 ,在肯定水平上躲避了关键器件的供给风险。

 

七、iSlot官方网站LPO光?椴 

iSlot官方网站 - 引领潮水 

iSlot官方网站 - 引领潮水

 

iSlot官方网站网络聚焦AIGC算力网络场景规划设计了三款LPO DR的自研光? ,满足以下三种网络架构的互联需要。

 

iSlot官方网站 - 引领潮水

 

目前在共同各大厂进行适配测试工作 ,敬请等待。

iSlot官方网站网络 ,作为GenAI时期的全栈服务专家 ,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。iSlot官方网站产品覆盖高机能网络与GPU算力优化调度 ,旨在通过创新技术解决规划 ,援手客户实现出产效能的飞跃与运营成本的优化。我们坚信 ,通过iSlot官方网站致力 ,可能为客户打造一个越发智能、高效和靠得住的未来。让我们携手 ,共同索求AI时期的每一个机缘。

有关标签:

iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

点赞

更多技术博文

任何必要 ,请联系iSlot官方网站

iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题 ,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】