iSlot官方网站

无线新履历,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新,请实时查阅

查看详情

到底什么样的网络,能力带得动AIGC?

iSlot官方网站 - 引领潮水 颁布功夫:2023-08-02
iSlot官方网站 - 引领潮水

2023年,是AI人为智能技术全面爆红的一年。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型,集文本撰写、代码开发、诗词创作等职能于一体,展示出了超强的内容出产能力,带给人们极大震撼。

iSlot官方网站 - 引领潮水

AIGC,AI-Generated Content(人为智能出产内容)

作为一个通讯老司机,除了AIGC大模型自身之表,幼枣君越发关注的,是模型背后的通讯技术。到底是一张怎么的壮大网络,在支持着AIGC的运行?此表,AI海潮的全面来袭,将对传统网络带来怎么的刷新?

AIGC,到底必要多大的算力?

多所周知,数据、算法和算力,是人为智能发展的三大根基身分。

iSlot官方网站 - 引领潮水

前面提到的几个AIGC大模型,之所以那么严害,不仅是由于它们背后有海量的数据投喂,也由于算法在不休进化升级。更沉要的是,人类的算力规模,已经发展到了肯定水平。壮大的算力基础设施,齐全可能支持AIGC的推算需要。

AIGC发展到此刻,训练模型参数从千亿级飙升到了万亿级。为了实现这么大规模的训练,底层支持的GPU数量,也达到了万卡级别规模。

以ChatGPT为例,他们使用了微软的超算基础设施进行训练,听说动用了10000块V100 GPU,组成了一个高带宽集群。一次训练,必要亏损算力约3640 PF-days(即每秒1千万亿次推算,运行3640天)。

一块V100的FP32算力,是0.014 PFLOPS(算力单元,蹬宗每秒1千万亿次的浮点运算)。一万块V100,那就是140 PFLOPS。

也就是说,若是GPU的利用率是100%,那么,实现一次训练,就要3640÷140=26(天)。

GPU的利用率是不成能达到100%,若是按33%算(OpenAI提供的如果利用率),那就是26再翻三倍,蹬宗78天。

能够看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响。

iSlot官方网站 - 引领潮水

那么问题来了,影响GPU利用率的最大成分,是什么呢?

答案是:网络。

一万甚至几万块的GPU,作为推算集群,与存储集群进行数据交互,必要极大的带宽。此表,GPU集群进行训练推算时,都不是独立的,而是混归并行。GPU之间,有大量的数据互换,也必要极大的带宽。

若是网络不给力,数据传输慢,GPU就要期待数据,导致利用率降落。利用率降落,训练功夫就会增长,成本也会增长,用户履历会变差。

业界已经做过一个模型,推算出网络带宽吞吐能力、通讯时延与GPU利用率之间的关系,如下图所示:

iSlot官方网站 - 引领潮水

各人能够看到,网络吞吐能力越强,GPU利用率越高;通讯动态时延越大,GPU利用率越低。

一句话,没有好网络,别玩大模型。

怎么的网络,能力支持AIGC的运行?

为了应对AI集群推算对网络的调整,业界也是想了不少法子的。

传统的应对战术,重要是三种:Infiniband、RDMA、框式互换机。我们别离来单一相识一下。

Infiniband组网

Infiniband(直译为“无限带宽”技术,缩写为IB)组网,搞数据通讯的童鞋应该不会陌生。

这是目前组建高机能网络的最佳蹊径,带宽极高,能够实现无拥塞和低时延。ChatGPT、GPT-4所使用的,听说就是Infiniband组网。

若是说Infiniband组网有什么弊端的话,那就是一个字——贵。相比传统以太网的组网,Infiniband组网的成本会贵好几倍。这项技术比力封关,业内目前成熟的供给商只有1家,用户没什么选择权。

RDMA网络

RDMA的全称是Remote Direct Memory Access(远程直接数据存。。它是一种新型的通讯机造。在RDMA规划里,利用法式的数据,不再经过CPU和复杂的操作系统,而是直接和网卡通讯,不仅大幅提升了吞吐能力,也降低了时延。

iSlot官方网站 - 引领潮水

RDMA最早提出时,是承载在InfiniBand网络中的。此刻,RDMA逐步移植到了以太网上。

目前,高机能网络的主流组网规划,是基于RoCE v2(RDMA over Converged Ethernet,基于融合以太网的RDMA)和谈来组建支持RDMA的网络。

这种规划有两个沉要的搭配技术,别离是PFC(Priority Flow Control,基于优先级的流量节造)和ECN(Explicit Congestion Notification,显式拥塞通知)。它们是为了预防链路中的拥塞而产生的技术,但是,频仍被触发,反而会导致发送端暂停发送,或降速发送,进而拉低通讯带宽。(下文还会提到它们)

框式互换机

国表有部门互联网公司,寄但愿于利用选取框式互换机(DNX芯片+VOQ技术),来满足构建高机能网络的需要。

DNX:broadcom(博通)的一个芯片系列

VOQ:Virtual Output Queue,虚构输出队列

这种规划看似可行,但也面对以下几个挑战。

首先,框式互换机的扩大能力通常;虼笥紫薅攘俗畲蠖丝谑,如想做更大规模的集群,必要横向扩大多个机框。

其次,框式互换机的设备功耗大;蚰谙呖ㄐ酒abric芯片、电扇等数量多多,单设备的功耗超过2万瓦,有的甚至3万多瓦,对机柜供电能力要求太高。

第三,框式互换机的单设备端口数量多,故障域大。

基于以上原因,框式互换机设备只适合幼规模部署AI推算集群。

到底什么是DDC

前面说的都是传统规划。既然这些传统规划不能,那当然就要想新法子。

因而,一种名叫DDC的全新解决规划,闪亮登场了。

DDC,全名叫做Distributed Disaggregated Chassis(散布式分散式机箱)。

它是前面框式互换机的“分拆版”?蚴交セ换睦┐竽芰Σ患,那么,我们索性把它给拆开,将一个设备造成多个设备,不就OK了?

iSlot官方网站 - 引领潮水

框式设备,通常分为互换网板(背板)和业务线卡(板卡)两部门,相互之间用衔接器衔接。

DDC规划,将互换网板造成了NCF设备,将业务线卡造成了NCP设备。衔接器,则造成了光纤?蚴缴璞傅闹卫碇澳,在DDC架构中,也造成了NCC。

NCF:Network Cloud Fabric(网络云治理节造平面)

NCP:Network Cloud Packet Processing(网络云数据包处置)

NCC:Network Cloud Controller(网络云节造器)

DDC从集中式造成散布式之后,扩大能力大大加强了。它能够凭据AI集群的大幼,矫捷设计组网规模。

我们来举两个例子(单POD组网和多POD组网)。

单POD组网中,选取96台NCP作为接入,其中NCP下行共18个400G接口,掌管衔接AI推算集群的网卡。上行共40个200G接口,最大能够衔接40台NCF,NCF提供96个200G接口,该规模高低行带宽为超速比1.1:1。整个POD可支持1728个400G网络接口,依照一台服务器配8块GPU来推算,可支持216台AI推算服务器。

iSlot官方网站 - 引领潮水

单POD组网

多级POD组网,规D芄槐涞酶。

在多级POD组网中,NCF设备要就义一半的SerDes,用于衔接第二级的NCF。所以,此时单POD选取48台NCP作为接入,下行共18个400G接口。

iSlot官方网站 - 引领潮水

多POD组网

单个POD内,能够支持864个400G接口(48×18)。通过横向增长POD(8个),实现规模扩容,整体最大可支持6912个400G网络端口(864×8)。

NCP上行40个200G,接POD内40台NCF。POD内NCF选取48个200G接口,48个200G接口分为12个一组上行到第二级的NCF。第二级NCF选取40个平面(Plane),每个平面4台NCF-P,别离对应在POD内的40台NCF。

整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽),而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽)。

iSlot官方网站 - 引领潮水

DDC的技术特点

站在规模和带宽吞吐的角度,DDC已经能够满足AI大模型训练对于网络的需要。

然而,网络的运作过程是复杂的,DDC还必要在时延匹涤注负载平衡性、治理效能等方面有所提升。

基于VOQ+Cell的转发机造,匹敌丢包

网络在工作的过程中,可能会出现突发流量,造成接管端来不及处置,引起拥塞和丢包。

为了应对这种情况,DDC采取了基于VOQ+Cell的转发机造。

iSlot官方网站 - 引领潮水

发送端从网络接管到数据包之后,会分类到VOQ(虚构输出队列)中存储。

在发送数据包前,NCP会先发送Credit报文,确定接管端是否有足够的缓存空间处置这些报文。

若是接管端OK,则将数据包吩飕成Cells(数据包的幼切片),并且动态负载平衡到中央的Fabric节点(NCF)。

若是接管端临时没能力处置报文,报文会在发送端的VOQ中暂存,并不会直接转发到接管端。

在接管端,这些Cells会进行沉组和存储,进而转发到网络中。

切片后的Cells,将选取轮询的机造发送。它可能充分利用到每一条上行链路,确保所有上行链路的传输数据量近似相称。

iSlot官方网站 - 引领潮水

轮询机造

这样的机造,充分利用了缓存,能够大幅度削减丢包,甚至不会产生丢包情况。数据沉传削减了,整体通讯时延更不调换低,从而能够提高带宽利用率,进而提升业务吞吐效能。

PFC单跳部署,预防死锁

前面我们提到,RDMA无损网络中引入了PFC(基于优先级的流量节造)技术,进行流量节造。

单一来说,PFC就是在一条以太网链路上创建 8 个虚构通路,并为每条虚构通路指定相应优先级,允许单独暂停和沉启其中肆意一条虚构通路,同时允许其它虚构通路的流量无中断通过。

iSlot官方网站 - 引领潮水

PFC能够实现基于队列的流量节造,但是,它也存在一个问题,那就是死锁。

所谓死锁,就是多个互换机之间,由于环路等原因,同时出现了拥塞(各自端口缓存亏损超过了阈值),又都在期待对方开释资源,从而导致的“僵持状态”(所有互换机的数据流永远梗塞)。

DDC的组网下,就不存在PFC的死锁问题。由于,站在整个网络的角度,所有NCP和NCF能够当作一台设备。对于AI服务器来说,整个DDC,就是一个互换机,不存在多级互换机。所以,就不存在死锁。

iSlot官方网站 - 引领潮水

另表,凭据DDC的数据转发机造,可在接口处部署ECN(显式拥塞通知)。

ECN机造下,网络设备一旦检测到RoCE v2流量出现了拥塞(内部的Credit缓和存机造无法支持突发流量),就会向服务器端发送CNP(Congestion Notification Packets,拥塞通知报文),要求降速。

散布式OS,提升靠得住性

最后再看看治理节造平面。

前面我们提到,在DDC架构中,框式设备的治理职能造成了NCC(网络云节造器)。NCC极度沉要,若是选取单点式的方式,万一出现问题,就会导致整网故障。

为了预防出现这样的问题,DDC能够取缔NCC的集中节造面,构建散布式OS(操作系统)。

基于散布式OS,能够基于SDN运维节造器,通过尺度接口(Netconf、GRPC等)配置治理设备。这样的话,每台NCP和NCF独立治理,有独立的节造面和治理面,大大提升了系统的靠得住性,也越发便于部署。

DDC的商用进展

综上所述,相对传统组网,DDC在组网规模、扩大能力、靠得住性、成本、部署速度方面,占有显著优势。它是网络技术升级的产品,提供了一种颠覆原有网络架构的思路,能够实现网络硬件的解耦、网络架构的统一、转发容量的扩大。

业界已经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比仿照测试。测试结论是:在All-to-All场景下,相较于传统组网,框式设备的带宽利用率提升了约20%(对应GPU利用率提升8%左右)。

正是由于DDC的显著能力优势,此刻这项技术已经成为行业的沉点发展方向。例如iSlot官方网站网络,他们就率先推出了两款可交付的DDC产品,别离是400G NCP互换机——RG-S6930-18QC40F1,以及200G NCF互换机——RG-X56-96F1。

iSlot官方网站 - 引领潮水

RG-S6930-18QC40F1互换机的高度为2U,提供18个400G的面板口,40个200G的Fabric内联口,4个电扇和2个电源。

RG-X56-96F1互换机的高度为4U,提供96个200G的Fabric内联口,8个电扇和4个电源。

据悉,iSlot官方网站网络会持续研发,持续推出更多适合智算中心网络场景的产品。

最后的话

AIGC的崛起,已经掀起了互联网行业的新一轮技术革命。

我们能够看到,越来越多的企业,在参与这个赛路,参加角逐。这意味着,网络基础设施的升级,火烧眉毛。

DDC的出现,将大幅提升网络基础设施的能力,不仅能够有效应对AI革命对网络基础设施提出的挑战,更将助力整个社会的数字化转型,加快人类数智时期的全面到来。

关注iSlot官方网站
gfwx_logo
关注iSlot官方网站官网微信
随时相识公司最新动态
iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】