iSlot官方网站

无线新履历,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新,请实时查阅

查看详情

支持AI的高机能数据中心网络架构若何设计?

iSlot官方网站 - 引领潮水 颁布功夫:2017-12-22
iSlot官方网站 - 引领潮水

近日,工信部印发《推进新一代人为智能产业发展三年行动打算(2018-2020年)》,意在加快人为智能从战术到落地,推动人为智能和实体经济深度融合 。在新工业革命的布景下,大数据、推算力、算法等急剧迭代,正驱动人为智能进入新阶段 。2017年Q3,全球AI公司融资金额突破77亿美元,是2012年的70余倍 ?赡芑嵊腥怂嫡馐“泡沫”,而我更愿意相信这是人为智能发展的必然了局 。

在AI技术的利用过程中,各个企业都在寻找可能更好支持高机能推算的基础网络解决规划 。在《数据中心基础网络架构成功实际及未来发展趋向》这篇文章中,我分享了若何设计一个不变靠得住的数据中心网络,下面我们再来探求支持AI利用的高机能无损网络应该若何设计 。

前面提到大数据、推算力、算法等急剧迭代,正驱动人为智能进入新阶段,而这些技术的实现对网络的低时延、无丢包、高机能这三个方面提出更高要求 。

▲ AI利用的技术系统及对数据中心网络的要求

高机能和无丢包比力好理解,就是指网络带宽机能的提升以及网络中不存在拥塞导致的丢包 。产生时延的环节较多,要实现端到端的低时延,必要多角度分析:

其中,光电传输时延和数据串行时延相对较幼,且很难通过架构设计来优化,我们应沉点关注主机处置时延和设备转发时延 。在各大企业积极追求的高机能推算规划中,基于以太网的RDMA(Remote Direct Memory Access)凭借其高机能和低成本优势逐步取代InfiniBand而成为主流技术 。RoCEv2(RDMA over Converged Ethernet)技术基于UDP和谈,对于建设支持AI利用的高机能无损以太网络变得尤为沉要 。

结合设备转发层面的时延优化伎俩,高机能无损网络的实现取决于两个身分:

  • 无带宽收敛(1:1)的网络架构设计
  • 基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)职能的优先队列治理和拥塞治理

综上,AI集群高机能推算和网络规划实际思路如下图所示:

AI集群高机能规划关键技术组合

在这里,我以25G网络为例,结合业界主流产品状态,分享AI网络架构设计和实现思路 。

重要设计理想:

  • 主题设备全线速高机能转发,主题之间不互联,选取Fabric架构,隔离主题故障,有效降低主题故障的影响;
  • 三层路由组网,通过ECMP提高冗余度,降低故障风险;
  • TOR高低行收敛比严格实现1:1,通过提高主题设备接口密度扩大单集群服务器规模;
  • 利用PFC+ECN职能,实现低延时无损网络 。

网络架构设计:

1.中幼型(集群规模1000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台32口100G BOX互换机,OSPF/BGP组网
  • 合用集群规模1000台
  • 每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽25Tbps

2.中型(集群规模2000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联8台64口100G BOX,OSPF/BGP组网
  • 合用集群规模2000台
  • 每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽50Tbps

3.大型(集群规模2000-18000台)

▲  架构设计

架构个性:

  • 每台TOR选取8*100GE上联4~8台主题(机框式),BGP组网
  • 合用集群规模2000~18000台
  • 每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽50~450Tbps

4.超大型(集群规模20000+台)

▲  架构设计

架构个性:

  • 单POD集群规模1000~2000台,数据中心集群规模20000+,BGP组网
  • POD内收敛比1:1,单POD集群带宽25Tbps,总集群带宽500Tbps+
  • POD内收敛比和上行带宽凭据集群带宽需要矫捷配置,合用与非AI利用混合部署

在数据中心网络中,PFC和ECN职能将部署在Leaf和Spine设备上 。PFC作用于设备互联端口,通过反压影响上游端口队列的发送速度,而ECN是作用在设备转发过程,最终影响的是数据流的发送方,通过降低某条数据流发送速度躲避数据丢包 。

  • PFC 机造将以太链路上的流量分辨为分歧的等级,基于每条流量单独发送“不许可证” 。相对于PAUSE帧而言,PFC能够将链路虚构出8条不一致级的虚构通路,当某条通路出现拥塞后不会影响其它通路 。
  • RoCEv2 界说了 RoCEv2 Congestion Management ( RCM ),其中拥塞治理用的个性ECN(RFC 3168)是在互换机出口(egress port)提议的拥塞节造机造 。当互换机的出口buffer达到设定的阈值时,互换机遇扭转数据包头中的ECN位来给数据打上ECN标签,当带ECN标签的数据达到接管端以来,接管端会天生CNP(Congestion Notification Packet)并将它发送给发送端 。CNP蕴含了导致拥塞的flow或QP的信息,当发送端收到CNP后,会采取措施降低发送速度 。
  • 由于PFC作用于整个队列,而ECN只针对产生拥塞的具体味话,在设置PFC和ECN有关水线时,应做到先触发ECN后再触发PFC 。

从表卖订单和叫车订单的智能调度,到电商平台的智能推荐,再到人脸鉴别支付以及即将实现的全自动无人驾驶汽车量产,AI技术的利用已在方方面面影响着人们的生涯和工作,让各人的生涯越来越便捷、功夫利用越来越合理 。但是,这都离不开基础设施的支持 。iSlot官方网站网络将凭借在数据通讯领域近20年的技术堆集和行业经验,创新出更好的产品和解决规划,助力AI技术的蓬勃发展 。

关注iSlot官方网站
gfwx_logo
关注iSlot官方网站官网微信
随时相识公司最新动态
iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多 。?
您对文档是否还有其它的问题或建议?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反 。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】