组网扩大性要求高
分歧的金融客户对GPU算力投入有差距,幼规模起步到规;褂靡笾撬阃缇弑附细叩目衫┐笮。
网络机能要求高
大模型的机间网络通讯占比大幅提升,带宽接入能力及带宽利用率成为影响训练效能的网络关键指标。
训练陆续性要求高
大模型选取多机多卡集群,机间网络一旦出现故障将会导致集群训练工作中断,拉长训练周期,降低训练效能,机间网络的靠得住性对于训练效能的影响愈发显著。
投产运营复杂度高
智算中心建设投产复杂、业务上线慢,大规模网络并行推算导致故障节点难定位,网络设备、光?榈母呙芏炔渴鹪斐梢缘缌凰懔Φ母叱杀驹诵心J。