iSlot官方网站

无线新履历,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新,请实时查阅

查看详情
iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

DCN场景下的BGP和谈优化个性总结

【BGP和谈】本文将通过某互联网公司工程师幼李在建设DCN时辰的亲自填坑经从来相识BGP和谈在数据中心场景的优化个性 。

  • iSlot官方网站 - 引领潮水

    颁布功夫:2019-11-21

  • iSlot官方网站 - 引领潮水

    点击量:

  • iSlot官方网站 - 引领潮水

    点赞:

分享至

iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水

我想评论

媒介

随着超大型互联网数据中心的规模优势愈加显著,出格是在IPv4、IPv6双栈模式下,对于我们网络工程师而言,所面对的建设和守护压力也是越来越大 。在上一篇文章《大型数据中心BGP路由和谈规划》中,我们会商了BGP路由和谈在数据中心的规模部署,能够大大提升网络的路由机能,简化网络规划,但是数据中心网络终于与传统广域网分歧,对于BGP的部署和运维要求也会存在差距,通过优化BGP和谈能够进一步提升网络路由机能及简化运维 。本文将通过某互联网公司工程师幼李在建设DCN时辰的亲自填坑经从来相识BGP和谈在数据中心场景的优化个性 。

-------------我是华丽丽的宰割线------------

我是幼李 。

我上大学想的是司法专业,为了省点网费,跟校园网部署的iSlot官方网站认证计费系统进行了多年的斗智斗勇,也因而爱上了网络这个行当,并且考取了iSlot官方网站网络的RCIE(iSlot官方网站认证网络专家)认证,毕业后顺利地进入了一家互联网企业工作,每天就是处置各类网络的建设、规划、配置、调换,也可谓是经验丰硕的老司机 。

下面,就是我的故事,请仔细听噢!

网络建设篇

早晨,幼李吹着口哨听着歌,一进办公室就接到了老板一个大活,要建设一个能够包容5万台以上服务器的数据中心,业务服务器必要运行IPv4和IPv6双栈模式,先给出具体的网络设计规划和规划 。对于网络规划,除了物理组网表,比力复杂的就是路由、地址等规划,但是作为iSlot官方网站《大型数据中心BGP路由和谈规划》文章的优良读者,幼李对于路由和谈的选择和规划没有任何疑虑,但思考到双栈模式下会有大量的接口地址以及治理地址,顿感烦躁!

摆在刻下的情况是:

服务器双栈运行,意味着网络也要开启双栈模式;

大量设备互联地址及治理地址规划,蕴含IPv4和IPV6;

BGP的IPv4邻居和IPv6邻居配置 。

依照传统配置步骤当然能实现,这个没有任何问题,但幼李作为一个有着创新意识的互联网一线大厂工程师,并未急于依照经验进行规划,有没有更单一的规划呢?经过一番厂家的互换,幼李选取iSlot官方网站网络提供的规划规划:

1.基于Linklocal地址成立会话---简化IPv6地址的分配
Link-localaddress是IPv6和谈栈引入的新地址类型,接口开启IPv6和谈后,能够自动天生Link-localaddress(FE80::/10),并且地址为本地链路有效 。设备支持基于Link-local地址成立多个BGP邻居,从而能够免去规划分配独立的IPv6地址 。
2.单BGP会话双栈路由---削减BGP邻居数量
仅通过IPv4地址或者仅通过IPv6地址成立一个BGP邻居会话,同时实现IPv4、IPv6双栈路由传递的职能,从而达到节俭设备邻居表项 。

幼李发现这两个职能在这种场景下的结合险些不要太好用,通过IPv6的Link-local address,通过指定邻居接口即可成立BGP邻居,并基于每个邻居激活IPv4、IPv6双栈路由模式,从而实现单IPv6会话,传递IPv4、IPv6双栈路由 。

幼李的规划提交给了辅导后,顿时获得审批通过,并立即起头建设执行,就在服务器批量上线的时辰,幼李又接到了一个新的需要,数据中心单独规整齐个POD,这个POD服务器要运行Docker,宿主机要与TOR互换机之间必要通过BGP进行路由互换,宿主机的网段已经规划实现,但具体地址要等业务上线的时辰能力拿到,做好生理筹备吧!

幼李大吃一惊,什么生理筹备啊,还不是业务每上线一台宿主机我都要共同他们做一次 BGP邻居对接配置吗?依照业务上线的习惯每次都要比及后半夜能力上线,难不成,每天就为了配置一个BGP邻居,一分钟不到的事件,还要跟他们一路加个班么?

加班虽好,但是工作内容价值不高 。所以幼李起头斟酌,既然网段已经规划好,若是BGP的邻居能基于网段成立,那不就不必要每天跟业务线的人一路加班了么?

通过翻阅设备手册,幼李还真的发现了这个职能:

基于网段被动成立会话
网络设备配置基于网段的BGP邻居,配置此模式后,不会自动提议BGP邻居成立要求,而是被动接管到对端邻居提议成立要求后,凭据邻居地址天生对应的真实邻居,并成立会话 。

功夫指向晚上八点钟,配置实现,大功告成 。作为一个互联网一线大厂的优良工程师,幼李吹着口哨听着歌打卡放工了,还有功夫健个身,内心美滋滋 。

网络扩容篇

某日,幼李得到辅导铺排的一项新的工作,近期公司要上线一批AI业务,规模固然不大,但是原有网络的收敛比力高,生怕不能满足高机能推算的需要,要求幼李针对一个POD进行扩容,降低收敛比,但又不能影响原来在线的业务,扩容后的网络架构,如图一所示:


▲ 图一:POD扩容架构

幼李接到工作后,内心自喜,选取Spine-Leaf的一个很大的益处就是横向扩容方便,因而就依照规划割接第一台POD-Spine设备上线,这时辰业务反馈有少量的丢包 。 ?固然是少量丢包,但也引发了幼李深深的思虑,到底是怎么回事呢?

查抄配置OK、路由进建改常,为什么有丢包呢?经过仔细分析,幼李发现原来问题的本原在于路由表项的装置差距上,新的POD-Spine上线后,向POD-Leaf以及Spine公告了自己的路由,并进建网络的路由,就在此时,对于POD-Leaf来说,ECMP由两条,立刻造成了三条,并且发送数据流量,与此同时新上线的POD-Spine设备固然实现了网络路由的进建,但装置这些路由表项必要肯定的功夫,从而有一个功夫差,导致服务器的流量出现了少量的丢包,那若何解决这个问题呢?幼李此时想若是设备可能先将路由进建并装置实现以来,再向邻居公告自己齐全的路由,那这个功夫差不就不存在了吗?想到这里,幼李通过翻阅设备手册发现:

BGP路由延长公告
将进建到的路由先装置到硬件路由表项后,再向邻居公告这些路由

有了这个职能后应该就能解决这个问题了吧!幼李立刻进行了第二台POD-Spine设备的上线,并开启了此职能,同时还请业务组同事实时监控服务器的丢包情况,发现第二台设备上线后没有造成任何的丢包 。搞定,成功,欧耶~

故障处置篇


天有不测风浪,人有早晚祸福,幼概率事务也是会产生的 。

如图二所示:


▲ 图二:网络守护区域

这天工程师幼王找幼李哭诉,由于Spine节点设备出现故障、宕机,导致幼王被业务部门投诉,暗示出现了10多秒的丢包 。咱们网络有10K多的路由,收敛也必要功夫啊,丢点包怎么了,业务又没断 。咦?你掌管的区域应该同样会受到这台设备故障株连,你怎么还能那么潇洒呢,业务部门没有投诉你吗?

这时幼李低声说,通知你一个秘籍吧,保你轻松应对“黑天鹅事务”,这个秘籍叫做:

BGP的PIC(prefix independent
convergence)快切
BGP的PIC快切实现了路由前缀无关的收敛,收敛速杜纂路由规模无关,因而能实现大规模路由的急剧切换 。

PIC快切职能基于AS号来实现,在EBGP之间启用,开启PIC快切职能后,BGP颁布路由时会携带PIC扩大集体属性,接管该BGP路由的互换机遇凭据颁布者的AS号和router-id分配一个唯一的索引ID,通过优选推算后会携带该索引下发到转发面 。当颁布者上行链路全数中断,无法收到此AS的路由信息时,通过查找对应的索引ID,公告转发面将关联该ID的路由一次性实现切换,从而实现业务的急剧收敛,无需期待逐条删除路由来收敛(通常路由收敛必要逐条删除失效路由信息,因而收敛功夫与路由规模强有关) 。

单一来说呢,就是来自故障节点设备(Spine)颁布的路由,POD-Spine设备通过BGP的私有属性进行了归类分组,并且携带私有属性将路由公告下游(POD-Leaf),一旦Spine节点故障,POD-Spine自身会急剧切换,并通过私有属性公告POD-Leaf全数路由失效并进行切换 。这样,我的这个POD内部就可能实现急剧的收敛了 。这种实现方式做到了与前缀无关的路由收敛,并且极度合用于大规模的路由切换,实测数据显示:

12K路由收敛实测:

未开启PIC快切:13S

开启PIC快切:1S以内(0.7S)(此切换功夫不随路由规模变动而变动,在大规模路由情况下尤为合用)

那既然是私有属性,只能自己鉴别,此外设备不支持会影响路由进建吗?幼王疑惑地问 。不会的,对于不支持这个属性的设备,会自动过滤掉这个信息,不会影响其他设备路由的正常进建 。好吧,今天又涨知识了,带着满脸佩服表情的幼王回到了自己的工位,并将所学知识点立即利用到自己的网络,降低“黑天鹅事务”产生后产生的损失 。

主题迁徙篇

有人问这次互联网隆冬到底有多冷,幼李暗示,到底有多冷我不知路,但要做的事件一点没有少 。这不,又接到了一个新机房建设工作 。接到工作的幼李,立即进行了网络的规划以及硬件查对,发现还短缺两台POD-Spine设备?难不成这个设备也要从那个机房迁徙过来吗?幼李得到的回复是注定的,那个老机房的业务没有依照预期打算部署,流量没有那么高了,将收敛比提高一下,并下线两台POD-Spine设备吧,但肯定不能影响业务哦~


▲ 图三:某某机房网络架构

设备下线,要先将待下线设备流量迁徙走,保障不影响业务,这时幼李通过与设备厂家沟通,获取了几种BGP流量迁徙的方式:


Neighbor shutdown
通过向邻居发送notification报文来奉告邻居已经报答shutdown邻居关系,常用于框式设备单线卡隔离调换 。

Graceful shutdown
向邻居设备发送UPDATE报文,用于公告优先级低的路由(local-preference 值为0或MED值为4294967295),并且会携带驰名的gshut community,从而使邻居设备进行路由更新,使其流量预先切换到备份链路或其他等价链路上 。

BGP advertise-map
通过向邻居发送UPDATE报文携带的withdraw routes字段,奉告邻居路由失效,邻居收到UPDATE报文之后会更新本地路由表,从而将有关的路由都删除 。从使其的流量切换到备份链路或其他等价链路上 。


通过道理的对比分析,幼李总结出这几种流量迁徙方式的差距点,如表1所示


▲ 表一:BGP流量迁徙方式总结

经过对比分析,幼李发现Neighbor shutdown方式太暴力,还会丢包;Graceful shutdown固然不丢包,但必要期待路由收敛,功夫比力长,而第三种BGP Advertise-Map直接公告路由失效的方式,既快捷又不丢包,并且特殊场景还能够通过ACL加以节造,就用它了 。

总结

技术路漫漫,只有通过不休地进建、堆集和实际能力进取前行 。在DCN场景下的BGP优化重要的侧沉点在于在双栈模式下简化BGP和谈的部署、提高BGP和谈的收敛机能以及安稳的流量迁徙 。网工幼李把他工作中的经历毫无保留地分享给了其他的网工,但愿他们有所收成 。而他也在技术路上不休的成长,终于穿上了二心爱的格子衫,并且 。 。 。 。 。 。

他头上的发量,始终是个谜 。

 

有关推荐:

大型数据中心BGP路由和谈规划

大型数据中心网络路由和谈选择

新一代数据中心网络架构

Clos组网技术

若何实现数据中心网络架构“去”堆叠

未来30年不落后的网络架构,智能网络

互联网数据中心网络25G组网架构设计

更多技术博文

任何必要,请联系iSlot官方网站

iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多 。?
您对文档是否还有其它的问题或建议?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反 。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】