跟着人工智能(AI)跟呆板进修(ML)的日益遍及,对数据核心收集的需要也在增加。本文援用地点:本白皮书剖析了AI收集的新请求、奇特的AI流量形式,以及怎样应用现有技巧使以太网收集顺应运转高机能AI任务负载。别的,还探讨了Keysight处理计划怎样辅助优化AI收集。新的收集请求支撑AI跟ML的收集在请求跟流量形式上与传统数据核心收集存在明显差别。在传统数据核心跟AI数据核心之间,数据的范例、数目跟流量模子都有很年夜的差别。年夜型AI集群的硬件投资高达数亿美元,经由过程优化能够明显增加模子练习所需的时光。传统数据核心在传统数据核心收集中,罕见的任务负载包含单个查问或准时功课,如夜间功课。这些任务负载变更很年夜,流量散布在差别的会话上。全部收集负载在单个链路上平均散布,跟着用户数目的增添而成比例增加。平日,耽误或丧失的数据包不会形成严重成绩。比方,银行后端体系处置单个账户余额的网页恳求或盘算本钱的夜间功课。AI数据核心比拟之下,数据核心中的AI集群须要表示得像超等盘算机,装备不计其数的图形处置单位(GPU)跟数百个CPU及交流机。在AI集群中,全部GPU都努力于处理统一个成绩。构建年夜型言语模子(LLM)可能须要数天或数周时光。经由过程最快的收集链路彼此衔接,这些GPU须要挪动大批数据,不克不及在任何链路上丧失数据包或碰到拥挤。由于全部GPU都在处置统一个成绩,以是当最后一个GPU实现处置时,义务就实现了。一旦构建实现,LLM能够迁徙到较小的GPU或基于CPU的前端盘算机体系。而后,用户能够应用模子,看看它在练习时期学到的信息利用得怎样。这个进程被称为推理。本文仅探讨后端LLM练习。扩大性扩大传统数据核心时,优化重要取决于比拟查问呼应的效劳级别(SLA)与现实成果。比方,检索支票账户余额的呼应可能在毫秒级,而年夜型夜间功课可能须要数小时。若成果未达预期时效,运维职员能够调剂效劳器数目跟收集速率。但是,扩大AI集群须要优化构建模子的时光。新模子构建可能需数周或数月。即便收缩多少天,也能开释AI数据核心代价数百万美元的GPU,用于下一任务。增添GPU本钱昂扬,且数目无限。因而,重要优化目的是下降GPU的闲暇时光,并在增添容量前打消收集拥塞。在AI集群中,GPU独特进修以练习模子。任何影响一个GPU的数据包耽误或丧失都可能明显延伸义务实现时光,由于其余GPU将处于闲暇状况。只管须要高速收集链路,但这还不敷。要害在于设置AI收集,应用古代以太网收集的多种技巧防止拥塞。新的流量形式AI数据核心的收集流量形式与传统数据核心差别。任务负载散布在数百或数千个GPU之间,波及大批数据的发送跟接受。与巨细不定的互联网流量差别,AI数据巨细存在无限的随机性。AI集群在GPU盘算跟GPU间共享盘算成果之间阅历疾速、高频率的转换。GPU在发送或等候信息时处于闲暇状况。流量可能突发,浮现特定形式,如多个GPU彼此发送数据,招致外部拥挤。长尾效应AI收集机能权衡的是实现时光最长的流量,而非均匀带宽。这些长尾明显影响义务实现时光,进而影响GPU应用率。比方,若均匀流量实现时光为150毫秒,但一个GPU的最长实现时光为190毫秒,则全部GPU的现实总体实现时光为190毫秒。概况见图1。图1. 要害评价指标示例收集优化中的均衡至关主要在此例中,某些GPU获取数据速率远快于其余GPU。优化的目的并非将数据尽可能快地挪动至特定GPU,而是均衡收集,确保全部GPU多少乎同时接受到数据,防止闲暇。现实上,这波及放慢慢速流程,减慢疾速流程。GPU一旦从相互处接受到数据,即可启动下一盘算周期。这种优化收集能最年夜化GPU应用率。类比来说,就像100颗年夜理石吊挂在网上,网孔仅比年夜理石略年夜。若将全部年夜理石投入网中,局部会敏捷落下,但很多汇聚在一同,最后一个落下需时较长。若经由过程某种通道领导年夜理石入孔,即便第一个年夜理石经由过程时光较长,全部年夜理石团体经由过程速率将更快。这里的网孔代表收集链路,年夜理石则代表GPU的流量。相较之下,传统数据核心流量包括很多差别时光产生的巨细纷歧的流量,衔接浩繁客户端。均衡此类流量收集链路绝对简略,偶然乃至能自我均衡。但是,AI流量波及一直向全部节点发送大批流量,均衡难度更年夜。何时进级AI收集?AI的经营形式已产生转变在传统数据核心,当链路应用率濒临50%时,便会斟酌进级。而在AI数据核心,链路应用率可高达90%。即便全部链路速率奇观般地更加,链路应用率仍然会坚持在较高程度。新型以太网收集设置以太网收集在现今数据核心中盘踞主导位置,公司能够对其停止优化跟设置,以支撑AI收集。构建、安排、治理跟排查这些收集所需的技巧,平日可经由过程外部资本或外部承包商跟参谋取得。公司能够应用这些现有技巧,为AI设置以太网收集,防止拥塞影响GPU应用率。古代以太网协定经由过程优先级流量把持(PFC)、显式拥塞告诉(ECN)、数据核心量化拥塞告诉(DCQCN)跟分组喷溅等技巧,治理数据核心收集的流量跟拥塞。让咱们扼要懂得这些技巧。从PFC跟ECN开端调优PFC容许交流机在其缓冲区到达特定阈值时,向上游装备发送停息帧,结束该行列的流量。这种方式虽可避免数据包丧失,但独自应用并非最佳处理计划。收集可能会运转迟缓,行列频仍启停。ECN则在装备间供给拥塞告诉,使发送装备下降流量速度。DCQCN和谐ECN跟PFC的任务。DCQCN是一种算法,经由过程在拥塞开端时下降传输速度,使ECN可能治理流量把持,从而增加PFC的连续时光。调剂DCQCN较为庞杂,另有其余改良AI收集设置的道路。进一步优化AI收集的选项在传统的数据核心中,等价多门路(ECMP)是一种常用的路由战略,它经由过程均衡收集流量来实现收集优化。但是,在AI收集中,因为单个AI流量可能会占满全部链路,这种战略就会见临挑衅。对AI收集来说,更无效的方式是在数据包级别停止收集均衡。比方,数据包喷溅以及其余情势的负载平衡技巧,如静态负载平衡、基于小单位的路由跟断定性路由,能够将数据包疏散到可用的收集链路上。与AI聚集通讯中的流量比拟,这些数据包体积小,能够明显进步链路应用率。在硬件层面,近程直接内存拜访(RDMA)技巧容许两个效劳器之间的利用顺序直接交流数据,无需经由处置器、操纵体系、缓存或收集内核。这象征着利用顺序能够直接在近程效劳器的内存长进行读写操纵,无需应用任何效劳器的处置器,从而实现更快的数据传输跟更低的耽误。基于融会以太网的RDMA(RoCE)在以太网收集中供给了这种机制。无损以太网收集的构建经由过程联合上述技巧跟为每种技巧设置恰当的参数,构建一个无损以太网收集是可行的。 无损以太网收集的协定曾经存在,同时也有东西来供给基准测试,所需的治理利用顺序,以及收集工程师跟架构师的常识系统都已齐备。行业专家们正在为AI开辟新的以太网才能跟翻新技巧。比方,超以太网同盟正在努力于尺度化高机能以太网才能,并简化设置跟治理,作为其AI收集增加道路图的一局部。 挑衅在于怎样在安排前验证计划跟目的。优化AI收集的新方式为了供给AI收集的测试基准,须要模仿AI练习的流量形式,并经由过程可能模仿GPU跟RDMA收集接口卡(NIC)的收集流量产生器发送这些数据。GPU支撑RDMA NIC,这使得GPU之间的数据拜访变得更快捷。须要模仿的流量范例体系应可能可反复地创立由AI集群中聚集通讯发生的差别数据形式跟巨细的场景。这些流量包含模仿行列对(Q-pair)衔接跟流,天生拥塞告诉,履行基于DCQCN的静态速度把持,并供给测试吞吐量、缓存治理以及ECMP哈希的机动性。工程团队能够应用支撑RoCE v2 / RDMA的收集流量产生器,在试验室或灰度情况中依据机能丈量成果对计划停止改良,而不依附于GPU减速卡。一个无效的AI收集优化处理计划应具有界说AI体系设置以模仿任务负载的机动性,包含GPU的数目、NIC的数目、拥塞把持设置(如PFC跟DCQCN)、数据巨细、Q-pair特征以及模仿NIC的设置,机动的设置能够使基准测试更高效跟可反复。停止差别数据巨细的基准测试,供给实现时光、算法跟总线带宽等要害机能指标的成果是优化AI收集的主要步调,懂得单个RoCEv2 Q-pair的统计指标细节对排错跟定位也很要害。论断AI数据核心收集的请求跟流量形式与传统数据核心收集有明显差别。优化AI收集的范式差别,人们冀望收集可能以濒临满载跟无损的方法运转。一个要害战略是优化收集以晋升GPU应用率。固然有很多传统以太网的调优方式,但后果并不直不雅、庞杂水平高。Keysight的东西用于供给基准测试跟优化AI收集,东西充足应用了现有的数据核心工程技巧、常识系统跟测试方式学,能够防止手动、耗时的操纵。有了这些东西,收集架构师能够应用Keysight AI(KAI)数据核心构建器来模仿收集负载跟GPU行动,联合硬件仪表计划,自动辨认瓶颈并调剂收集设置,调优收集机能。从而终极明显晋升GPU应用率——最小化资本挥霍并年夜幅下降收集GPU的开销。
申明:新浪网独家稿件,未经受权制止转载。 -->