當前位置:探秘志 > 科學探索 > 正文

大模型的基礎設施如何建先要搭千卡萬卡規(guī)模的網絡架構

生成式人工智能(AI)作為一項劃時代的技術,經歷了巨大的變革和發(fā)展。百度杰出系統(tǒng)架構師王雁鵬在深圳的文心大模型技術交流會上表示,生成式AI最顯著的特點是模型規(guī)模巨大,過去幾年以每年10倍的速度增長。生成式AI的智能計算基礎設施是一個龐大而復雜的系統(tǒng),需要從網絡架構、存儲、加速層、框架和容錯等多個方面進行設計和優(yōu)化。通過這些努力,可以為大規(guī)模的生成式AI應用提供穩(wěn)定、高效且易用的計算基礎設施。以往的AI應用中,許多訓練任務都可以在單卡或單機上完成,但在大模型時代,完成一個任務需要使用上千甚至上萬張顯卡。王雁鵬認為,在如此巨大的計算能力需求下,智能計算基礎設施的設計范式發(fā)生了轉變。

一、要構建萬卡規(guī)模的大模型基礎設施,有四個關鍵點需要關注:

1.需要構建智能計算集群,能夠支持高速互聯(lián)并具備各種異構算力,如中央處理器(CPU)和圖形處理器(GPU)等。這需要保證高效的卡間通信。

2.僅有強大的硬件能力并不足以取得良好效果。優(yōu)化軟件堆棧非常重要,優(yōu)化的結果將體現在訓練和推理性能上的加速。

3.高性價比是一個重要考慮因素。構建這樣的系統(tǒng)需要合理的技術選擇,不一定選擇最昂貴的解決方案。合理分層存儲和計算,并追求更高的性價比。

4.易用性是前所未有的挑戰(zhàn)。在萬卡規(guī)模下,穩(wěn)定運行、彈性容錯以及一站式應用的易用平臺都是重要問題。

百度智能云副總裁朱勇透露,自百度的文心一言技術在3月16日開始內測以來,通過算法和模型的持續(xù)優(yōu)化,其在企業(yè)服務中高頻場景下的推理性能已經提升了50倍。為了實現這一結果,王雁鵬從技術角度解釋了過去一個月的工作和新的技術范式轉變。王雁鵬指出,生成式AI是一項跨越式的技術,和以前的技術有了巨大的變革。其最顯著的特點是模型規(guī)模龐大,每年以10倍的速度增長。之前的AI應用中,許多訓練任務可以在單卡或單機上完成,但在大模型時代,需要上千張或上萬張卡來完成一個任務。

增加模型規(guī)模并不能很好地提升模型的效果和性能,還需要相應地增加數據量級。大模型的數據量級是指數級增長的,這類似于摩爾定律。以前摩爾定律需要每年翻一番,現在大模型的"摩爾定律"更快,大約每8到10個月翻一番。與原來的摩爾定律不同的是,大模型不僅需要芯片的能力,還需要整個芯片、框架和系統(tǒng)的全棧優(yōu)化。在這種巨大的算力需求下,智能計算基礎設施的設計發(fā)生了變革。

二、構建萬卡規(guī)模的網絡架構

在如此大規(guī)模下,保證網絡的擴展性和避免擁塞是非常困難的。大模型的通信特點是有很多集合通信的操作,這可以分解成同號卡之間的集合通信。為了解決這個問題,需要優(yōu)化網絡架構,在同號卡之間建立高速通信通道,以提高整體網絡的吞吐量并消除擁塞和沖突的可能性。

除了計算方面,存儲也是另一個關鍵問題。需要具備大容量和高速度,因此設計了多級存儲系統(tǒng)。大量數據存儲在對象存儲系統(tǒng)中,高速訓練時需要充當緩存系統(tǒng)的角色。

三、加速層

對于AI訓練來說,計算過程非常復雜,包括IO預處理、IO讀取、各種算子的高性能實現和優(yōu)化,以及通信的優(yōu)化和顯存利用率。需要在訓練加速套件中整合整個軟件棧。對于推理加速套件來說更加重要。推理過程對大模型來說是一個巨大的挑戰(zhàn)。通過集中攻關和軟件優(yōu)化,百度在文心一言發(fā)布后的一個月時間內,使推理性能提高了50倍。

四、框架側的工作,即所謂的4D混合并行

對于如此巨大的計算,如何將其拆分到各個GPU上,并采用不同的并行策略,以獲得更好的計算性能。如何將并行策略映射到計算集群的硬件上也是關鍵。在這方面,投入了大量的工作,實現了自動并行,無論硬件拓撲和硬件組合如何,都能在分布式層面自動實現并行。

容錯性也是關鍵問題。在萬卡規(guī)模下,錯誤是不可避免的。集合通信的通信模式天生具有較低的容錯性。因此,在通信庫層、框架層和調度層做了大量的工作,實現了不同層次的容錯,使得擁有千億參數的大模型訓練可以無中斷地進行。

分享至:

科學探索相關

郵箱不能為空
留下您的寶貴意見