應(yīng)對AIGC算力挑戰(zhàn)，《開放加速規(guī)范AI服務(wù)器設(shè)計指南》正式發(fā)布

2023-08-16 06:42:59 來源：DeepTech深科技

“我們把指南公開的一個最核心目的，就是讓大家少走一些彎路，減少開發(fā)迭代的成本。讓AI芯片流片回來，能夠更快地變成系統(tǒng)化的算力，從而讓更多的用戶享受AI算力?！?月10日，在2023開放計算中國社區(qū)技術(shù)峰會（OCP China Day 2023）上，浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示。

當(dāng)天，《開放加速規(guī)范AI服務(wù)器設(shè)計指南》（下稱“指南”）作為開放計算產(chǎn)業(yè)成果在OCP 2023上正式發(fā)布。

(資料圖)

圖| 《開放加速規(guī)范AI服務(wù)器設(shè)計指南》（來源：資料圖）

毋庸置疑，在AIGC領(lǐng)域的發(fā)展熱潮下，“AI大模型”已經(jīng)成為2023年的年度熱詞。當(dāng)國內(nèi)外企業(yè)先后推出AI大模型的同時，AI算力需求也迎來爆發(fā)式增長。以O(shè)penAI發(fā)布的GPT-3為例，訓(xùn)練該模型所需的總算力消耗達(dá)到3640 PetaFLOP/s-days（PD），需要使用10000塊GPU以及花費(fèi)30天時間，才能完成1750億參數(shù)的訓(xùn)練。由此可見大模型研發(fā)是一項復(fù)雜的系統(tǒng)工程，其背后既需要海量的數(shù)據(jù)集，又要有能對千億級參數(shù)大模型進(jìn)行分布式訓(xùn)練的AI服務(wù)器集群。在這種發(fā)展態(tài)勢下，必定需要具備更高擴(kuò)展性的單機(jī)和加速比更高的集群，也會對網(wǎng)絡(luò)帶寬、延遲和卡間互聯(lián)提出更高的要求。

為進(jìn)一步破解算力供需難題，支持更高的功耗以及帶來更強(qiáng)大的卡間互聯(lián)能力，目前全球已有上百家公司參與到新型AI芯片的研發(fā)中，并已推出諸多非標(biāo)準(zhǔn)PCIe CEM形態(tài)的AI加速卡。AI計算芯片的發(fā)展，正在朝著多元化的趨勢邁進(jìn)。不過，由于缺乏統(tǒng)一的業(yè)界規(guī)范，不同廠商推出的新形態(tài)AI加速卡也各不相同。這不僅會拉高算力產(chǎn)業(yè)的成本，還會降低產(chǎn)品的靈活性，反過來又給AI加速器的研發(fā)和應(yīng)用帶來極大阻礙。

在此背景之下，《開放加速規(guī)范AI服務(wù)器設(shè)計指南》應(yīng)運(yùn)而生。

《開放加速規(guī)范AI服務(wù)器設(shè)計指南》：四大設(shè)計原則和全棧設(shè)計方法

指南提出四大設(shè)計原則和全棧設(shè)計方法，目的在于幫助社區(qū)成員更快、更好地開發(fā)符合開放加速規(guī)范的OAM（OCP Accelerator Module，AI加速卡模塊），并提供能夠更好匹配應(yīng)用場景的多元AI算力產(chǎn)品方案。四大設(shè)計原則主要包括：應(yīng)用導(dǎo)向原則、多元開放原則、綠色高效原則、統(tǒng)籌設(shè)計原則。

在應(yīng)用導(dǎo)向上，該指南堅持無論是加速卡設(shè)計還是系統(tǒng)設(shè)計，都聚焦實(shí)際應(yīng)用場景的原則，在充分考慮業(yè)務(wù)特點(diǎn)、模型特征和部署環(huán)境的基礎(chǔ)之上，自上而下地設(shè)計和規(guī)劃開放加速計算系統(tǒng)，避免過度冗余設(shè)計，以及因盲目追求性能而帶來的時間、空間、資源和成本方面的浪費(fèi)，以實(shí)現(xiàn)高效適配和部署，從而節(jié)省產(chǎn)業(yè)和社會總成本。

在多元開放上，通過開源和開放的方式，建立可兼容底層硬件差異的異構(gòu)協(xié)同開發(fā)平臺，在打通人工智能軟硬件產(chǎn)業(yè)鏈的同時，為開放加速計算技術(shù)和產(chǎn)業(yè)生態(tài)的壯大作出貢獻(xiàn)。

在綠色高效上，加速液冷散熱、高效供配電、能效監(jiān)測、智能運(yùn)維等技術(shù)，專注于開放加速計算節(jié)點(diǎn)和集群層面的布局和應(yīng)用。

在統(tǒng)籌設(shè)計上，從規(guī)模化算力部署的角度出發(fā)，不僅統(tǒng)籌考慮了大模型分布式訓(xùn)練對于計算、網(wǎng)絡(luò)和存儲的需求，還構(gòu)建了高性能、高速互聯(lián)和存算平衡的可擴(kuò)展集群系統(tǒng)，以便滿足AI大模型的訓(xùn)練需求。

全棧設(shè)計方法，指的是指南給出了詳細(xì)的開放加速規(guī)范AI服務(wù)器的設(shè)計方法，包括多維協(xié)同設(shè)計、全面系統(tǒng)測試和性能測評調(diào)優(yōu)。

多維協(xié)同設(shè)計，是指從節(jié)點(diǎn)到集群的軟硬全棧參考設(shè)計，旨在通過全方位、多維度協(xié)同芯片和系統(tǒng)廠商，來盡可能地減少定制開發(fā)內(nèi)容，更好地實(shí)現(xiàn)包含計算、存儲、網(wǎng)絡(luò)設(shè)備等在內(nèi)的一體化高集成度算力集群。在這之中，本次指南重點(diǎn)關(guān)注AI服務(wù)器節(jié)點(diǎn)內(nèi)和集群節(jié)點(diǎn)間的互聯(lián)通信能力的提升。

全面系統(tǒng)測試是指全面梳理結(jié)構(gòu)、散熱、壓力、穩(wěn)定性、軟件兼容性等方面的測試要點(diǎn)。由于架構(gòu)復(fù)雜度高、芯片種類多、系統(tǒng)功耗大等原因，會提高異構(gòu)加速計算節(jié)點(diǎn)的故障率，因此只有采用更全面、更嚴(yán)苛的測試條件，才能降低系統(tǒng)的故障風(fēng)險，并提高系統(tǒng)穩(wěn)定性。

在性能測評調(diào)優(yōu)上，為了確保開放加速規(guī)范AI服務(wù)器能夠給主流大規(guī)模模型提供創(chuàng)新應(yīng)用支撐，指南給出了關(guān)于基礎(chǔ)性能、互連性能、模型性能測試的要點(diǎn)和指標(biāo)，以及關(guān)于大模型訓(xùn)練和推理性能調(diào)優(yōu)的要點(diǎn)。

浪潮信息AI&HPC產(chǎn)品線高級產(chǎn)品經(jīng)理張政表示：“（有了指南之后）對于我們的芯片合作伙伴來講，能夠快速開發(fā)新型的AI芯片，節(jié)省開發(fā)周期、減少開發(fā)成本、加速產(chǎn)品的升級和迭代；另一方面，也能幫助我們的最終用戶按照實(shí)際應(yīng)用場景，選擇多元算力解決方案。最終目標(biāo)是協(xié)同產(chǎn)業(yè)鏈上下游的合作伙伴，共同應(yīng)對當(dāng)前生成式人工智能時代的算力挑戰(zhàn)。”

據(jù)了解，本次指南主要面向兩類客戶。首先，設(shè)計原則是基于用戶在產(chǎn)業(yè)發(fā)展或算力應(yīng)用上遇到的痛點(diǎn)。比如，許多用戶在建設(shè)新數(shù)據(jù)中心時，會面臨極高的能耗指標(biāo)要求，所以需要通過先進(jìn)的液冷等散熱技術(shù)，將整個數(shù)據(jù)中心的電能利用效率提升到更高水平，而這也是綠色高效原則的必要性所在。其次，設(shè)計方法則更多是面向芯片合作伙伴，能夠幫助他們更快地完成產(chǎn)品的開發(fā)和迭代，減少試錯成本。

如前所述，該指南可以為用戶提供多元化的算力產(chǎn)品方案，那對于終端用戶來說，其又將獲得哪些直觀的感受呢？簡單來說就是，這讓AI芯片可以并行擴(kuò)展到諸多節(jié)點(diǎn)，在生活和工作的應(yīng)用中也具有較高的穩(wěn)定性和效率，也讓先進(jìn)算力的成本變得更加普惠和普適。

浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示：“指南實(shí)際上是AI加速卡模塊整體設(shè)計規(guī)范進(jìn)一步的細(xì)化詮釋，并且是根據(jù)我們的實(shí)際案例給大家提供了更加明確的標(biāo)準(zhǔn)和測試用例。當(dāng)我們制定一個更加細(xì)化的標(biāo)準(zhǔn)之后，就能幫助企業(yè)大大縮短從芯片到系統(tǒng)的時間，并大大減少其開發(fā)費(fèi)用和開發(fā)周期，更快地釋放算力的價值，這是我們現(xiàn)在設(shè)計指南最大的價值?！?/p>

降低技術(shù)成本，推動技術(shù)普及

事實(shí)證明，在為產(chǎn)業(yè)發(fā)展賦能的過程中，實(shí)現(xiàn)產(chǎn)業(yè)標(biāo)準(zhǔn)的統(tǒng)一開放，能夠有效降低技術(shù)成本并推動技術(shù)普及。而浪潮信息在開放加速方面的優(yōu)勢，主要體現(xiàn)在布局早和擁有充足的產(chǎn)業(yè)落地經(jīng)驗(yàn)這兩方面。目前，已有包括浪潮信息、Intel Habana、燧原科技、百度等10+廠商，通過開放、合作為市場推出10余款符合OAM標(biāo)準(zhǔn)的開放加速AI服務(wù)器，并在全球范圍內(nèi)開展了實(shí)踐。舉例來說：

2019年，在開放加速器基礎(chǔ)設(shè)施小組成立之初，浪潮信息作為核心成員主導(dǎo)了AI加速卡基板 OAM-UBB SPEC設(shè)計規(guī)范的制定，并發(fā)布了全球首個通用加速器基板UBB，以給各類AI加速器提供支持。2020年，OAI（OpenAccelerator Infrastructure）小組發(fā)布首個AI開放加速計算系統(tǒng)MX1，提供兩種互連拓?fù)?，能夠幫助用戶基于不同的深度學(xué)習(xí)模型和芯片通信需求，靈活地設(shè)計芯片互連方案。2021年，浪潮信息發(fā)布首款A(yù)ll in One開放加速計算整機(jī)NF5498A5，能在數(shù)據(jù)中心里實(shí)現(xiàn)快速落地和部署。

燧原科技是國內(nèi)第一家發(fā)布并量產(chǎn)OAM的國內(nèi)AI芯片公司，分別于2019年和2021年基于兩代“邃思”訓(xùn)練芯片發(fā)布了“云燧T11/T21”O(jiān)AM模組。

2022年，浪潮信息與其聯(lián)合發(fā)布“錢塘江”智算中心方案，可實(shí)現(xiàn)千芯級大規(guī)模集群高速互聯(lián)，單集群200P峰值A(chǔ)I算力，單節(jié)點(diǎn)承載8顆400W高性能液冷OAM模組，支持50℃高溫水運(yùn)行，采用先進(jìn)變頻流量系統(tǒng)，通過提高流量變化范圍降低能耗，智算中心整體PUE優(yōu)于1.1?！板X塘江”方案能有效支撐超千億參數(shù)巨量模型的高效、并行訓(xùn)練。目前，該方案已在大型實(shí)驗(yàn)室落地1280卡規(guī)模的全液冷AI訓(xùn)練集群。正是在這樣一個產(chǎn)業(yè)化落地的過程中，讓浪潮信息能夠?qū)⑦@些經(jīng)驗(yàn)進(jìn)行轉(zhuǎn)化為本次指南并推向大眾。

未來，浪潮信息在加速多元算力應(yīng)用的同時，也會讓指南更快落地并實(shí)現(xiàn)更多價值。同時，其也將進(jìn)一步提高算力的利用效率，爭取在有限的算力條件下，幫助更多企業(yè)更快地訓(xùn)練AI大模型。