大數(shù)據(jù)

多層級可靠 構(gòu)筑智算訓練的穩(wěn)定數(shù)據(jù)基石

2025China.cn   2025年01月15日

伴隨著智算需求的增長,GPU算力投資已占到AI加速芯片銷量的80%以上,但相關統(tǒng)計數(shù)據(jù)顯示,在實際模型訓練場景下,GPU的平均利用率卻不足50%。

究其原因,由于數(shù)據(jù)存儲的可靠性不足導致的訓練中斷尤為突出。例如,訓練數(shù)據(jù)的讀寫中斷、租戶間資源相互干擾、計劃內(nèi)的擴容升級以及計劃外的宕機等,都會引起算力資源的空耗,從而降低GPU的整體利用率。而解決這一困擾的關鍵,在于一套高度穩(wěn)定、多層級可靠的數(shù)據(jù)存儲系統(tǒng),提供堅實的數(shù)據(jù)底座支撐。

軟硬件協(xié)同創(chuàng)新

重構(gòu)分布式存儲可靠性體驗

新華三下一代AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列,通過對分布式存儲的軟硬件協(xié)同創(chuàng)新,基于獨特的NVMe高密全閃架構(gòu),結(jié)合新華三傲擎數(shù)據(jù)存儲底層平臺,實現(xiàn)了媲美集中式存儲的性能和可靠性體驗。在系統(tǒng)整體設計方面,H3C UniStor Polaris X20000系列所有組件,不管是硬件還是軟件,都采用了“冗余、多活、自動隔離和自愈”的設計,形成多層級可靠性方案。

傳統(tǒng)的分布式存儲系統(tǒng),采用節(jié)點間心跳的方式監(jiān)控各節(jié)點狀態(tài)。在智算訓練場景下,大規(guī)模集群中大量的心跳消息會對網(wǎng)絡性能造成影響,并額外消耗計算資源。H3C UniStor X20000系列,創(chuàng)新性地通過SOM存儲集成管理平臺,實時監(jiān)控節(jié)點健康,制定中斷上報、事件上報和主動輪訓三種不同的上報方案,配合存儲軟件聯(lián)動,實現(xiàn)故障毫秒級上報,性能影響<5%。不論是計劃內(nèi)的維護升級、擴容還是計劃外的意外故障,業(yè)務都是“弱感知”,保障智算訓練任務不間斷連續(xù)運行。

在智算場景下,多租戶操作也是影響訓練穩(wěn)定性的關鍵因素之一。多租戶環(huán)境下,單個軟件實例需要為多個不同的用戶組提供服務,需要在數(shù)據(jù)的共享、安全隔離和性能間取得平衡。在處理敏感數(shù)據(jù)時,數(shù)據(jù)安全的實現(xiàn)策略也會直接影響到不同租戶間的隔離程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租戶間資源隔離,確保每個租戶都有獨立的容量分配和性能QoS策略,實現(xiàn)模型訓練過程中多租戶間的零干擾。

在智算平臺的建設過程中,數(shù)據(jù)存儲的穩(wěn)定性對算力有效供給有著重要意義。面向未來,新華三集團將繼續(xù)秉持“精耕務實,為時代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲”技術戰(zhàn)略,充分發(fā)揮自身在數(shù)字領域的創(chuàng)新優(yōu)勢,加大產(chǎn)品創(chuàng)新力度,為百行百業(yè)構(gòu)筑澎湃算力提供穩(wěn)定的數(shù)據(jù)基石。

(來源:新華三)

標簽:新華三 我要反饋 
2024全景工博會
ABB協(xié)作機器人,自動化從未如此簡單
優(yōu)傲機器人下載中心
即刻點擊并下載ABB資料,好禮贏不停~
專題報道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構(gòu)、投資機構(gòu)等廣泛... [更多]

中國國際進口博覽會
中國國際進口博覽會

11月5日至10日,第七屆中國國際進口博覽會在國家會展中心(上海)舉行。152個國家、地區(qū)和國際組織,近3500家參展企... [更多]

2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領航”為全新主題。 [更多]