伴隨著智算需求的增長,GPU算力投資已占到AI加速芯片銷量的80%以上,但相關統(tǒng)計數(shù)據(jù)顯示,在實際模型訓練場景下,GPU的平均利用率卻不足50%。
究其原因,由于數(shù)據(jù)存儲的可靠性不足導致的訓練中斷尤為突出。例如,訓練數(shù)據(jù)的讀寫中斷、租戶間資源相互干擾、計劃內(nèi)的擴容升級以及計劃外的宕機等,都會引起算力資源的空耗,從而降低GPU的整體利用率。而解決這一困擾的關鍵,在于一套高度穩(wěn)定、多層級可靠的數(shù)據(jù)存儲系統(tǒng),提供堅實的數(shù)據(jù)底座支撐。
軟硬件協(xié)同創(chuàng)新
重構(gòu)分布式存儲可靠性體驗
新華三下一代AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列,通過對分布式存儲的軟硬件協(xié)同創(chuàng)新,基于獨特的NVMe高密全閃架構(gòu),結(jié)合新華三傲擎數(shù)據(jù)存儲底層平臺,實現(xiàn)了媲美集中式存儲的性能和可靠性體驗。在系統(tǒng)整體設計方面,H3C UniStor Polaris X20000系列所有組件,不管是硬件還是軟件,都采用了“冗余、多活、自動隔離和自愈”的設計,形成多層級可靠性方案。
傳統(tǒng)的分布式存儲系統(tǒng),采用節(jié)點間心跳的方式監(jiān)控各節(jié)點狀態(tài)。在智算訓練場景下,大規(guī)模集群中大量的心跳消息會對網(wǎng)絡性能造成影響,并額外消耗計算資源。H3C UniStor X20000系列,創(chuàng)新性地通過SOM存儲集成管理平臺,實時監(jiān)控節(jié)點健康,制定中斷上報、事件上報和主動輪訓三種不同的上報方案,配合存儲軟件聯(lián)動,實現(xiàn)故障毫秒級上報,性能影響<5%。不論是計劃內(nèi)的維護升級、擴容還是計劃外的意外故障,業(yè)務都是“弱感知”,保障智算訓練任務不間斷連續(xù)運行。
在智算場景下,多租戶操作也是影響訓練穩(wěn)定性的關鍵因素之一。多租戶環(huán)境下,單個軟件實例需要為多個不同的用戶組提供服務,需要在數(shù)據(jù)的共享、安全隔離和性能間取得平衡。在處理敏感數(shù)據(jù)時,數(shù)據(jù)安全的實現(xiàn)策略也會直接影響到不同租戶間的隔離程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租戶間資源隔離,確保每個租戶都有獨立的容量分配和性能QoS策略,實現(xiàn)模型訓練過程中多租戶間的零干擾。
在智算平臺的建設過程中,數(shù)據(jù)存儲的穩(wěn)定性對算力有效供給有著重要意義。面向未來,新華三集團將繼續(xù)秉持“精耕務實,為時代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲”技術戰(zhàn)略,充分發(fā)揮自身在數(shù)字領域的創(chuàng)新優(yōu)勢,加大產(chǎn)品創(chuàng)新力度,為百行百業(yè)構(gòu)筑澎湃算力提供穩(wěn)定的數(shù)據(jù)基石。
(來源:新華三)