物聯(lián)網(wǎng)

寧夏電信攜手新華三:以先進智算網(wǎng)絡(luò)技術(shù),打造未來算力樣板工程

ainet.cn   2025年07月02日

寧夏中衛(wèi),素有“中國幾何中心”之稱,地處大漠與黃河交匯之地,遠離東部喧囂,卻在數(shù)字時代悄然崛起。這里不僅建成了國家級新型互聯(lián)網(wǎng)交換中心——西部唯一獲批的國家級交換節(jié)點,還與國家一體化大數(shù)據(jù)中心共同構(gòu)成“雙中心”格局,撐起全國算力版圖的關(guān)鍵一角。

在中國的幾何中心

建設(shè)頂尖的數(shù)據(jù)中心

中國電信寧夏數(shù)據(jù)中心起步于中衛(wèi),是連接西部算力資源與東部算力需求的重要橋梁。中心總建筑面積達6.8萬平方米,具備完善的生態(tài)體系和豐富的云服務(wù)資源,配備20萬核通用算力與7000 PFLOPS智能算力,能夠高效支撐多類智能計算業(yè)務(wù)。目前,數(shù)據(jù)中心服務(wù)范圍覆蓋全國,支撐700多個政務(wù)系統(tǒng)、100多家互聯(lián)網(wǎng)醫(yī)院、800所學校及300余家工業(yè)企業(yè)的計算與存儲需求,為推動數(shù)字經(jīng)濟的高質(zhì)量發(fā)展持續(xù)注入新動能。

作為中心的運營方,中國電信寧夏分公司(以下簡稱“寧夏電信”)的目標不僅是建成一座高規(guī)格數(shù)據(jù)中心,更希望將其打造為“東數(shù)西算”工程中全國一體化算力網(wǎng)絡(luò)的核心樞紐和示范標桿。然而在AI時代,面對千卡、萬卡級別的超大規(guī)模集群,如何真正釋放算力潛能,讓數(shù)據(jù)中心如同“算力出租車”般靈活高效地服務(wù)東部多行業(yè)客戶,仍面臨多重挑戰(zhàn)。不僅要兼顧性能與成本,還需提升網(wǎng)絡(luò)效率,減少資源等待帶來的損耗。同時,云環(huán)境下的資源調(diào)度能力,以及智能化、可視化的運維體系,也成為提升整體運營水平的關(guān)鍵。

應(yīng)對大規(guī)模集群的多維需求

先進智算網(wǎng)絡(luò)實現(xiàn)“既要又要”

“算力是基礎(chǔ)引擎,網(wǎng)絡(luò)則是連接一切的關(guān)鍵樞紐。”中國電信寧夏分公司東數(shù)西算事業(yè)部智算解決方案經(jīng)理郭紳表示,“在邁向未來的路上,我們越來越清楚地意識到,網(wǎng)絡(luò)不再只是算力的配套,而是決定業(yè)務(wù)效率和用戶體驗的關(guān)鍵。只有打破網(wǎng)絡(luò)瓶頸,才能真正釋放算力潛能,為未來的業(yè)務(wù)拓展留出空間。就在我們團隊積極尋找突破口的時候,新華三帶著智算網(wǎng)絡(luò)解決方案來到這里,成為了我們的首選。”

● 創(chuàng)新RoCE部署,硬件成本降低40%-50%

在應(yīng)對訓練等任務(wù)時,節(jié)點間需頻繁進行大規(guī)模數(shù)據(jù)交換,網(wǎng)絡(luò)的延遲和丟包率直接影響整體計算效率與任務(wù)完成時間。傳統(tǒng)做法通常采用低延遲、不丟包的InfiniBand方案。但InfiniBand屬于封閉的私有技術(shù)棧,設(shè)備價格高昂,且對多租戶管理和SDN功能支持有限。這意味著,數(shù)據(jù)中心將來可能面臨成本高、架構(gòu)封閉、可擴展性差等諸多挑戰(zhàn)。

基于對成本、性能與長期可維護性的綜合考量,寧夏電信攜手新華三創(chuàng)新采用了基于以太網(wǎng)的RoCE技術(shù),以此實現(xiàn)成本、性能、可管理性、可維護性等方面的兼顧平衡。相較于InfiniBand,RoCE網(wǎng)絡(luò)在保持同等低延遲、高吞吐能力的同時,硬件成本降低了約 40%–50%。同時,得益于開放的產(chǎn)業(yè)生態(tài)和成熟的供應(yīng)鏈體系,設(shè)備供貨周期也縮短至原來的 1/10。

● 400G超寬無損網(wǎng)絡(luò),實現(xiàn)1:1上下行收斂比

在確定采用以太網(wǎng)RoCE技術(shù)棧后,隨之而來的核心挑戰(zhàn)就是如何設(shè)計一套既能承載高性能算力、又具備良好擴展性的網(wǎng)絡(luò)架構(gòu)。傳統(tǒng)數(shù)據(jù)中心架構(gòu)在面對高性能計算場景時,常常受限于高并發(fā)、大流量帶來的傳輸瓶頸,延遲和丟包問題頻發(fā),直接影響訓練效率。同時,傳統(tǒng)架構(gòu)擴展性不足,也難以靈活支撐從千卡到萬卡的集群演進。

為此,新華三為寧夏電信量身打造了基于Spine-Leaf的智算網(wǎng)絡(luò)架構(gòu),并采用H3C S9825系列400G高速交換機,實現(xiàn)Spine與Leaf層間上下行帶寬1:1配置。這不僅有效解決了數(shù)據(jù)在集群內(nèi)部高頻傳輸帶來的擁塞問題,也為后續(xù)算力規(guī)模的平滑擴容提供了充足彈性。

“過去我們最擔心的,就是隨著集群規(guī)模擴大,網(wǎng)絡(luò)性能跟不上,影響整體訓練效率?,F(xiàn)在采用了這套全新方案后,延遲大幅下降,訓練流程顯著提速,我們對效率的擔憂也隨之徹底消除。”中國電信寧夏分公司東數(shù)西算事業(yè)部智算解決方案經(jīng)理郭紳介紹,“更重要的是,這套架構(gòu)不僅穩(wěn)穩(wěn)支撐了當前8K卡集群的運行,還具備出色的平滑演進能力,讓我們對未來擴展到更大規(guī)模充滿信心。”

● 多租戶算力隔離管理,靈活運營

在日常運營中,寧夏電信數(shù)據(jù)中心需要將智算集群劃分為多個虛擬資源池,以同時服務(wù)來自不同行業(yè)和地區(qū)的客戶。這對網(wǎng)絡(luò)與資源管理平臺提出了更高要求:不僅要具備作業(yè)調(diào)度、租戶計費等基礎(chǔ)能力,更要實現(xiàn)資源的靈活分配與租戶間的高效隔離,從根本上避免數(shù)據(jù)安全隱患和性能干擾。

針對這一挑戰(zhàn),新華三在整體方案中引入了基于以太網(wǎng)RoCE架構(gòu)的ACL訪問控制機制,作為多租戶隔離與資源管理的核心支撐技術(shù)。通過ACL技術(shù),中心能夠?qū)γ總€租戶的資源、作業(yè)與數(shù)據(jù)進行獨立管理,確保算力資源與網(wǎng)絡(luò)的雙重隔離,在保障安全的同時,顯著提升集群的資源調(diào)度效率和租賃靈活性。升級后,資源申請可實現(xiàn)分鐘級上線,租用與退租流程也大幅簡化,既滿足了客戶的多樣化需求,也為算力運營效率帶來質(zhì)的提升。

● 讓“黑盒”網(wǎng)絡(luò)逐步透明,運維效率提升90%+

在推進智算服務(wù)體系建設(shè)的同時,寧夏電信也積極探索面向未來的數(shù)據(jù)中心運維體系。借助SDN等技術(shù)手段,逐步實現(xiàn)了對前端節(jié)點與后端GPU集群互聯(lián)狀態(tài)的統(tǒng)一管理,能夠?qū)崟r掌握網(wǎng)絡(luò)中的會話、流量、路徑及負載分布情況,運維人員可據(jù)此快速完成參數(shù)調(diào)優(yōu)與資源配置。

圍繞運維過程中的延遲、抖動、故障、性能波動等場景,寧夏電信也構(gòu)建起涵蓋預(yù)警、分析、定位與決策的智能化機制,通過可視化手段將網(wǎng)絡(luò)拓撲全面呈現(xiàn),使得運維人員不僅能在大屏、小屏上直觀掌控全局狀態(tài),更能精準鎖定問題類型與位置,實現(xiàn)從“黑盒”到“可視、可管、可調(diào)”的跨越。經(jīng)實際運行驗證,網(wǎng)絡(luò)故障平均定位時間縮短超過90%,運維效率和響應(yīng)能力大幅提升。

之于中衛(wèi),黃河是魂,有了水,大漠才能煥發(fā)生機;同樣,對于拔地而起的新型智算中心,網(wǎng)絡(luò)亦是核心,它連接龐大算力與東西部資源,承載著今日的需求與未來的希望。在“東數(shù)西算”戰(zhàn)略的引領(lǐng)下,中國電信寧夏分公司攜手新華三,以領(lǐng)先的智算網(wǎng)絡(luò)技術(shù)為基石,共同打造面向未來的數(shù)字樞紐,這不僅是一次技術(shù)創(chuàng)新的勝利,更是一段數(shù)字時代開拓者的故事。

(來源:新華三)

標簽:新華三 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機器人下載中心
億萬克
專題報道
加入全球AI浪潮第一現(xiàn)場
加入全球AI浪潮第一現(xiàn)場

2025世界人工智能大會暨人工智能全球治理高級別會議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]

2025中國國際機床展覽會
2025中國國際機床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]