哈爾濱冬日的室外溫度動輒低至零下二十?dāng)z氏度,中國移動智算中心(哈爾濱)(以下簡稱“哈爾濱智算中心”)的展廳卻溫暖如春。
與其他地區(qū)的數(shù)據(jù)中心相比,哈爾濱智算中心具有獨(dú)特的溫度優(yōu)勢?!皵?shù)據(jù)中心是公認(rèn)的‘耗能大戶’,但在哈爾濱,我們每年有157天不用空調(diào)降溫,將大幅減少智算中心降溫所需要的能耗?!痹谏鲜稣箯d里,中國移動通信集團(tuán)(以下簡稱“中國移動”)黑龍江有限公司政企事業(yè)部經(jīng)理郅剛告訴《證券日報(bào)》記者:“同時(shí)我們也對智算中心的熱能有精細(xì)化的二次利用,展廳的溫度以及整個(gè)園區(qū)的供暖都來自機(jī)房的免費(fèi)的‘熱’?!?/p>
獨(dú)特的氣候優(yōu)勢,讓全球運(yùn)營商最大單集群智算中心落戶于此。如今,哈爾濱智算中心已經(jīng)實(shí)現(xiàn)AI芯片100%國產(chǎn)化,首次通過國產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬張智算卡單集群部署規(guī)模上限,可提供6.93EFLOPS(每秒693億億次半精度浮點(diǎn)運(yùn)算)智能算力,相當(dāng)于300多萬臺高性能計(jì)算機(jī)的算力水平。
筑起“極致算力”
據(jù)介紹,哈爾濱智算中心的前身哈爾濱數(shù)據(jù)中心作為“四云合一”的數(shù)據(jù)中心,具備強(qiáng)大的數(shù)據(jù)處理和存儲功能,承載了中國移動用戶十億量級的行程碼數(shù)據(jù);作為全國5G網(wǎng)絡(luò)東北大區(qū)的核心節(jié)點(diǎn),這里還承擔(dān)著北京和河北地區(qū)的通信備份任務(wù),在諸如冬奧會等重大活動期間,哈爾濱能夠提供與北京同等級別的通信保障;哈爾濱數(shù)據(jù)中心還匯聚了包括百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、阿里巴巴集團(tuán)控股有限公司、騰訊控股有限公司在內(nèi)的120余家互聯(lián)網(wǎng)大廠的服務(wù)器。
“同時(shí)我們還具備強(qiáng)大的算力輸送能力。”郅剛表示,中國移動在哈爾濱建設(shè)了全國400G的OTN(光傳送網(wǎng))省際骨干網(wǎng),能夠?qū)崿F(xiàn)地市之間1毫秒、省內(nèi)5毫秒、全國20毫秒的信息傳輸速度,為算力“大腦”構(gòu)建起高速運(yùn)轉(zhuǎn)的“神經(jīng)”。
在哈爾濱智算中心內(nèi)部,一條寫著“大干兩個(gè)百天 奮力書寫智算領(lǐng)域自立自強(qiáng)的時(shí)代答卷”的紅色橫幅特別醒目。
在兩個(gè)“一百天”里,中國移動完成了哈爾濱數(shù)據(jù)中心邁向哈爾濱智算中心的轉(zhuǎn)型升級,完成3千多平方米高功耗機(jī)房重大調(diào)整改造,千萬級精密器件復(fù)雜施工;30多個(gè)單位、千余人的協(xié)同作戰(zhàn),實(shí)現(xiàn)了提前4個(gè)月建成全球運(yùn)營商最大單集群智算中心。
談及哈爾濱智算中心,郅剛用了“極致算力、極限組網(wǎng)、極效存儲、極速運(yùn)維”幾個(gè)詞?!皹O致算力”指的是6.93EFLOPS智能算力;“極限組網(wǎng)”指的是采用國產(chǎn)46KW風(fēng)冷網(wǎng)絡(luò)設(shè)備、構(gòu)建最大規(guī)模兩級組網(wǎng);“極效存儲”指的是采用大規(guī)模融合分級存儲,滿足大模型訓(xùn)練時(shí)海量、多樣數(shù)據(jù)的高效處理和高吞吐要求;“極速運(yùn)維”指的是通過制度、技術(shù)和標(biāo)準(zhǔn)三大措施,實(shí)現(xiàn)分鐘級故障定界定位和小時(shí)級模型斷點(diǎn)續(xù)訓(xùn),保障萬張AI加速卡長時(shí)間穩(wěn)定并行訓(xùn)練,為萬億模型訓(xùn)練提供高性能、高可用、高可靠的算力底座。
“目前,中國移動九天千億參數(shù)模型已在集群上實(shí)現(xiàn)高效、長期穩(wěn)定訓(xùn)練?!臂偙硎尽?/p>
國產(chǎn)化程度提升
哈爾濱智算中心中紅色橫幅提到的“智算領(lǐng)域的自立自強(qiáng)”,既體現(xiàn)在萬卡集群賦能國內(nèi)AI產(chǎn)業(yè)發(fā)展上,也體現(xiàn)在AI芯片國產(chǎn)化率100%上。
“萬卡集群”是由超過一萬張加速卡(如GPU、TPU、NPU等專用AI芯片)組成的高性能計(jì)算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理。
“我們每臺機(jī)柜會安裝三臺全國產(chǎn)化算力服務(wù)器——昇騰智算服務(wù)器Atlas 800T A2,每臺服務(wù)器搭載4顆CPU芯片和8顆NPU芯片,每一顆NPU芯片提供376TFLOPS(每秒一萬億次浮點(diǎn)運(yùn)算)算力,八顆NPU芯片一共能夠提供3PFLOPS(每秒一千萬億次浮點(diǎn)運(yùn)算)算力,哈爾濱智算中心的服務(wù)器總數(shù)為2304臺,整體能夠保障6930PFLOPS高效穩(wěn)定的算力輸出。”
值得一提的是,《證券日報(bào)》記者注意到,隨著技術(shù)、性能和生態(tài)建設(shè)上持續(xù)完善,我國AI芯片已經(jīng)能夠?qū)崿F(xiàn)與國際頂尖產(chǎn)品同臺競技。
2024年4月份,中國移動智算中心(呼和浩特)為彼時(shí)全球運(yùn)營商最大單體智算中心,AI芯片國產(chǎn)化率超85%,智能算力規(guī)模高達(dá)6.7EFLOPS。四個(gè)月后,哈爾濱智算中心正式上線投產(chǎn),AI芯片國產(chǎn)化率以及智能算力規(guī)模較中國移動智算中心(呼和浩特)均有增長。此外,政府為主導(dǎo)的城市智能計(jì)算中心多采用國產(chǎn)AI芯片。
談及萬卡集群智算中心國產(chǎn)化態(tài)勢,中昊芯英(杭州)科技有限公司首席解決方案架構(gòu)師平曉峰表示,目前國內(nèi)國產(chǎn)GPU芯片廠商與NPU、TPU等芯片廠商都在積極布局萬卡集群市場。
據(jù)平曉峰介紹,GPU芯片與NPU、TPU芯片各有千秋,均能充分滿足萬卡集群智算中心的算力需求?!癎PU出現(xiàn)較早,最初用于圖像處理,因其高并行計(jì)算能力而在大模型出現(xiàn)的早期階段成了支撐模型計(jì)算的硬件選擇,但其功耗和成本較高?!逼綍苑灞硎荆跋褚訲PU為代表的AI芯片,則是專門針對AI大模型計(jì)算框架而設(shè)計(jì),在AI智算場景中所表現(xiàn)出來的計(jì)算性能、算力利用率、能效比等更有優(yōu)勢。”
“萬卡集群智算中心的國產(chǎn)化趨勢已經(jīng)較為明顯?!逼綍苑灞硎荆悄芩懔ㄔO(shè)邁入萬卡時(shí)代,算力需求旺盛,市場前景廣闊,預(yù)計(jì)國產(chǎn)AI芯片的蓬勃發(fā)展與萬卡集群智算中心的算力需求將實(shí)現(xiàn)相互成就。