徐直軍終于把他這六年最想說的話說了出來。
2025年華為全聯(lián)接大會,會場的燈光一點點暗下去,大屏幕上浮現(xiàn)出“昇騰”字樣的那一瞬間,沒有想象中的轟然與熱烈,有人屏住了呼吸,有人眼眶泛紅,大家都知道,昇騰有一天會公開回歸,但真正回歸的那一刻,感慨的情緒壓過了興奮。
華為公布了未來數(shù)年完整的AI芯片路線圖——這一刻,距離2018年發(fā)布昇騰310芯片,2019年發(fā)布昇騰910芯片,已經(jīng)過去了兩千多個日與夜。
這時間說長不長,說短也不短,卻足夠讓一家企業(yè)經(jīng)歷生死沉浮。2019年的那個春天,美國的制裁讓供應鏈幾乎在一夜之間緊繃到極限。華為一度樂觀地認為,這種影響不會持續(xù)太久,2019年的華為全聯(lián)接大會上,華為按照既定節(jié)奏推進昇騰910的商用發(fā)布,依舊一副云淡風輕的模樣。
但壓力已經(jīng)遍布每一處角落。徐直軍回憶道,“按照當時昇騰910芯片的備貨量,不敢賣給互聯(lián)網(wǎng)領域客戶,只賣國計民生領域的客戶。”制裁像驟然降臨的暴風雨,打斷了華為原本昂揚的節(jié)奏。從榮光到孤立,從掌聲到質(zhì)疑,華為的芯片之路幾乎被外界判了“死刑”。
度過有史以來最大的難關,需要付出什么代價,除了華為自己,無人知曉。外界看到的華為,可能是Mate 60“爭氣機”,可能是鴻蒙操作系統(tǒng),也可能是MetaERP、高斯數(shù)據(jù)庫以及一系列確保自身生產(chǎn)經(jīng)營的中間件。
但更多華為人在蟄伏,海思、云計算、數(shù)據(jù)中心、光通信等華為大大小小的團隊,都迫不及待要加入一線,AI算力,這是華為未來真正的戰(zhàn)場。
今年3月份,華為正式推出了Atlas 900超節(jié)點,可以理解為華為AI戰(zhàn)略的預告,滿配支持384卡。384顆Ascend 910C芯片,能夠像一臺計算機一樣工作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節(jié)點,CloudMatrix384超節(jié)點,是華為云基于Atlas 900超節(jié)點構(gòu)建的云服務實例,也被廣泛應用于大模型的訓推。
海外知名分析機構(gòu)SemiAnalysis,當時以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題分析并得出結(jié)論,華為的芯片技術(shù)落后一代,但其自主研發(fā)的云端超級算力解決方案CloudMatrix 384卻可領先于英偉達和AMD當前市售產(chǎn)品一代,直接對標英偉達GB200 NVL72系統(tǒng),在多項關鍵指標上展現(xiàn)出超越英偉達機架級解決方案的技術(shù)優(yōu)勢。
“以前英特爾允許我們使用CPU芯片互聯(lián)協(xié)議,后來也被禁止了,我們從光器件、光模塊、互聯(lián)協(xié)議、互聯(lián)芯片,全部靠重新定義、設計才能實現(xiàn),有海外企業(yè)一直想把超節(jié)點搞一套出去,研究我們?yōu)槭裁茨芨愠龀?jié)點”徐直軍說。相比于芯片本身,海外更關注超節(jié)點,因為目前海外能做出更好的芯片,但做不出如華為一般的超節(jié)點。
2025年華為全聯(lián)接大會,時隔多年之后,華為輪值董事長徐直軍再次與多家媒體對話——芯片不是華為AI算力的全部,“超節(jié)點+集群”算力解決方案是華為在AI領域的核心戰(zhàn)略,靈衢互聯(lián)協(xié)議是開創(chuàng)新計算架構(gòu)的新范式。
芯片很重要,也沒那么重要
“算力的基礎是芯片,昇騰芯片是華為AI算力戰(zhàn)略的基礎。”徐直軍表示,至2028年,華為開發(fā)和規(guī)劃了三個系列,分別是Ascend 950系列,Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體芯片還在規(guī)劃中。
華為將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數(shù)據(jù)格式、更高帶寬等方向持續(xù)演進,持續(xù)滿足AI算力不斷增長的需求。
相比Ascend 910B/910C,從Ascend 950開始的主要變化包括:
引入SIMD/SIMT新同構(gòu),提升編程易用性;
支持更加豐富的數(shù)據(jù)格式,包括FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;
支持更大的互聯(lián)帶寬,其中950系列為2TB/s,970系列提升到4TB/s;
支持更大的算力,F(xiàn)P8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;
自研HBM,內(nèi)存容量逐漸加倍,而內(nèi)存訪問帶寬將翻兩番。
芯片本身之外,生態(tài)是開發(fā)者關注的焦點問題,徐直軍表示,“國內(nèi)AI企業(yè)用昇騰訓練大模型,主要是看他們用不用,就像談戀愛,不談的話,你怎么知道對方的優(yōu)缺點,合適不合適,你要談一下,要用一下。在用的過程中有問題解決問題,A能用,為什么B不能用,就是你用不用的問題?!?/p>
“當然,我們的生態(tài)和整個工具鏈肯定比英偉達有差距,原來工程師在英偉達應用很熟練,就不愿意轉(zhuǎn)過來,它是工程師的習慣問題,而不是高層的問題?!彼a充。
業(yè)界不少芯片廠商選擇兼容英偉達CUDA生態(tài),對現(xiàn)有AI開發(fā)體系友好,但華為有自己的考量。“我們不兼容CUDA生態(tài),一定要搞CANN生態(tài)和MindSpore,也是出于長遠考慮,如果我們投如此多的錢兼容CUDA生態(tài),而且還是CUDA過去的版本,哪天CUDA生態(tài)兼容不了了怎么辦?堅定不移研發(fā)MindSpore,當時很多專家都反對。現(xiàn)在我們的AI,從達芬奇到昇騰芯片到一切,所有的軟件、硬件都不依賴于西方生態(tài)和供應鏈,長遠考慮必須要把生態(tài)構(gòu)建起來。”徐直軍坦言。
如果故事只到這里,華為充其量實現(xiàn)了“活下來”的任務,很好,但對華為來說遠不夠好。畢竟在昇騰設計之初,就不是為了做一個備份,昇騰910發(fā)布就沖著最強算力的目標,在供應鏈和制程等芯片制造能力落后的情況下,華為昇騰芯片短期內(nèi)還將處于追趕的狀態(tài)。
然而,很多人沒有意識到,成就英偉達的大模型,其實下一個成就的就是華為,大模型前期,英偉達受益于單個GPU卡的性能和CUDA生態(tài),未來隨著AI的演進,華為受益的是“超節(jié)點+集群”,后者已經(jīng)在頂級大模型圈層得到認可,而普羅大眾的認知不強。
超節(jié)點+集群,讓中國沒有算力之憂
2022年,英偉達曾發(fā)布DGX H100 NVL256“Ranger”平臺,但最終未投入量產(chǎn)——該方案因成本過高、功耗巨大且可靠性問題(源于超量光收發(fā)器需求及雙層網(wǎng)絡架構(gòu))而被放棄。在2024年3月,英偉達轉(zhuǎn)而推出基于Blackwell GPU打造的GB200 NVL72超節(jié)點產(chǎn)品,規(guī)模大幅縮小。
回過頭看,英偉達的超節(jié)點路標已經(jīng)消失不見,英偉達既證明了超節(jié)點是未來算力的趨勢,也證明了超節(jié)點做起來的難度,華為接過AI算力的下一棒。
本次大會上,華為發(fā)布了最新超節(jié)點產(chǎn)品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節(jié)點,分別支持8192及15488張昇騰卡,在卡規(guī)模、總算力、內(nèi)存容量、互聯(lián)帶寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節(jié)點。
基于超節(jié)點,華為同時發(fā)布了全球最強超節(jié)點集群,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規(guī)模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力集群。
“除了單顆芯片比它(英偉達)的算力小一點,功耗大一點,其他都是優(yōu)勢?!?/span>徐直軍如此評價,“因為AI就是并行計算,所以我們的解決方案就是超節(jié)點,超節(jié)點做成一臺機器,你用5顆,我可以用10顆,那我們用384/8192/15488顆芯片,這還不是最大的?!?/p> 他進一步解釋道,(華為)不同于大模型公司,也不同于應用公司,作為ICT基礎設施和智能終端提供商,華為充分發(fā)揮自身優(yōu)勢,扎扎實實把基礎設施做好,通過基礎設施掙錢,做超節(jié)點、做集群,公司內(nèi)部已達成共識,通過昇騰硬件變現(xiàn),取得商業(yè)成功。 超節(jié)點是一條不得已的道路,也是能夠?qū)⑷A為所有能力融為一體,最大程度發(fā)揮華為優(yōu)勢的道路,更具有決定意義的是,超節(jié)點能夠?qū)⑷A為在單芯片的劣勢扭轉(zhuǎn)為勝勢,超過英偉達,實現(xiàn)算力最強。 “什么叫超節(jié)點?盡管物理上是多機柜、多個卡(8192個卡或者是15488個卡)聯(lián)接成一個超節(jié)點,但是它們能夠像一臺計算機一樣工作、學習、思考、推理。集群是把多個超節(jié)點以網(wǎng)絡聯(lián)結(jié)在一起,就像云服務一樣,相當于用多個服務器一樣,即把多臺服務器連接在一起,再以軟件層將它調(diào)度?!毙熘避娬f。 他進一步表示,華為的核心戰(zhàn)略就是“超節(jié)點+集群”,只有依靠超節(jié)點和集群,才能規(guī)避中國的芯片制造工藝受限,才能夠為中國的AI算力提供源源不斷的算力支持和供給。 “創(chuàng)新有時是被逼出來的,不是天生想做。我們應對制裁,用非摩爾補摩爾、用數(shù)學補物理,不是什么偉大的事情。歷史上海思靠芯片領先別人一代,現(xiàn)在芯片落后一代、兩代,未來還不知道落后幾代,只有另尋出路。另一條路就在這里,由于芯片工藝受限,逼著我們創(chuàng)新突破。”徐直軍說。 靈衢,以及華為自己的路 在徐直軍大會演講的最后,并不是以芯片來收尾,“我們希望和產(chǎn)業(yè)界一起,以開創(chuàng)的靈衢超節(jié)點互聯(lián)技術(shù),引領AI基礎設施新范式;以基于靈衢的超節(jié)點和集群持續(xù)滿足算力快速增長的需求,推動人工智能持續(xù)發(fā)展,創(chuàng)造更大的價值?!?/p> 在業(yè)內(nèi)人士看來,靈衢的革命意義可能不亞于AI基礎設施的再造,華為超節(jié)點+集群的成功,很大程度就依賴于靈衢。如果說光刻機是把單芯片的性能持續(xù)放大,那么,靈衢則是將數(shù)以萬計的芯片聯(lián)接起來。 2021年,華為規(guī)劃了三個公司級別的戰(zhàn)略項目,其中之一是鴻蒙操作系統(tǒng),另一個就是靈衢,其戰(zhàn)略意義,可見一斑。 英偉達或者其他芯片公司的長處在于芯片,超節(jié)點卻不是靠簡單堆芯片就能實現(xiàn)大算力,就像大模型訓練算力,在一定范圍內(nèi),算力隨著芯片數(shù)量的增加線性增長,到了一定瓶頸,芯片增加,邊際效應大幅降低。 為大模型而定做的算力集群中,需要大量的數(shù)據(jù)高速傳輸,在人類歷史上沒有過這種,正向打滿然后負向再打滿的傳輸需求,低時延、高吞吐的要求都到了嚴苛級別,而且未來的算力不僅僅是當前大模型需要AI算力之間的高速互聯(lián),同時,AI算力和通用算力之間,通算和通算之間,也存在高速互聯(lián)的需求。 隨著IT產(chǎn)業(yè)的發(fā)展,PCIE、InfiniBand、RoCE等各種協(xié)議并行發(fā)展,英偉達的NVlink等協(xié)議最大化發(fā)揮了英偉達GPU的算力,靈衢不止是一個替代,它是AI算力互聯(lián)標準的重塑,通過靈衢互聯(lián)協(xié)議,能夠把數(shù)萬規(guī)模的計算卡,聯(lián)接成一個超節(jié)點。 相較于NVlink協(xié)議的封閉,華為宣布將開放靈衢2.0技術(shù)規(guī)范,投入如此之大的心力,華為為何要將靈衢開放,其實不難理解,華為的理念是硬件變現(xiàn),靈衢若只是華為一家之言,那就無法形成生態(tài),更多的企業(yè)用靈衢構(gòu)建自己的算力集群,產(chǎn)業(yè)的雪球才能越滾越大。 “我們的路肯定不是英偉達的路,現(xiàn)在大家都以英偉達的視角看我們的路,不公平。但我們自己不能‘傻’。我是短期痛苦,長期不痛苦?!毙熘避娬f。 華為在AI算力領域走出來了一條自己的路,這是由很多能力構(gòu)建成的系統(tǒng)。以光通信技術(shù)為例,英偉達超節(jié)點采用了全銅通信,優(yōu)點是技術(shù)成熟,成本較低,缺點是只能部署2米以內(nèi),否則速度會大幅衰減,因此可聯(lián)接芯片數(shù)量有限。華為采用了更激進的光通信策略,光模塊帶來了高帶寬和高速率的優(yōu)勢,損耗低,適合長距離傳輸,因而可聯(lián)接更多芯片,部署靈活。 但是,在華為之前,沒有一家廠商敢用光模塊來實現(xiàn)超節(jié)點,光模塊故障率高且成本高,方案能不能做成都是未知數(shù),華為憑借著多年積累的通信能力,在光芯片和連接技術(shù)、故障恢復等方面形成了一套獨一無二的方案,使得超節(jié)點成為可能。 華為的勝利,是系統(tǒng)的勝利,是所有華為人乃至中國計算產(chǎn)業(yè)鏈的勝利。徐直軍表示,“用超節(jié)點架構(gòu)以及支持超節(jié)點的靈衢互聯(lián)協(xié)議,打造超節(jié)點和集群,來滿足我國無窮無盡的算力需求,這既是我們對自己的一個目標,又是對產(chǎn)業(yè)界的承諾,更是對國家的承諾。” “把這條路闖出來,把中國產(chǎn)業(yè)鏈拉動起來,這條路就成了路。算不上新范式,是被迫出來的范式,是被逼出來的偉大?!毙熘避娬f,“誰想做別人做過的事情呢?肯定想去開創(chuàng)未來的事情?!?/span>