DeepSeek mHC架構突破:流形約束超連接如何打破LLM設計的十年瓶頸

文章重點

  • DeepSeek發表流形約束超連接(mHC)論文,解決了困擾大型語言模型架構創新長達十年的殘差連接恒等映射瓶頸
  • 利用1967年提出的Sinkhorn-Knopp演算法,將27B參數模型中的信號增益幅度從3,000倍壓縮至1.6倍,徹底消除訓練發散問題
  • 在BBH、DROP、GSM8K等基準測試中,mHC全面超越基線和原始超連接方法,訓練開銷僅增加6.7%
  • AI研究者Sebastian Raschka稱其為「可能塑造基礎模型演進的驚人突破」,DeepSeek CEO梁文鋒共同署名暗示技術將應用於下一代旗艦模型

殘差連接:深度學習十年來最重要也最僵化的設計

要理解DeepSeek mHC論文的突破性意義,首先需要理解殘差連接(Residual Connection)在現代深度學習中的核心地位。2015年,微軟研究院的何愷明等人在ResNet論文中提出了一個看似簡單卻影響深遠的設計:讓神經網路的每一層不僅學習新的特徵轉換,同時保留輸入信號的原始副本,兩者相加後傳遞到下一層。用數學語言表達,即 y = F(x) + x,其中F(x)是該層學習的變換,x是直接跳過該層的「捷徑」。

這個設計解決了深度神經網路訓練中最棘手的問題之一——梯度消失(vanishing gradient)。在沒有殘差連接的情況下,當網路層數增加到數十甚至數百層時,反向傳播的梯度信號會逐層衰減,最終變得微乎其微,導致淺層參數幾乎無法學習。殘差連接提供了一條「高速公路」,讓梯度可以不經變換地直接流回淺層,從而使得極深網路的訓練成為可能。

殘差連接之所以能穩定訓練,關鍵在於其恒等映射(identity mapping)特性。當F(x)趨近於零時,y = F(x) + x 趨近於 y = x,即網路的行為退化為恒等函數——輸入等於輸出。這意味着新增的網路層在最壞情況下不會「損害」已經學到的表徵,為深層網路提供了一個安全的訓練起點。

正因如此,從2015年的ResNet到2017年的Transformer,再到2024年的GPT-5和Claude Opus,幾乎所有主流深度學習架構都採用了殘差連接,且其基本形式幾乎未曾改變。這既是殘差連接設計優雅性的體現,也是整個研究社群對「動它就會出事」這一潛規則的默認遵守。十年來,研究者們在注意力機制、歸一化策略、位置編碼等方面不斷創新,唯獨殘差連接這個基礎組件,始終保持着最原始的形態。

超連接的突破與崩潰

打破這個僵局的第一次重要嘗試來自字節跳動(ByteDance)。他們提出的超連接(Hyper-Connections, HC)概念,將殘差流(residual stream)的寬度從1擴展到多個並行通道,並引入可學習的混合權重矩陣(mixing weight matrix)來控制信號在不同通道間的分配和組合。直覺上,這就像是把原來的單車道高速公路升級為多車道系統,同時允許車輛在車道間靈活變換。

實驗結果令人振奮——超連接在多個基準測試上帶來了顯著的效能提升。然而,問題很快浮現。當DeepSeek的研究團隊嘗試將超連接應用於270億參數規模的MoE模型時,訓練過程發生了災難性崩潰。

3,000x
無約束HC的信號增益幅度
1.6x
mHC的信號增益幅度
6.7%
mHC的訓練時間額外開銷
1,875x
信號穩定性改善倍數

問題的根源在於:超連接的可學習混合矩陣是無約束的(unconstrained)。隨着訓練的進行,這些矩陣的數值可以自由演化,導致殘差流的信號幅度不斷累積放大。在DeepSeek的27B模型中,複合殘差映射的最大增益幅度(Amax Gain Magnitude)飆升至3,000倍——意味着原始信號被放大了三個數量級。這種失控的信號放大迅速引發梯度爆炸,訓練在幾千步後便不可逆轉地發散。

這個發現揭示了一個深刻的悖論:超連接帶來的多通道靈活性本身就是不穩定性的來源。它允許了比殘差連接更豐富的信號交互模式,但同時也破壞了使殘差連接穩定的根本機制——恒等映射特性。在無約束的情況下,混合矩陣沒有任何數學保證會保持信號幅度的穩定,因此深度越大、參數越多,發散的風險就越高。

mHC的數學優雅:Birkhoff多面體與Sinkhorn-Knopp演算法

DeepSeek mHC論文的核心創新,是找到了一個數學上精確的方式來同時保留超連接的表達能力和殘差連接的穩定性。其解決方案的理論基礎來自一個看似與深度學習毫無關係的數學領域——組合最優化中的Birkhoff多面體(Birkhoff Polytope)。

什麼是Birkhoff多面體?

Birkhoff多面體是所有雙隨機矩陣(doubly stochastic matrix)構成的集合。一個方陣如果每行元素之和及每列元素之和都等於1,且所有元素非負,就是雙隨機矩陣。根據Birkhoff-von Neumann定理,任何雙隨機矩陣都可以表示為若干置換矩陣(permutation matrix)的凸組合。恒等矩陣是最簡單的置換矩陣之一,因此它天然地位於Birkhoff多面體之中。這意味着如果我們將混合矩陣約束在Birkhoff多面體上,恒等映射的恢復就變得自然而然。

mHC的做法是:不再允許超連接的殘差混合矩陣自由演化,而是在每次更新後,利用Sinkhorn-Knopp演算法將矩陣投影回Birkhoff多面體上。Sinkhorn-Knopp演算法是1967年由Richard Sinkhorn和Paul Knopp提出的經典迭代方法,透過交替對矩陣的行和列進行歸一化,可以將任意非負方陣收斂為雙隨機矩陣。DeepSeek的實作使用約20次Sinkhorn-Knopp迭代,確保混合矩陣始終滿足雙隨機條件。

雙隨機矩陣的一個關鍵數學性質是:它們保持信號幅度不變。當一個向量乘以雙隨機矩陣時,輸出向量的各元素之和等於輸入向量的各元素之和——信號既不會被放大,也不會被壓縮。這正是恒等映射穩定性的數學本質。因此,無論模型深度如何增加,mHC的殘差流都不會出現信號爆炸或消失的問題。

從另一個角度來看,mHC實際上定義了一個「允許的連接空間」——殘差混合矩陣可以在Birkhoff多面體這個流形(manifold)上自由移動,探索不同的信號分配策略,但絕不會越過穩定性的邊界。這就是「流形約束」(Manifold-Constrained)這個名稱的由來。它在保持表達自由度的同時,從數學上保證了訓練的穩定性。

工程實現:從理論到可擴展的系統

一個優美的數學解決方案並不自動等於一個實用的工程系統。DeepSeek團隊深知這一點,因此mHC論文中大量篇幅用於描述使該方法在大規模訓練中真正可行的系統級優化。這也是為什麼多位評論者將這篇論文定義為「工程論文」——它不僅提出了理論框架,更解決了將理論落地所需的所有工程難題。

第一個關鍵優化是自定義融合核心(custom fused kernels)。Sinkhorn-Knopp迭代涉及大量的矩陣行列歸一化操作,如果使用標準的PyTorch或JAX實現,每次歸一化都需要單獨的記憶體讀寫操作,產生巨大的記憶體頻寬瓶頸。DeepSeek使用基於TileLang的自定義核心,將多次歸一化操作融合為單一核心調用,並採用混合精度策略(high-precision accumulation with low-precision storage),在保持數值穩定性的同時最大化計算吞吐量。

第二個優化是選擇性重計算(selective recomputation)。在標準的反向傳播中,前向傳播的中間激活值需要被保存以供反向傳播使用。mHC的多通道殘差流會產生額外的中間激活值,增加記憶體壓力。DeepSeek的策略是:在前向傳播後丟棄這些中間值,在反向傳播時重新計算。這以少量的額外計算換取了顯著的記憶體節省,使得mHC可以在不增加GPU記憶體需求的情況下進行訓練。

第三個優化是管線並行適配(pipeline parallelism adaptation)。在分佈式訓練中,模型被切分到多個GPU上進行管線並行處理,不同管線階段之間存在通訊延遲。mHC的多通道殘差流跨越管線邊界時需要額外的同步操作,如果處理不當會造成嚴重的管線氣泡(pipeline bubble)。DeepSeek開發了基於DualPipe的通訊重疊策略,使得殘差流的跨階段傳輸可以與其他計算操作同時進行,將管線效率損失降至最低。

這三項工程優化的綜合效果是:mHC在保持所有理論優勢的同時,僅引入6.7%的訓練時間額外開銷。對於一個可能帶來架構級能力提升的技術而言,這個代價幾乎可以忽略不計。

基準測試結果:全面且一致的改善

DeepSeek在3B、9B和27B三個規模的MoE模型上進行了系統性的實驗評估,並與基線(標準殘差連接)和HC(無約束超連接)進行了對比。測試涵蓋了BBH、DROP、GSM8K、HellaSwag、MMLU、PIQA和TriviaQA等主流語言模型基準。

51.0
27B模型BBH分數(mHC)
+2.1%
BBH相較HC的提升
+2.3%
DROP相較HC的提升
3個
測試模型規模(3B/9B/27B)

在27B模型上的結果最具說服力:BBH從基線的43.8分提升至HC的48.9分,再進一步提升至mHC的51.0分。DROP和GSM8K等需要推理能力的任務上也觀察到類似的趨勢。值得強調的是,mHC不僅在效能上超越HC,更重要的是它在所有模型規模上都保持了訓練穩定性——而HC在27B規模時已經出現嚴重的發散問題。

這裏有一個微妙但重要的觀察:mHC的效能提升不是來自「加大模型」或「增加數據」這類暴力方法,而是來自架構本身的改善。在完全相同的訓練數據、計算預算和模型參數量下,僅僅改變殘差連接的方式就帶來了可測量的效能增益。這表明,在大型語言模型的設計空間中,仍然存在大量未被探索的架構級優化機會。

Transformer演進史的新篇章

將mHC置於Transformer架構演進的歷史脈絡中,可以更清楚地看到其定位和意義。2017年Google提出原始Transformer架構,其核心創新是多頭自注意力機制(Multi-Head Self-Attention)。此後的七年間,架構層面的主要改進集中在幾個方向。

在注意力機制方面,從標準注意力演進到稀疏注意力(Sparse Attention)、滑動窗口注意力(Sliding Window)、Flash Attention、分組查詢注意力(GQA)等,主要解決長序列處理的效率問題。在歸一化策略方面,從Post-LN到Pre-LN再到RMSNorm,主要解決訓練穩定性。在位置編碼方面,從絕對位置編碼到旋轉位置編碼(RoPE)再到ALiBi,主要解決長度泛化問題。在模型架構方面,從密集模型到混合專家模型(MoE),主要解決參數效率問題。

為什麼殘差連接十年未變?

在上述所有演進中,殘差連接始終保持 y = F(x) + x 的原始形態。原因很簡單:每當研究者嘗試修改殘差連接時,都會破壞恒等映射特性,導致訓練不穩定。這就形成了一個「碰不得」的領域——大家知道殘差連接可能不是最優設計,但沒有人找到在不犧牲穩定性的前提下改進它的方法。mHC正是第一個成功打破這個僵局的方案。它證明了殘差連接不是神聖不可侵犯的,只要用正確的數學工具進行約束,就可以在保持穩定性的同時實現更豐富的信號交互。

這開啟了一個全新的研究方向:在Birkhoff多面體之外,是否還有其他數學流形可以用來約束神經網路的連接模式?正交群(Orthogonal Group)、Stiefel流形等數學結構是否能帶來不同的穩定性-表達力權衡?mHC論文本身在結語中也提到,期望這項工作能「促進對拓撲架構設計的更深入理解」,並「為基礎模型的演進指出有前景的方向」。

DeepSeek的研究影響力持續上升

mHC論文的發表進一步鞏固了DeepSeek在全球AI研究版圖中日益上升的地位。回顧過去一年,DeepSeek的研究產出令人矚目:DeepSeek-V3引入了多項創新的MoE設計;DeepSeek-R1在數學和程式推理任務上展現了驚人的能力;而現在,mHC則直接挑戰了深度學習最基礎的架構組件。

一個值得特別關注的細節是:DeepSeek CEO梁文鋒(Liang Wenfeng)是mHC論文的共同作者之一。在大多數AI公司中,CEO直接參與技術論文的撰寫是極為罕見的。這個署名釋放了一個強烈的信號——mHC不僅是一篇學術論文,更是DeepSeek下一代旗艦模型的核心技術方向。產業分析師普遍預期,DeepSeek R2或V4將會整合mHC架構,可能在2026年上半年推出。

著名ML研究者、《Machine Learning with PyTorch and Scikit-Learn》一書的作者Sebastian Raschka在論文發表後第一時間發表評論,稱mHC是「一個可能塑造基礎模型演進的驚人突破」(a striking breakthrough that could shape the evolution of foundational models)。這種來自頂級研究者的高度評價,反映了mHC在學術界引起的廣泛關注。

DeepSeek的崛起對全球AI研究的權力格局產生了深遠影響。長期以來,Transformer架構的核心創新幾乎完全由Google、OpenAI、Meta等美國機構主導。DeepSeek以一家中國AI實驗室的身份,在最基礎的架構層面提出了被國際學術界廣泛認可的重大改進,這在AI發展史上是前所未有的。這不僅是技術層面的突破,更反映了全球AI研究正在從單極走向多極的趨勢。

對未來模型架構的潛在影響

mHC的影響可能遠超一篇論文的範疇。如果這項技術被廣泛採用,它可能從幾個維度改變大型語言模型的設計範式。

首先是深度的解放。當前大型語言模型的層數通常在80至160層之間,這個範圍部分受限於殘差連接在極深網路中的穩定性表現。mHC透過數學保證的信號穩定性,理論上可以支援更深的網路結構。更深的網路意味着更多的計算步驟和更強的表徵能力,這可能開啟新一輪的模型能力提升——不是通過增加參數量,而是通過增加深度。

其次是訓練效率的提升。mHC的基準測試結果表明,在相同的參數量和計算預算下,mHC架構可以達到更高的效能。這意味着,要達到同等的模型能力,採用mHC的模型可能需要更少的訓練計算。在訓練成本高達數億美元的前沿模型時代,即使幾個百分點的效率提升也代表着數百萬美元的節省。

第三是架構搜索空間的擴展。mHC證明了殘差連接是可以被安全改造的,只要使用正確的數學約束。這可能鼓勵更多研究者探索其他「不可觸碰」的架構組件,例如層歸一化的位置、前饋網路的結構、甚至注意力機制本身的計算方式。當一個長期被視為禁區的領域被打開後,往往會釋放出大量的創新能量。

開放問題與潛在限制

截至2026年2月,DeepSeek尚未公開mHC的實現代碼。論文中報告的實驗規模最大為27B參數,尚未在千億參數級別的模型上得到驗證。此外,mHC的6.7%訓練開銷雖然不大,但在超大規模訓練中仍然代表着可觀的絕對計算量。Sinkhorn-Knopp演算法的20次迭代在數值精度和收斂速度之間的權衡也需要更多的實踐驗證。這些開放問題將隨着更多研究團隊嘗試復現和擴展mHC而逐步得到回答。

一個1967年的演算法如何改變2026年的AI

mHC論文中最令人印象深刻的一點,是一個59年前提出的數學演算法在2026年的AI架構設計中發揮了關鍵作用。Sinkhorn-Knopp演算法最初是為了解決純數學中的矩陣分析問題而設計的,它的發明者不可能預見到這個演算法有朝一日會被用來穩定人工智慧模型的訓練過程。

這個故事再次印證了基礎數學研究的長期價值。在AI領域,類似的例子並不罕見:支撐Transformer的注意力機制根植於1960年代的資訊檢索理論;驅動擴散模型的數學框架源自1905年愛因斯坦對布朗運動的分析;甚至神經網路本身的反向傳播演算法,也是從1960年代的自動微分理論中發展而來。

mHC的故事提醒我們:AI的下一個重大突破,可能不會來自更大的模型或更多的數據,而是來自一個塵封已久的數學定理的重新發現和巧妙應用。在全球AI競賽日趨白熱化的今天,對基礎數學和理論研究的投入,可能是最具長期回報的戰略選擇。

DeepSeek的mHC論文在2025年最後一天發表,卻成為了2026年AI架構領域最受關注的研究之一。它打破了一個十年未動的設計慣例,開啟了殘差連接可以被重新設計的新時代。當這項技術最終被整合進下一代基礎模型時,我們回望這個時刻,可能會認為它是Transformer架構自注意力機制之後最重要的結構性創新之一。