Nvidia吸收Groq核心工程團隊:AI推理晶片領域的巨頭整合啟示

文章重點

  • Groq創辦人Jonathan Ross及多名資深工程師正式加入Nvidia,儘管外界一度傳出200億美元的全額收購案,實際上這是一宗以人才為核心的吸收交易
  • Jonathan Ross曾是Google初代TPU(Tensor Processing Unit)的核心架構師之一,其在AI專用晶片設計方面的經驗在全球範圍內屈指可數
  • Groq開發的LPU(Language Processing Unit)是專門針對AI推理工作負載設計的晶片,曾在推理速度上創下多項業界紀錄,其晶圓級架構在延遲敏感應用中展現獨特優勢
  • Groq將繼續獨立運營,但核心技術人才的流失意味著其長期競爭力面臨嚴峻考驗;此事件標誌著AI晶片產業正進入加速整合階段

一場「不是收購的收購」:Nvidia為何只要人不要公司

當外界傳出Nvidia可能以200億美元收購Groq的消息時,科技產業為之側目。200億美元——這將是Nvidia歷史上最大規模的收購案之一,足以與其2020年以400億美元收購Arm的嘗試(後因監管原因失敗)相提並論。然而,最終的交易形態遠比媒體的推測來得巧妙:Nvidia沒有收購Groq這家公司,而是吸收了它最核心的資產——以創辦人Jonathan Ross為首的頂尖工程團隊。

這種「只要人不要公司」的做法在矽谷有一個專門的術語:acqui-hire(人才收購)。但Nvidia這次的操作比典型的acqui-hire複雜得多。典型的人才收購通常發生在一家大公司收編一家失敗或即將失敗的初創公司時——買的不是技術或產品,而是團隊。Groq並非一家失敗的公司,它的LPU晶片在推理性能上展現了令業界驚嘆的能力,其技術路線在市場上獲得了顯著的關注。Nvidia選擇吸收人才而非整體收購,背後有著深層的戰略考量。

避開監管風暴。Nvidia目前在全球AI晶片市場佔據約80%以上的份額。在全球反壟斷監管機構(特別是美國FTC、歐盟委員會和中國國家市場監管總局)對科技巨頭併購活動保持高度警惕的當下,一宗200億美元的AI晶片公司收購案幾乎必然會觸發深入的反壟斷審查,流程可能長達一年以上,最終結果高度不確定。相比之下,人才流動——即使是整個核心團隊的流動——在法律上屬於個人的職業選擇,監管機構幾乎無從干預。

精準獲取核心知識。Nvidia真正需要的不是Groq的品牌、客戶合約或生產線,而是Groq團隊在AI推理晶片架構設計方面積累的深層技術知識和工程經驗。這些知識存在於人的腦中,而非專利文件或技術文檔中。通過吸收核心團隊,Nvidia以遠低於200億美元的成本獲得了Groq最有價值的資產,同時避免了承擔Groq的負債、運營成本和非核心業務的負擔。

$200億
外界傳出的收購金額(未實現)
80%+
Nvidia全球AI晶片市場份額
LPU
Groq開發的推理專用處理器
Google TPU
Jonathan Ross曾參與設計的晶片

Jonathan Ross其人:從Google TPU到Groq LPU的晶片傳奇

要理解這宗人才吸收的分量,必須先理解Jonathan Ross這個人在AI晶片史上的位置。

Google TPU的幕後推手。2013年前後,Google內部面臨一個嚴峻的計算挑戰:隨著深度學習模型在搜索、翻譯和圖像識別等核心業務中的部署,傳統CPU和通用GPU已經無法滿足大規模推理工作負載的需求。Jonathan Ross是率先提出並推動「從頭設計一款AI專用晶片」方案的核心工程師之一。最終誕生的TPU(Tensor Processing Unit)成為了世界上第一款大規模部署的AI專用晶片,徹底改變了Google的基礎設施架構,也為整個AI專用晶片產業奠定了方向性的先例。

創立Groq的初心。離開Google後,Ross在2016年創立了Groq(名稱靈感來自科幻小說《異星歧途》中的「grok」一詞,意為「深刻理解」)。他的核心信念是:Google的TPU和Nvidia的GPU雖然在AI訓練任務上表現出色,但對於AI推理工作負載(即讓已經訓練好的模型處理新的輸入並生成輸出)來說,並不是最優的架構選擇。推理工作負載有著與訓練截然不同的特徵——對延遲極度敏感、需要高度可預測的性能、往往涉及大量即時查詢的併發處理。Ross認為,這些特徵需要一種從底層架構就為推理最優化的全新晶片。

LPU的技術突破。Groq的LPU(Language Processing Unit)確實兌現了Ross的願景。在多項公開基準測試中,LPU在大語言模型推理速度上展現了顯著優於Nvidia GPU的表現,特別是在首個token生成延遲(Time to First Token, TTFT)這個關鍵指標上。LPU採用了一種被稱為TSP(Tensor Streaming Processor)的獨特架構,通過確定性的計算流水線和高頻寬的片上記憶體設計,消除了傳統GPU架構中因記憶體瓶頸和調度不確定性導致的延遲波動。在需要即時回應的應用場景中(如對話式AI、即時翻譯、自動駕駛決策),LPU的低延遲和高確定性優勢尤為突出。

這樣一位在AI晶片設計最前沿工作了十餘年、先後參與了兩代革命性晶片架構設計的工程師,其經驗和知識的價值幾乎是無法估量的。Nvidia吸收Ross及其團隊,相當於獲得了全球AI推理晶片設計經驗庫中最珍貴的一部分。

TPU與LPU:兩代AI專用晶片的設計哲學差異

Google TPU的設計出發點是「用專用硬件加速矩陣運算」——這是深度學習中最核心的計算原語。TPU通過大規模的脈動陣列(systolic array)實現了高吞吐量的矩陣乘法運算。而Groq LPU的設計哲學則更進一步:不僅最優化計算本身,更最優化計算的「時間確定性」。LPU的TSP架構確保每一個計算步驟的執行時間是完全可預測的,這消除了傳統GPU中因記憶體存取競爭和動態調度產生的延遲波動。簡而言之,TPU追求的是「更快」,LPU追求的是「更快且更穩定」。

Nvidia的推理焦慮:為什麼訓練霸主需要補強推理能力

Nvidia在AI計算領域的主導地位幾乎是教科書式的壟斷。從A100到H100再到B200,Nvidia的GPU系列在AI模型訓練市場上的份額長期維持在80%以上。然而,AI計算市場正在經歷一場深刻的結構性轉變,而這場轉變的方向恰恰指向Nvidia相對薄弱的環節——推理。

訓練與推理的經濟學逆轉。在AI產業的早期階段,計算支出的絕大部分用於模型訓練——數以千計的GPU連續運行數週甚至數月來訓練一個大型模型。但隨著AI應用的大規模商業化部署,推理工作負載的佔比正在急劇上升。根據多家分析機構的估算,到2026年,全球AI計算支出中推理的佔比已經超過60%,並且還在持續增長。原因很直觀:一個模型只需要訓練一次(或數次),但每天需要回應數以億計的用戶查詢。隨著ChatGPT、Claude、Gemini等AI服務的用戶規模爆發式增長,推理計算量正以指數級速度膨脹。

GPU在推理上的結構性劣勢。Nvidia的GPU最初是為圖形渲染設計的,後來被證明非常適合深度學習訓練中的大規模並行矩陣運算。但對於推理工作負載而言,GPU存在一些固有的架構劣勢:其記憶體頻寬往往成為大語言模型推理的瓶頸(所謂「memory-bound」問題);其動態調度機制導致延遲的不可預測性;其功耗效率在小批次推理場景下遠低於專用推理晶片。Nvidia一直在通過軟體最優化(如TensorRT)和架構調整來緩解這些問題,但從根本架構層面看,GPU並不是推理的最優選擇。

競爭者的包圍網。正是看到了GPU在推理市場上的結構性弱點,多家公司和研究機構開發了專門的推理加速晶片。除了Groq的LPU之外,還有Google的TPU(在推理工作負載上也有優異表現)、Amazon的Inferentia和Trainium晶片、以及多家初創公司(如Cerebras、SambaNova、d-Matrix)的產品。這些競爭者各自從不同的技術角度向Nvidia的推理市場份額發起衝擊。吸收Groq的核心團隊,是Nvidia對這場「推理戰爭」的一次先發制人的戰略回應。

60%+
2026年AI計算支出中推理佔比
GPU架構
Nvidia現有推理方案的技術基礎
TensorRT
Nvidia推理最優化軟體框架
5家+
主要推理晶片競爭者數量

Groq的未來:失去靈魂後還能走多遠?

官方聲明強調Groq將「繼續獨立運營」,但任何了解初創公司運作方式的人都知道,創辦人和核心工程團隊的離開對一家技術驅動型公司意味著什麼。

技術方向的迷失風險。Jonathan Ross不僅是Groq的創辦人,更是其整體技術願景的定義者。LPU的架構設計、技術路線圖、產品優先順序——這些關鍵決策都深刻地反映了Ross的技術判斷力和產業洞察力。當這個決策核心轉移到Nvidia之後,Groq剩餘的團隊是否有能力維持相同水準的技術領導力?歷史上,創辦人離開後技術公司迅速衰落的案例比比皆是——Palm在離開了Jeff Hawkins之後、BlackBerry在Lazaridis淡出後、甚至Apple在Jobs第一次離開後都經歷了嚴重的方向迷失。

人才流失的連鎖效應。頂尖工程師的離開往往會觸發更廣泛的人才外流。在高度競爭的AI晶片領域,工程師選擇留在一家公司的核心原因之一是與世界頂級同事共事的機會。當最優秀的人離開後,次優秀的人也會開始考慮自己的選擇。這種人才流失的「雪崩效應」可能在數月內嚴重削弱Groq的研發能力。更現實的問題是:Groq在人才市場上的吸引力將因此大打折扣——有哪個頂尖晶片設計師會選擇加入一家剛剛失去創辦人和核心團隊的公司,而不是去Nvidia、AMD或一家新興初創公司?

資本市場的信心危機。Groq此前已經完成了多輪融資,估值據報達到數十億美元級別。投資者注入資金的一個核心考量是對創辦人團隊和技術領導力的信任。核心團隊的離開可能導致現有投資者要求重新評估估值條款,新的融資也會變得更加困難。對於一家仍在大量燒錢進行晶片研發的公司而言,資本供給的中斷可能是致命的。

但也有一線生機。Groq的LPU技術和現有的產品線不會因為人的離開而消失。如果Groq能夠迅速任命具有深厚技術背景的新領導層,並且利用已有的技術積累和客戶關係繼續推進產品迭代,它仍然有可能在推理晶片市場中保有一席之地——只是很可能不再是引領者的角色,而是成為一個利基市場的專業玩家。

AI晶片產業的人才收購先例

Nvidia吸收Groq核心團隊並非AI晶片領域的首次人才收購。2021年,Intel以20億美元收購了以色列AI晶片公司Habana Labs,獲得了其Gaudi加速器的技術團隊。Apple多年來持續從Qualcomm、Intel和Imagination Technologies挖角晶片設計人才,最終建立了自研M系列和A系列晶片的強大團隊。Google為了建立TPU團隊,也從多家半導體公司吸收了大量資深工程師。在AI晶片設計領域,頂尖人才的數量極為有限——全球真正具備從零設計一款AI專用晶片能力的工程師可能不超過數千人。這使得人才成為比技術專利更稀缺、更有價值的戰略資源。

產業整合加速:AI晶片市場的「大魚吃小魚」時代

Nvidia吸收Groq核心團隊只是AI晶片產業加速整合的一個縮影。從更宏觀的視角看,這個產業正在進入一個「大魚吃小魚」的新階段。

初創公司的生存困境。AI晶片是一個資本極度密集的賽道。從晶片設計到流片(tape-out)到量產的完整週期通常需要三到五年時間和數億美元的投入。在這個漫長的週期中,初創公司需要持續投入巨額研發資金,同時面對Nvidia這樣擁有近乎無限資源的競爭者。更殘酷的是,即使晶片性能指標出色,初創公司還需要建立完整的軟體生態系統——編譯器、驅動程式、開發框架、技術支持——才能讓客戶真正採用其產品。Nvidia的CUDA生態系統經過了十五年的建設和完善,已經形成了極其深厚的護城河。新進入者要複製這個生態系統,所需的時間和資源幾乎與設計晶片本身一樣多。

資本市場的重新校準。2023至2024年期間,AI晶片初創公司享受了一段資本狂歡期——投資者爭相投入資金,估值被不斷推高。但隨著AI產業開始進入「從概念到落地」的階段,資本市場正在對這些公司進行更嚴格的審視。問題很簡單:在Nvidia持續推出新一代GPU、CUDA生態不斷強化的情況下,這些初創公司真的能在商業上成功嗎?Groq核心團隊的離開,會讓投資者對其他AI晶片初創公司的長期獨立生存能力產生更多疑慮。

巨頭之間的角力。AI晶片市場的終局可能不是一家獨大,而是三到四家巨頭分割市場。Nvidia憑藉GPU和CUDA生態系統在訓練市場佔據主導地位;Google的TPU和自研基礎設施在其內部工作負載上具有成本優勢;AMD通過MI系列GPU在價格敏感的市場區隔中蠶食Nvidia的份額;Amazon和Microsoft各自開發了推理專用晶片來最優化其雲服務的成本結構。在這個格局中,獨立的AI晶片初創公司要找到持續的商業生存空間,將變得越來越困難。它們最可能的命運要麼是被巨頭收購(或人才被吸收),要麼是退縮到巨頭無暇顧及的利基市場中。

3-5年
AI晶片從設計到量產的典型週期
數億美元
開發一款AI晶片所需的最低投資
15年+
Nvidia CUDA生態系統建設時間
3-4家
預計最終存活的主要AI晶片巨頭

對香港及亞太AI生態的啟示

Nvidia吸收Groq團隊這一事件,對於香港和更廣泛的亞太地區AI生態系統也有著不容忽視的啟示意義。

算力供應鏈的地緣風險。隨著AI晶片市場進一步向少數巨頭集中,亞太地區(特別是中國大陸以外)的AI企業對Nvidia的依賴度將持續上升。這種依賴在地緣政治緊張時期會轉化為嚴峻的供應鏈風險。香港作為連接中國大陸與國際市場的重要樞紐,其AI產業的發展直接受到全球晶片供應格局的影響。當AI晶片的技術知識和設計能力進一步集中在美國少數幾家公司手中時,亞太地區在AI基礎設施層面的自主性將面臨更大的挑戰。

人才戰略的警示。Groq的案例再次證明,在AI晶片這個前沿領域,人才是最核心的競爭要素。香港擁有多所世界一流的大學和活躍的科研社群,但在AI晶片設計方面的人才儲備和產業生態仍然薄弱。如果亞太地區的科技產業希望降低對美國AI晶片巨頭的依賴,長期的投資重點必須放在培養本地的頂尖晶片設計人才上——這不是五年或十年能夠速成的工程,而是需要數十年持續投入的戰略工程。

推理市場的在地化機遇。積極的一面是,AI推理市場的快速增長為亞太地區的企業創造了新的機遇。推理工作負載通常需要就近部署以降低延遲,這意味著亞太地區需要建設大量的本地推理計算基礎設施。在這個過程中,本地的雲服務提供商、數據中心運營商和系統整合商都有機會分享這塊日益膨脹的市場蛋糕。此外,面向特定亞太市場需求(如中文語言處理、本地化AI服務)的推理最優化方案,也可能成為本地企業建立差異化競爭力的切入點。

結語:當推理成為新戰場,晶片產業的權力版圖正在重繪

Nvidia吸收Groq核心工程團隊這一事件,表面上看是一家巨頭公司的又一次人才擴張。但在更深的層面上,它揭示了AI計算產業正在經歷的一場根本性的重心轉移——從訓練到推理。

在過去三年的AI革命中,「訓練」是核心敘事。誰能訓練出最大、最強的模型,誰就掌握了AI競賽的主動權。Nvidia的GPU是這場訓練軍備競賽的軍火供應商,其地位幾乎無法撼動。但隨著基礎模型的能力趨於成熟、AI應用的商業化部署急速擴張,產業的焦點正在不可逆轉地轉向推理。在推理的世界裡,競爭的維度更加多元——不僅僅是原始計算速度,還包括延遲穩定性、能耗效率、成本效益和軟體生態系統的完備性。

Nvidia吸收Groq團隊的舉動,展現了這家晶片巨頭對市場風向的敏銳嗅覺和果斷的執行力。它不是等到推理市場完全成熟後再被動應對,而是在市場轉型的早期就主動吸納最前沿的推理晶片設計人才,為未來的競爭佈局。這種「在別人還在討論趨勢時就已經開始行動」的策略,正是Nvidia能夠持續主導AI計算市場的核心原因之一。

然而,這個事件也發出了一個令人不安的信號:AI計算的關鍵基礎設施——無論是訓練還是推理——正在進一步向少數幾家公司集中。當全球最優秀的AI晶片設計人才都匯聚在Nvidia、Google和少數幾家巨頭的旗下時,獨立創新的空間會不會被壓縮?產業的多樣性會不會因此受損?這些問題的答案,將在很大程度上決定AI計算產業在未來十年的發展軌跡——是走向健康的競爭生態,還是滑入由少數巨頭壟斷的僵化格局。

對於整個AI產業的從業者和觀察者而言,Nvidia與Groq的人才交易提供了一個清晰的信號:AI晶片的下一場決戰在推理,而這場戰爭的輸贏,歸根結底取決於誰能聚集最多、最優秀的人才。在這個方程式中,技術是變量,資本是燃料,而人才是常數——也是最稀缺的常數。