日期:2026年3月3日 作者:Kila
【超級懶人包】
-
推論晶片市場正在從 Nvidia 單極壟斷走向五大勢力競爭的格局。Nvidia 仍是訓練之王,但它最強大的護城河 CUDA 正在編譯器、框架和部署三個層面同時被侵蝕。Google TPU 是目前唯一經過十年、七代迭代的商業化大規模 ASIC,功耗僅為同級 GPU 的 40% 到 50%。AMD 硬體已追平 Nvidia 但軟體是致命瓶頸。各雲端巨頭的自研 ASIC(Trainium、Maia、MTIA)
各有側重但尚未達到 Google 的規模。Cerebras 和 Groq 等新創證明了極端專用化路線的可行性。 -
Nvidia Blackwell 架構 GB200 NVL72 機架訂單據供應鏈數據從最高 8 萬櫃修正至 3.5 萬櫃以內,因客戶抗拒被全端綁定。TPU v7 (Ironwood) 單晶片峰值算力 4,614 TFLOPS,最大集群 9,216 顆、總算力 42.5 EFLOPS。OpenAI 的 Triton 編譯器已達 CUDA 76% 到 82% 性能。Samsung 已通過 Nvidia HBM4 品質認證並計劃量產,全球 HBM 供應格局正在重塑。
-
TSMC 3nm 月產能上限約 14 到 14.5 萬片晶圓,Apple、Nvidia、Google/
Broadcom、AMD 四方爭奪。HBM 全球短缺已波及消費電子。無論推論晶片市場誰勝出, 上游的先進封裝和記憶體才是真正的咽喉。
從單極到多極:五大勢力的位置
在上一篇文章中,我們解釋了為什麼 AI 推論正在成為一個萬億美元的戰場,以及為什麼通用 GPU 在這個戰場上不再是唯一答案。這篇文章要回答的是:那麼,
目前推論晶片市場有五大勢力。它們的定位各不相同,但目標一致:
第一是 Nvidia,GPU 全棧霸主,正在從訓練之王向推論擴展。第二是 Google TPU,唯一經過十年、七代迭代並大規模商業化的 ASIC。第三是 AMD,硬體已追平 Nvidia 但軟體生態嚴重落後。第四是雲端巨頭的自研 ASIC(AWS Trainium、Microsoft Maia、Meta MTIA),各自為政的垂直整合。第五是新創公司(
以下逐一拆解。
Nvidia:帝國的反擊
Nvidia 的護城河之深,在整個半導體行業中幾乎無人能及。
首先是 CUDA 生態。15 年的積累,覆蓋從底層驅動到頂層應用框架的完整軟體棧。
面對推論市場的挑戰,Nvidia 正在三條戰線同時反擊。
第一條戰線是架構革命。$200 億收購 Groq 的核心目的,是獲取 LPU(語言處理單元)這一專門為語言模型推論優化的技術,
第二條戰線是商業模式靈活化。Nvidia 歷史上首次為 Meta 大規模提供不捆綁高端 GPU 的純 CPU 伺服器,用於廣告推薦等 AI 工作負載。這表明 Nvidia 已接受推論場景的多樣性,從強迫客戶買「標準套餐」
第三條戰線是資本聯盟。Nvidia 以數百億美元深度投資 OpenAI、Anthropic 等頂尖模型公司,用資本紐帶綁定客戶關係,
但帝國的軟肋也正在暴露。
第一個軟肋是 Blackwell 出貨不如預期。供應鏈數據顯示,基於 Grace CPU 的 GB200 NVL72 機架訂單被大幅下修,從最高 8 萬櫃腰斬至 3.5 萬櫃以內。主要原因是客戶抗拒被 Nvidia 的 Grace CPU 生態全端綁定,寧可採購單獨的 B200 GPU 搭配傳統的 AMD 或 Intel x86 伺服器。Nvidia 從「賣晶片」向「賣整機系統」的升級策略遭遇了客戶的強烈抵制。
第二個軟肋是毛利率的可持續性。Nvidia 75% 的毛利率建立在極強的定價能力之上。但當推論成為主戰場,客戶對 TCO 的敏感度會指數級上升。TPU 可以便宜 44% 至 56%,AMD 可以用更低的價格搶份額,OpenAI 能靠「可信的切換威脅」榨出 30% 折扣。在推論端長期維持 75% 毛利率的難度正越來越大。
第三個軟肋是中國市場的實質性脫鉤。華為的 Ascend 910C 在 2025 年出貨約 100 萬顆,字節跳動、百度、阿里巴巴、
Nvidia 的終局定位可能是:訓練仍是絕對之王,估計保持 90% 的市佔率。但推論份額可能從目前的 80% 以上,逐步下滑至 2028 年的 50% 至 60%。收購 Groq 是承認這個現實、並試圖在推論戰場重建技術優勢的最大膽嘗試。
Google TPU:十年磨一劍
在所有 Nvidia 的挑戰者中,Google TPU 是資歷最深、部署規模最大、商業化最成熟的一個。
Google 在 2013 年啟動 TPU 項目,2015 年出了第一代矽片,到 2025 年已經迭代到第七代 Ironwood,比微軟的 Maia 早了 4 至 6 年。這個時間差不只體現在硬體性能上,
Ironwood 的性能數據是頂尖的:單晶片峰值算力 4,614 TFLOPS(FP8 精度),最大集群可組裝 9,216 顆晶片,總算力達到 42.5 EFLOPS。但最具殺傷力的不是峰值算力,而是能效和互連。
TPU 的戰略意義在 2025 至 2026 年發生了質變。此前,TPU 主要作為 Google 內部的核心算力支撐,供自家模型使用。但從 2025 年開始,Google 正式將 TPU 推向外部商用市場,引發了巨額訂單的湧入。除了 Anthropic 的 $210 億訂單外,Meta 被報道已與 Google 達成數十億美元的交易,潛在客戶還包括 Apple 及 xAI。
SemiAnalysis 的研究揭示了一個有趣的現象:同時使用 TPU 和 GPU 的 Anthropic,在與 Nvidia 的議價談判中擁有比純用 GPU 的 OpenAI 更強的籌碼。這意味着「多晶片並行」不只是降低成本的策略,
TPU 的護城河在於它不只是一顆晶片。它是晶片加上自研光學互連加上 XLA 編譯器加上 Google Cloud 基建的完整系統,經過了 Google 自身數萬億次搜索和推薦查詢的千錘百煉。Gemini 3 完全基於 TPU 訓練,在多個權威基準測試中位居榜首。當全球最先進的 AI 模型之一,是在 TPU 上而非 GPU 上訓練出來的,這本身就是對 TPU 能力最直接的證明。
但 TPU 也有明顯的軟肋。最大的問題是綁定 Google Cloud 生態。目前外部客戶要使用 TPU,基本必須透過 Google Cloud,on-prem(自建機房部署)仍處於起步階段。
最後,在製造端,TPU 高度依賴 Broadcom 作為設計服務商。但 Google 已開始對沖這一風險:與聯發科合作開發低成本 TPU 變體(v7e、v8e),同時擴大內部晶片設計團隊。
AMD:硬體已追平,軟體是最後一哩路
AMD 在 AI 晶片領域的故事,是一個「硬體先行、軟體追趕」的典型案例。
從硬體角度看,AMD 的最新產品 MI355X 在 FP8 單節點基準測試中已經追平甚至超越了 Nvidia B200。Meta 使用 MI300X 運行 Llama 405B 的全部即時推論流量,這是 AMD 在超大規模部署中最有力的背書。2026 年 2 月,OpenAI 與 AMD 簽下 6 吉瓦的算力訂單,涉及數十萬顆 GPU,其中包含即將推出的 MI450 系列。
但 AMD 最大的瓶頸不是硬體,而是 ROCm 軟體生態。
半導體研究機構 SemiAnalysis 發現了一個尷尬的事實:AMD 內部開發分支的性能已經超越 Nvidia,但這些改進尚未合併到穩定版的 PyTorch 發行版中。也就是說,只有擁有底層改寫能力的頂級巨頭(如 Meta、Microsoft)才能充分發揮 AMD 硬體的潛力,普通企業客戶拿到手的「開箱即用」體驗仍然不如 Nvidia。
AMD CEO Lisa Su 顯然深刻意識到了這個問題。
另一個值得關注的數字是 AMD 的定價策略。根據行業估算,MI300 系列的平均售價約為 $1.5 萬美元,遠低於 Nvidia H100 的 $3.2 至 4 萬美元。這說明 AMD 為了搶佔市佔率,正在進行深度的戰略性價格折讓。
雲端巨頭自研 ASIC:各自為政的算力自主之路
除了 Google TPU,其他主要雲端巨頭都在推進自研 ASIC,背後的邏輯一致:沒有人相信 Nvidia 的定價長期可持續,所以每家都想擁有自己的算力供應鏈。
AWS Trainium 3
2025 年 12 月在 re:Invent 大會上正式發布並已進入量產。這是 AWS 首款基於台積電 3nm 製程的 AI 晶片,單晶片提供 2.52 PFLOPS 的 FP8 算力,搭載 144 GB HBM3e 記憶體和 4.9 TB/s 的記憶體頻寬。Trainium 3 UltraServer 最多可搭載 144 顆晶片,相比上一代性能提升 4.4 倍,能效改善超過 4 倍。透過 EC2 UltraClusters 3.0,數千台 UltraServer 可以連接起來,支持高達 100 萬顆 Trainium 晶片的規模。
AWS 宣稱已部署超過 100 萬顆 Trainium 處理器,Anthropic 是其核心客戶,透過 Project Rainier 使用大量 Trainium 晶片訓練和運行 Claude。值得注意的是,Trainium 最初是作為訓練晶片推出的,但現在也被大量用於推論,AWS 表示其在推論場景下比 GPU 方案可節省 30% 至 40% 的成本。
Trainium 4 已在開發中,將支持 Nvidia NVLink Fusion 高速互連技術,這意味着 Trainium 系統未來可以與 Nvidia GPU 在同一機架內互操作。這是一個非常聰明的策略:不與 Nvidia 正面對抗,而是創造一個「混合部署」的選項,
不過,Trainium 的挑戰在於軟體生態的成熟度。SemiAnalysis 指出,Trainium 3 發布時僅支持較受限的 LNC=1 或 LNC=2 模式,更廣泛的 ML 研究社區偏好的 LNC=8 模式預計要到 2026 年中才能支持。這限制了其對非 Anthropic 客戶的吸引力。
Microsoft Maia 100
2024 年發布,為 Bing AI 和部分 OpenAI 推論供電,但 Azure AI 仍有 70% 的工作負載運行在 Nvidia 之上。微軟的 ASIC 起步比 Google 晚了 6 年(2019 年才開始開發,Google 是 2013 年),這個差距體現在軟體棧的成熟度和產能爬坡速度上。
更值得關注的是,OpenAI 正與 Broadcom 合作開發自己的推論 ASIC(代號 Titan),計劃採用台積電 3nm 製程在 2026 年下半年量產,2027 至 2029 年間部署高達 10 吉瓦的算力。這意味着 OpenAI 正在逐步擺脫對 Nvidia 和微軟硬體的雙重依賴。
Meta MTIA v2
Meta 的自研 ASIC 走了一條非常聚焦的路線:專門針對推薦系統和廣告排序優化。
但 MTIA 的局限性也很明確:它是為推薦系統設計的,在通用 LLM 推論場景下效率比 TPU 低 30% 至 40%。這就是為什麼 Meta 一邊在內部大量使用 MTIA 跑廣告推薦,一邊還要向外部租用 Google TPU 和採購 AMD GPU 來處理 Llama 模型的推論。
這三家的共同趨勢是:每一家雲端巨頭都在自研 ASIC,因為沒有人願意長期被 Nvidia 的定價綁架。但除了 Google,
新創公司:極端專用化的可能性
推論晶片市場還有一批走極端路線的新創公司。
Cerebras:把整片晶圓當一顆晶片
Cerebras 的技術路線可能是半導體行業中最大膽的:在整片 300mm 晶圓上製造一顆超大晶片,而非傳統的將晶圓切割成數百顆小晶片。
2026 年 2 月,OpenAI 上線 GPT-5.3 Codex Spark 時選擇了 Cerebras 而非 Nvidia 來承接推論任務。這是 OpenAI 首次在主力模型上大規模採用非 GPU 晶片,原因是 Cerebras 帶來的更低延遲和更低能耗,
Groq:「TPU 之父」的進化
Groq 的創始人 Jonathan Ross 正是 Google TPU 的核心設計者。他創立 Groq 的初衷就是要打造一款超越 TPU 的推論晶片。Groq 的 TSP(Tensor Streaming Processor)架構與 TPU 不同,採用「軟體定義硬體」的設計理念,
2025 年底,Nvidia 以近三倍溢價、$200 億的天價收購了 Groq 的核心技術和團隊。這筆收購的戰略價值遠超財務數字:
Etched
Etched 的策略是徹底放棄通用性,設計一款只為 Transformer 推論而生的 ASIC。其核心邏輯是:大模型架構已經收斂到 Transformer 為絕對主流,既然推論只需要做一件事,
這些新創公司驗證了一個關鍵命題:在推論場景下,
CUDA 護城河正在三個層面同時被侵蝕
市場長期以來將 Nvidia 的 CUDA 軟體生態視為牢不可破的護城河。但數據告訴了一個不同的故事。
第一層:編譯器
OpenAI 開發的 Triton 編譯器,已經在端到端 LLM 推論中達到了手寫 CUDA 核心 76% 至 82% 的性能。2025 年 10 月的第三屆 Triton 開發者大會上,Intel、AMD、Qualcomm、
第二層:框架
Google 和 Meta(PyTorch 的創建者)正在合作開發 TorchTPU,目標是讓 TPU 與 PyTorch 完全兼容。如果成功,全球 75% 使用 PyTorch 的 ML 研究人員將可以無縫切換到 TPU,無需改寫任何代碼。Google 正考慮開源部分 TorchTPU 以加速採用。
第三層:部署基建
2026 年 1 月,主流推論引擎 vLLM 正式將 AMD ROCm 列為「一等平台」(first-class platform),建立了持續整合管線,每次代碼提交都在 AMD 矽片上測試。官方 Docker 映像已於 1 月 6 日發布。TPU 在 vLLM 中的支持仍處於實驗階段,但已經可用。
最有說服力的不是技術指標,而是商業行為。Meta 在同一週內簽下 TPU 租用協議和 AMD GPU 訂單。
CUDA 的護城河沒有消失,但它已經從「不可逾越的城牆」變成了「
供應鏈的真正咽喉:TSMC 和 HBM
無論推論晶片市場哪一家勝出,都繞不開兩個物理瓶頸:
TSMC 3nm:四方爭奪戰
台積電的 3nm 製程面臨史無前例的產能緊缺。預計至 2026 年底,3nm 總月產能上限約為 14 至 14.5 萬片晶圓。產能分配估算如下:Apple 佔約 35% 至 40%,Nvidia 佔約 30% 至 35%(下一代 Vera Rubin 架構晶片面積巨大,將吞噬海量產能),Google/
台積電已通知客戶 2026 年將對次 5nm 節點漲價 3% 至 5%。先進封裝(CoWoS)同樣是瓶頸,每顆 GPU 增加約 $1,000 的額外成本。二線 AI 晶片公司幾乎不可能獲得足夠的 3nm 代工配額。
這意味着一個殘酷的現實:即使 ASIC 在性價比上完勝 GPU,其取代 GPU 的速度也受限於台積電能分配多少產能給它。同理,Nvidia 想要無限擴張也不可能,因為台積電的產能就這麼多。
HBM:全球短缺與三星的反擊
高頻寬記憶體(HBM)是 AI 晶片最關鍵的組件之一,也是目前全球短缺最嚴重的半導體產品。
此前的市佔格局中,SK Hynix 以約 62% 的份額絕對主導,Micron 約 21% 位居第二,三星因未能及時通過 Nvidia 的 HBM3E 資格驗證,份額從 41% 暴跌至 17%。
但在最新一代 HBM4 上,三星實現了強勢反擊。2026 年 1 月底,三星的 HBM4 正式通過了 Nvidia 的全部品質認證,2 月已開始量產,產品將用於 Nvidia 下一代 Vera Rubin AI 加速器。三星的 HBM4 採用第六代 10nm 級(1c)DRAM 和 4nm 邏輯基板,傳輸速度達到 11Gbps 以上,遠超 JEDEC 的 HBM4 標準(8Gbps)。三星已將 1c DRAM 產能擴展至月產 6 萬片晶圓,並計劃將 HBM4 產能再提升 70%。分析師估計,三星到 2026 年底有望將 HBM4 市佔率拉回至 30%。
但 HBM 的全球短缺已經產生了嚴重的連鎖效應。
核心含義是:無論推論晶片市場最終形成什麼格局,先進封裝(
筆者的判斷
推論晶片市場正在從 Nvidia 單極壟斷,走向一個競爭性的多極格局。高盛預測,到 2027 年,非 GPU 晶片在全球 AI 伺服器中的出貨佔比將從 2024 年的 36% 升至 45%。
這不是一個「GPU 已死」的故事。GPU 在訓練領域仍然是不可替代的,在推論領域也將持續佔據重要份額。
Nvidia 收購 Groq、發布推論專用架構、為客戶提供靈活的部署選項。
對於仍然堅持「GPU 絕對無敵」的觀點,我的建議是:不需要看分析師的報告,
免責聲明
本文內容僅供資訊及教育用途,不構成任何投資建議。