Skip to main content
Home
News Repo 2026 (v05)
since 2026-01-01

Breadcrumb

  1. Home
  2. GPU 不再是唯一答案:AI 推論晶片的萬億美元戰爭

GPU 不再是唯一答案:AI 推論晶片的萬億美元戰爭

KF Cheng
By KF Cheng on Mon, 2026-03-09 - 01:55
Short Title
GPU 不再是唯一答案:AI 推論晶片的萬億美元戰爭
Private
Public
Image
Financial Analysis Report 謎米財經分析報告
2026-03-09

日期:2026年3月3日 作者:Kila

【超級懶人包】

  • Nvidia 幾乎獨佔了整個 AI 產業鏈的利潤:數據中心季度收入 $623 億,毛利率 75%,市值超過 $3 萬億。但它最大的客戶們正在集體反抗。Anthropic 簽下 Google 史上最大 TPU 訂單(高達 100 萬顆),Meta 在向 Nvidia 下單一週後就向 AMD 和 Google 各簽數十億美元訂單,OpenAI 首次用非 GPU 晶片(Cerebras)跑主力模型推論,甚至 Nvidia 自己也花了 $200 億收購推論晶片公司 Groq。這些動作指向一個結論:AI 產業正從「訓練軍備競賽」轉入「推論成本戰爭」,而在推論這個佔未來 75% 到 80% 算力的戰場上,通用 GPU 不再是唯一選項,甚至不一定是最佳選項。

  • 預訓練是一次性資本開支,推論是永續營運開支,兩者成本比可達 1:77。Google TPU 在大規模推論下 TCO 比 H100 低 44% 到 56%。摩根大通預計 Google 2027 年將部署 600 到 700 萬顆 TPU。高盛預測 2027 年非 GPU 晶片在 AI 伺服器的出貨佔比將從 36% 升至 45%。

  • TSMC 3nm 產能上限約每月 14 到 14.5 萬片晶圓,四大陣營搶奪。即使 ASIC 性價比完勝,產能瓶頸也會限制其取代 GPU 的速度。

Nvidia 賺走了整個 AI 的利潤,它的客戶不高興了

Nvidia 是過去兩年 AI 革命中最大的贏家,而且可能是唯一穩賺不賠的贏家。2026 財年第四季度,數據中心營收達到 $623 億美元,毛利率高達 75%,市值超過 $3 萬億。從 OpenAI 到 Google、從 Meta 到 Anthropic,幾乎所有 AI 公司都在向 Nvidia 付出天文數字的硬體費用。簡單來說,整個 AI 產業鏈的大部分利潤,最終都流進了 Nvidia 的口袋。

但 Nvidia 最大的客戶們,終於開始反抗了。

2026 年初,三件事幾乎同時發生,每一件都指向同一個結論。第一,Nvidia 自己斥資 $200 億收購推論晶片公司 Groq,並計劃在 3 月的 GTC 大會上發布融合 Groq「語言處理單元」(LPU)技術的全新推論晶片。CEO 黃仁勛稱之為「世界從未見過的系統」。一家靠 GPU 建立 $3 萬億帝國的公司,花 $200 億去買一項完全不同架構的技術來補強推論能力,這本身就是對 GPU 推論短板最坦率的承認。

第二,AI 巨頭們集體「去風險化」。Anthropic 簽下 Google 歷史上最大的 TPU 訂單,承諾使用高達 100 萬顆 TPU,金額達 $210 億美元。Meta 在向 Nvidia 下達巨額訂單僅一週後,就轉頭向 AMD 簽下 6 吉瓦的算力訂單,同時與 Google 就數十億美元的 TPU 租用展開談判。即使是 Nvidia 最親密的合作夥伴 OpenAI,也與 Cerebras 達成合作,首次在主力模型 GPT-5.3 Codex 上大規模採用非 GPU 晶片完成推論部署。據路透社報道,OpenAI 曾多次對 Nvidia 晶片的響應速度表達不滿。

第三,摩根大通流出的一份產能報告顯示:Google 計劃在 2027 年部署 600 至 700 萬顆 TPU,大部分將供應給 Anthropic、OpenAI、Meta 及 Apple 等外部客戶。

這三件事的訊號再清楚不過:「AI 推論一定要用 Nvidia GPU」這個過去兩年市場深信不疑的假設,正在被全球最精明的 AI 公司用真金白銀推翻。

蓋工廠 vs. 開工廠:一個決定萬億美元走向的區別

要理解為什麼推論晶片市場如此重要,先要理解一個最基本的區別:預訓練(Pre-training)和推論(Inference)到底有什麼不同。

最簡單的比喻是這樣的。預訓練就像從零蓋一座工廠。你花幾個月的時間、投入數億美元的資源,讓 AI 模型「學習」人類知識的精華。這個過程極其耗費算力,需要數以萬計的頂尖晶片 24 小時不停運轉,工程難度極高,充滿未知挑戰。但它只需要做一次(或少數幾次)。一旦模型訓練完成,「工廠」就蓋好了。

推論則是工廠蓋好之後,每天 24 小時接訂單、出貨的日常營運。每當你向 ChatGPT 提問、讓 Claude 寫一段代碼、用 Gemini 翻譯一篇文章,背後都是推論在運作。它不像訓練那樣需要極端的計算強度,但它永遠不會停,而且隨着用戶數量線性增長。

這個區別在財務上的含義是驚人的。一個頂尖 AI 模型的訓練成本大約是 $1 至 2 億美元(一次性資本開支)。但這個模型投入服務後,5 年累計的推論成本可以高達 $100 億美元以上(持續性營運開支)。訓練與推論的成本比,可以達到 1:50 甚至 1:77。

這就是為什麼 AI 研究機構 Epoch AI 預測,到 2030 年,推論將佔全球 AI 算力的 75% 至 80%。再加上 AI Agent(智能體)的崛起,推論需求的天花板正在被不斷推高。一個 AI Agent 的算力消耗可達同參數大語言模型的 10 倍以上,因為 Agent 需要進行多輪推理、規劃、工具調用,每一步都在消耗推論算力。

所以,推論晶片市場不是一個「幾百億美元」的市場。它是一個萬億美元級別的市場。因為它不是一次性採購,而是永續的、不斷膨脹的營運開支。

上班不需要每天搭的士

市場上有一種根深蒂固的觀點:Nvidia GPU 性能絕對無敵,所以 GPU 在 AI 領域的地位不可撼動。

性能確實很好。這一點沒有人否認。但問題是:AI 的不同任務,是否都需要用到最頂尖性能的晶片?

打一個簡單的比方。的士確實是最快、最方便的交通工具,但如果你每天上班都搭的士,一年下來的車費可能比買一台車還貴。推論就是這種「每天都要做」的事情。它不需要最強的靈活性或最高的算力峰值,它需要的是穩定、高效、低成本地重複做同一件標準化的工作。

這裏就要解釋 GPU 和 ASIC(特殊應用積體電路,如 Google TPU)的本質區別。

GPU 是一個通才運動員,能打多種運動,樣樣都不差。它之所以稱為「圖形處理器」,是因為它最初就是為遊戲畫面渲染而設計的,後來被 Nvidia 巧妙地改造成 AI 訓練的利器。但正因為它是通才,它身上帶着大量與 AI 推論無關的硬體功能(紋理單元、光柵化模塊、顯示控制器等),這些在跑 AI 推論時完全閒置。研究顯示,GPU 在推論場景中浪費了 15% 至 30% 的算力在這些無關操作上。

ASIC 則是一位奧運短跑選手。它只做一件事,但做到了極致。Google 的 TPU 從第一天起就是為矩陣乘法和張量運算而設計的,每一個電晶體、每一條數據通路,都在為這一個目標服務。

蓋工廠(訓練)的時候,你不知道會遇到什麼工程難題。你需要新型的模型架構、自定義的計算操作、大量的實驗與調試。這時候 GPU 的萬能靈活性無可取代。但工廠日常生產(推論)的動作已經高度標準化了。當前絕大多數 AI 模型的推論,本質上就是 Transformer 架構下的矩陣乘法。動作已知、模式固定、重複千億次。這時候你需要的不是通才運動員,而是專門化的流水線,跑得快、跑得省電、跑得便宜。

有人可能會質疑:ASIC 真的能在推論中佔有一席之地嗎?它的低靈活性難道不是致命傷嗎?

對於這個問題,其實不需要看分析師的報告。只需要看 Google、Meta、Anthropic、OpenAI 的實際行動。這些公司擁有全球最多的 AI 工程師和最精密的成本模型,它們不是在寫研究報告,而是在用數十億、數百億美元的真實採購決策做出回答。它們的答案是:ASIC 在推論場景中不只是「佔有一席之地」,它正在成為首選。

而 ASIC 過去最大的劣勢,即「低靈活性」,恰恰在推論時代被大幅削弱了。原因很簡單:推論工作負載本身就不需要太高的靈活性。模型架構已經收斂到以 Transformer 為絕對主流,推論所需的計算操作高度標準化。ASIC 的「只做一件事」反而完美匹配了推論的「只需要做一件事」。

最後,還有一個常被忽略的供應問題。即使你願意付高價買最頂尖的 Nvidia GPU 來跑推論,Nvidia 也未必能生產足夠的晶片來滿足全球推論的龐大需求。推論的規模遠遠大於訓練。如果所有推論都要靠 GPU 完成,全球的 GPU 產能根本不夠用。ASIC 的存在,不只是為了省錢,也是為了填補 GPU 供應不足的結構性缺口。

誰的折舊在燃燒?

還有一個被市場低估的問題:Nvidia 的產品更新節奏,正在對科技巨頭的資產負債表構成持續壓力。

Nvidia 幾乎每年更新一代架構。2023 年是 H100,2024 年推出 H200 和 B200,2025 年是 GB200,2026 年下半年即將發布下一代 Vera Rubin。每一代的性能跳升幅度都非常大,這本來是好事,但對已經花了幾十億美元買上一代晶片的客戶來說,新一代的推出等於宣告舊晶片的「每 Token 成本」相對大幅惡化。

換句話說,你去年花 $30 億買的 GPU 集群,今年在新一代面前性價比可能已經打了五折。這些晶片的折舊壓力非常大,對科技巨頭的資產負債表來說是沉重的負擔。更諷刺的是,如果你不追買新一代,你的推論成本就會比競爭對手高;如果你追買,等於在不斷地把舊資產提前報廢。這是一個無解的循環。

這種動態催生了一個非常合理的應對策略:訓練和推論,可以用不同的晶片策略。

訓練是與時間賽跑的。誰先訓練出更強的模型,誰就有先發優勢。所以在訓練上追求最頂尖的晶片是合理的。你不惜代價買最新的 GPU,因為訓練的機會成本遠大於硬體成本。

但推論不同。推論是穩態工作負載,24 小時不停地跑,對「最新最強」的需求遠低於對「穩定、便宜、省電」的需求。使用上一代甚至上兩代的 GPU,再加上 TPU 等 ASIC 混合部署,在 TCO 和折舊上都更合理。ASIC 的架構更新週期比 GPU 慢,折舊壓力也更小,同時在推論場景下的能效比往往更優。

未來的算力架構,很可能不是「GPU vs. ASIC」的二選一,而是「最頂尖 GPU 負責訓練,舊 GPU 加上 ASIC 負責推論」的分層部署。

這對 Nvidia 的含義是什麼?訓練市場,它仍然是絕對的王者。但推論市場的利潤將被大幅稀釋。而推論,恰恰是那個佔 75% 至 80% 的市場。

真金白銀的 TCO 比較

說了這麼多邏輯,最終一切都要用數字說話。

以一個 1,000 顆晶片的集群、24 小時運行推論工作負載、80% 使用率為基準,3 年的總擁有成本(TCO)對比如下:

Image
GPU 不再是唯一答案:AI 推論晶片的萬億美元戰爭

最大的差距來自兩個地方:硬體成本和電力。電力差距尤其驚人。TPU v6 的功耗是 300W,H100 是 700W,最新的 B200 更高達 1,000W。當你運行 10 萬顆以上晶片的時候,這個 2 至 3 倍的功耗差距,等於整個冰島一年的耗電量。

摩根士丹利最新的「AI 推論工廠」利潤率模型提供了另一個角度:採用 Nvidia GB200 的推論工廠利潤率為 77.6%,Google TPU v6e 為 74.9%,AWS Trainium 為 68.5%。所有主流方案都能盈利,但 TPU 在成本結構上的優勢已被大量真實部署驗證:Midjourney 遷移至 TPU 後推論成本暴降 65%、Character.AI 實現 3.8 倍成本改善、Perplexity AI 的整個推論棧都運行在 TPU 之上。

最能說明問題的一個案例:根據半導體研究機構 SemiAnalysis 的報道,OpenAI 甚至不需要真的遷移到 TPU。僅僅靠「我們正在認真考慮轉向 TPU」這個可信的威脅,OpenAI 就成功從 Nvidia 談到了整支 GPU 艦隊約 30% 的折扣。

當一個威脅本身就能榨出 30% 的折扣時,定價權的天平已經在移動了。

(下篇預告:《推論戰場的五大勢力:從 CUDA 護城河到 TSMC 產能戰》將詳細拆解 Nvidia、Google TPU、AMD、雲端巨頭自研晶片與新創公司的技術路線、護城河和致命弱點。)

免責聲明

本文內容僅供資訊及教育用途,不構成任何投資建議。文中提及的公司、產品及數據均來自公開資料,作者可能持有或不持有相關證券。讀者應自行判斷並在作出任何投資決定前諮詢專業顧問。

 

投資理財
謎米財經分析報告
About BYOS

Build-Your-Own-System is a practice to build digital solutions for business and enterprise based on integration of open source technology and web resources, an excellent approach for digital transformation by practice and experience.  It does not require IT background or programming, because business analysis, experiment and digital innovation is what it is about.

BAYGO

Build-as-you-GO is the strategy behind building a site, and the flexibility of BYOS architecture supports this strategy, which makes everybody the best designer for their own system over time.

More about BayGO

BYOS Workshops

It is the skillset for the digital era.  No IT background is needed.  No programming is needed. It is just a matter of hands-on practice.  You'll be surprised you can do it too.

Our Services

We provide services in:

  • Agile System Building
  • Digital Transformation Consultancy
  • Knowledge Management
  • Combined Consultancy
  • BYOS Workshops
  • BYOS Mentorship
A self-hosted platform for knowledge management
Built by KF Cheng    ©2026
Self-hosted Platform: KHub v4.00.62
Running on Ubuntu 22.04 PHP 8.1 MariaDB 10.10 Nginx 1.18
Clear keys input element