市場傳出Google拿下Anthropic 5年2000億美元的訂單,Google有望提升對TPU晶片及TPU伺服器的投資。消息一出,Google母公司Alphabet 5日股價上漲約2%,也帶動聯發科6日攻上漲停,鴻海及廣達也大漲逾5%。這顆被稱為「AI加速器」的晶片,究竟是什麼?為何能讓科技巨頭和投資人同步沸騰?
本文將帶你了解TPU的定義、和GPU的本質差異、主要應用場景、發展過程,以及台股有哪些TPU概念股。
- TPU是什麼?
- TPU為什麼會出現?為什麼Google要自己造晶片?
- TPU和GPU差在哪?3個關鍵差異
- TPU能做什麼?4個主要用途
- Google TPU發展歷程
- TPU市場有多大?
- TPU概念股有哪些?台股、美股整理
- TPU會取代GPU嗎?
TPU是什麼?
TPU全名為Tensor Processing Unit,中文譯為「張量處理單元」或「張量處理器」。它是一種ASIC(特定應用積體電路,又稱客製化晶片),由Google設計開發,主要的目的是讓AI模型矩陣運算跑得更快、更省電。
和CPU和GPU不同,TPU從設計起初,就是為了AI和機器學習任務打造。雖然TPU處理不了文書工作、不適合執行傳統金融交易,卻能提升AI矩陣計算速度數倍,相較於同世代GPU,也能消耗更少電量。
TPU為什麼會出現?為什麼Google要自己造晶片?
在2013年時,Google內部做了一項統計。假設有一天,數億名的使用者每天用語音搜尋3分鐘,Google資料中心的處理能力得要翻倍才有辦法滿足需求。
當時Google評估過各種現成的解決方案,沒有一個能同時滿足速度、功耗、成本3個條件。於是,Google啟動了祕密計畫:自己造晶片。
第一代TPU於2015年在Google資料中心低調上線,2016年才在Google I/O開發者大會上正式對外公開。在公開之前,它已默默參與了一場舉世矚目的競賽——AI AlphaGo挑戰韓國棋王李世乭,並且最終擊敗了他。
TPU和GPU差在哪?有3個關鍵差異
GPU不是已經很強了嗎?為什麼還需要TPU?要回答這個問題,必須先搞清楚TPU和GPU本質上的3個差異。
1.設計邏輯不同
GPU起初是為了遊戲和圖形工作設計的,目標是讓螢幕上的每個像素同時被計算、同時被渲染。大量平行的特性,剛好也適合用於AI訓練,於是學術界用GPU來跑神經網路,逐漸形成今天的格局。但GPU的底層邏輯仍是通用的平行運算,不是專門為了AI矩陣算術優化。
TPU的硬體架構起初就是為了矩陣乘法設計,採用一種叫「脈動陣列」(Systolic Array)的結構,讓晶片上數萬個乘加器彼此串連,形成一片「計算網格」。每一筆矩陣乘法的結果,不需要先存回記憶體再讀取,可以直接傳給下一個乘加器繼續算,大幅降低了記憶體存取次數,這就是TPU速度遠超過GPU的重要原因。
2.能效比不同
根據Google發表的數據,在神經網路推論任務上,第一代TPU的每瓦運算量,已達到當時主流GPU的30至80倍。到了v4世代,同等的AI訓練工作量,TPU叢集只需消耗對應GPU叢集約53至77%的電力,但運算吞吐量反而高出20至70%。
對資料中心來說,電費是僅次於硬體的最大成本。每瓦效能的差距,在幾千顆晶片的規模下,每年可以省下數億美元。
3.軟體生態系不同
GPU的護城河,很大程度來自於NVIDIA花了20年建立的CUDA生態,包含一整套開發工具、龐大的開源社群,以及幾乎所有主流框架的支援。在開發者習慣這套工具後,遷移門檻不低。
在執行前TPU程式碼,必須先經過XLA編譯器(可將高階AI程式碼轉換為可在GPU、CPU或TPU等硬體上高速執行的低階機器碼)轉換為TPU能執行的格式,對不熟悉Google生態系的開發者而言,需要一段學習期。不過,Google已讓Cloud TPU同時支援PyTorch和JAX,正在快速補齊生態系的完整度。
TPU能做什麼?4個主要用途
TPU的特點是大量且規律的矩陣計算,在以下4類場景使用最合適:
1.大型語言模型訓練
訓練Gemini這類千億參數規模的模型,需要極龐大的矩陣運算量。根據Google官方模型說明,Gemini系列從早期的Gemini Ultra到最新的Gemini 3 Pro,訓練過程全部使用自家TPU完成,線上推論服務也主要在TPU基礎設施上運行。
2.即時推論服務
「推論」是模型上線後,在回答使用者問題時產生的計算過程。用Google搜尋、讓Google翻譯一段文字、在Google相簿裡搜尋「海邊照片」,背後都有TPU在瞬間內完成推論。
3.圖像與語音辨識
Google街景地圖曾用TPU掃描並辨識整個街景資料庫裡的所有文字,整項工程花費不到5天就完成。
4.深度學習推薦模型
電商的個人化推薦、廣告投放、搜尋排名、影音平台的下一部影片預測,背後都靠一類深度學習推薦模型的架構運作。相較於CPU,使用TPU可大大加速此一過程。
Google TPU發展歷程
從2015年的第一代到2026年的第八代,每一世代TPU都不斷的突破上一代技術。以下是各世代的核心亮點:
TPU v1(2015年)
Google第一顆量產AI晶片,專攻推論、不支援訓練。晶片核心是256×256的整數乘加器陣列,共有6萬5536個運算單元同步工作,峰值算力92 TOPS,整片PCIe卡功耗僅75瓦。是AlphaGo對決棋王李世乭時的算力來源。
TPU v2(2017年)
產業界第一顆量產的深度學習訓練晶片。從整數運算擴展到浮點訓練,並引入Google Brain自創的bfloat16數值格式,這種格式能確保訓練過程中的數值穩定性,同時壓低記憶體頻寬需求。記憶體也從DDR3換成高頻寬HBM,頻寬從34 GB/s跳升至600 GB/s。256顆晶片串成一個 Pod,整體算力達11.5 PFLOPS。
TPU v3(2018年)
效能是前一代2倍以上,但發熱量也大幅增加。Google為此,首次在大規模伺服器中導入液冷系統。Pod擴展至1024顆晶片,算力突破100 PFLOPS。
TPU v4(2021年)
這一代的最大突破在互連架構。Google導入光學電路交換技術(OCS),用可程式化的光學反射鏡動態調整晶片間的連線,重新配置速度為毫秒級,且整套OCS設備的成本與耗電量都不到整個Pod的5%。
這讓Pod規模擴展到4096顆晶片,且任何一顆故障晶片都能無縫繞過。同一代晶片也加入了SparseCores專用處理器,讓Embedding查詢密集型的推薦系統模型加速5至7倍。
TPU v5e、v5p(2023年)
首次分成兩條產品線:v5e主打推論成本效益,v5p則專注大規模訓練。v5p在8960顆晶片的Pod規模下,算力超過v4 Pod的2倍;v5e相較v4的每美元推論效能提升2.5倍,延遲降低1.7倍。
v6e Trillium(2024年)
矩陣乘加器陣列從128×128擴大到256×256,每個時脈的運算量是前一代的4倍,加上時脈頻率提升,每顆晶片峰值效能整體躍升4.7倍。HBM容量與頻寬各翻倍,能效比較v5e提升67%。Google的Gemini 2.0就是在這一世代TPU上訓練的。
Ironwood,第七代(2025年)
首顆以「推論優先」為設計核心的TPU,每顆晶片搭載192 GB HBM,記憶體頻寬達7.37 TB/s,並首次原生支援FP8精度。9216顆晶片組成的超算叢集,整體算力達42.5 ExaFLOPS。
AI研究公司Anthropic在2026年起大規模部署Ironwood,部署規模最多100萬顆,用於訓練Claude模型。
TPU第八代(2026年,最新)
2026年4月22日正式發表,將訓練與推論晶片分成兩個獨立型號,TPU 8t負責訓練、TPU 8i負責推論。8t採用台積電2奈米製程搭配CoWoS-S先進封裝,一個叢集可容納9600顆晶片,算力是Ironwood的2.7倍;8i以低延遲推論為優化方向,效能成本比較前一代改善80%。聯發科在此世代的設計中扮演I/O Die開發的關鍵角色。
TPU市場有多大?
研調機構Global Market Insights的數據顯示,2024年全球TPU市場產值約53億美元,到2025年可望攀升至64億美元,而若以年複合成長率21.9%計算,至2034年可達379億美元規模。
從用途分布來看,神經網路訓練目前是最大宗,占整體需求的32.5%,其次是邊緣AI(23.3%)、推論服務(16.8%)、高效能運算(13.8%)。
在生產端,摩根士丹利預測Google TPU年產量在2027年可望達到500萬顆、2028年上看700萬顆,進度超出市場早先預期。分析師試算,每多出50萬顆TPU出貨,約可替Google貢獻130億美元的額外營收。
TPU概念股有哪些?台股、美股整理
台股
Google持續擴張TPU伺服器基礎建設,加上Meta洽談採購一旦成案,台灣供應鏈將迎接來自TPU訂單的第二條成長動能,以下是各環節的主要受益廠商:
晶片製造與設計
- 台積電:所有世代TPU的晶圓代工廠,也是CoWoS先進封裝的關鍵供應者,供應鏈地位最難取代。
- 聯發科:在TPU第七代負責I/O Die,第八代主導推論晶片TPU 8i設計,多家法人認為聯發科在TPU供應鏈中的貢獻長期遭低估。
- 創意:參與Google Axion CPU的製程設計服務。
封裝與材料
- 金像電:供應TPU v7所需的30至40層高階封裝基板。
- 欣興:提供Google伺服器載板。
- 台光電:供應高階覆銅板材料。
- 精成科:透過購入日本廠商Lincstech,間接卡位Google TPU供應鏈。
測試與周邊
- 京元電、精測、鴻勁:分別在AI晶片測試環節受益。
- 旺矽、穎崴、致茂:供應相關零組件。
- 英業達:以伺服器系統整合廠的角色,負責TPU v7伺服器組裝出貨。
美股
- Alphabet:TPU的研發者、最大使用者,同時透過Cloud TPU對外提供算力租用服務。
- 博通:從第一代起就與Google共同開發TPU的矽晶片設計,負責高速串列介面等關鍵技術,協議延伸至2031年。
- Celestica:TPU伺服器系統首選組裝廠,為Google首選的製造夥伴。
- Lumentum:供應TPU Pod的光學電路交換(OCS)元件。
- TTM Technologies:高密度PCB供應商,受益於新世代TPU複雜的電路板需求。
- Amkor Technology:CoWoS先進封裝的替代與補充供應商。
- Micron:HBM高頻寬記憶體供應商。
- Meta:租用Google Cloud TPU訓練和運行AI模型。
*本文不構成投資建議,概念股資訊僅供參考,投資前請自行評估風險。
TPU會取代GPU嗎?
答案是:現在不會,但長期競爭的格局已經開始產生變化。
GPU耗費20年累積的軟體生態,包括所有主流研究框架、大量的開源模型,全都綁在NVIDIA的CUDA體系上,這道護城河在短期內難以被TPU超越。
但TPU不再只是Google內部使用的武器,它已經吸引Anthropic這家AI語言模型領導企業簽下長期合約,也讓Meta認真評估採購可能性。
對台灣半導體供應鏈而言,這是一個改變結構的機會:未來不只有輝達的GPU訂單,還有TPU能雙軌並行。長期來看,訂單的風險更分散,國際能見度也更高。
延伸閱讀:
Anthropic效應,10檔受惠股出列!電子五哥手下敗將崛起
聯發科股價被喊上5千的關鍵!Google皮采一場13年前的豪賭
核稿編輯:陳虹伶