Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較：實測後告訴你怎麼選

2025 年 11 月，AI 圈上演了一場「神仙打架」。

OpenAI 在 11/12 推出 GPT-5.1，Google 在 11/18 端出 Gemini 3 Pro，Anthropic 在 11/24 放出 Claude Opus 4.5。三大巨頭在兩週內輪番轟炸，搞得我這幾天一直在各家之間切換測試。

身為每天都在用 AI 工具的人，我最想知道的問題很簡單：到底該選哪個？

這篇文章我會用最直白的方式，把三家的差異攤開來講。有我自己的實測體驗，也有官方數據佐證，不講廢話，直接上乾貨。

Claude Opus 4.5 是什麼？一句話講完

簡單說，它是 Anthropic 目前最強的模型，主打「寫程式」和「代理任務」。

Anthropic 說它是「世界上最適合寫程式的 AI」，聽起來很狂對吧？但看完數據，我覺得他們還真不是在吹牛——Claude Opus 4.5 在 SWE-bench（軟體工程測試）拿下 80.9%，是史上第一個突破 80% 的模型。

💡 這分數什麼概念？GPT-5.1 特化版拿 77.9%，Gemini 3 Pro 拿 76.2%。Claude 直接領先將近 4 個百分點，就像考試人家考 76 分，你考 81 分，差距其實蠻明顯的。

不過，寫程式厲害不代表什麼都厲害。讓我們繼續往下看。

我實際用了一天 Claude Opus 4.5，最有感的是這個

先講結論：速度提升讓我嚇到。

我今天一整天都在用 Claude Opus 4.5，主要拿來寫文章和做投資組合的 Deep Research。之前用 Sonnet 4.5 做同樣的 deep search，大概要跑一個小時。今天丟給 Opus 4.5？十幾分鐘就搞定了。

不是快一點點，是快了將近 5 倍。

這感覺就像從搭公車換成搭高鐵，目的地一樣，但到達的時間完全不同。

📌 另一個驚喜：來回修改的次數變少了。以前寫文章可能要改三四輪才能定稿，現在第一版就已經八九成接近我要的東西。這種「一次到位」的感覺，用過真的回不去。

但也不是沒有踩坑。

我發現 Opus 4.5 的用量上限比 Sonnet 更容易達到。可能因為它比較耗運算資源，同樣的訂閱方案，額度消耗得更快。如果你是重度用戶，這點要先有心理準備。

三家 AI 怎麼選？看這張表就夠了

與其放一堆表格，我直接整理成一張「選擇指南」：

你的需求	最佳選擇	原因
寫程式、軟體開發	Claude Opus 4.5	SWE-bench 80.9%，業界最高
科學研究、深度推理	Gemini 3 Pro	GPQA Diamond 91.9%，博士級推理最強
預算有限、高性價比	GPT-5.1	API 價格只有 Claude 的 1/3
處理超長文件	Gemini 3 Pro	100 萬 tokens 上下文，是 Claude 的 5 倍
需要生成圖片	Gemini 3 Pro	三家中唯一支援多模態輸出

這張表基本上可以解決 80% 的選擇困難。但如果你想了解更多細節，繼續往下看。

推理和數學能力：這題 Gemini 3 Pro 贏了

寫程式是 Claude 的天下，但如果你的工作是做研究、寫論文、處理複雜的科學問題，情況就不一樣了。

Gemini 3 Pro 在 GPQA Diamond（博士級推理測試）拿下 91.9%，Claude Opus 4.5 是 87.0%，GPT-5.1 是 88.1%。

🔬 白話翻譯：GPQA Diamond 是用來測試 AI 能不能回答「研究生和博士才會遇到的專業問題」。Gemini 3 Pro 在這個領域領先將近 4-5 個百分點，差距不小。

數學方面也是類似的情況。AIME 2025（美國數學邀請賽等級的題目），Gemini 3 Pro 拿 95.0%，GPT-5.1 拿 94.6%，Claude Opus 4.5 大約 90%。

如果你是研究人員、數據科學家、或是常常需要處理複雜推理的工作，Gemini 3 Pro 可能更適合你。它還有個「Deep Think」模式，可以把推理分數再往上推——GPQA Diamond 開了 Deep Think 之後可以到 93.8%。

價格比較：GPT-5.1 便宜到有點誇張

談到錢，這是很多人最關心的部分。

假設你一個月用掉 100 萬輸入 tokens、50 萬輸出 tokens，三家的成本大概是：

Claude Opus 4.5：$17.5
Gemini 3 Pro：$8
GPT-5.1：$6.25

GPT-5.1 的價格只有 Claude 的三分之一。這價差就像同樣吃一頓飯，一家收你 500 元，另一家只要 180 元。

⚠️ 但這裡有個陷阱：根據 Anthropic 官方數據，Claude Opus 4.5 做任務時消耗的 token 比其他模型少 50-76%。所以實際成本差距沒有表面看起來那麼大。就像油耗比較低的車，雖然車價貴一點，但長期加油錢省下來，總成本可能差不多。

對於一般消費者，三家訂閱價格都差不多（$19.99-$20/月），差異主要在功能和使用限制上。

Claude Opus 4.5 優缺點：講真話時間

✅ 優點

1️⃣ 速度提升超有感：同樣的 deep search，從 Sonnet 的一小時變成十幾分鐘

2️⃣ 一次到位率更高：寫文章不用來回改好幾輪，省下的時間非常可觀

3️⃣ 寫程式能力業界第一：SWE-bench 80.9%，這成績目前沒人能打

4️⃣ 價格比上一代便宜 66%：之前 Opus 要 $15/$75，現在 $5/$25

❌ 缺點

1️⃣ 不能生成圖片：Gemini 3 Pro 可以，這點完敗

2️⃣ 上下文窗口只有 20 萬 tokens：Gemini 有 100 萬，差了 5 倍

3️⃣ 用量上限更容易踩到：這是我今天實際遇到的問題，重度用戶要注意

4️⃣ 博士級推理輸給 Gemini：如果你的工作需要深度學術推理，Gemini 更適合

結論：沒有最好的 AI，只有最適合你的

選擇適合的 AI 工具示意圖，站在三岔路口的人面對三個方向，象徵根據需求選擇 Claude、Gemini 或 GPT

用了一整天 Claude Opus 4.5，我的心得是：它是專才，不是通才。

如果你跟我一樣，主要用 AI 來寫文章、做研究、處理需要「快速且精準」的任務，Claude Opus 4.5 絕對值得一試。速度提升和「一次到位」這兩點，對我來說就已經值回票價。

但它不是萬能的。用量上限比較嚴格、不能生成圖片、推理能力也不是最頂尖。如果你的需求剛好踩在這些弱點上，可能要考慮其他選項。

🎯 我的選擇邏輯：需要快速產出高品質內容 → Claude Opus 4.5。需要深度學術推理或處理超長文件 → Gemini 3 Pro。預算有限但什麼都想試試 → GPT-5.1。

沒有萬能的 AI，只有最適合你任務的那一個。

你打算先試哪個？

延伸閱讀：

最後更新：2025 年 11 月 25 日

本文資料來源：Anthropic 官方公告、OpenAI 官方文件、Google DeepMind 官方部落格、TechCrunch、VentureBeat、Simon Willison's Weblog、個人實測

文字會帶你去哪裡？我也不知道。

但我們可以一起走。
每週一封信，分享創作靈感、人性探索、與網路世界的小秘密。

👉 如果你不喜歡，也可以隨時取消訂閱，沒壓力。

👉 這封信不是給所有人，只是剛好也給你。

👉 不怕錯過什麼，只怕錯過你該看到的那一句話。

你可以隨時取消訂閱。欲了解更多詳情，請參閱我們的隱私權政策。

Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較：實測後告訴你怎麼選

Claude Opus 4.5 是什麼？一句話講完

我實際用了一天 Claude Opus 4.5，最有感的是這個

三家 AI 怎麼選？看這張表就夠了

推理和數學能力：這題 Gemini 3 Pro 贏了

價格比較：GPT-5.1 便宜到有點誇張

Claude Opus 4.5 優缺點：講真話時間

✅ 優點

❌ 缺點

結論：沒有最好的 AI，只有最適合你的

延伸閱讀

今日瀏覽

總瀏覽

Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較：實測後告訴你怎麼選

Claude Opus 4.5 是什麼？一句話講完

我實際用了一天 Claude Opus 4.5，最有感的是這個

三家 AI 怎麼選？看這張表就夠了

推理和數學能力：這題 Gemini 3 Pro 贏了

價格比較：GPT-5.1 便宜到有點誇張

Claude Opus 4.5 優缺點：講真話時間

✅ 優點

❌ 缺點

結論：沒有最好的 AI，只有最適合你的

文字會帶你去哪裡？我也不知道。

訂閱成功！你的名字，我已記下

延伸閱讀

靈光AI評測:一句話就做出遊戲?剛上線就爆紅的AI工具實測分析【2025】

2026 年最值得試的 8 款免費 AI 工具（我每天都在用）

n8n 教學完全指南：開源自動化工具實戰，打造你的 AI 工作流

Google NotebookLM 完整教學:從入門到進階,打造你的 AI 研究助理