2025 年 11 月,AI 圈上演了一場「神仙打架」。
OpenAI 在 11/12 推出 GPT-5.1,Google 在 11/18 端出 Gemini 3 Pro,Anthropic 在 11/24 放出 Claude Opus 4.5。三大巨頭在兩週內輪番轟炸,搞得我這幾天一直在各家之間切換測試。
身為每天都在用 AI 工具的人,我最想知道的問題很簡單:到底該選哪個?
這篇文章我會用最直白的方式,把三家的差異攤開來講。有我自己的實測體驗,也有官方數據佐證,不講廢話,直接上乾貨。
Claude Opus 4.5 是什麼?一句話講完
簡單說,它是 Anthropic 目前最強的模型,主打「寫程式」和「代理任務」。
Anthropic 說它是「世界上最適合寫程式的 AI」,聽起來很狂對吧?但看完數據,我覺得他們還真不是在吹牛——Claude Opus 4.5 在 SWE-bench(軟體工程測試)拿下 80.9%,是史上第一個突破 80% 的模型。
💡 這分數什麼概念?GPT-5.1 特化版拿 77.9%,Gemini 3 Pro 拿 76.2%。Claude 直接領先將近 4 個百分點,就像考試人家考 76 分,你考 81 分,差距其實蠻明顯的。
不過,寫程式厲害不代表什麼都厲害。讓我們繼續往下看。
我實際用了一天 Claude Opus 4.5,最有感的是這個

先講結論:速度提升讓我嚇到。
我今天一整天都在用 Claude Opus 4.5,主要拿來寫文章和做投資組合的 Deep Research。之前用 Sonnet 4.5 做同樣的 deep search,大概要跑一個小時。今天丟給 Opus 4.5?十幾分鐘就搞定了。
不是快一點點,是快了將近 5 倍。
這感覺就像從搭公車換成搭高鐵,目的地一樣,但到達的時間完全不同。
📌 另一個驚喜:來回修改的次數變少了。以前寫文章可能要改三四輪才能定稿,現在第一版就已經八九成接近我要的東西。這種「一次到位」的感覺,用過真的回不去。
但也不是沒有踩坑。
我發現 Opus 4.5 的用量上限比 Sonnet 更容易達到。可能因為它比較耗運算資源,同樣的訂閱方案,額度消耗得更快。如果你是重度用戶,這點要先有心理準備。
三家 AI 怎麼選?看這張表就夠了
與其放一堆表格,我直接整理成一張「選擇指南」:
| 你的需求 | 最佳選擇 | 原因 |
|---|---|---|
| 寫程式、軟體開發 | Claude Opus 4.5 | SWE-bench 80.9%,業界最高 |
| 科學研究、深度推理 | Gemini 3 Pro | GPQA Diamond 91.9%,博士級推理最強 |
| 預算有限、高性價比 | GPT-5.1 | API 價格只有 Claude 的 1/3 |
| 處理超長文件 | Gemini 3 Pro | 100 萬 tokens 上下文,是 Claude 的 5 倍 |
| 需要生成圖片 | Gemini 3 Pro | 三家中唯一支援多模態輸出 |
這張表基本上可以解決 80% 的選擇困難。但如果你想了解更多細節,繼續往下看。
推理和數學能力:這題 Gemini 3 Pro 贏了
寫程式是 Claude 的天下,但如果你的工作是做研究、寫論文、處理複雜的科學問題,情況就不一樣了。
Gemini 3 Pro 在 GPQA Diamond(博士級推理測試)拿下 91.9%,Claude Opus 4.5 是 87.0%,GPT-5.1 是 88.1%。
🔬 白話翻譯:GPQA Diamond 是用來測試 AI 能不能回答「研究生和博士才會遇到的專業問題」。Gemini 3 Pro 在這個領域領先將近 4-5 個百分點,差距不小。
數學方面也是類似的情況。AIME 2025(美國數學邀請賽等級的題目),Gemini 3 Pro 拿 95.0%,GPT-5.1 拿 94.6%,Claude Opus 4.5 大約 90%。
如果你是研究人員、數據科學家、或是常常需要處理複雜推理的工作,Gemini 3 Pro 可能更適合你。它還有個「Deep Think」模式,可以把推理分數再往上推——GPQA Diamond 開了 Deep Think 之後可以到 93.8%。
價格比較:GPT-5.1 便宜到有點誇張
談到錢,這是很多人最關心的部分。
假設你一個月用掉 100 萬輸入 tokens、50 萬輸出 tokens,三家的成本大概是:
- Claude Opus 4.5:$17.5
- Gemini 3 Pro:$8
- GPT-5.1:$6.25
GPT-5.1 的價格只有 Claude 的三分之一。這價差就像同樣吃一頓飯,一家收你 500 元,另一家只要 180 元。
⚠️ 但這裡有個陷阱:根據 Anthropic 官方數據,Claude Opus 4.5 做任務時消耗的 token 比其他模型少 50-76%。所以實際成本差距沒有表面看起來那麼大。就像油耗比較低的車,雖然車價貴一點,但長期加油錢省下來,總成本可能差不多。
對於一般消費者,三家訂閱價格都差不多($19.99-$20/月),差異主要在功能和使用限制上。
Claude Opus 4.5 優缺點:講真話時間
✅ 優點
1️⃣ 速度提升超有感:同樣的 deep search,從 Sonnet 的一小時變成十幾分鐘
2️⃣ 一次到位率更高:寫文章不用來回改好幾輪,省下的時間非常可觀
3️⃣ 寫程式能力業界第一:SWE-bench 80.9%,這成績目前沒人能打
4️⃣ 價格比上一代便宜 66%:之前 Opus 要 $15/$75,現在 $5/$25
❌ 缺點
1️⃣ 不能生成圖片:Gemini 3 Pro 可以,這點完敗
2️⃣ 上下文窗口只有 20 萬 tokens:Gemini 有 100 萬,差了 5 倍
3️⃣ 用量上限更容易踩到:這是我今天實際遇到的問題,重度用戶要注意
4️⃣ 博士級推理輸給 Gemini:如果你的工作需要深度學術推理,Gemini 更適合
結論:沒有最好的 AI,只有最適合你的

用了一整天 Claude Opus 4.5,我的心得是:它是專才,不是通才。
如果你跟我一樣,主要用 AI 來寫文章、做研究、處理需要「快速且精準」的任務,Claude Opus 4.5 絕對值得一試。速度提升和「一次到位」這兩點,對我來說就已經值回票價。
但它不是萬能的。用量上限比較嚴格、不能生成圖片、推理能力也不是最頂尖。如果你的需求剛好踩在這些弱點上,可能要考慮其他選項。
🎯 我的選擇邏輯:需要快速產出高品質內容 → Claude Opus 4.5。需要深度學術推理或處理超長文件 → Gemini 3 Pro。預算有限但什麼都想試試 → GPT-5.1。
沒有萬能的 AI,只有最適合你任務的那一個。
你打算先試哪個?
延伸閱讀:
- 2025 年最值得試的 8 款免費 AI 工具(我每天都在用)
- 靈光AI評測:一句話就做出遊戲?剛上線就爆紅的AI工具實測分析【2025】
- Google NotebookLM 完整教學:從入門到進階,打造你的 AI 研究助理
最後更新:2025 年 11 月 25 日
本文資料來源:Anthropic 官方公告、OpenAI 官方文件、Google DeepMind 官方部落格、TechCrunch、VentureBeat、Simon Willison's Weblog、個人實測