Claude Opus 4.7 是什麼？5 大升級重點一次看懂【2026 最新】

Claude Opus 4.7 到底升級了什麼？一張表看懂

先直接上數據。Opus 4.7 在編程、視覺、推理三個核心方向都有明顯提升，以下是官方公佈的 benchmark 對比：

項目	Opus 4.7	Opus 4.6	提升幅度
SWE-bench Verified（編程基準）	87.6%	80.8%	+6.8 個百分點
SWE-bench Pro（進階編程）	64.3%	53.4%	+10.9 個百分點
CursorBench（編程基準測試）	70%	58%	+12 個百分點
Rakuten-SWE-Bench（真實生產環境）	3x 解決率	基準	300% 提升
視覺推理 CharXiv Reasoning（無工具）	82.1%	69.1%	+13 個百分點
OfficeQA Pro（文件推理）	80.6%	57.1%	+23.5 個百分點
知識工作 Elo（GDPVal-AA）	1753	1619	+134 分
生物分子推理	74.0%	30.9%	+43.1 個百分點（2.4 倍）
長上下文推理（GraphWalks BFS 1M）	58.6%	41.2%	+17.4 個百分點
金融模組評分	0.813	0.767	+6%
長期連貫性（Vending-Bench 2）	$10,937	$8,018	+36%

幾個數字特別值得注意。CursorBench 從 58% 跳到 70%，這代表用 Claude 寫程式的人，實際體感會明顯變好——尤其是那些需要理解整個 codebase 的複雜任務。

另一個值得關注的是視覺推理：CharXiv Reasoning 從 69.1% 提升到 82.1%（+13pp），搭配工具更達到 91.0%。而生物分子推理從 30.9% 直接翻到 74.0%，接近 2.4 倍的提升，對科研用戶來說是天翻地覆的變化。

文件推理方面，OfficeQA Pro 的正確率從 57.1% 提升到 80.6%，遠超 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9%——這代表 Claude 在處理企業文件、合約、報表上的能力已經大幅甩開對手。

重點整理：Opus 4.7 的升級不是單點突破，而是全面提升——編程（+13%）、視覺推理（+13pp）、文件推理（80.6% 正確率）、生物分子推理（2.4 倍）、長上下文推理（+17.4pp），而且 API 定價完全不變。

編程能力大躍進：寫 Code 的人最該關注的升級

Opus 4.7 在編程方面的提升是這次更新的最大賣點。根據 Anthropic 官方數據，在 93 項編程基準測試中，Opus 4.7 比 Opus 4.6 提升了 13%，其中包含 4 項前代模型完全無法解決的任務。

這代表什麼？簡單說，就是 Opus 4.7 能處理更複雜的程式邏輯了。

我自己的觀察是，Opus 4.6 在處理單一檔案的 bug 修復很強，但碰到需要跨多個檔案、理解專案架構的任務時，偶爾會「迷路」。Opus 4.7 在 Rakuten-SWE-Bench 上的表現——解決真實生產問題的能力提升了 3 倍——正好對應了這個痛點。

更值得關注的是 effort level 的效率提升。根據官方內部測試數據，Opus 4.7 在 high effort level 下的表現（約 65.5%），已經超過 Opus 4.6 在 max effort level 的成績（約 61%）。換句話說，你花更少的 tokens 就能得到更好的結果。

在 max effort 下，Opus 4.7 更是衝到約 75%，比 Opus 4.6 高出 14 個百分點。

實際使用者的回饋也印證了這一點。Notion Agent 團隊表示 Opus 4.7 比 Opus 4.6 提升了 14%，而且用了更少的 tokens、減少了三分之一的工具調用錯誤。Hex 團隊則指出，低 effort 的 Opus 4.7 大致等於中 effort 的 Opus 4.6。

另外，Claude Code 也跟著更新了幾個實用功能：

/ultrareview 指令：專門用來做程式碼審查，不用再自己寫一大串提示詞請 AI 幫你 code review

所有方案預設 effort level 提升至 xhigh：這是新增的一個介於 high 和 max 之間的等級，讓你可以更細緻地控制 AI 投入多少算力來思考

Max 用戶解鎖自動模式（Auto Mode）：減少人工介入，讓 Claude Code 更自主地完成任務

補充一組數據：SWE-bench Multilingual（多語言編程）從 77.8% 提升到 80.5%，SWE-bench Multimodal（含圖片理解的編程任務）從 27.1% 跳到 34.5%。後者的提升幅度超過 27%，對需要處理截圖、UI 設計稿的前端開發者特別有感。

如果你是天天用 AI 輔助寫程式的開發者，光是 CursorBench 從 58% 到 70% 這個跳躍，就值得馬上切換試試。

視覺能力全面升級：看圖、看文件、看螢幕都更強

老實說，這是我個人最期待的升級。

之前用 Opus 4.6 分析圖表或技術圖時，偶爾會出現讓人哭笑不得的錯誤——數字看錯、表格欄位搞混、小字完全忽略。在 CharXiv Reasoning（視覺推理基準）上，Opus 4.6 的成績是 69.1%，還有不少進步空間。

Opus 4.7 把這個數字提升到了 82.1%（+13pp），搭配工具使用更達到 91.0%。而在 XBOW 的電腦操作場景下，visual acuity（視覺敏銳度）更從 54.5% 飆到 98.5%——這個數據來自 XBOW CEO 的實測反饋。

除了準確率的飛躍，圖片處理能力本身也大幅提升。Opus 4.7 能接受最高 2,576 像素長邊的圖片，大約 375 萬像素，是之前的 3 倍以上。這意味著你可以直接丟一張高解析度的財報截圖、產品規格表、甚至手寫筆記，不用擔心圖片太大被壓縮到 AI 看不清楚。

在視覺導航測試 ScreenSpot-Pro 上，搭配高解析度圖片和工具使用，Opus 4.7 達到 87.6% 的準確率；即使不用工具也有 79.5%。這對需要 AI 操作電腦介面、自動化 GUI 測試的場景尤其重要。

這對幾類人特別有幫助：

財務分析師：直接截圖財報讓 AI 提取數據，不用手動輸入。OfficeQA Pro 文件推理正確率從 57.1% 提升到 80.6%，遠超 GPT-5.4 的 51.1%

產品經理：截圖競品介面讓 AI 分析，或者拍照白板內容讓 AI 整理成文字

研究人員：論文中的圖表、數據視覺化、甚至化學分子結構和技術圖表，都能更精確地被 AI 理解。生物分子推理從 30.9% 提升到 74.0%，是所有 benchmark 中提升最誇張的

重點整理：視覺推理 CharXiv 從 69.1% → 82.1%（+13pp），搭配 3 倍圖片解析度支援和 ScreenSpot-Pro 87.6% 的視覺導航成績，加上 XBOW 電腦操作場景的 98.5% 視覺敏銳度，Claude 終於可以在「看圖」和「看螢幕操作」這兩件事上被信任了。

推理和指令遵循：不再「自作聰明」

你有沒有遇過這種情況：明明跟 AI 說「字數控制在 500 字以內」，結果它洋洋灑灑寫了 2000 字？或者你給了很明確的格式要求，它偏偏要按自己的方式來？

Opus 4.7 在指令遵循方面做了「顯著改進」（這是官方用語，不是我說的）。具體表現在幾個方面：

長上下文推理更穩定：在 GraphWalks 長上下文基準測試中，100 萬 tokens 下的 BFS 任務正確率從 41.2% 提升到 58.6%，Parents 任務從 71.1% 提升到 75.1%。處理超長文件或多輪對話時，不會在後半段「忘記」前面的要求

知識工作能力領先：在 GDPVal-AA（衡量經濟價值知識工作的 benchmark）中，Opus 4.7 以 Elo 1753 分排名第一，超過 GPT-5.4 的 1674 分和 Opus 4.6 的 1619 分

長期連貫性大幅提升：Vending-Bench 2（模擬長時間自主運行的商業任務）成績從 $8,018 提升到 $10,937，增幅 36%。Cognition 團隊（開發 Devin 的公司）表示 Opus 4.7 能連續工作數小時而保持連貫

指令遵循更精確：官方特別指出，Opus 4.7 會「按字面意思」理解你的指令，不再像以前一樣自作主張。這是好事，但也意味著你的 prompt 需要寫得更精準

這對需要 AI 幫忙做複雜分析或專案規劃的人來說是大利多。以前用 Opus 4.6 做長文任務時，我常常需要在中途「提醒」它之前約定好的格式和要求。Opus 4.7 在長上下文的 benchmark 數據確實好看很多。

另一個使用體感上的重大改變：Opus 4.7 把以前的「Extended Thinking」（延伸思考）改成了「Adaptive Thinking」（自適應思考）。

之前 Opus 4.6 和 Sonnet 4.6 的 Extended Thinking 需要你手動開啟，開了之後模型會對所有問題都花更多時間思考。而 Opus 4.7 的 Adaptive Thinking 是「只在需要時才啟動深度思考」，簡單問題快速回答、複雜問題才啟動深度推理。

這讓回應速度和 token 消耗都更合理了。

📌 重點整理：長上下文 BFS 推理 41.2%→58.6%、知識工作 Elo 排名第一（1753 分）、長期連貫性 +36%，加上 Adaptive Thinking 取代 Extended Thinking，讓 Opus 4.7 在推理和指令遵循上全面升級。

不過要提醒一點：因為 Opus 4.7 對指令的理解變得更「字面」了，如果你之前的 prompt 寫得比較隨意或含糊，可能需要重新調整。官方也建議現有的自動化流程升級前先做測試。

想瞭解三家 AI 在推理能力上的差異，可以看看我們的Claude、ChatGPT、Gemini 三大付費 AI 比較。

定價與方案：價格沒變，性能更強

這大概是最讓人開心的消息了：Opus 4.7 的 API 定價跟 Opus 4.6 完全一樣。

項目	Opus 4.7 / 4.6	Sonnet 4.6	Haiku 4.5
輸入價格	$5 / 百萬 tokens	$3 / 百萬 tokens	$1 / 百萬 tokens
輸出價格	$25 / 百萬 tokens	$15 / 百萬 tokens	$5 / 百萬 tokens
Prompt 快取寫入	$6.25 / 百萬 tokens	$3.75 / 百萬 tokens	$1.25 / 百萬 tokens
Prompt 快取讀取	$0.50 / 百萬 tokens	$0.30 / 百萬 tokens	$0.10 / 百萬 tokens
批次處理折扣	節省 50%	節省 50%	節省 50%
上下文窗口	100 萬 tokens	100 萬 tokens	100 萬 tokens

（以上 Sonnet 4.6 和 Haiku 4.5 定價為截至 2026 年 4 月的參考數據，實際價格請以 Anthropic 官方定價頁為準。）

不過有一點要注意：Opus 4.7 使用了新的分詞器（tokenizer），同樣的輸入文字會產生比之前多 1.0 到 1.35 倍的 tokens。另外在高 effort level 下，模型會產生更多的思考 tokens。所以帳單上的實際花費可能會比 Opus 4.6 稍高一些。

好消息是，善用 Prompt 快取讀取（$0.50/百萬 tokens，只有標準輸入價格的十分之一）可以大幅降低重複查詢的成本。

如果你是 Claude Pro 或 Max 的訂閱用戶，直接就能用 Opus 4.7，不需要額外付費。Team 和 Enterprise 方案也同步支援。

在哪裡可以用？

Opus 4.7 已經在以下平台全面上線：

Claude.ai（網頁版和 App）

Anthropic API

Amazon Bedrock

Google Cloud Vertex AI

Microsoft Foundry

如果你還在猶豫要不要從 Sonnet 4.6 升級到 Opus，可以參考這篇Claude Opus 與其他旗艦模型的實測比較，看看 Opus 等級的模型在實際任務中到底強在哪裡。

Opus 4.7 跟 GPT-5.4、Gemini 3.1 Pro 比起來呢？

這是很多人最想問的問題。直接說結論：在編程領域，Opus 4.7 目前是最強的。

先看最核心的 SWE-bench Verified（業界最常用的編程 benchmark）：Opus 4.7 拿下 87.6%，Opus 4.6 是 80.8%，提升了將近 7 個百分點。同場競技的 Gemini 3.1 Pro 是 80.6%，被明顯甩開。

在 SWE-bench Pro 上差距更大：Opus 4.7 的 64.3% 遠超 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。

但是——Opus 4.7 並不是所有項目都拿第一。

根據官方公佈的完整 benchmark 表，各家在不同任務上互有勝負：

測試項目	Opus 4.7	GPT-5.4	Gemini 3.1 Pro	誰最強？
SWE-bench Verified（編程）	87.6%	—	80.6%	Opus 4.7
SWE-bench Pro（進階編程）	64.3%	57.7%	54.2%	Opus 4.7
Terminal-Bench 2.0（終端編碼）	69.4%	75.1%	68.5%	GPT-5.4
BrowseComp（搜尋能力）	79.3%	89.3%	85.9%	GPT-5.4
Humanity's Last Exam（多學科推理，有工具）	54.7%	58.7%	51.4%	GPT-5.4
GPQA Diamond（研究生級推理）	94.2%	94.4%	94.3%	三家幾乎打平
OSWorld（電腦操作 Agent）	78.0%	75.0%	—	Opus 4.7
Finance Agent（金融分析）	64.4%	61.5%	59.7%	Opus 4.7
CharXiv（視覺推理，無工具）	82.1%	—	—	Opus 4.7

簡單總結：Opus 4.7 在編程、Agent 任務、視覺推理三大領域佔絕對優勢；GPT-5.4 在終端編碼、網路搜尋、多學科推理上更強。Gemini 3.1 Pro 則在多語言 QA（MMMLU 92.6%）上略勝。

所以怎麼選，真的看你最常做什麼。寫程式和跑 Agent？選 Opus 4.7。需要強搜尋能力？GPT-5.4 目前更好。

想看更完整的三家比較，推薦閱讀Claude、ChatGPT、Gemini 三大付費 AI 怎麼選這篇，裡面有更詳細的功能對比和購買建議。

安全性與對齊：Opus 4.7 表現如何？

先說安全性。根據官方的 Misaligned behavior（不對齊行為）測試，分數越低越好：Mythos Preview 最優（約 1.78），Opus 4.7 排第二（約 2.46），Sonnet 4.6（約 2.52）和 Opus 4.6（約 2.75）排在後面。也就是說，Opus 4.7 在安全對齊上比前代有進步，欺騙、諂媚等問題行為的發生率更低。

不過官方也坦承，Opus 4.7 在「受管制物質的減害建議」方面有輕微弱點。整體評價是「大致對齊且可信賴，但尚未完全理想」——這種誠實的自我評價，我反而覺得比一味宣傳「最安全」更可信。

Claude Mythos 是什麼？為什麼 Anthropic 不敢放出來？

你可能在一些新聞裡看到「Claude Mythos」這個名字。簡單說，Mythos 是 Anthropic 內部開發的一個比 Opus 4.7 更強大的模型，但因為網路安全方面的疑慮，目前沒有對外公開。

根據報導，Anthropic 認為 Mythos 的能力已經強到需要更嚴格的安全評估才能釋出。Opus 4.7 的網路安全能力被刻意限制在 Mythos 之下，這也是為什麼 Opus 4.7 被定位為「商業替代方案」——它夠強、也夠安全。

這其實反映了 Anthropic 一貫的風格：寧可慢一點，也不願意在安全性上妥協。不管你怎麼看待這個策略，至少說明 Opus 4.7 背後還有更強的技術儲備，未來的升級空間值得期待。

常見問題 FAQ

Opus 4.7 和 Opus 4.6 最大的差別是什麼？

最顯著的差別在五個方面：編程能力全面提升（93 項任務整體 +13%，CursorBench 58%→70%、SWE-bench Verified 80.8%→87.6%）、視覺推理 CharXiv 69.1%→82.1%（+13pp）、OfficeQA Pro 文件推理正確率 57.1%→80.6%、生物分子推理 30.9%→74.0%（2.4 倍）、長上下文 BFS 推理 41.2%→58.6%。另外思考模式從 Extended Thinking 改為 Adaptive Thinking，回應更高效。定價維持不變，等於免費升級。

Opus 4.7 要另外付費嗎？

不用。如果你已經是 Claude Pro（$20/月）、Max（$100 或 $200/月）、Team 或 Enterprise 的訂閱用戶，直接就能使用 Opus 4.7。API 用戶的定價也跟 Opus 4.6 相同：輸入 $5/百萬 tokens、輸出 $25/百萬 tokens。

我該從 Sonnet 4.6 升級到 Opus 4.7 嗎？

看你的需求。如果你主要用 AI 做簡單的文字對話、翻譯、摘要，Sonnet 4.6 的性價比更高（價格只有 Opus 的 1/5 左右）。但如果你需要寫複雜程式碼、分析大量文件、或跑自動化 Agent，Opus 4.7 的能力差距會非常明顯。

Claude Opus 4.7 的上下文窗口有多大？

100 萬 tokens，跟 Opus 4.6 一樣。這大約等於 75 萬字的中文，或者一整本長篇小說的內容。

Opus 4.7 可以在 Amazon Bedrock 和 Google Vertex AI 上用嗎？

可以。Opus 4.7 同步上線了 Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry，企業用戶可以在自己習慣的雲端平台上直接使用。

結語

Claude Opus 4.7 給我的感覺是——Anthropic 沒有在搞噱頭，而是實打實地做了一次全面升級。

編程從 58% 到 70%（CursorBench），視覺推理從 69.1% 到 82.1%（CharXiv），文件推理正確率從 57.1% 衝到 80.6%，生物分子推理直接翻了 2.4 倍。Adaptive Thinking 取代 Extended Thinking 讓使用體感更流暢。

effort level 效率的提升更是讓你花更少的 tokens 拿到更好的結果。

當然，它也不是完美的——在終端編碼和網路搜尋上被 GPT-5.4 壓過，指令遵循方式的改變可能讓舊 prompt 需要重新調整。但整體而言，這是一次讓人滿意的升級。

最良心的是價格完全沒漲。在各家 AI 公司都在想辦法提高定價的 2026 年，Anthropic 這一手確實讓人舒服。

如果你已經在用 Claude，沒理由不試試 Opus 4.7。如果你還在觀望，現在可能是個不錯的切入點。

我後面有發一篇 Opus 4.7 、Opus 4.6 和 Sonnet 4.6的完整實測文章，用具體任務對比 Opus 4.6 和 Sonnet 4.6 的表現差異，記得去看看。

延伸閱讀：

Claude、ChatGPT、Gemini 三大付費 AI 到底怎麼選？2026 最新購買建議

Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較：實測後告訴你怎麼選

2026 年 AI 寫小說實測：五大模型對決

2026 年最值得試的 8 款免費 AI 工具