Claude Opus 4.7 是什麼?5 大升級重點一次看懂【2026 最新】

目錄
Claude Opus 4.7 Benchmark

Claude Opus 4.7 到底升級了什麼?一張表看懂

先直接上數據。Opus 4.7 在編程、視覺、推理三個核心方向都有明顯提升,以下是官方公佈的 benchmark 對比:

項目Opus 4.7Opus 4.6提升幅度
SWE-bench Verified(編程基準)87.6%80.8%+6.8 個百分點
SWE-bench Pro(進階編程)64.3%53.4%+10.9 個百分點
CursorBench(編程基準測試)70%58%+12 個百分點
Rakuten-SWE-Bench(真實生產環境)3x 解決率基準300% 提升
視覺推理 CharXiv Reasoning(無工具)82.1%69.1%+13 個百分點
OfficeQA Pro(文件推理)80.6%57.1%+23.5 個百分點
知識工作 Elo(GDPVal-AA)17531619+134 分
生物分子推理74.0%30.9%+43.1 個百分點(2.4 倍)
長上下文推理(GraphWalks BFS 1M)58.6%41.2%+17.4 個百分點
金融模組評分0.8130.767+6%
長期連貫性(Vending-Bench 2)$10,937$8,018+36%

幾個數字特別值得注意。CursorBench 從 58% 跳到 70%,這代表用 Claude 寫程式的人,實際體感會明顯變好——尤其是那些需要理解整個 codebase 的複雜任務。

另一個值得關注的是視覺推理:CharXiv Reasoning 從 69.1% 提升到 82.1%(+13pp),搭配工具更達到 91.0%。而生物分子推理從 30.9% 直接翻到 74.0%,接近 2.4 倍的提升,對科研用戶來說是天翻地覆的變化。

文件推理方面,OfficeQA Pro 的正確率從 57.1% 提升到 80.6%,遠超 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9%——這代表 Claude 在處理企業文件、合約、報表上的能力已經大幅甩開對手。

重點整理:Opus 4.7 的升級不是單點突破,而是全面提升——編程(+13%)、視覺推理(+13pp)、文件推理(80.6% 正確率)、生物分子推理(2.4 倍)、長上下文推理(+17.4pp),而且 API 定價完全不變。


編程能力大躍進:寫 Code 的人最該關注的升級

Opus 4.7 在編程方面的提升是這次更新的最大賣點。根據 Anthropic 官方數據,在 93 項編程基準測試中,Opus 4.7 比 Opus 4.6 提升了 13%,其中包含 4 項前代模型完全無法解決的任務。

這代表什麼?簡單說,就是 Opus 4.7 能處理更複雜的程式邏輯了。

我自己的觀察是,Opus 4.6 在處理單一檔案的 bug 修復很強,但碰到需要跨多個檔案、理解專案架構的任務時,偶爾會「迷路」。Opus 4.7 在 Rakuten-SWE-Bench 上的表現——解決真實生產問題的能力提升了 3 倍——正好對應了這個痛點。

更值得關注的是 effort level 的效率提升。根據官方內部測試數據,Opus 4.7 在 high effort level 下的表現(約 65.5%),已經超過 Opus 4.6 在 max effort level 的成績(約 61%)。換句話說,你花更少的 tokens 就能得到更好的結果。

在 max effort 下,Opus 4.7 更是衝到約 75%,比 Opus 4.6 高出 14 個百分點。

實際使用者的回饋也印證了這一點。Notion Agent 團隊表示 Opus 4.7 比 Opus 4.6 提升了 14%,而且用了更少的 tokens、減少了三分之一的工具調用錯誤。Hex 團隊則指出,低 effort 的 Opus 4.7 大致等於中 effort 的 Opus 4.6。

另外,Claude Code 也跟著更新了幾個實用功能:

/ultrareview 指令:專門用來做程式碼審查,不用再自己寫一大串提示詞請 AI 幫你 code review

所有方案預設 effort level 提升至 xhigh:這是新增的一個介於 high 和 max 之間的等級,讓你可以更細緻地控制 AI 投入多少算力來思考

Max 用戶解鎖自動模式(Auto Mode):減少人工介入,讓 Claude Code 更自主地完成任務

補充一組數據:SWE-bench Multilingual(多語言編程)從 77.8% 提升到 80.5%,SWE-bench Multimodal(含圖片理解的編程任務)從 27.1% 跳到 34.5%。後者的提升幅度超過 27%,對需要處理截圖、UI 設計稿的前端開發者特別有感。

如果你是天天用 AI 輔助寫程式的開發者,光是 CursorBench 從 58% 到 70% 這個跳躍,就值得馬上切換試試。


視覺能力全面升級:看圖、看文件、看螢幕都更強

老實說,這是我個人最期待的升級。

之前用 Opus 4.6 分析圖表或技術圖時,偶爾會出現讓人哭笑不得的錯誤——數字看錯、表格欄位搞混、小字完全忽略。在 CharXiv Reasoning(視覺推理基準)上,Opus 4.6 的成績是 69.1%,還有不少進步空間。

Opus 4.7 把這個數字提升到了 82.1%(+13pp),搭配工具使用更達到 91.0%。而在 XBOW 的電腦操作場景下,visual acuity(視覺敏銳度)更從 54.5% 飆到 98.5%——這個數據來自 XBOW CEO 的實測反饋。

除了準確率的飛躍,圖片處理能力本身也大幅提升。Opus 4.7 能接受最高 2,576 像素長邊的圖片,大約 375 萬像素,是之前的 3 倍以上。這意味著你可以直接丟一張高解析度的財報截圖、產品規格表、甚至手寫筆記,不用擔心圖片太大被壓縮到 AI 看不清楚。

在視覺導航測試 ScreenSpot-Pro 上,搭配高解析度圖片和工具使用,Opus 4.7 達到 87.6% 的準確率;即使不用工具也有 79.5%。這對需要 AI 操作電腦介面、自動化 GUI 測試的場景尤其重要。

這對幾類人特別有幫助:

財務分析師:直接截圖財報讓 AI 提取數據,不用手動輸入。OfficeQA Pro 文件推理正確率從 57.1% 提升到 80.6%,遠超 GPT-5.4 的 51.1%

產品經理:截圖競品介面讓 AI 分析,或者拍照白板內容讓 AI 整理成文字

研究人員:論文中的圖表、數據視覺化、甚至化學分子結構和技術圖表,都能更精確地被 AI 理解。生物分子推理從 30.9% 提升到 74.0%,是所有 benchmark 中提升最誇張的

重點整理:視覺推理 CharXiv 從 69.1% → 82.1%(+13pp),搭配 3 倍圖片解析度支援和 ScreenSpot-Pro 87.6% 的視覺導航成績,加上 XBOW 電腦操作場景的 98.5% 視覺敏銳度,Claude 終於可以在「看圖」和「看螢幕操作」這兩件事上被信任了。


推理和指令遵循:不再「自作聰明」

你有沒有遇過這種情況:明明跟 AI 說「字數控制在 500 字以內」,結果它洋洋灑灑寫了 2000 字?或者你給了很明確的格式要求,它偏偏要按自己的方式來?

Opus 4.7 在指令遵循方面做了「顯著改進」(這是官方用語,不是我說的)。具體表現在幾個方面:

長上下文推理更穩定:在 GraphWalks 長上下文基準測試中,100 萬 tokens 下的 BFS 任務正確率從 41.2% 提升到 58.6%,Parents 任務從 71.1% 提升到 75.1%。處理超長文件或多輪對話時,不會在後半段「忘記」前面的要求

知識工作能力領先:在 GDPVal-AA(衡量經濟價值知識工作的 benchmark)中,Opus 4.7 以 Elo 1753 分排名第一,超過 GPT-5.4 的 1674 分和 Opus 4.6 的 1619 分

長期連貫性大幅提升:Vending-Bench 2(模擬長時間自主運行的商業任務)成績從 $8,018 提升到 $10,937,增幅 36%。Cognition 團隊(開發 Devin 的公司)表示 Opus 4.7 能連續工作數小時而保持連貫

指令遵循更精確:官方特別指出,Opus 4.7 會「按字面意思」理解你的指令,不再像以前一樣自作主張。這是好事,但也意味著你的 prompt 需要寫得更精準

這對需要 AI 幫忙做複雜分析或專案規劃的人來說是大利多。以前用 Opus 4.6 做長文任務時,我常常需要在中途「提醒」它之前約定好的格式和要求。Opus 4.7 在長上下文的 benchmark 數據確實好看很多。

另一個使用體感上的重大改變:Opus 4.7 把以前的「Extended Thinking」(延伸思考)改成了「Adaptive Thinking」(自適應思考)。

Claude Opus 4.7 Adaptive thinking

之前 Opus 4.6 和 Sonnet 4.6 的 Extended Thinking 需要你手動開啟,開了之後模型會對所有問題都花更多時間思考。而 Opus 4.7 的 Adaptive Thinking 是「只在需要時才啟動深度思考」,簡單問題快速回答、複雜問題才啟動深度推理。

這讓回應速度和 token 消耗都更合理了。

📌 重點整理:長上下文 BFS 推理 41.2%→58.6%、知識工作 Elo 排名第一(1753 分)、長期連貫性 +36%,加上 Adaptive Thinking 取代 Extended Thinking,讓 Opus 4.7 在推理和指令遵循上全面升級。

不過要提醒一點:因為 Opus 4.7 對指令的理解變得更「字面」了,如果你之前的 prompt 寫得比較隨意或含糊,可能需要重新調整。官方也建議現有的自動化流程升級前先做測試。

想瞭解三家 AI 在推理能力上的差異,可以看看我們的Claude、ChatGPT、Gemini 三大付費 AI 比較


Claude opus 4.7 定價
Claude 模型歷史定價

定價與方案:價格沒變,性能更強

這大概是最讓人開心的消息了:Opus 4.7 的 API 定價跟 Opus 4.6 完全一樣。

項目Opus 4.7 / 4.6Sonnet 4.6Haiku 4.5
輸入價格$5 / 百萬 tokens$3 / 百萬 tokens$1 / 百萬 tokens
輸出價格$25 / 百萬 tokens$15 / 百萬 tokens$5 / 百萬 tokens
Prompt 快取寫入$6.25 / 百萬 tokens$3.75 / 百萬 tokens$1.25 / 百萬 tokens
Prompt 快取讀取$0.50 / 百萬 tokens$0.30 / 百萬 tokens$0.10 / 百萬 tokens
批次處理折扣節省 50%節省 50%節省 50%
上下文窗口100 萬 tokens100 萬 tokens100 萬 tokens

(以上 Sonnet 4.6 和 Haiku 4.5 定價為截至 2026 年 4 月的參考數據,實際價格請以 Anthropic 官方定價頁 為準。)

不過有一點要注意:Opus 4.7 使用了新的分詞器(tokenizer),同樣的輸入文字會產生比之前多 1.0 到 1.35 倍的 tokens。另外在高 effort level 下,模型會產生更多的思考 tokens。所以帳單上的實際花費可能會比 Opus 4.6 稍高一些。

好消息是,善用 Prompt 快取讀取($0.50/百萬 tokens,只有標準輸入價格的十分之一)可以大幅降低重複查詢的成本。

如果你是 Claude Pro 或 Max 的訂閱用戶,直接就能用 Opus 4.7,不需要額外付費。Team 和 Enterprise 方案也同步支援。

在哪裡可以用?

Opus 4.7 已經在以下平台全面上線:

Claude.ai(網頁版和 App)

Anthropic API

Amazon Bedrock

Google Cloud Vertex AI

Microsoft Foundry

如果你還在猶豫要不要從 Sonnet 4.6 升級到 Opus,可以參考這篇Claude Opus 與其他旗艦模型的實測比較,看看 Opus 等級的模型在實際任務中到底強在哪裡。


Opus 4.7 跟 GPT-5.4、Gemini 3.1 Pro 比起來呢?

這是很多人最想問的問題。直接說結論:在編程領域,Opus 4.7 目前是最強的。

先看最核心的 SWE-bench Verified(業界最常用的編程 benchmark):Opus 4.7 拿下 87.6%,Opus 4.6 是 80.8%,提升了將近 7 個百分點。同場競技的 Gemini 3.1 Pro 是 80.6%,被明顯甩開。

在 SWE-bench Pro 上差距更大:Opus 4.7 的 64.3% 遠超 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。

但是——Opus 4.7 並不是所有項目都拿第一。

根據官方公佈的完整 benchmark 表,各家在不同任務上互有勝負:

測試項目Opus 4.7GPT-5.4Gemini 3.1 Pro誰最強?
SWE-bench Verified(編程)87.6%80.6%Opus 4.7
SWE-bench Pro(進階編程)64.3%57.7%54.2%Opus 4.7
Terminal-Bench 2.0(終端編碼)69.4%75.1%68.5%GPT-5.4
BrowseComp(搜尋能力)79.3%89.3%85.9%GPT-5.4
Humanity's Last Exam(多學科推理,有工具)54.7%58.7%51.4%GPT-5.4
GPQA Diamond(研究生級推理)94.2%94.4%94.3%三家幾乎打平
OSWorld(電腦操作 Agent)78.0%75.0%Opus 4.7
Finance Agent(金融分析)64.4%61.5%59.7%Opus 4.7
CharXiv(視覺推理,無工具)82.1%Opus 4.7

簡單總結:Opus 4.7 在編程、Agent 任務、視覺推理三大領域佔絕對優勢;GPT-5.4 在終端編碼、網路搜尋、多學科推理上更強。Gemini 3.1 Pro 則在多語言 QA(MMMLU 92.6%)上略勝。

所以怎麼選,真的看你最常做什麼。寫程式和跑 Agent?選 Opus 4.7。需要強搜尋能力?GPT-5.4 目前更好。

想看更完整的三家比較,推薦閱讀Claude、ChatGPT、Gemini 三大付費 AI 怎麼選這篇,裡面有更詳細的功能對比和購買建議。


安全性與對齊:Opus 4.7 表現如何?

先說安全性。根據官方的 Misaligned behavior(不對齊行為)測試,分數越低越好:Mythos Preview 最優(約 1.78),Opus 4.7 排第二(約 2.46),Sonnet 4.6(約 2.52)和 Opus 4.6(約 2.75)排在後面。也就是說,Opus 4.7 在安全對齊上比前代有進步,欺騙、諂媚等問題行為的發生率更低。

不過官方也坦承,Opus 4.7 在「受管制物質的減害建議」方面有輕微弱點。整體評價是「大致對齊且可信賴,但尚未完全理想」——這種誠實的自我評價,我反而覺得比一味宣傳「最安全」更可信。

Claude Mythos 是什麼?為什麼 Anthropic 不敢放出來?

你可能在一些新聞裡看到「Claude Mythos」這個名字。簡單說,Mythos 是 Anthropic 內部開發的一個比 Opus 4.7 更強大的模型,但因為網路安全方面的疑慮,目前沒有對外公開。

根據報導,Anthropic 認為 Mythos 的能力已經強到需要更嚴格的安全評估才能釋出。Opus 4.7 的網路安全能力被刻意限制在 Mythos 之下,這也是為什麼 Opus 4.7 被定位為「商業替代方案」——它夠強、也夠安全。

這其實反映了 Anthropic 一貫的風格:寧可慢一點,也不願意在安全性上妥協。不管你怎麼看待這個策略,至少說明 Opus 4.7 背後還有更強的技術儲備,未來的升級空間值得期待。


常見問題 FAQ

Opus 4.7 和 Opus 4.6 最大的差別是什麼?

最顯著的差別在五個方面:編程能力全面提升(93 項任務整體 +13%,CursorBench 58%→70%、SWE-bench Verified 80.8%→87.6%)、視覺推理 CharXiv 69.1%→82.1%(+13pp)、OfficeQA Pro 文件推理正確率 57.1%→80.6%、生物分子推理 30.9%→74.0%(2.4 倍)、長上下文 BFS 推理 41.2%→58.6%。另外思考模式從 Extended Thinking 改為 Adaptive Thinking,回應更高效。定價維持不變,等於免費升級。

Opus 4.7 要另外付費嗎?

不用。如果你已經是 Claude Pro($20/月)、Max($100 或 $200/月)、Team 或 Enterprise 的訂閱用戶,直接就能使用 Opus 4.7。API 用戶的定價也跟 Opus 4.6 相同:輸入 $5/百萬 tokens、輸出 $25/百萬 tokens。

我該從 Sonnet 4.6 升級到 Opus 4.7 嗎?

看你的需求。如果你主要用 AI 做簡單的文字對話、翻譯、摘要,Sonnet 4.6 的性價比更高(價格只有 Opus 的 1/5 左右)。但如果你需要寫複雜程式碼、分析大量文件、或跑自動化 Agent,Opus 4.7 的能力差距會非常明顯。

Claude Opus 4.7 的上下文窗口有多大?

100 萬 tokens,跟 Opus 4.6 一樣。這大約等於 75 萬字的中文,或者一整本長篇小說的內容。

Opus 4.7 可以在 Amazon Bedrock 和 Google Vertex AI 上用嗎?

可以。Opus 4.7 同步上線了 Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry,企業用戶可以在自己習慣的雲端平台上直接使用。


結語

Claude Opus 4.7 給我的感覺是——Anthropic 沒有在搞噱頭,而是實打實地做了一次全面升級。

編程從 58% 到 70%(CursorBench),視覺推理從 69.1% 到 82.1%(CharXiv),文件推理正確率從 57.1% 衝到 80.6%,生物分子推理直接翻了 2.4 倍。Adaptive Thinking 取代 Extended Thinking 讓使用體感更流暢。

effort level 效率的提升更是讓你花更少的 tokens 拿到更好的結果。

當然,它也不是完美的——在終端編碼和網路搜尋上被 GPT-5.4 壓過,指令遵循方式的改變可能讓舊 prompt 需要重新調整。但整體而言,這是一次讓人滿意的升級。

最良心的是價格完全沒漲。在各家 AI 公司都在想辦法提高定價的 2026 年,Anthropic 這一手確實讓人舒服。

如果你已經在用 Claude,沒理由不試試 Opus 4.7。如果你還在觀望,現在可能是個不錯的切入點。

我後面有發一篇 Opus 4.7 、Opus 4.6 和 Sonnet 4.6的完整實測文章,用具體任務對比 Opus 4.6 和 Sonnet 4.6 的表現差異,記得去看看。


延伸閱讀:

Claude、ChatGPT、Gemini 三大付費 AI 到底怎麼選?2026 最新購買建議

Claude Opus 4.5、GPT-5.1、Gemini 3 Pro 比較:實測後告訴你怎麼選

2026 年 AI 寫小說實測:五大模型對決

2026 年最值得試的 8 款免費 AI 工具

 

延伸閱讀