Claude Opus 4.7 實測:真的全面輾壓 Opus 4.6 和 Sonnet 4.6 嗎?

Claude Opus 4.7 在視覺理解和編程任務上確實贏過 Opus 4.6,但在台灣商業分析題目上,反而被 Sonnet 4.6 反超。三個實測跑完,我的結論不是「一定要升級最貴的」,而是每個模型有自己的擅長區,沒有一個 100% 完美。

下面這篇是我花一個晚上做的三次實測記錄,請你準備好心理準備,因為有些結果滿顛覆直覺的。

會想做這個測試,是因為 Opus 4.7 剛發布的那天晚上,我看到官方的 benchmark 數字:CharXiv 視覺推理 +13 個百分點、SWE-bench Pro +10.9 個百分點、Terminal-Bench +4 個百分點,看起來是一次碾壓式升級。但好奇歸好奇,我想知道這些數字在我的實際工作情境下會呈現多少差距,所以當晚就開測了。

於是我設計了三個任務:複雜財報圖片理解、React 編程、台灣商業分析。三個模型同場較勁,每個錯誤我都逐項核對原始資料,該扣的分一分都不放過。結果讓我意外——其中有一個測試, Sonnet 4.6 直接把 Opus 4.6 打到 78 分,連 Opus 4.7 都小輸一分。到底是哪一題?等等揭曉。

這篇會依序帶你看三次實測的完整過程、每個模型的錯誤性格,以及我最後選模型的標準。

📌 重點整理
三次測試綜合分:Opus 4.7 = 89 分、Sonnet 4.6 = 84.3 分、Opus 4.6 = 84 分
視覺和編程 Opus 4.7 領先明顯,但繁中商業分析被 Sonnet 反超
三個模型各有錯誤性格:Sonnet 會幻覺、Opus 4.6 會疲勞、Opus 4.7 會誤讀結構

Claude Opus 4.7 vs Opus 4.6,官方數據透露了什麼訊號?

Anthropic 官方公布的 13 項 benchmark 中,Opus 4.7 相較 Opus 4.6 全面領先,幅度從 0.4 個百分點到 13 個百分點都有。但仔細看那張表,有一個細節很多評測文都忽略了:不同任務類型的差距落差極大,而且繁體中文使用者最在意的那一項,差距小到幾乎可以忽略。

先看官方數字(我挑出跟我測試最相關的六項):

測試項目	Opus 4.6	Opus 4.7	差距
視覺推理 CharXiv(無工具)	69.1%	82.1%	+13
編程 SWE-bench Pro	53.4%	64.3%	+10.9
編程 SWE-bench Verified	80.8%	87.6%	+6.8
終端編程 Terminal-Bench 2.0	65.4%	69.4%	+4
研究生級推理 GPQA Diamond	91.3%	94.2%	+2.9
多語言問答 MMMLU	91.1%	91.5%	+0.4

有看到 MMMLU 那一欄嗎?這是「多語言問答」的測試,包含繁中、簡中、日文、韓文等多種非英語語言。Opus 4.7 只領先 Opus 4.6 少得可憐的 0.4 個百分點,這個差距幾乎可以視為測試誤差。

換句話說,如果你的任務是繁中寫作、中文商業分析、台灣本地資訊查詢,Opus 4.7 帶給你的升級感,會遠低於你看官方數字時的期待。視覺推理 +13 的高光時刻,發生在處理複雜圖表這種小眾場景;而我們每天用 Claude 寫文章、做研究、分析商業問題的情境,大部分落在 MMMLU 這個 +0.4 的區間。

這也是我設計三個實測任務的初衷。官方 benchmark 是基準,但不是使用體驗的全貌。三個測試跑完,我的懷疑被印證得很徹底。

📌 重點整理
Opus 4.7 在視覺推理、編程任務領先明顯(+10 到 +13 個百分點)
多語言問答 MMMLU 只領先 0.4 個百分點
繁中使用者的實際升級感,會遠低於看官方數字的期待

測試 1:台積電財報圖片,三個模型誰抄數字最準?

這題標準答案存在 PDF 原檔裡,是三次測試中唯一能完全客觀評分的一題。結果:Opus 4.7 數字抄錄準確度 95 分最高,Opus 4.6 88 分中規中矩,Sonnet 4.6 只有 80 分,而且會幻覺,憑空生成不存在的數字。

測試設計

我拿了台積電 2026 Q1 的合併財務報表,包含資產負債表、綜合損益表、現金流量表,共 3 頁 PDF。裡面密集的數字、中英文混排、QoQ/YoY 百分比變化欄位,是實務上最難處理的圖片類型。

Prompt 是標準的圖片分析任務:提取文字、整理成 Markdown 表格、總結關鍵資訊、指出容易忽略的細節。三個模型分別用 Extended Thinking(Sonnet 4.6、Opus 4.6)和 Adaptive Thinking(Opus 4.7)處理。

然後我做了一件很累的事:拿 PDF 原檔逐欄核對每一個數字。

Sonnet 4.6 Extended Thinking 實測台積電財報圖片分析

Sonnet 4.6:最大的雷是幻覺推論鏈

Sonnet 4.6 在這題的問題不只是抄錯數字,而是基於自己編造出來的數字,推導出一段看起來很有洞察力的分析:

「非控制權益(少數股東)從 1Q 2025 的 NTD 229 億增至 1Q 2026 的 NTD 410 億,成長幅度 +79%,反映台積電海外合資或子公司規模在擴大」

這段話的每個字讀起來都很合理,很像一個財務分析師會寫的話。問題是,PDF 上 1Q 2025 的非控制權益根本不是 229 億,是 374.62 億。正確的 YoY 成長率是 +10.6%,不是 +79%。

優點清單

表格呈現最乾淨:視覺化處理最好,有 emoji、粗體、引用框,整理起來最好閱讀
關鍵洞察方向正確:抓到毛利率 66.2%、營運槓桿效應等概念方向,雖然支撐數據有錯

缺點清單

數字準確度最低,且出現推論型幻覺(229 億、+79% 都是憑空編的)
結構精簡的代價是省略很多子項目:特別盈餘公積、資本公積等細節都被合併或直接跳過
推論建立在幻覺數字上:這是最危險的錯誤,不只是數字錯,連從錯誤數字推導出的洞察都是錯的

具體錯誤清單(對照 PDF 原檔)

欄位	Sonnet 寫的	PDF 正確值	錯誤類型
流動資產合計 2025/3/31	3,465,664	3,345,664	數字抄錯
4Q25 毛利率	59.0%	62.3%	關鍵數字抄錯
所得稅費用 4Q25	(66,947)	(86,947)	數字抄錯
非控制權益 1Q25	NT$229 億	NT$374.62 億	幻覺
非控制權益 YoY 增幅	+79%	+10.6%	幻覺

最後兩行那個紅色警報,是 Sonnet 4.6 最可怕的地方。典型的 AI 幻覺就是這樣:數字很具體、邏輯很流暢、結論很有洞察感,但整段內容是假的。如果你是一個分析師,用 Sonnet 整理完財報就直接貼進簡報,客戶一問細節的場面會非常難看。這也是為什麼我做這份實測時,每個數字都回頭核對 PDF 一次——AI 寫的數字如果不驗證,很可能就是下一場會議上的地雷。

Opus 4.6:表格結構最完整,但末段會疲勞

Opus 4.6 在這題的表現像個會累的資深會計——前半段一絲不苟,到後半段開始打瞌睡。

優點清單

表格結構最完整:三張報表的每一個子項目都照原表提取,沒有合併、沒有省略,是三個模型裡架構最齊的
前半段準確度很高:資產負債表(第一張表)大部分數字都抄對,幾乎找不到錯誤
關鍵洞察品質好:特別盈餘公積 -81.4%、一年內到期借款 +152.9%、營運資金大幅流出等細節都有抓到
沒有推論型幻覺:所有錯誤都是「眼花看錯」,不是「憑空編造」

缺點清單

錯誤集中在現金流量表(最後一張表):7 處小錯裡有 6 處都集中在報表尾段,顯示模型在處理長文件時注意力衰減
期末匯率格式誤判:把 NT$32.064 讀成 NT$32,064,小數點被當成千分位(這種錯誤會被財務人員一眼看出)
整格漏掉:籌資活動 1Q25 那格直接空著沒填,表格看起來完整但實際有洞
數字抄錯有時候會差很多:長期投資 180,793 應為 160,793,6 和 8 的形狀相近導致誤讀

具體錯誤清單(對照 PDF 原檔)

欄位	Opus 4.6 寫的	PDF 正確值	錯誤類型
期末匯率格式	NT$32,064	NT$32.064	小數點誤判
長期投資 2025/3	180,793	160,793	數字抄錯
發放現金股利 4Q25	(129,063)	(129,663)	數字抄錯
籌資活動 1Q25	未填入	(84,666)	整格漏掉

Opus 4.6 的特性可以簡單歸納成一句話:需要完整原料、自己會再驗算的情境最適合它;但如果要把輸出直接當簡報素材,現金流量表的數字最好重新核對一次。

Opus 4.7:錯誤最少,但有一個特別的結構誤讀

Opus 4.7 的數字抄錄準確度是三個模型裡最高的,但它的錯誤類型最有意思——不是看錯數字,是看錯數字在表格中的角色。

原文的「特別盈餘公積」這一列,2025/3/31 欄位是「—」(空白,代表當時沒有這個科目)。QoQ 變化欄的 (71,085) 是「4Q25 的 87,284 減掉 2026/3/31 的 16,199」算出來的下降值。Opus 4.7 把 QoQ 變化值誤讀為「1Q25 的原始數值」,然後延伸推論出「特別盈餘公積從 NT$87,284 百萬驟降至 NT$16,199 百萬」的結論。推論本身邏輯成立,但前提錯了——因為 1Q25 當時根本沒有這個科目。

優點清單

數字抄錄準確度最高:四處錯誤中,三處只差一兩個數字(226,224 vs 226,024),沒有大幅偏差
主動做雙層輸出:artifact 放完整版 + 對話框放摘要版,實務上最好用
洞察品質跟 Opus 4.6 一樣好:都抓到關鍵的營運資金、稅率、借款結構等細節
易讀性最佳:表格排版最清楚,重點段落有明確標注

缺點清單

結構誤讀(獨家錯誤):把 QoQ 變化欄的數值當成 1Q25 原始值,推論方向從根上就錯了
對「空白欄位」處理不夠敏感:遇到「—」時沒有警覺這個科目當時可能不存在,直接當成數字的一種
基於誤讀的推論會誤導讀者:「-81.4% 驟降」的說法如果被分析師引用,會誤判公司財務狀況

具體錯誤清單(對照 PDF 原檔)

欄位	Opus 4.7 寫的	PDF 正確值	錯誤類型
使用權資產 2025/3/31	226,224	226,024	小錯
應付現金股利 2025/3/31	233,239	233,394	小錯
匯率變動 1Q25	18,461	16,461	小錯
特別盈餘公積 1Q25 解讀	-711 億(負值)	原表為空白	結構誤讀

這個錯誤最能說明 Opus 4.7 跟 Sonnet 的本質差異——Opus 4.7 的錯可以在 PDF 上追溯到來源(QoQ 變化欄確實有那個數字),Sonnet 的錯回頭找 PDF 是找不到的(229 億根本不存在)。這個差異在後面的「錯誤性格」段會再展開。

三模型綜合評分

維度	Sonnet 4.6	Opus 4.6	Opus 4.7
數字抄錄準確度	85	88	95
表格結構完整度	75	95	88
推論邏輯正確性	70	88	82
關鍵洞察品質	85	88	88
易讀性/實務可用性	85	82	92
綜合實用分	80	88	89

你可能注意到了,Opus 4.7 綜合只贏 Opus 4.6 一分(89 vs 88)。這呼應官方 benchmark 的「有工具模式 +6.3 個百分點」,Opus 4.6 在視覺任務上已經夠用了,Opus 4.7 在這個場景下的升級感很邊際。真正需要 Opus 4.7 視覺優勢的場景,是更極端的圖表推理,也就是 CharXiv 無工具模式 +13 個百分點那種難度。

另外 Opus 4.7 那個「特別盈餘公積」的錯誤,是把 QoQ 變化欄的數值誤讀為 1Q25 的原始值。數字是存在的,只是搞錯它在表格中的角色。這跟 Sonnet 的幻覺本質完全不同:Opus 4.7 的錯可以在 PDF 上追溯到來源,Sonnet 的錯回頭找 PDF 是找不到的。這個差異很關鍵,後面的「錯誤性格」段落會再展開。

📌 重點整理
Opus 4.7 = 89 分,Opus 4.6 = 88 分,Sonnet 4.6 = 80 分
Sonnet 在這題出現嚴重幻覺,編造「229 億、+79%」的不存在數據
三個模型都不是 100% 準確,複雜財報圖片都要核對原檔

測試 2:React 番茄鐘編程,誰的代碼最能上線?

這題沒有「標準答案」,三個模型都產出可運行的代碼。但仔細拆開看,差距出現在「守不守技術規矩」和「有沒有前端真功夫」。Sonnet 4.6 UI 最漂亮但違反 Tailwind 要求,Opus 4.7 則是唯一處理了 AudioContext autoplay policy 的模型,這是真正的前端老手才會注意到的細節。

測試設計

我給三個模型的 Prompt 是:用 React 寫一個完整的番茄鐘 Web App,單檔 .jsx。要支援自訂時間、圓形進度條、提示音(Web Audio API 生成)、番茄數統計、開始/暫停/重置、完整邊界處理。技術要求明確寫了樣式要用 Tailwind CSS。

評分方式以五個維度比較:是否可運行、是否遵守提示詞、代碼品質、UI 呈現、隱藏 bug。

Sonnet 4.6 Extended Thinking 實測React 番茄鐘編程

Sonnet 4.6:創造力爆表但不守規矩

Sonnet 4.6 的 UI 是三個模型裡最漂亮的。工業復古風、資訊密度最高、圓形進度條外圈有 60 個刻度點裝飾、三個統計卡片(番茄數、專注時長、當前階段)、頂部有 FOCUS/REST/REPEAT 導航條,視覺上最有儀式感。但功能做得多,問題也最多。

優點清單

狀態管理最穩健:用 stateRef 解決 setInterval 的閉包陷阱——提示詞沒明確要求,Sonnet 自己想到了,這是資深前端才會注意到的細節
Web Audio 最豐富:工作結束三聲上升音(880→1100→1320Hz)、休息結束一聲低沉音(440Hz),區分不同場景,其他兩個模型都只有一種音效
輸入防呆最嚴:用正則 /^\d{0,2}$/ 過濾非數字,不是只靠 HTML 驗證
UX 貼心細節:切換階段後自動暫停,讓用戶主動開始下一階段,不會被突襲
UI 資訊密度最高:三個統計卡片同時顯示,適合喜歡一眼看全貌的使用者

缺點清單

違反 Tailwind 技術要求(致命違規):提示詞明確寫「樣式用 Tailwind CSS 的核心工具類」,但 Sonnet 整份代碼 0 行 Tailwind,全部用 inline style
隱藏 bug:統計卡片「當前階段」欄位寫死 workMinutes,切到休息階段也不會變,label 和 value 會對不起來
硬編碼色碼:沒用任何設計 token,全是 hex 色碼,放進企業級專案會拆掉整個設計系統
整體傾向自作主張:跟測試 1 編造數字一樣,在編程任務裡它就是換掉你的技術棧

Tailwind 違規有多嚴重?看這個對照:

技術選擇	Sonnet 4.6	Opus 4.6	Opus 4.7
樣式方案	inline style(違規)	Tailwind	Tailwind
顏色定義	硬編碼色碼	Tailwind tokens	Tailwind tokens
整合進既有專案	設計系統會斷裂	直接相容	直接相容

Sonnet 的自由派性格在這題不是優勢。它在測試 1 編造數字、在測試 2 換掉技術棧——這不是兩件事,是同一種性格的兩種表現。

Opus 4.6 Extended Thinking 實測React 番茄鐘編程

Opus 4.6:中規中矩可靠款

Opus 4.6 的 UI 是蘋果式極簡風。深色漸層背景、圓形大播放按鈕、工作階段用橘紅漸層、休息階段用青藍漸層,配色在三個模型裡最協調。而且它是中文 UI 最友善的——「完成番茄」「專注分鐘」這種標籤直接放在主介面,非工程師看也看得懂。

優點清單

最符合 Tailwind 精神:分離出獨立的 CircularProgress 組件,使用 Tailwind 核心類,是三個模型裡唯一做元件分離的,代碼結構最接近真實專案
SVG linearGradient 進度條:視覺效果最精緻,橘紅/青藍漸層切換時視覺舒服
中文 UI 最友善:「完成番茄」「專注分鐘」標籤直接放在主介面,非工程師看也看得懂
使用 tabular-nums:讓數字等寬,倒數時數字不會跳動(00:09→00:10 視覺不會抖動)
遵守技術要求:Tailwind 用得正確,沒有 Sonnet 那種違規問題

缺點清單

自作主張加第四個「跳過」按鈕:提示詞只要求「開始/暫停/重置」三個,Opus 4.6 加了第四個。你可以說是貼心延伸,也可以說沒守住「按需求實作」的原則
沒有輸入防呆強化:只靠 type="number" + min/max 屬性,如果貼上非整數要到 onBlur 才修正
狀態管理略冗餘:兩個 useEffect 分工,手動在 handler 裡呼叫 clearInterval,但 useEffect 本身會清理,有重複
時間到後會 setIsRunning(false):跟 Sonnet 一樣會暫停等用戶按開始,符合字面意思的「自動切換」但不符合「自動繼續」的隱含期待

Opus 4.6 這個「多加跳過按鈕」的舉動跟 Sonnet 的 Tailwind 違規性格上是同一種——都是主動幫你決定需求。差別在於,Opus 4.6 的「加」比較無害(多一個按鈕不影響既有功能),Sonnet 的「換」會拆掉你的技術棧。嚴重度不同,但方向是一致的。

Opus 4.7 Adaptive Thinking 實測React 番茄鐘編程

Opus 4.7:嚴謹守規矩且有前端真功夫

Opus 4.7 的 UI 是三個模型裡最樸素的——純粹幾何極簡、Neutral 色調、全英文 UI、數字版風格。工程師會喜歡,但對一般用戶偏冷冰冰。不過 UI 的樸素換來的是代碼品質最老練,特別是那些「真實部署才會遇到的細節」,只有它處理了。

優點清單

最守規矩:六大要求一一對應,沒多也沒少,沒有像 Sonnet 那樣違反技術棧,也沒有像 Opus 4.6 那樣自己加需求
代碼註釋品質最高:用繁體中文寫詳細註釋,解釋「為什麼這樣寫」——像「用 gain envelope 避免『啪』的爆音」這種備註,其他模型都沒寫
AudioContext policy 處理(獨家):唯一處理了瀏覽器 autoplay policy,Safari 部署會少踩一大雷
Web Audio envelope 最精緻:用 linearRampToValueAtTime 做 fade in/out,避免開始結尾的爆音
模組劃分最清楚:MODE 常數避免字串 typo、switchMode 獨立 callback、setter/getter 分得清楚
視覺化番茄點:完成的番茄用小圓點顯示(最多 8 個,超過顯示 +N),比單純顯示數字更有成就感

AudioContext policy 這段代碼長這樣:

const handleStartPause = () => {
  if (!audioCtxRef.current) {
    const AudioCtx = window.AudioContext || window.webkitAudioContext;
    if (AudioCtx) audioCtxRef.current = new AudioCtx();
  }
  if (audioCtxRef.current?.state === "suspended") {
    audioCtxRef.current.resume();
  }
  setIsRunning((prev) => !prev);
};

現代瀏覽器(特別是 Safari 和 Chrome)為了防止廣告網站自動播放音效干擾用戶,規定 AudioContext 必須在「用戶明確互動」後才能播放聲音。如果沒有在用戶點擊時呼叫 resume(),AudioContext 會卡在 suspended 狀態,音效就是不會響。

💡 為什麼這個細節很重要? 其他兩個模型的音效,在 Safari 第一次點「開始」時很可能不會響,用戶要點第二次才響。不是 bug,是瀏覽器安全機制。Opus 4.7 主動處理了這塊,代表它對「真實世界前端部署會遇到什麼問題」有更深的理解。不只是寫「能跑的代碼」,而是寫「部署後不會被 QA 打回來的代碼」。

缺點清單

UI 最「無趣」:全英文、純幾何、沒裝飾。工程師會喜歡,一般用戶覺得冷冰冰
統計資訊最少:只有完成番茄數,沒有 Opus 4.6 的「專注分鐘」這種累積統計,使用者儀式感較弱
setTimeout race workaround:在 setInterval 裡用 setTimeout(() => switchMode(), 0) 跳出 setter,理論上極端時序下可能有問題(實務上不太會)
預設值寫死 magic number:handleBlur(setMinutes, 25) 裡的 25 沒用常數,改維護時要手動找

前端真功夫就是這麼回事,不是靠大量記憶 API,而是靠對實際部署場景的理解。Opus 4.7 的 UI 雖然最樸素,但它寫的是會通過 code review 的代碼,其他兩個模型的代碼要上線前還得再改一輪。

三模型綜合評分

維度	Sonnet 4.6	Opus 4.6	Opus 4.7
遵守提示詞	70	85	95
代碼結構可讀性	85	88	95
功能完整度	90	88	85
UI 設計品質	95	90	80
狀態管理穩健性	92	85	88
邊界處理嚴謹度	88	82	90
Web Audio 細節	88	82	92
隱藏 bug 數量	2 處	1 處	0 處
綜合實用分	84	86	90

Opus 4.7 以 90 分領先。官方 SWE-bench Pro +10.9 個百分點的差距,在這個測試化為 +4 分。原因是番茄鐘只是中等難度任務,不是 SWE-bench Pro 那種極難的真實專案修復題。但模型性格的差異,在編程任務上更明顯:

Sonnet 4.6:UI 最漂亮但自由派,會換掉你的技術棧
Opus 4.6:中規中矩,什麼都不差但也不驚艷
Opus 4.7:嚴謹守規,代碼品質最高、細節處理最老練

你要做 prototype 給老闆看一眼就丟,Sonnet 4.6 的 UI 最能打。你要把代碼直接交付、進生產環境,Opus 4.7 會讓你少踩很多雷。選哪個,看你的場景。

📌 重點整理
Opus 4.7 = 90 分,Opus 4.6 = 86 分,Sonnet 4.6 = 84 分
Sonnet 4.6 違反 Tailwind 技術要求,全用 inline style
Opus 4.7 是唯一處理 AudioContext autoplay policy 的模型,Safari 部署會少踩雷

測試 3:台灣商業分析,為什麼Sonnet 反而贏了?

重頭戲來了。這是三次測試裡唯一的反轉,Sonnet 4.6 拿到 89 分,Opus 4.7 只有 88 分,Opus 4.6 甚至掉到 78 分。不是我故意寫得驚悚,是在三重交叉驗證後的結果。反轉的關鍵,跟前面提到的 MMMLU 那 0.4 個百分點有直接關聯。

測試設計

我用一個貼近台灣創業者的問題測三個模型:「我想在台灣做線上課程平台,從法律註冊、稅務申報、消費者保護三個面向,給我完整建議」。

這題難在哪?難在需要最新的台灣本地資訊。財政部 2024/12/12 公告、2025/1/1 起生效的新稅制、消保法第 19 條的網購鑑賞期規定、2025/10 PressPlay 整併 YOTTA 這類產業動態,都是關鍵。我用三重交叉驗證準備標準答案:政府資料(財政部、消保法)、會計師意見(元方聯合)、商務中心實務(史貝斯),三方說法一致才算數。

三個模型在三大關鍵查證的說法對照

先把三個最有爭議的查證攤開來看,一眼就能看出差距在哪。

查證 1:台灣小規模營業人稅率(2025 年新制)

正確答案:勞務業起徵點月 NT$50,000、小規模營業人稅率 1%(不是一般營業人的 5%)、開發票門檻月 NT$200,000(年 240 萬)。

模型	說法	正確性
Sonnet 4.6	月均銷售超過 NT$20,000 建議諮詢會計師評估	數字非法定門檻,但用「建議諮詢」包裝,不算錯
Opus 4.7	年超 NT$480,000 則屬應開發票對象	數字錯 5 倍(實際年 240 萬)
Opus 4.6	月營收超過 NT$40,000 須繳營業稅 5%	雙重錯(起徵點用舊版 + 稅率完全錯)

查證 2:消保法線上課程鑑賞期

正確答案:線上課程屬「一經提供即為完成的數位內容」,可排除 7 日鑑賞期,但必須事先在購課頁面顯著告知。

模型	說法	正確性
Sonnet 4.6	引用消保法第 19 條 + 購課頁面必須顯著告知	法條引用精準
Opus 4.7	完全沒提	遺漏
Opus 4.6	完全沒提	遺漏

查證 3:PressPlay 2025/10 整併 YOTTA 時效性

模型	說法	時效性
Sonnet 4.6	2025 年整併 YOTTA 後規模擴大	準確抓到近期事件
Opus 4.7	有提 PressPlay 但沒提整併	聲稱搜尋但沒抓到重點
Opus 4.6	完全沒提 PressPlay	跳過台灣御三家之一

三個查證跑完,三個模型的輪廓就清楚了。接下來逐一拆解各自的完整表現。

Sonnet 4.6:這次的意外贏家

Sonnet 4.6 在這題交出了前兩次測試看不到的穩健表現。

優點清單

消保法第 19 條引用最精準:三個模型裡唯一寫出「數位商品可例外排除 7 日鑑賞期,但購課頁面必須顯著告知」的完整配套
PressPlay 2025/10 整併 YOTTA 直接寫進競品分析:近期產業動態的覆蓋度最好
食安法廣告規定提醒:「課程若涉及食品教學,廣告文案中禁止出現任何醫療或功效宣稱」,這條抓得很細
MoSCoW 判斷最穩:講師直播正確分到 Won't(一人預算 5 萬做不起直播的設備、排程、平台)
稅務用「建議諮詢會計師」包裝:雖然數字不精確,但避開了明確錯誤

缺點清單

稅務數字不精確:「月均 NT$20,000」不是法定門檻,實際勞務起徵點是月 NT$50,000,Sonnet 用「建議諮詢」打了模糊仗
預算算得最省(NT$15,280):沒把拍攝器材、素材外包這些隱藏成本算進來,新手照抄會低估實際支出
沒提公司 vs 行號的架構選擇:這是創業第一個該決定的事,Sonnet 漏了
沒顯示搜尋過程:但內容卻最準確,可能是訓練資料本身就有這些資訊,運氣成分佔一部分

Sonnet 的性格在這題反而變成優勢。前兩個測試它會編造數字、違反規格,但在「沒有標準答案、需要綜合多個本地知識來源」的題目上,這種自由度讓它更敢引用具體條款、更敢提具體事件。這次的贏,贏在「不敢亂講」,剛好遇到任務需要「保守整合」而不是「精確比對」。

Opus 4.6:商業分析的明確敗筆

Opus 4.6 這次踩的雷不是一個兩個,是好幾個,其中一個會害讀者多繳 4 倍稅。但它也不是全盤皆輸,有幾個實務細節反而比 Sonnet 還要完整。

優點清單

食譜著作權細節最精準:「甜點食譜本身不受著作權保護,但教學影片中若使用他人配方的文字描述、步驟照片、品牌名稱則可能觸法」——這段話三個模型裡它講得最完整
背景音樂版權提醒 + 具體資源:直接給出「YouTube Audio Library」這個無版權音樂來源,三個模型中唯一寫出具體替代方案的
風險分析結構完整:稅務 + 著作權兩個層面都有覆蓋,沒有漏層
Teachable vs Teachify 選型邏輯清楚:兩個平台的差異、適用情境都有說明

缺點清單(這次最嚴重)

稅務雙重錯誤:
- 起徵點用 2024 年舊版:「月營收超過 NT$40,000 須辦理營業登記」,2025/1/1 起已調整為 NT$50,000
- 稅率完全錯:「繳納營業稅 5%」,小規模營業人實際是 1%,5% 是每月 20 萬以上的一般營業人才適用
MoSCoW 把「講師直播」分到 Could:一人預算 5 萬吃不下直播的設備、排程、平台,應該放 Won't
完全沒提 PressPlay:跳過台灣線上課程御三家之一
「學籽 Seeds」競品存在疑問:這個平台名稱不是市場主流,可能是記錯或不精確
Teachify 年費 NT$12,000 整個算進首月:年費應按月攤提 NT$1,000/月,計算邏輯錯了
沒提公司 vs 行號的架構選擇:三個模型都漏,但 Opus 4.6 漏得最完整

⚠️ 稅率錯誤到底多嚴重? 台灣小規模營業人(月營收 20 萬以下)的營業稅率是 1%,不是一般營業人的 5%。如果有人看了 Opus 4.6 的建議,以 5% 去申報月營收 40,000 元的課程收入,他會多繳 1,600 元的稅——正確應繳 400 元,被 Opus 4.6 寫成 2,000 元,多繳 4 倍。不是小錯,是會害到讀者的錯。

Opus 4.6 的錯誤本質跟 Sonnet 的幻覺完全不同。它沒有憑空編造數字,抄的起徵點、稅率、競品名稱,都是訓練資料裡存在的資訊,只是訓練資料停留在 2024 年的舊規,而且對「小規模營業人」和「一般營業人」的稅率差異沒分清楚。這是「知識邊界 + 架構理解」的問題,不是幻覺。但對用戶來說結果是一樣的——看不出來就會照做,照做就出事。

Opus 4.7:聲稱搜尋,卻沒搜到重點

Opus 4.7 這次的表現最讓我困惑。商業洞察是三個模型裡最深的,但在時效性上被 Sonnet 超車。

優點清單

商業洞察最深:「副業客群自帶分享動機」推論出 LINE 分潤的價值;「副業客群需儀式感與完課率」推論出學習進度追蹤的重要性——這種推論鏈 Sonnet 和 Opus 4.6 都沒有
預算計算最完整:主動加上「拍攝器材補齊 NT$8,000、廣告素材外包 NT$5,000」這些隱藏成本,三個模型中唯一想到的
具體細節最多:直接點名 Tim 主廚法式甜點課、金老師鏡面蛋糕課、小鳳、佐山真衣等真實課程/講師
小規模營業人基本描述正確:「每月銷售額 20 萬以下、營業稅率 1%」這點對,跟 Opus 4.6 的 5% 形成鮮明對比
產品責任險建議:三個模型中唯一提到保險機制

缺點清單

發票門檻數字錯 5 倍:「年超 NT$480,000 則屬應開發票對象」——實際是月 NT$200,000(年 240 萬)
MoSCoW 把學習進度追蹤放 Must:有洞察但略過頭,嚴格說應該是 Should(Must 是不做就不能上線)
聲稱搜尋但時效性不佳:開頭寫「我先搜一下……確保競品資訊準確」,但沒抓到 2025/10 PressPlay 整併 YOTTA 這個重大事件
沒提消保法鑑賞期:這是線上課程最重要的法律風險之一,Opus 4.7 完全沒觸及
沒提公司 vs 行號選擇:同樣漏了這個決策點

這次最大的警訊是「聲稱搜尋 ≠ 實際抓到最新資訊」。一般使用者普遍以為「有搜尋的模型 = 時效性最強」,但這次 Sonnet 沒顯示搜尋過程卻講對了,Opus 4.7 顯示搜尋過程卻沒講到重點。Adaptive Thinking 的搜尋可能只搜基礎資訊,錯過近期重大變化——這跟多數人的直覺是反的。

公司 vs 行號:三個模型都漏掉的重點

有意思的是,即使是贏家 Sonnet 4.6,也有重要的盲區。三個模型沒有一個提到「公司 vs 行號」的架構選擇。

這對台灣小型創業者是關鍵決策:

項目	公司(有限/股份)	行號(獨資/合夥)
註冊資本	最低 1 元(實務 5-10 萬)	無限制
負責人責任	有限責任(以出資額為限)	無限責任(要賠全部身家)
稅務	營所稅 20% + 股利稅	綜所稅 5-40% 級距
適合規模	預期年營收 > 300 萬	年營收 < 100 萬
帳務複雜度	需要會計師簽證	相對簡單

三個模型都預設「一定要開公司」,但對月營收幾萬塊的個人老師來說,開行號反而比較划算。這是 AI 工具在本地知識上的共同盲區,不管你用哪個模型,重大決策還是得找真人會計師。

三模型綜合評分

維度	Sonnet 4.6	Opus 4.6	Opus 4.7
法規引用精準度	92	75	88
稅務資訊正確性	90	65(5% 錯誤)	88
時效性(最新事件)	90	78	85
實務可執行度	88	85	90
結構清晰度	85	85	90
綜合實用分	89	78	88

為什麼會反轉?

我覺得有兩個原因疊加。

第一,MMMLU 那 0.4 個百分點的差距在這題顯現了。繁中商業分析對 Opus 4.7 來說不是強項,它的訓練強化重點在編程和視覺推理,也就是官方 benchmark 看到的 +10 到 +13 的差距。多語言問答幾乎沒進步,真的拿到實戰就是打回原形。

第二,Sonnet 4.6 的「自由派」性格在這題反而是優勢。前兩個測試它會編造數字、違反規格,但在「沒有標準答案、需要整合多個本地知識來源」的商業分析題上,這種自由度反而讓它更敢引用具體條款(第 19 條),更敢提具體事件(PressPlay 整併)。

當然不是說 Sonnet 4.6 真的比 Opus 4.7 強,在財報和編程任務上,Sonnet 落後非常明顯。但在繁中本地商業情境,Sonnet 的性格優勢蓋過了模型規模劣勢。看任務,不看價格。

📌 重點整理
Sonnet 4.6 = 89 分反超,Opus 4.7 = 88 分,Opus 4.6 = 78 分(嚴重掉分)
Opus 4.6 把小規模營業人稅率 1% 寫成 5%,會害讀者多繳 4 倍稅
三個模型都漏掉「公司 vs 行號」架構,本地知識仍需真人專家把關

三個模型的「錯誤性格」完全不同,怎麼避開地雷?

看完三次實測,我發現一件比分數更重要的事:三個模型犯錯的方式完全不一樣。知道每個模型的錯誤性格,比知道它們幾分更有用,因為你可以針對性地避開每個模型的地雷。

三種錯誤本質

Sonnet 4.6 是「幻覺型」錯誤。憑空生成不存在的數字或事實,然後用這些假數據推導出看起來合理的結論。在財報測試裡編造「229 億、+79%」就是典型案例。這種錯誤最危險,因為回頭看原始資料完全找不到對應,只能靠用戶自己起疑心去核對。

Opus 4.6 是「疲勞型」錯誤。前半段處理得很好,越到文件末尾錯誤越多。在財報測試裡,資產負債表(第一張)幾乎全對,但到了現金流量表(最後一張),一連串小錯跑出來:整格漏掉、數字抄錯。這種錯誤相對好抓,知道它會末段疲勞,重點核對文件後半段就能攔下大部分錯誤。

Opus 4.7 是「誤讀型」錯誤。數字抄得最準,但偶爾會把表格欄位的角色搞錯。把 QoQ 變化值誤讀為原始數值、把空白欄位解讀成 -71,085,都是這種類型。這種錯誤在邏輯上成立但前提錯了,數字可以在原檔追溯,但「這個數字代表什麼意思」需要二次驗證。

三種錯誤的風險等級對照:

維度	Sonnet 4.6 幻覺	Opus 4.6 疲勞	Opus 4.7 誤讀
錯誤可驗證性	低(找不到對應)	中(對得上但抄錯)	高(數字存在)
驗證成本	高(要從頭核對)	中(只需核末段)	中(要確認欄位關係)
對決策的風險	🔴 極高	🟡 中	🟡 中
使用者信任陷阱	邏輯流暢難察覺	數字看起來合理	推論方向可能錯

哪個任務該選哪個模型?

任務情境	推薦模型	理由
財報圖片提取、需要直接當簡報素材	Opus 4.7	數字準確度最高,雖然偶爾誤讀欄位
需要完整細節、自己會驗算	Opus 4.6	表格結構最完整,末段記得核對
快速瀏覽、不用於決策	Sonnet 4.6	但要有「可能幻覺」的警覺
React / Next.js 企業級開發	Opus 4.7	代碼品質最高、AudioContext 這類細節到位
前端 prototype 視覺衝擊力	Sonnet 4.6	UI 最豐富,但要檢查是否換掉你的技術棧
符合團隊規範的一般編程	Opus 4.6	遵守 Tailwind、中規中矩
繁中商業分析、台灣本地資訊	Sonnet 4.6	唯一反超案例,但重大決策仍需真人專家
極度複雜的圖表推理(學術級)	Opus 4.7	官方 benchmark 差距最大的場景

三個性格,一個結論

一句話總結三個模型的性格:

1️⃣ Sonnet 4.6 是那種「點子多但不太守規矩」的實習生。給他自由度高的任務會有驚喜,但重要文件要盯緊,他可能會自作主張。

2️⃣ Opus 4.6 是那種「可靠但會累」的中階員工。長期專案交給他放心,但連續處理長文件要記得給他喘息,末段品質會掉。

3️⃣ Opus 4.7 是那種「嚴謹但偶爾鑽牛角尖」的資深工程師。複雜任務給他最放心,但面對不在他擅長領域的繁中本地題,不見得比 Sonnet 強多少。

選模型跟選員工一樣,不是找最強的那個,是找最符合當前任務性格的那個。

想看更多AI模型實測比較可以參考這篇Claude Opus 與其他旗艦模型的實測比較。

📌 重點整理
三種錯誤性格:幻覺型(Sonnet)、疲勞型(Opus 4.6)、誤讀型(Opus 4.7)
驗證成本:Sonnet 最高、Opus 4.6 中、Opus 4.7 中
選模型不是選最強,是選最符合任務性格的那個

常見問題

Claude Opus 4.7 值得從 Opus 4.6 升級嗎?

看你的主要任務類型。如果你每天做視覺推理、複雜編程、科學研究,升級有感(官方 benchmark +6 到 +13 個百分點,實測 +1 到 +4 分)。如果主力任務是繁中寫作、台灣本地商業分析,差距只有 0.4 個百分點(MMMLU),升級的邊際效益很低。我自己的做法是「視覺和編程任務用 Opus 4.7,繁中內容寫作留在 Opus 4.6 或 Sonnet 4.6」。

Sonnet 4.6 真的夠用嗎?什麼情境會不夠?

大部分日常情境是夠用的,特別是繁中內容寫作、一般問答、創意發想。但有三個情境要特別小心:涉及具體數字的引用(會幻覺)、複雜財務分析(準確度最低)、有明確技術規格的編程任務(會自作主張違反規格)。要用 Sonnet 整理數據做簡報,強烈建議核對原始資料。

台灣用戶做繁中商業分析該選哪個 Claude 模型?

根據我的測試 3,Sonnet 4.6 實際表現最好(89 分),Opus 4.7 次之(88 分),Opus 4.6 反而最差(78 分)。但要提醒,三個模型都有「本地知識盲區」,例如沒一個提到「公司 vs 行號」的架構選擇,稅務細節也可能過時。AI 可以當起手式的研究助手,但重大商業決策還是要找真人會計師或律師。

Opus 4.7 的 Adaptive Thinking 搜尋可以完全信任嗎?

不行。在我的測試 3 裡,Opus 4.7 開頭宣稱「我先搜一下最新資訊,確保準確性」,搜尋工具也啟動了,但它沒抓到 2025 年 10 月 PressPlay 整併 YOTTA 這個產業大事。Adaptive Thinking 的搜尋會提高時效性,但不代表一定抓到所有重要資訊。對於時效敏感的題目,仍然建議自己用 Google 再驗證一次。

這次實測結果跟 Anthropic 官方 benchmark 有什麼差異?為什麼?

差異在「差距的絕對大小」。官方 benchmark 顯示 Opus 4.7 在編程任務領先 Opus 4.6 +10.9 個百分點,我實測番茄鐘編程只領先 +4 分;官方視覺推理領先 +13,我實測財報圖片只領先 +1。原因是官方測試難度集中在高難度邊緣案例,而日常任務大多落在兩個模型都能處理好的中等難度區,差距會被壓縮。官方數字是天花板,實測體驗接近地板,取中間值當期待比較務實。

結論:沒有一個模型是 100% 完美的

花一個晚上做完這三個實測,我最大的收穫不是「知道哪個模型最強」,而是知道每個模型有適合的任務範圍,以及它們各自的弱點在哪。

三次測試的平均分是 Opus 4.7 = 89、Sonnet 4.6 = 84.3、Opus 4.6 = 84。Opus 4.7 確實平均最高,但三次裡有一次被 Sonnet 反超,Opus 4.6 在台灣商業分析上嚴重掉分。這些細節,只有實測才看得出來,光看官方 benchmark 你會以為 Opus 4.7 無懈可擊。

如果你問我該怎麼選:

1️⃣ 預算充足、主要做視覺和編程任務 → Opus 4.7

2️⃣ 主要做繁中內容寫作、不常碰複雜財務和編程 → Sonnet 4.6 就夠

3️⃣ 已經在用 Opus 4.6,不確定要不要升級 → 看你做什麼,純繁中任務可以先留著

最後一句話送給每個在用 AI 工具的人:AI 是起手式的加速器,不是終點線的裁判。這三個模型加起來每個月的訂閱費可以請一個兼職顧問,但沒有哪一個能取代真人專家的最終把關。知道它們的錯誤性格,才能真正用好它們。

Claude Opus 4.7 實測:真的全面輾壓 Opus 4.6 和 Sonnet 4.6 嗎?

Claude Opus 4.7 vs Opus 4.6,官方數據透露了什麼訊號?

測試 1:台積電財報圖片,三個模型誰抄數字最準?