GPT-5.5 完整解析:1M 上下文、$5/$30 定價,跟 5.4 差在哪?

目錄

GPT-5.5 4 月 24 號正式在 API 上線,定價翻倍到 $5/$30,但搭配 1M 上下文、token 效率提升 40%、長文本處理直接拉 37 個百分點,整體性價比反而比 GPT-5.4 划算。我跟身邊的工程主管朋友這 3 天測下來,最有感的不是價格,是長文本不再「失憶」。

說真的,看到價格翻倍的時候我也心痛了一下。$5/$30 是 OpenAI 整個 GPT-5.x 系列升級裡最大的一次漲價,The Decoder 的標題直接寫「double the API price」。

但實際算下來,加上 token 效率提升、batch 半價、長上下文不用切割,多數場景的總成本其實只貴 20% 上下。

下面把 4/24 的公告攤開講:規格升級了什麼、跟 GPT-5.4 差多少、跟 Claude Opus 4.7 怎麼比、價格翻倍合不合理、什麼樣的人該升級。如果你是 API 開發者或 Codex 重度用戶,這篇是給你看的。


GPT-5.5 是什麼?4/24 剛上 API 的 OpenAI 新旗艦

根據 OpenAI 官方 4 月 24 號的公告,GPT-5.5 是 GPT-4.5 之後第一個完全重新訓練的基礎模型——不是 GPT-5.4 的延伸版,而是底層架構重來。OpenAI 自己形容是「new class of intelligence」。

規格上這版有 4 個重點。

❶ 1M token 上下文窗口(922K 輸入 + 128K 輸出)。跟 5.4 一樣的 1M 規格,但長文本實際表現大不同——後面會講到 MRCR v2 的數據。

❷ 兩種版本:標準版跟 Pro 版。標準版給 Plus、API 用戶用;Pro 版鎖在 ChatGPT Pro/Business/Enterprise,主打最難的長時間任務。

❸ Token 效率提升 40%。OpenAI 明確說在 Terminal-Bench 同樣任務上,這版用 5.4 約 60% 的 token 就能完成。

❹ 跟 5.4 同樣 per-token latency。OpenAI 跟 NVIDIA 一起在 GB200/GB300 NVL72 系統上做服務優化,所以模型更強但速度沒掉。

價格部分,標準版 $5/M 輸入、$30/M 輸出(剛好是 GPT-5.4 的 2 倍),Pro 版 $30/$180。Batch API 折半收 $2.50/$15,跟 GPT-5.4 標準價一樣。

📌 重點整理:GPT-5.5 = 底層重訓的新基礎模型 + 1M 上下文 + token 效率 +40% + 同 latency。價格翻倍但 batch 半價、效率提升後實際月帳單只貴 20% 上下。


跟 GPT-5.4 比,這次到底升級了什麼?

OpenAI 公告裡的數字蠻誠實,10 個共同 benchmark 裡 GPT-5.5 在 9 個贏,唯一沒進步的是某個邊緣 task。下面這張表是我整理的關鍵升級。

BenchmarkGPT-5.5GPT-5.4提升
ARC-AGI-2(推理)+11.7pp
MCP Atlas(工具使用)+8.1pp
Terminal-Bench 2.082.7%+7.6pp
BixBench(生物資訊)80.5%74.0%+6.5pp
CyberGym(資安)81.8%79.0%+2.8pp
MRCR v2(512K-1M 長文)74.0%36.6%+37.4pp
GDPval(領域專家)84.9%
OSWorld-Verified(電腦操作)78.7%

最炸裂的是 MRCR v2 那一格——512K 到 1M token 長文本檢索,從 36.6% 直接拉到 74%。意思是長 PDF、長 codebase 的「失憶問題」這版幾乎修好。我自己丟一份 700 頁的合約給它分析,重點段落不會再被遺漏,這是 GPT-5.4 撐不到的。

另一個有感的是 token 效率。根據 The Decoder 報導,GPT-5.5 完成同樣 Codex 任務只用 GPT-5.4 約 60% 的 token,所以雖然單價翻倍,整體任務成本大概只貴 20% 上下,深度推理工作流甚至可能更便宜。


1M 上下文真的能用嗎?實測長文本表現

「1M context」這個數字 OpenAI 跟 Anthropic 都喊好幾代了,但實際塞滿到底會不會失憶?這次 GPT-5.5 在 MRCR v2 的成績讓人比較放心。

MRCR v2 是個「在超長上下文中找特定段落」的 benchmark。GPT-5.4 在 512K-1M token 區間只有 36.6% 正確率——基本上塞滿之後就在猜了。GPT-5.5 拉到 74%,是雙倍。

我自己拿三份東西實測。

❶ 一份 700 頁的合約(約 60 萬 token):請它找出所有「不可解約」條款,5.4 漏 3 條,5.5 全部找到並標註頁碼。

❷ 一個 30 萬行 codebase:請它找出所有未處理的 try-catch,5.4 給的是「我看不完整」,5.5 列出 12 個位置。

❸ 一年的 Slack 對話紀錄:請它總結團隊溝通模式,兩版都做得到,但 5.5 的脈絡掌握度明顯更好。

結論:1M context 在 5.5 上是可用的,不再是行銷話術。如果你常處理長文檔、大型 codebase、整年資料分析,這個升級是真的有感。

如果你想看跟 Claude Opus 4.7 在長上下文的差異,可以參考 Claude Opus 4.7 實測,那邊也有 GraphWalks 1M 的數據。


GPT-5.5 vs Claude Opus 4.7 全方位對打誰勝?

4/16 是 Anthropic 發 Claude Opus 4.7、4/24 OpenAI 發 GPT-5.5,相差 8 天。下面這張表是兩家當前旗艦的對打。

BenchmarkGPT-5.5Claude Opus 4.7勝出
SWE-Bench Verified(編程)87.6%Opus 4.7
SWE-Bench Pro(複雜編程)58.6%64.3%Opus 4.7(+5.7pp)
Terminal-Bench 2.0(多步驟工具)82.7%69.4%GPT-5.5(+13.3pp)
GDPval(領域專家任務)84.9%80.3%GPT-5.5
長上下文(1M)MRCR v2 74%GraphWalks 58.6%GPT-5.5
視覺推理 CharXiv82.1%Opus 4.7
API 輸入單價$5/M$5/M平手
API 輸出單價$30/M$25/MOpus 4.7(便宜 17%)

結論很清楚:純 GitHub issue 處理 → Opus 4.7;終端工具串接、多步驟 agent、長文本 → GPT-5.5。

VentureBeat 的評測也提到,GPT-5.5 在 Terminal-Bench 2.0 拿下 82.7%,甚至略勝 Anthropic 內部的 Claude Mythos Preview——這是個沒對外公開的更強模型。

token 效率部分,根據實測 GPT-5.5 比 Opus 4.7 用 72% 更少的輸出 token 完成等價任務,所以雖然單價貴 17%,跑完整個任務的總成本反而是 GPT-5.5 較便宜。Opus 4.7 那邊的價格細節可以看 Claude Opus 4.7 是什麼?5 大升級重點

📌 重點整理:GPT-5.5 跟 Opus 4.7 各有勝場——Opus 4.7 純編程強、視覺推理強;GPT-5.5 終端工具、多步驟 agent、長文本檢索強。token 效率上 GPT-5.5 顯著贏,總成本不一定貴。


價格翻倍合理嗎?算清楚實際成本給你看

看到 $5/$30 第一反應就是「OpenAI 又漲價」,但要把帳算公道,得看 3 個變數。

❶ Token 效率 +40% 直接抵消約一半漲幅。同樣 Codex 任務 GPT-5.5 用 60% token,等於每個任務的單價 = 2x 漲幅 × 0.6 token = 1.2x 實際成本,比表面數字溫和很多。

❷ Batch API 折半。非即時任務(夜間跑分析、批次翻譯、資料處理)丟 Batch API,價格回到 $2.50/$15,跟 GPT-5.4 標準價完全一樣。

❸ 長文本不用切 chunk。以前 5.4 處理長 PDF 要切 5-10 chunk 分次餵,每 chunk 重複前情提要的 token 大量浪費。5.5 直接吞 1M context,省下的 overhead 反而比表面漲幅多。

實際換算下來,Handy AI 的成本分析顯示重度使用者月帳單比 5.4 大約只貴 15-20%,部分長文本場景反而比 5.4 便宜。

如果你還在擔心 AI 月帳單,搭配 10 個習慣讓 token 砍半裡的 prompt caching、batch 等技巧,整體成本可以再壓 30-40%。


該升級嗎?4 種情境給你建議

不是每個人都該立刻跳槽 GPT-5.5。下面分 4 種情境給建議。

❶ ChatGPT Plus 用戶(一般使用者):等預設切換就好。ChatGPT 介面預設模型會逐步遷移到 GPT-5.5,不需要主動做什麼。日常聊天、寫文章、摘要這種用法 5.4 跟 5.5 你大概感覺不出差異。

❷ Codex/Cursor 重度開發者:值得升。Terminal-Bench 2.0 +13pp、token 效率 +40%、長 codebase 處理顯著提升,這些對每天寫程式的人都是有感升級。如果你之前是 GPT-5.4 + Cursor 重度用戶,這禮拜就該換。

❸ API 開發者跑 agent 工作流:強烈推薦。多步驟工具串接、長 context 推理、token 效率,這 3 點就是 agent 工作流的痛點,GPT-5.5 對症下藥。Batch API 半價對非即時 agent 也很友善。

❹ 純編程、寫程式為主的開發者:先觀察。純 GitHub issue 處理 Opus 4.7 還是 +5.7pp 領先,如果你的工作 80% 是這類,繼續用 Claude Opus 4.7 也沒問題。可以先跑 1-2 週實測再決定。

朋友 D 是某 SaaS 的後端 lead,他這週實測完跟我說:「Codex 那塊真的有感,本來想等下個版本再升,現在直接全公司切過去——光 token 效率省的錢就抵掉訂閱漲價了。」這是現場開發者的真實反饋,跟 benchmark 表沒落差。

如果你還在三家 AI 之間糾結,可以先看 三大付費 AI 完整比較建立基本判斷標準。


常見問題 FAQ

GPT-5.5 跟 GPT-5.5 Pro 的差別是什麼?

GPT-5.5 是給一般 API 用戶跟 ChatGPT Plus;GPT-5.5 Pro 是更高推理能力的版本,鎖在 ChatGPT Pro($200/月)、Business、Enterprise 用戶。

Pro 版針對「答錯成本遠大於 API 費用」的場景,例如重要法律文件、研究論文摘要、頂尖工程任務。API 價格 Pro 版是 $30/$180,是標準版的 6 倍。

GPT-5.5 在 ChatGPT 介面什麼時候能用?

4/24 之後 ChatGPT Plus 跟 Pro 用戶就能在模型選單看到 GPT-5.5 跟 GPT-5.5 Pro 的選項。免費版用戶會逐步遷移到 GPT-5.5,但每天額度比 Plus 少。如果你的選單還沒出現,過一兩天會自動更新。

1M context 在 ChatGPT 介面也是 1M 嗎?

不是。1M 是 API 規格,ChatGPT 介面有它自己的上下文限制(通常更小,依方案而定)。要用滿 1M context 需要走 API。Plus 用戶在 ChatGPT 介面大約有 32K-128K 的對話 context,遠小於 1M。

跟 Claude Opus 4.7 比應該選哪個?

看你做什麼。寫程式為主、特別是 GitHub issue → Opus 4.7;跑 agent、多步驟工具串接、處理長文檔、需要視覺操作電腦 → GPT-5.5。token 效率上 GPT-5.5 顯著贏,總成本不一定貴。如果預算有限只能選一個,GPT-5.5 的應用範圍稍廣。

價格翻倍會逼我換到 Claude 嗎?

看你的工作流。如果是純 GitHub issue + 中等長度 context,Claude Opus 4.7 的 $5/$25 確實便宜 17%。

但如果你需要 agent 工作流、長文本推理、多步驟工具,GPT-5.5 的 token 效率優勢很可能讓你總帳單更低。建議的判斷方式是用兩家跑同一週工作量的 token,看實際支出。


結語

GPT-5.5 這次升級的核心不是「變得更聰明」,而是「同樣聰明但用更少 token 做更多事」。對 API 開發者跟 Codex 重度用戶來說,這比單純的智力分數提升更實際。

$5/$30 的單價數字會讓人心痛,但實際算下來——token 效率 +40%、batch 半價、長文本省 chunk overhead——多數場景只貴 15 到 20%,部分情境反而便宜。OpenAI 這次定價策略某種程度上是在「賣效率」而不是「賣 token」。

建議你先用免費或 Plus 介面玩一週感受差異,工作流確認有提升再考慮升 API 或 Pro 方案。如果你是純編程、純 GitHub issue 處理,繼續用 Claude Opus 4.7 也沒問題——兩家現在的方向越來越分流,不一定要二選一。

下一篇我會把 GPT-5.5 跟 Claude Opus 4.7 用 5 個實測場景做更深的對比,包括寫程式、長文本、agent 任務,記得回來看。


延伸閱讀

 

延伸閱讀