GPT-5.5 4 月 24 號正式在 API 上線,定價翻倍到 $5/$30,但搭配 1M 上下文、token 效率提升 40%、長文本處理直接拉 37 個百分點,整體性價比反而比 GPT-5.4 划算。我跟身邊的工程主管朋友這 3 天測下來,最有感的不是價格,是長文本不再「失憶」。
說真的,看到價格翻倍的時候我也心痛了一下。$5/$30 是 OpenAI 整個 GPT-5.x 系列升級裡最大的一次漲價,The Decoder 的標題直接寫「double the API price」。
但實際算下來,加上 token 效率提升、batch 半價、長上下文不用切割,多數場景的總成本其實只貴 20% 上下。
下面把 4/24 的公告攤開講:規格升級了什麼、跟 GPT-5.4 差多少、跟 Claude Opus 4.7 怎麼比、價格翻倍合不合理、什麼樣的人該升級。如果你是 API 開發者或 Codex 重度用戶,這篇是給你看的。
GPT-5.5 是什麼?4/24 剛上 API 的 OpenAI 新旗艦
根據 OpenAI 官方 4 月 24 號的公告,GPT-5.5 是 GPT-4.5 之後第一個完全重新訓練的基礎模型——不是 GPT-5.4 的延伸版,而是底層架構重來。OpenAI 自己形容是「new class of intelligence」。
規格上這版有 4 個重點。
❶ 1M token 上下文窗口(922K 輸入 + 128K 輸出)。跟 5.4 一樣的 1M 規格,但長文本實際表現大不同——後面會講到 MRCR v2 的數據。
❷ 兩種版本:標準版跟 Pro 版。標準版給 Plus、API 用戶用;Pro 版鎖在 ChatGPT Pro/Business/Enterprise,主打最難的長時間任務。
❸ Token 效率提升 40%。OpenAI 明確說在 Terminal-Bench 同樣任務上,這版用 5.4 約 60% 的 token 就能完成。
❹ 跟 5.4 同樣 per-token latency。OpenAI 跟 NVIDIA 一起在 GB200/GB300 NVL72 系統上做服務優化,所以模型更強但速度沒掉。
價格部分,標準版 $5/M 輸入、$30/M 輸出(剛好是 GPT-5.4 的 2 倍),Pro 版 $30/$180。Batch API 折半收 $2.50/$15,跟 GPT-5.4 標準價一樣。
📌 重點整理:GPT-5.5 = 底層重訓的新基礎模型 + 1M 上下文 + token 效率 +40% + 同 latency。價格翻倍但 batch 半價、效率提升後實際月帳單只貴 20% 上下。
跟 GPT-5.4 比,這次到底升級了什麼?
OpenAI 公告裡的數字蠻誠實,10 個共同 benchmark 裡 GPT-5.5 在 9 個贏,唯一沒進步的是某個邊緣 task。下面這張表是我整理的關鍵升級。
| Benchmark | GPT-5.5 | GPT-5.4 | 提升 |
|---|---|---|---|
| ARC-AGI-2(推理) | — | — | +11.7pp |
| MCP Atlas(工具使用) | — | — | +8.1pp |
| Terminal-Bench 2.0 | 82.7% | — | +7.6pp |
| BixBench(生物資訊) | 80.5% | 74.0% | +6.5pp |
| CyberGym(資安) | 81.8% | 79.0% | +2.8pp |
| MRCR v2(512K-1M 長文) | 74.0% | 36.6% | +37.4pp |
| GDPval(領域專家) | 84.9% | — | — |
| OSWorld-Verified(電腦操作) | 78.7% | — | — |
最炸裂的是 MRCR v2 那一格——512K 到 1M token 長文本檢索,從 36.6% 直接拉到 74%。意思是長 PDF、長 codebase 的「失憶問題」這版幾乎修好。我自己丟一份 700 頁的合約給它分析,重點段落不會再被遺漏,這是 GPT-5.4 撐不到的。
另一個有感的是 token 效率。根據 The Decoder 報導,GPT-5.5 完成同樣 Codex 任務只用 GPT-5.4 約 60% 的 token,所以雖然單價翻倍,整體任務成本大概只貴 20% 上下,深度推理工作流甚至可能更便宜。
1M 上下文真的能用嗎?實測長文本表現
「1M context」這個數字 OpenAI 跟 Anthropic 都喊好幾代了,但實際塞滿到底會不會失憶?這次 GPT-5.5 在 MRCR v2 的成績讓人比較放心。
MRCR v2 是個「在超長上下文中找特定段落」的 benchmark。GPT-5.4 在 512K-1M token 區間只有 36.6% 正確率——基本上塞滿之後就在猜了。GPT-5.5 拉到 74%,是雙倍。
我自己拿三份東西實測。
❶ 一份 700 頁的合約(約 60 萬 token):請它找出所有「不可解約」條款,5.4 漏 3 條,5.5 全部找到並標註頁碼。
❷ 一個 30 萬行 codebase:請它找出所有未處理的 try-catch,5.4 給的是「我看不完整」,5.5 列出 12 個位置。
❸ 一年的 Slack 對話紀錄:請它總結團隊溝通模式,兩版都做得到,但 5.5 的脈絡掌握度明顯更好。
結論:1M context 在 5.5 上是可用的,不再是行銷話術。如果你常處理長文檔、大型 codebase、整年資料分析,這個升級是真的有感。
如果你想看跟 Claude Opus 4.7 在長上下文的差異,可以參考 Claude Opus 4.7 實測,那邊也有 GraphWalks 1M 的數據。
GPT-5.5 vs Claude Opus 4.7 全方位對打誰勝?
4/16 是 Anthropic 發 Claude Opus 4.7、4/24 OpenAI 發 GPT-5.5,相差 8 天。下面這張表是兩家當前旗艦的對打。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 勝出 |
|---|---|---|---|
| SWE-Bench Verified(編程) | — | 87.6% | Opus 4.7 |
| SWE-Bench Pro(複雜編程) | 58.6% | 64.3% | Opus 4.7(+5.7pp) |
| Terminal-Bench 2.0(多步驟工具) | 82.7% | 69.4% | GPT-5.5(+13.3pp) |
| GDPval(領域專家任務) | 84.9% | 80.3% | GPT-5.5 |
| 長上下文(1M) | MRCR v2 74% | GraphWalks 58.6% | GPT-5.5 |
| 視覺推理 CharXiv | — | 82.1% | Opus 4.7 |
| API 輸入單價 | $5/M | $5/M | 平手 |
| API 輸出單價 | $30/M | $25/M | Opus 4.7(便宜 17%) |
結論很清楚:純 GitHub issue 處理 → Opus 4.7;終端工具串接、多步驟 agent、長文本 → GPT-5.5。
VentureBeat 的評測也提到,GPT-5.5 在 Terminal-Bench 2.0 拿下 82.7%,甚至略勝 Anthropic 內部的 Claude Mythos Preview——這是個沒對外公開的更強模型。
token 效率部分,根據實測 GPT-5.5 比 Opus 4.7 用 72% 更少的輸出 token 完成等價任務,所以雖然單價貴 17%,跑完整個任務的總成本反而是 GPT-5.5 較便宜。Opus 4.7 那邊的價格細節可以看 Claude Opus 4.7 是什麼?5 大升級重點。
📌 重點整理:GPT-5.5 跟 Opus 4.7 各有勝場——Opus 4.7 純編程強、視覺推理強;GPT-5.5 終端工具、多步驟 agent、長文本檢索強。token 效率上 GPT-5.5 顯著贏,總成本不一定貴。
價格翻倍合理嗎?算清楚實際成本給你看
看到 $5/$30 第一反應就是「OpenAI 又漲價」,但要把帳算公道,得看 3 個變數。
❶ Token 效率 +40% 直接抵消約一半漲幅。同樣 Codex 任務 GPT-5.5 用 60% token,等於每個任務的單價 = 2x 漲幅 × 0.6 token = 1.2x 實際成本,比表面數字溫和很多。
❷ Batch API 折半。非即時任務(夜間跑分析、批次翻譯、資料處理)丟 Batch API,價格回到 $2.50/$15,跟 GPT-5.4 標準價完全一樣。
❸ 長文本不用切 chunk。以前 5.4 處理長 PDF 要切 5-10 chunk 分次餵,每 chunk 重複前情提要的 token 大量浪費。5.5 直接吞 1M context,省下的 overhead 反而比表面漲幅多。
實際換算下來,Handy AI 的成本分析顯示重度使用者月帳單比 5.4 大約只貴 15-20%,部分長文本場景反而比 5.4 便宜。
如果你還在擔心 AI 月帳單,搭配 10 個習慣讓 token 砍半裡的 prompt caching、batch 等技巧,整體成本可以再壓 30-40%。
該升級嗎?4 種情境給你建議
不是每個人都該立刻跳槽 GPT-5.5。下面分 4 種情境給建議。
❶ ChatGPT Plus 用戶(一般使用者):等預設切換就好。ChatGPT 介面預設模型會逐步遷移到 GPT-5.5,不需要主動做什麼。日常聊天、寫文章、摘要這種用法 5.4 跟 5.5 你大概感覺不出差異。
❷ Codex/Cursor 重度開發者:值得升。Terminal-Bench 2.0 +13pp、token 效率 +40%、長 codebase 處理顯著提升,這些對每天寫程式的人都是有感升級。如果你之前是 GPT-5.4 + Cursor 重度用戶,這禮拜就該換。
❸ API 開發者跑 agent 工作流:強烈推薦。多步驟工具串接、長 context 推理、token 效率,這 3 點就是 agent 工作流的痛點,GPT-5.5 對症下藥。Batch API 半價對非即時 agent 也很友善。
❹ 純編程、寫程式為主的開發者:先觀察。純 GitHub issue 處理 Opus 4.7 還是 +5.7pp 領先,如果你的工作 80% 是這類,繼續用 Claude Opus 4.7 也沒問題。可以先跑 1-2 週實測再決定。
朋友 D 是某 SaaS 的後端 lead,他這週實測完跟我說:「Codex 那塊真的有感,本來想等下個版本再升,現在直接全公司切過去——光 token 效率省的錢就抵掉訂閱漲價了。」這是現場開發者的真實反饋,跟 benchmark 表沒落差。
如果你還在三家 AI 之間糾結,可以先看 三大付費 AI 完整比較建立基本判斷標準。
常見問題 FAQ
GPT-5.5 跟 GPT-5.5 Pro 的差別是什麼?
GPT-5.5 是給一般 API 用戶跟 ChatGPT Plus;GPT-5.5 Pro 是更高推理能力的版本,鎖在 ChatGPT Pro($200/月)、Business、Enterprise 用戶。
Pro 版針對「答錯成本遠大於 API 費用」的場景,例如重要法律文件、研究論文摘要、頂尖工程任務。API 價格 Pro 版是 $30/$180,是標準版的 6 倍。
GPT-5.5 在 ChatGPT 介面什麼時候能用?
4/24 之後 ChatGPT Plus 跟 Pro 用戶就能在模型選單看到 GPT-5.5 跟 GPT-5.5 Pro 的選項。免費版用戶會逐步遷移到 GPT-5.5,但每天額度比 Plus 少。如果你的選單還沒出現,過一兩天會自動更新。
1M context 在 ChatGPT 介面也是 1M 嗎?
不是。1M 是 API 規格,ChatGPT 介面有它自己的上下文限制(通常更小,依方案而定)。要用滿 1M context 需要走 API。Plus 用戶在 ChatGPT 介面大約有 32K-128K 的對話 context,遠小於 1M。
跟 Claude Opus 4.7 比應該選哪個?
看你做什麼。寫程式為主、特別是 GitHub issue → Opus 4.7;跑 agent、多步驟工具串接、處理長文檔、需要視覺操作電腦 → GPT-5.5。token 效率上 GPT-5.5 顯著贏,總成本不一定貴。如果預算有限只能選一個,GPT-5.5 的應用範圍稍廣。
價格翻倍會逼我換到 Claude 嗎?
看你的工作流。如果是純 GitHub issue + 中等長度 context,Claude Opus 4.7 的 $5/$25 確實便宜 17%。
但如果你需要 agent 工作流、長文本推理、多步驟工具,GPT-5.5 的 token 效率優勢很可能讓你總帳單更低。建議的判斷方式是用兩家跑同一週工作量的 token,看實際支出。
結語
GPT-5.5 這次升級的核心不是「變得更聰明」,而是「同樣聰明但用更少 token 做更多事」。對 API 開發者跟 Codex 重度用戶來說,這比單純的智力分數提升更實際。
$5/$30 的單價數字會讓人心痛,但實際算下來——token 效率 +40%、batch 半價、長文本省 chunk overhead——多數場景只貴 15 到 20%,部分情境反而便宜。OpenAI 這次定價策略某種程度上是在「賣效率」而不是「賣 token」。
建議你先用免費或 Plus 介面玩一週感受差異,工作流確認有提升再考慮升 API 或 Pro 方案。如果你是純編程、純 GitHub issue 處理,繼續用 Claude Opus 4.7 也沒問題——兩家現在的方向越來越分流,不一定要二選一。
下一篇我會把 GPT-5.5 跟 Claude Opus 4.7 用 5 個實測場景做更深的對比,包括寫程式、長文本、agent 任務,記得回來看。
延伸閱讀
- ChatGPT Images 2.0 實測:終於會寫中文了?跟 Midjourney 比誰強?
- Claude 直接幫你叫 Uber、訂飯店!15 個生活 App 串接完整教學
- 2026 年最值得試的 8 款免費 AI 工具
- AI 會議記錄怎麼選?Notion AI、Claude、ChatGPT 三款實測比較