AI agent 一個任務燒掉好幾美元?Claude Code、Codex 帳單暴增真相+砍半省 token 心法

目錄

💡 核心結論速覽 (TL;DR)

  • 有多燒:Uber 4 個月就燒光一整年的 AI 編程預算、微軟某部門因為重度工程師每月花掉 500~2,000 美元而把 Claude Code 換掉。重度自動化跑起來,一個 feature 任務的估算成本就要好幾美元。
  • 「6/15 Claude Code 要另外收費」目前是暫緩的:原訂 6/15 把「程式化用量」切出訂閱、改按 API 計費的新制,已被 Anthropic 喊停、正在改版重做;你在終端機手動敲的 Claude Code、Claude.ai 聊天都不受影響。
  • 為什麼燒:每次呼叫都把整段對話重送一次、反覆重讀整個檔案、thinking token 按 output 計費、開 subagent 並行又翻好幾倍——context 越長越貴,呈複利累積。
  • 行動:靠官方那套省 token 心法——開 prompt caching(快取讀取省約 9 成)、prompt 講具體、適時 /clear/compact、小任務用便宜模型——同一份工作的帳單常能砍掉一大半。下面整理成表。

先講一個會讓你倒抽一口氣的數字。Uber 的技術長公開說,他們原本編給 2026 年「AI 寫程式」的整年預算,4 個月就燒光了——他的原話是「我得重新回到白板,因為我以為夠用的預算已經被吹掉了」。同一時間,微軟旗下一個部門(負責 Windows、Office、Teams 那些產品)也決定把工程師的 Claude Code 收掉,換成自家工具,原因很直接:重度使用的工程師,每個月光 token 就燒掉 500 到 2,000 美元。

我看到這些新聞特別有感,因為我自己每天同時開 CodexClaude Code 跑開發,用量大到我會認真盯帳。AI agent 一個任務動輒燒掉好幾美元、月底帳單嚇你一跳,不是錯覺,是真的。而且最近 Claude Code「6/15 是不是要另外收費」鬧得沸沸揚揚,更讓人心慌。

但我寫這篇不是要你別用——以我同時付好幾家 AI 訂閱、又有十幾年看投資成本的習慣來說,關鍵從來不是「貴不貴」,是「你會不會用」。會用的人,同一份工作的帳單能比不會用的人少一大截。這篇我會先把成本的真相、還有 6/15 那場風波講清楚,再帶你看它到底把錢燒在哪,最後給你一套我自己在用、而且幾乎全部出自官方的省 token 心法。


AI agent 到底有多燒?先看這幾個數字

直接說結論:輕度用其實不貴,真正會把帳單衝爆的是「重度自動化」。官方自己給的企業部署平均數字是每位開發者每天約 13 美元、一個月 150~250 美元,而且九成的人每個活躍日花不到 30 美元。問題出在那剩下的一成重度玩家身上——他們才是月燒上千美元的人。

幾個幫你建立體感的參考(這些是第三方測試或試算,不是官方統一帳單,看個量級就好):

  • 單一任務的量級:有部落格以 Sonnet 4.6 的費率做模型化試算,一個小 bug fix 約 0.5 美元、一個完整 feature 任務約 2.3 美元——聽起來不多,但乘上你一天幾十次、加上重試,就很可觀。
  • 工具之間差很大:有測試顯示,同一個任務 Claude Code 大約用掉 Codex 四倍的 token(一個案例是 620 萬 vs 150 萬)。這不全是浪費——Claude 想得更多、覆蓋更全——但你的錢包確實有感。
  • 雲端比本機更燒:以 Codex 為例,同一個任務丟雲端跑大約比本機多耗 5 倍 credit,因為雲端要額外開容器、把 repo clone 下來、跑環境設定。這也是我之前在 Codex 本機 vs 雲端怎麼選 裡特別提醒的點。

看到這裡先別焦慮。這些數字嚇人的前提,都是「沒在管」。會用的人,光是把後面那幾個開關打開,同一份工作就能省下一大半。我們先把最讓人混亂的 6/15 風波說清楚,再來談怎麼省。


「Claude Code 6/15 要另外收費」是真的嗎?這場風波我幫你講清楚

先給你定心丸:截至目前,這個新制是「暫緩」的,並沒有真的生效。很多人以為「6/15 之後 Claude Code 就變貴了」,這是誤會,我幫你把來龍去脈拆清楚。

事情是這樣:Anthropic 在 5 月中宣布,原訂 6/15 起,把「程式化」使用 Claude 的那部分用量——也就是用 Agent SDK 串接、用 claude -p 跑非互動的 headless 任務、或經第三方 app 自動化呼叫——從你訂閱方案的「共享額度池」裡切出去,改成一個獨立的、按標準 API 費率計費的每月 credit 額度(當時公布是 Pro 給 20 美元、Max 5x 給 100 美元、Max 20x 給 200 美元的 credit,用不完不累積)。簡單說,就是想把「重度程式化用量」從吃到飽的訂閱,推向按量付費的 API。

這裡有個超級重要、最多人搞錯的關鍵:就算這個新制上路,你在終端機「手動」敲的 Claude Code、在 Claude.ai 網頁或 App 上的聊天,全都不受影響,照樣走你原本的訂閱額度。被切出去的只有「程式化/自動化」那一塊。

然後劇情急轉:大約在 6/15、6/16 前後,Anthropic 通知大家這個計費改動暫不生效,目前那些程式化用量仍照舊吃訂閱額度。官方的說法是他們要「重新設計這個方案,更好地支援大家用訂閱來開發」,未來若有任何改動會提前通知。所以現在的狀態是:原訂的漲價暫停了,但這個方向 Anthropic 顯然還沒放棄。與其賭它何時回來,不如現在就把省 token 的功夫練起來——這才是你真正能掌握的。


為什麼 AI agent 這麼會燒 token?

搞懂它把錢燒在哪,你才知道從哪裡省。一句話:AI agent 的對話是「無記憶」的,每一次呼叫,它都得把前面所有的對話、系統提示、工具定義「整包重送一次」給模型——你聊得越久,每一句的單價就越貴,像滾雪球。

具體的燒錢點有這幾個,我從花最兇的排下來:

  • 反覆重讀整個檔案:這是最大的單一浪費。agent 沒有「只給我改動的部分」這種選項,它每次要看一個檔,就把整份重新讀進 context。一個大檔讀個幾十次,token 就這樣堆上去。
  • context 越長、每次呼叫越貴:聊到第十輪,光是把歷史重送一次可能就是四萬多個 token,而你每問一句都要付這筆「複習費」。
  • thinking(推理)token 按 output 計費:延伸思考預設是開的,而那些「想」出來的 token 是用較貴的 output 費率算的,預設預算可以到每次數萬。偶爾還會卡進無止境的思考迴圈空燒。
  • 開 subagent 並行,token 翻好幾倍:多請幾個分身一起幹活很爽,但每個分身都各自開一個完整的 context。官方明說,在 plan 模式下開 agent 團隊,大約會用掉一般對話 7 倍的 token。
  • 掛太多 MCP、塞太多設定檔:每個 MCP 工具的定義、還有你的 CLAUDE.md、記憶檔,都會常駐占 context。有人實測光是這些,還沒問第一個問題就先吃掉三、四萬 token。你掛了哪些 MCP server,其實也跟成本直接相關。

看懂了吧?這些沒有一個是「AI 很爛」,全是「對話越滾越大」的自然結果。好消息是:每一條都有對應的省法。


我的省 token 心法(幾乎全是官方招式)

直接給你最有效的順序:先確認快取有開,再學會「適時清空對話」跟「給對的模型對的活」,這三件事就能省下最多。下面這張表我按「省得多不多、好不好做」排好,幾乎每一招都來自 Anthropic 官方的成本文件,可以放心照做。

省 token 招式 怎麼做 / 為什麼有效
❶ 開 prompt caching(最高槓桿) 重複的系統提示、檔案內容做快取後,「快取讀取」只算基本輸入費率的約 1 折(省 ~90%)。Claude Code 預設就會自動快取;Codex 的 cached input 也約打 1 折。光這條,同一個 bug fix 的成本就能差到 2.5 倍。
❷ prompt 講具體,別讓它廣掃 說「在 auth.ts 的 login 函式加輸入驗證」,而不是「幫我改善這個專案」。越具體,它要重讀的檔越少。
❸ 適時 /clear/compact 切換到不相干的工作就 /clear 把陳舊對話清掉(不然每句都在替舊 context 付費);想保留重點用 /compact "聚焦在…"
❹ 小任務用便宜模型 多數寫程式用 Sonnet 就夠,複雜架構才動用 Opus;可以 /model 中途切換,subagent 也能指定用更便宜的機型。
❺ 降低 thinking 預算 簡單任務不需要它想那麼多,用 /effort 降等級或關掉延伸思考;thinking 是按較貴的 output 算的,省這塊很有感。
❻ 先 plan、再動手 用 plan 模式讓它先探查、提方案,你確認方向對了再放它做——避免「方向錯了還昂貴地重工」。

還有兩個我自己很愛的習慣:一是把吵雜的活丟給 subagent(跑測試、抓文件、處理一大堆 log),讓那些 verbose 輸出留在分身的 context 裡,只回一段摘要給主對話;二是用 ignore 檔把 node_modules 這種大目錄擋掉,免得它手殘讀進去。把這些湊齊,你會發現帳單真的瘦得下來。


那訂閱還划算嗎?訂閱 vs API 我會怎麼選

先給判斷:輕中度、用量可預測的人,繼續吃訂閱方案最划算;只有當你是「重度自動化、而且這些自動化有明確產出價值」的人,按量付費的 API 才開始合理。6/15 那個新制本質上就是想把後面這群人從訂閱推向 API——方向不難理解,只是執行被喊停了。

幫你對號入座:

你是哪種人 我的建議
手動為主、用量穩定 訂閱方案(ChatGPT Plus/Claude Pro 或 Max)最省心,固定月費、超量頂多被限速。先別碰 API 計費。
會跑自動化、但還在試水溫 留在訂閱,但把省 token 心法練熟、養成盯用量的習慣,先看看自己一個月實際燒多少。
重度自動化、產出可量化價值 可評估 API/credit 按量付費,搭配 prompt caching 把單價壓低;把「省下的工時」對比「token 成本」算清楚再放大。

說說我自己。我每家 AI 都付費訂閱、用量很大,但我從不裸用——我會盯著用量、習慣性地 /clear、簡單任務絕不開最貴的模型。以我看了十幾年投資成本的角度,這跟管理任何一筆持續性支出一樣:不是不花,是花得明不明白。我也會把「真的需要算力」的活,跟「在本機隨手跑」的活分開——這跟我之前算 AI agent 隱藏成本 是同一套思路。AI 幫我省下的時間,遠比這些 token 錢值得,但前提是我得讓每一塊錢都花在刀口上。


FAQ 常見問題

Claude Code 6/15 之後到底有沒有變貴?

截至目前沒有。原訂 6/15 把「程式化/自動化用量」切出訂閱、改按 API 計費的新制,已被 Anthropic 暫緩、正在改版重做。你在終端機手動敲的 Claude Code、Claude.ai 上的聊天從頭到尾都不受影響。不過 Anthropic 顯然還沒放棄這個方向,建議現在就把省 token 的習慣養起來,未來不管它怎麼改你都不怕。

同樣的活,Claude Code 真的比 Codex 貴嗎?

有第三方測試顯示,同一個任務 Claude Code 大約用掉 Codex 四倍的 token。但這不代表它「不值得」——Claude 通常想得更周全、覆蓋更多邊界情況。實務上我會看任務性質分配:探索性、要想得深的給 Claude,明確、重複性高的給 Codex,再各自把省 token 招式開好。

prompt caching 我要手動開嗎?

Claude Code 預設就會自動對系統提示這類重複內容做快取,你通常不用特別設定。要做的是「配合它」——別頻繁改動最前面的系統提示或大段固定內容,那會讓快取失效、得重新付一次較貴的「寫入」費。Codex 那邊的 cached input 也是自動打折,原理一樣。

一直 /clear 會不會把重要 context 也清掉?

會,所以要挑時機。/clear 適合用在「切換到一個完全不相干的任務」時——舊任務的對話對新任務毫無幫助,留著只是每句都在多付錢。如果你還在同一個任務、只是想瘦身,改用 /compact "聚焦在某某重點",它會幫你濃縮、保留關鍵脈絡。

我是重度用戶,月底帳單常爆,第一步該做什麼?

先確認快取有在運作、然後馬上養成 /clear 的習慣,這兩個見效最快。接著一週內把「簡單任務改用便宜模型」「prompt 講具體」「verbose 操作丟 subagent」逐一補上。多數人光做完這幾步,帳單就能砍掉三到五成——而且你的產出幾乎不受影響。


結論:AI 不是貴,是你有沒有花在刀口上

把這篇收成一句話:AI agent 的帳單確實可以很嚇人,但那幾乎都是「沒在管」的結果——把快取、清空對話、選對模型這幾件事做齊,同一份工作的成本就能砍掉一大半。

我自己跑完這輪研究最深的體會是:我們很容易把「貴」當成 AI 的原罪,但真正決定帳單的,從來是使用者。同樣月花一千美元,有人換來十倍的產出、有人只是在替一堆陳舊的對話歷史反覆付費。6/15 那場風波給我的提醒不是「快逃」,而是「該把家裡的水電費好好管一管了」——因為這個按量付費的方向,遲早會以某種形式回來。先把功夫練好的人,到時候只會更游刃有餘。

今天就打開你最常用的那個 AI 工具,確認快取在運作、養成切換任務就 /clear 的習慣,簡單的活別再開最貴的模型。如果你想把 AI agent 在你電腦上的「資源」也一起管好,歡迎接著看我怎麼 替它設好安全護欄、別讓它亂刪檔、或揪出它在背景 偷留的殘留程序狂寫硬碟的毛病,再不然訂閱我的部落格,我會不定期把這類踩過的坑整理成可以直接抄的解法寄給你。


參考資料

 

延伸閱讀