下載

3句hello就限額，你的Claude Code額度去哪了？一個橫跨28天的快取 Bug，和一份讓你「省著點用」的官方回應

By: blockbeats|2026/04/03 05:18:46

4-17%。這是過去一個月裡，Claude Code 的 prompt cache 讀取率。正常水平是 97-99%。

這意味著，當你恢復一個之前的會話時，Claude Code 沒有復用之前已經處理過的上下文，而是每次都從頭處理全部內容，消耗的額度是正常情況的 10 到 20 倍。你以為自己在延續一段對話，實際上每次都在重新開始一段全新的、全價的對話。

這個數字來自獨立開發者 ArkNill 的代理監控實測。他通過設置透明代理，記錄了 Claude Code 與 Anthropic API 之間的每一次請求，發現了至少兩個客戶端緩存 bug 導致 API 伺服器無法匹配已緩存的對話前綴，被迫每輪都做完整的 token 重建。

上圖展示了三個階段的緩存讀取率對比。v2.1.69 至 v2.1.89 期間（即 Bug 存在期），standalone 版本的緩存讀取率僅有 4-17%。v2.1.90 修復了其中一個關鍵 bug 後，冷啟動緩存讀取率回到 47-99.7%。到 v2.1.91，穩定運行下的緩存讀取率恢復到 97-99%。

值得注意的是圖表中的一個細節：v2.1.90 的範圍跨度很大（47% 到 99.7%），這是因為會話剛恢復時仍需「預熱」緩存，前幾輪的命中率偏低，但很快回到正常水平。而在 Bug 版本中，這個預熱永遠不會發生——緩存讀取永遠停留在系統提示詞的 14,500 個 token 上，所有對話歷史每次都按全價計費。

28 天，20 個版本

這個 bug 不是某次更新引入、下次更新修復的那種。据 npm registry 的發布記錄，引入 bug 的 v2.1.69 發布於 3 月 4 日，修復 bug 的 v2.1.90 發布於 4 月 1 日。中間隔了 28 天，橫跨 20 個版本。

時間線揭示了一個耐人尋味的細節。3 月 4 日 bug 引入後，用戶並沒有立刻大規模投訴。直到 3 月 23 日，投訴才集中爆發，中間隔了將近三周。原因是，據 GitHub issue #41930 的梳理，3 月 13 日至 28 日 Anthropic 曾上線 2 倍額度促銷（off-peak 時段翻倍），這在客觀上掩蓋了 bug 的影響。促銷結束後，緩存 bug 的消耗回到正常計費基線，用戶的額度瞬間「蒸發」。

Anthropic 的回應來得並不快。3 月 26 日，也就是用戶投訴爆發三天後，工程師 Thariq Shihipar 在個人 X 賬號上宣布，高峰時段（工作日 5am-11am PT）的限額已收緊。3 月 30 日，Anthropic 在 Reddit 上承認「用戶觸達限額的速度遠超預期」，稱已列為團隊最高優先級。直到 4 月 1 日，團隊成員 Lydia Hallie 才發布了正式的調查結論。

整個過程中，Anthropic 沒有發布任何博客文章、沒有發送郵件通知、沒有更新狀態頁。所有官方溝通僅通過工程師的個人社交媒體帖子和少數 Reddit 評論完成。

你付了多少錢，能用多久？

GitHub issue #41930 匯集了數百條用戶報告。最極端的案例是一位 Max 20x 訂閱用戶（$200/月），他的 5 小時滾動窗口在 19 分鐘內就完全耗盡。Max 5x 用戶（$100/月）報告 5 小時窗口在 90 分鐘內用完。據 The Letter Two 報導，還有用戶稱一條簡單的「hello」就消耗了 13% 的會話配額。一位 Pro 用戶（$20/月）在 Discord 上說，他的額度「每周一就用完了，周六才重置」，30 天裡只有 12 天能正常使用。

據 ArkNill 的基準測試，在 bug 版本 v2.1.89 上，Max 20x 計劃的 100% 配額在約 70 分鐘內就會耗盡。他還測算了單次 --resume 操作對一個 500K token 上下文會話的額度成本，約 $0.15，因為系統會完整重放整個上下文。

「你拿的方式不對」

Lydia Hallie 的調查結論確認了兩點，一是高峰時段限額確實已收緊，二是 100 萬 token 上下文的會話消耗增大。她稱團隊修復了一些 bug，但強調「沒有任何一個 bug 導致了多收費」。

隨後她給出了四條省量建議：
1. 用 Sonnet 4.6 而非 Opus（Opus 消耗速度約為兩倍）；

2. 不需要深度推理時降低推理強度或關閉 extended thinking；

3. 閒置超過一小時的長會話不要恢復，重新開一個；

4. 設置環境變數 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 限制上下文窗口大小。

沒有提及任何形式的限額重置或補償。

AI 播客主持人 Alex Volkov 將這份回應概括為「你拿的方式不對」（You're holding it wrong），指出 Anthropic 自己把 100 萬 token 上下文設為默認、把 Opus 作為旗艦模型推廣、把 extended thinking 作為賣點，現在卻建議付費用戶不要使用這些功能。

「沒有多收費」的說法也與 Claude Code 自己的更新記錄存在張力。就在 Lydia 發布回應的前一天，v2.1.90 修復了一個自 v2.1.69 起存在的快取回歸 bug：使用 --resume 恢復會話時，本應命中快取的請求會觸發完整的 prompt cache miss，按全價計費。Lydia 的回應中沒有提及這個已確認的計費異常。