Giới hạn 3 lời chào, giới hạn mã Claude của bạn đâu rồi? Lỗi bộ nhớ đệm 28 ngày, và phản hồi chính thức khuyến khích bạn "sử dụng nó một cách tiết kiệm".

By: blockbeats|2026/04/03 13:18:46
0
Chia sẻ
copy

4-17%. Đây là tỷ lệ truy cập bộ nhớ cache nhanh cho Claude Code trong tháng vừa qua. Mức bình thường là 97-99%.

Điều này có nghĩa là khi bạn tiếp tục một phiên làm việc trước đó, Claude Code không sử dụng lại ngữ cảnh đã được xử lý trước đó, mà thay vào đó sẽ xử lý mọi thứ từ đầu mỗi lần, tiêu tốn tín dụng với tốc độ cao hơn từ 10 đến 20 lần so với bình thường. Bạn có thể nghĩ rằng mình đang tiếp tục một cuộc trò chuyện, nhưng trên thực tế, mỗi lần như vậy bạn lại bắt đầu một cuộc trò chuyện hoàn toàn mới, với chi phí không giới hạn.

Giới hạn 3 lời chào, giới hạn mã Claude của bạn đâu rồi? Lỗi bộ nhớ đệm 28 ngày, và phản hồi chính thức khuyến khích bạn

Dữ liệu này đến từ hệ thống giám sát proxy của nhà phát triển độc lập ArkNill. Bằng cách thiết lập một máy chủ proxy trong suốt, anh ấy đã ghi lại mọi yêu cầu giữa Claude Code và API Anthropic, phát hiện ra ít nhất hai lỗi bộ nhớ đệm phía máy khách khiến máy chủ API không thể khớp các tiền tố hội thoại được lưu trong bộ nhớ đệm, buộc phải xây dựng lại toàn bộ mã thông báo mỗi vòng.

Biểu đồ trên cho thấy sự so sánh tỷ lệ truy cập bộ nhớ cache thành công qua ba giai đoạn. Trong các phiên bản từ v2.1.69 đến v2.1.89 (thời điểm xảy ra lỗi), tỷ lệ truy cập bộ nhớ cache của phiên bản độc lập chỉ đạt 4-17%. Sau khi khắc phục một lỗi nghiêm trọng trong phiên bản v2.1.90, tỷ lệ truy cập bộ nhớ cache khi khởi động nguội đã trở lại mức 47-99,7%. Đến phiên bản v2.1.91, tỷ lệ truy cập bộ nhớ cache ổn định đã phục hồi lên mức 97-99%.

Một chi tiết đáng chú ý từ biểu đồ: phạm vi trong phiên bản v2.1.90 khá rộng (từ 47% đến 99,7%) vì bộ nhớ đệm vẫn cần "khởi động" khi phiên làm việc được tiếp tục, dẫn đến tỷ lệ truy cập thấp trong vài vòng đầu tiên, nhưng nhanh chóng trở lại bình thường. Trong phiên bản bị lỗi, quá trình khởi động này không bao giờ diễn ra — tỷ lệ truy cập bộ nhớ cache luôn duy trì ở mức 14.500 token nhắc nhở hệ thống, và toàn bộ lịch sử hội thoại đều bị tính phí đầy đủ mỗi lần.

28 ngày, 20 phiên bản

Lỗi này không phải là loại lỗi được đưa vào trong một bản cập nhật và được sửa trong bản cập nhật tiếp theo. Theo hồ sơ phát hành trên npm registry, phiên bản v2.1.69 gây ra lỗi được phát hành vào ngày 4 tháng 3, và phiên bản v2.1.90 đã sửa lỗi được phát hành vào ngày 1 tháng 4. Khoảng thời gian giữa hai lần phát hành là 28 ngày, trải dài qua 20 phiên bản.

Dòng thời gian đã hé lộ một chi tiết hấp dẫn. Sau khi lỗi này xuất hiện vào ngày 4 tháng 3, người dùng không ngay lập tức phản ánh rộng rãi về vấn đề này. Mãi đến ngày 23 tháng 3, các khiếu nại mới bùng phát hàng loạt, gần ba tuần sau đó. Lý do là, theo phân tích sự cố #41930 trên GitHub, từ ngày 13 đến 28 tháng 3, Anthropic đã triển khai chương trình khuyến mãi gấp đôi hạn mức (gấp đôi trong giờ thấp điểm), điều này đã che giấu một cách khách quan tác động của lỗi. Sau khi chương trình khuyến mãi kết thúc, mức tiêu thụ bộ nhớ cache trở lại mức tính phí thông thường và hạn mức sử dụng của người dùng ngay lập tức "biến mất".

Phản hồi của Anthropic không nhanh chóng. Vào ngày 26 tháng 3, ba ngày sau khi người dùng bắt đầu phàn nàn, kỹ sư Thariq Shihipar đã thông báo trên tài khoản X cá nhân của mình rằng giới hạn giờ cao điểm (các ngày trong tuần từ 5 giờ sáng đến 11 giờ sáng theo giờ Thái Bình Dương) đã được thắt chặt. Vào ngày 30 tháng 3, Anthropic thừa nhận trên Reddit rằng "tỷ lệ người dùng đạt chỉ tiêu vượt xa mong đợi", đồng thời coi đây là ưu tiên hàng đầu của nhóm. Mãi đến ngày 1 tháng 4, thành viên nhóm Lydia Hallie mới công bố kết quả điều tra chính thức.

Trong suốt quá trình này, Anthropic không đăng bất kỳ bài viết nào trên blog, không gửi thông báo qua email, cũng không cập nhật trang trạng thái. Mọi thông tin chính thức đều được truyền đạt hoàn toàn thông qua các bài đăng trên mạng xã hội cá nhân của các kỹ sư và một vài bình luận trên Reddit.

Bạn đã trả bao nhiêu tiền và bạn có thể sử dụng nó trong bao lâu?

Vấn đề số #41930 trên GitHub đã thu thập hàng trăm báo cáo từ người dùng. Trường hợp cực đoan nhất là người dùng gói Max 20x (200 đô la/tháng), toàn bộ thời gian sử dụng 5 giờ của họ đã bị tiêu thụ hết chỉ trong 19 phút. Người dùng Max 5x (100 đô la/tháng) cho biết thời gian sử dụng 5 tiếng của họ đã hết chỉ trong 90 phút. Theo The Letter Two, một số người dùng cho rằng một lời chào đơn giản như "hello" đã tiêu tốn 13% dung lượng phiên của họ. Một người dùng Pro (20 đô la/tháng) trên Discord cho biết dung lượng sử dụng của anh ấy "hết vào mỗi thứ Hai và chỉ được thiết lập lại vào thứ Bảy", trong khi chỉ sử dụng bình thường được 12 ngày trong 30 ngày.

Dựa trên kết quả kiểm tra hiệu năng của ArkNill, ở phiên bản lỗi v2.1.89, dung lượng 100% của gói Max 20x sẽ bị cạn kiệt trong khoảng 70 phút. Ông cũng tính toán chi phí cho một thao tác --resume duy nhất đối với phiên ngữ cảnh 500K token, ước tính khoảng 0,15 đô la, vì hệ thống phát lại toàn bộ ngữ cảnh.

"Bạn đang cầm sai cách rồi"

Cuộc điều tra của Lydia Hallie đã xác nhận hai điểm: thứ nhất, quả thực đã có sự thắt chặt các giới hạn giờ cao điểm, và thứ hai, đã có sự gia tăng lượng tiêu thụ token trong bối cảnh 1 triệu token. Cô ấy đề cập rằng nhóm đã sửa một số lỗi nhưng nhấn mạnh rằng "không có lỗi nào dẫn đến việc tính phí quá cao."

Sau đó, bà đưa ra bốn lời khuyên về tiết kiệm:
1. Hãy sử dụng Sonnet 4.6 thay vì Opus (Opus tiêu tốn tài nguyên với tốc độ gấp đôi);

2. Giảm độ sâu của lập luận hoặc tắt chế độ suy luận mở rộng khi không cần thiết;

3. Không nên tiếp tục các phiên làm việc không hoạt động quá một giờ; thay vào đó hãy bắt đầu một phiên mới;

4. Đặt biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 để giới hạn kích thước cửa sổ ngữ cảnh.

Không hề đề cập đến bất kỳ hình thức thiết lập lại hạn ngạch hoặc bồi thường nào.

Người dẫn chương trình podcast về AI, Alex Volkov, đã tóm tắt phản hồi này là "Bạn đang hiểu sai vấn đề", chỉ ra rằng chính Anthropic đã đặt bối cảnh 1 triệu token làm mặc định, quảng bá Opus là mô hình chủ lực và nhấn mạnh khả năng tư duy mở rộng như một điểm bán hàng, nhưng hiện đang khuyên người dùng trả phí không nên sử dụng các tính năng này.

Việc khẳng định "không tính phí quá cao" cũng tạo ra mâu thuẫn với chính lịch sử cập nhật của Claude Code. Chỉ một ngày trước khi Lydia trả lời, phiên bản v2.1.90 đã sửa một lỗi hồi quy bộ nhớ cache tồn tại từ phiên bản v2.1.69: khi sử dụng --resume để tiếp tục phiên làm việc, các yêu cầu đáng lẽ phải được lưu vào bộ nhớ cache lại gây ra lỗi truy cập bộ nhớ cache hoàn toàn, dẫn đến việc tính phí đầy đủ. Phản hồi của Lydia không đề cập đến sự bất thường trong việc lập hóa đơn đã được xác nhận này.

Để so sánh, Codex của OpenAI trước đây cũng đã gặp phải các vấn đề tương tự về tiêu thụ hạn mức bất thường. Cách tiếp cận của OpenAI là đặt lại hạn mức người dùng, hoàn tiền tín dụng và thông báo về việc loại bỏ giới hạn sử dụng trên Codex vào tháng 3. Cách tiếp cận của Anthropic là khuyên người dùng hạ cấp mô hình, vô hiệu hóa các tính năng, hạn chế ngữ cảnh và quy trách nhiệm cho việc sử dụng của người dùng.

Anthropic bán gói đăng ký "mô hình mạnh nhất + ngữ cảnh tối đa + khả năng suy luận cao nhất", với mức phí từ 20 đến 200 đô la mỗi tháng. Lỗi bộ nhớ đệm 28 ngày đã khiến dung lượng sử dụng của người dùng trả phí bị hao hụt nhanh hơn từ 10 đến 20 lần, và phản hồi chính thức là nên sử dụng tiết kiệm.

Giá --

--

Bạn cũng có thể thích

Báo cáo sáng | Coinbase Ventures thực hiện khoản đầu tư đầu tiên vào ENA; SpaceX dự kiến đặt giá IPO ở mức 135 USD/cổ phiếu

Tổng quan các sự kiện thị trường quan trọng ngày 3 tháng 6

Toàn văn và phân tích bài phát biểu của CEO SanDisk tại Hội nghị Quyết định Chiến lược Thường niên lần thứ 42 của Bernstein

Giá trị cốt lõi trong bài phát biểu của Goeckeler nằm ở việc ông cung cấp một khung tường thuật minh bạch và logic cho quá trình chuyển đổi doanh nghiệp.

Dự báo giá Bitcoin năm 2030: Ark Invest dự đoán đạt 710.000 USD

Khám phá các dự báo giá bitcoin năm 2030 từ Ark Invest và Standard Chartered, cùng các rủi ro chính và cách phân bổ danh mục đầu tư của bạn. Phân tích đầy đủ trên WEEX.

Giá SOL hôm nay: Giá Solana trực tiếp, biểu đồ & dữ liệu thị trường

Tìm giá SOL hôm nay với dữ liệu thời gian thực, cùng các yếu tố chính thúc đẩy biến động của Solana và các mẹo giao dịch hữu ích. Đọc phân tích đầy đủ trên WEEX.

Bitcoin ETF là gì: Giải thích về Spot và Futures

Tìm hiểu Bitcoin ETF là gì, cách thức hoạt động của các quỹ ETF spot và futures, cũng như lý do dòng vốn tổ chức đang định hình lại BTC trong năm 2026. Phân tích từ WEEX.

Tại sao Bitcoin giảm 15% trong khi Nasdaq đạt mức cao kỷ lục?

Bitcoin giảm 15% xuống còn 66.000 USD do lo ngại căng thẳng địa chính trị, trong khi Nasdaq tăng vọt lên mức cao nhất mọi thời đại. Phân tích các yếu tố kinh tế vĩ mô, dòng vốn ETF, hành vi của nhà đầu tư nhỏ lẻ so với cá voi và mối tương quan ẩn giữa tiền điện tử và cổ phiếu.

Coin thịnh hành

Tin tức crypto mới nhất

Đọc thêm
iconiconiconiconiconiconicon
Bộ phận CSKH:@weikecs
Hợp tác kinh doanh:@weikecs
Giao dịch Định lượng & MM:bd@weex.com
Chương trình VIP:support@weex.com