Sáng sớm ngày 8 tháng 4, DeepSeek lặng lẽ tung ra giao diện chế độ phân lớp mới: hai lối vào "Nhanh" và "Chuyên gia" xuất hiện trong phiên bản web/Ứng dụng, ngoài ra còn có tùy chọn "Tầm nhìn" với biểu tượng đang được thử nghiệm ở thang độ xám.

Hình ảnh | Ảnh chụp màn hình phiên bản web Deepseek
Sự phân chia chức năng mới rất rõ ràng: Chế độ nhanh dành cho tiếng Nhật Đối thoại thông thường và phản hồi có độ trễ thấp; chế độ chuyên gia nhằm vào các nhiệm vụ lý luận phức tạp và sâu sắc, có thể kích hoạt thời gian lý luận lâu hơn nhưng phản hồi chậm; trong khi chế độ trực quan mở ra khả năng đa phương thức như nhập hình ảnh, nhưng công nghệ tìm kiếm ifeng.com nhận thấy rất ít người chuyển sang chế độ trực quan từ thang độ xám.
Người ta thường cho rằng đây là chức năng và trải nghiệm khởi động cho mẫu V4 thế hệ mới sắp ra mắt. Tuy nhiên, so với sự phát triển của các mô hình mới, hệ thống phân loại hiện tại có thể đáng được quan tâm hơn. Là một cơ chế lập kế hoạch “gọi sức mạnh tính toán theo yêu cầu”, nó chuyển các nhiệm vụ đơn giản sang các đường dẫn chi phí thấp và chỉ cho phép suy luận sức mạnh tính toán cao khi cần thiết, từ đó giảm mức tiêu thụ Token không hợp lệ và đạt được mức giảm cấu trúc trong tổng chi phí.
Nỗi lo lắng về sức mạnh tính toán của các công ty mô hình lớn
Khoảng một tuần trước, Anthropic đã thông báo rằng bắt đầu từ ngày 5 tháng 4, dịch vụ đăng ký mô hình lớn của Claude sẽ không còn bao gồm các công cụ tích hợp của bên thứ ba bao gồm cả Tôm hùm nữa. Người dùng muốn tiếp tục sử dụng mô hình này chỉ có thể thực hiện điều đó thông qua gói trả tiền theo nhu cầu sử dụng được lập hóa đơn riêng biệt với dịch vụ đăng ký và họ phải trả phí bổ sung. Logic đằng sau
rất dễ hiểu, như Huang Renxun đã hét lên về kinh tế Token tại hội nghị GTC. Các công ty công nghệ lớn trên toàn cầu đột nhiên biến mức tiêu thụ token thành tiêu chuẩn đánh giá và các công ty Internet lớn trong nước thậm chí còn công bố bảng xếp hạng mức tiêu thụ token hàng tháng. Tuy nhiên, chủ đề tiêu thụ token đã trở nên rất phổ biến.
Theo Anthropic, mô hình định giá đăng ký ban đầu được thiết kế dựa trên "cường độ sử dụng bình thường của người dùng cá nhân". Tuy nhiên, cường độ sử dụng các công cụ tác nhân tự động như OpenClaw vượt xa mong đợi - một số người dùng nhiều chỉ trả phí đăng ký hàng tháng là 200 USD nhưng lại tiêu tốn tài nguyên máy tính trị giá 5.000 USD, gây áp lực chi phí rất lớn cho Anthropic.
Luo Fuli, người đứng đầu Xiaomi AI và cựu thành viên cốt lõi của DeepSeek, đã phá bỏ khái niệm này và tin rằng Anthropic cuối cùng đã thoát ra khỏi hố sâu. Ông đã xuất bản một bài báo dài trên nền tảng xã hội Lối thoát thực sự không phải là các mã thông báo rẻ hơn mà là sự đồng phát triển giữa "khuôn khổ Tác nhân hiệu quả mã thông báo cao hơn" và "một mô hình mạnh mẽ và hiệu quả hơn".
Theo dữ liệu trong ngành, tính đến tháng 3 năm 2026, số lệnh gọi Token trung bình hàng ngày của các mô hình AI lớn của Trung Quốc đã vượt quá 140 nghìn tỷ đồng, tăng hơn một nghìn lần so với đầu năm 2024.
Luo Fuli đã tính toán: tính toán dựa trên giá API, chi phí thực sự của loại framework này có lẽ gấp hàng chục lần giá đăng ký. Cô cảm thấy khoảng trống này "không phải là khoảng trống, mà là một hố sụt".

Điều đáng chú ý hơn của các công ty AI trong nước là Anthropic đã công bố vào ngày 7 tháng 4 rằng doanh thu hàng năm (ARR) của họ đã vượt 30 tỷ USD, chính thức vượt qua 25 tỷ USD của OpenAI.
Từ 9 tỷ cuối năm 2025 lên 30 tỷ hiện nay, nó đã đạt mức tăng trưởng bùng nổ 233% chỉ sau hơn ba tháng. Dù vậy, Anthropic vẫn đang tính toán một khoản tế nhị.
Theo quan điểm của Luo Fuli, giá trị thực sự của lệnh cấm “tôm hùm” của Anthropic là làm cho cái giá phải trả của sự kém hiệu quả thực sự rõ ràng, do đó buộc toàn bộ hệ sinh thái phải hướng tới kỷ luật tự giác về kỹ thuật. Cơn đau ngắn hạn không phải là điều xấu. Nó sẽ thúc đẩy các nhà phát triển khung cải thiện nghiêm túc việc quản lý ngữ cảnh, tối đa hóa tốc độ truy cập bộ nhớ đệm nhanh chóng và giảm mức tiêu thụ mã thông báo không hợp lệ.
Việc phát hành các mẫu mới có thể không quan trọng vào lúc này
Điều ngạc nhiên ban đầu của DeepSeek R1 ban đầu là một sự đổi mới trong kiến trúc, giúp tiết kiệm đáng kể mã thông báo. Vào thời điểm đó, mặc dù nguồn cung cấp token giá thấp là DeepSeek nhưng mục đích ban đầu của nó không bao giờ là tạo ra một cuộc chiến về giá cả. Chỉ những người đến sau mới hoàn thành sự đổi mới này và hoàn thành trò chơi chiến tranh giá cả.
Sự phổ biến vào đầu năm 2025 cũng khiến DeepSeek nhiều lần phải đối mặt với tình thế tiến thoái lưỡng nan là không đủ công suất và thường xuyên đi xuống.
Sau làn sóng người dùng quy mô lớn đầu tiên, những người trong cuộc của DeepSeek đã từng nói với ifeng.com Technology rằng vì không có đủ tài nguyên vào thời điểm đó nên người dùng dường như bị hạn chế về số lần họ có thể sử dụng nó. Sau đó, các nguồn lực được phân bổ lại nội bộ thông qua các phương pháp tối ưu hóa.
Nhưng sự đổi mới về kiến trúc nội bộ này đã không thể đáp ứng nhu cầu gọi mã thông báo hiện tại.
Sinolink Securities đã chỉ ra trong báo cáo nghiên cứu rằng cung và cầu sức mạnh tính toán đang gửi đi những tín hiệu quan trọng - phía cầu đang mở rộng theo cấp số nhân, nhưng phía cung bị hạn chế bởi các biện pháp kiểm soát xuất khẩu chip và hạn chế về chi phí, khiến việc mở rộng đồng thời trở nên khó khăn.
Mô hình miễn phí đã trở thành động lực thúc đẩy cuộc khủng hoảng này. Chi phí vận hành của các mô hình lớn là cực kỳ cao và mô hình miễn phí khiến việc mở rộng sức mạnh tính toán nền tảng luôn tụt hậu so với tốc độ tăng trưởng của người dùng.
Kể từ đầu năm 2026, DeepSeek đã tổ chức ít nhất 7 lần ngừng dịch vụ quy mô lớn. Từ tối 29/3 đến sáng 30/3, nền tảng này lại bất ngờ gặp sự cố. Trang web và APP không khả dụng cùng lúc. Thời gian ngừng hoạt động kéo dài khoảng 12 tiếng và mãi đến 9h13 ngày hôm sau mới trở lại bình thường.
Có lẽ dưới áp lực, DeepSeek đã âm thầm cập nhật giao diện đối thoại vào ngày 8 tháng 4, thêm tùy chọn "Chế độ nhanh" và "Chế độ chuyên gia" phía trên hộp nhập liệu. Theo ý kiến của những người trong ngành, thiết kế phân cấp không chỉ có thể giảm bớt áp lực đỉnh điểm thông qua việc phân bổ sức mạnh tính toán mà còn mở đường cho việc thiết lập hệ thống thanh toán và giới hạn giới hạn hiện tại sau này.
Cách đây không lâu, OpenAI đã thông báo ngừng hoạt động ngoại tuyến của Sora và tập trung lại tài nguyên điện toán hạn chế của mình vào các dịch vụ cốt lõi. Cùng với việc DeepSeek ra mắt các biện pháp phân lớp và hạn chế dòng điện cực đại của Anthropic, nó đã tiết lộ một thực tế: tốc độ tăng trưởng của nhu cầu đã vượt xa khả năng mở rộng của cơ sở hạ tầng.
Con voi trong phòng của đường đua AI
Không có DeepSeek Mô hình này không bền vững, từ lệnh cấm của Anthropic đến cảnh báo chiến tranh giá cả của Luo Fuli, những sự kiện tưởng chừng như độc lập này đều hướng đến cùng một cấu trúc mâu thuẫn: số lượng mã thông báo trong đường đua AI đang mở rộng theo cấp số nhân.
Các trung tâm dữ liệu AI ở nước ngoài đang thu thập chip bộ nhớ và sau đó thanh toán cho Phố Wall, giống như một trò chơi cá cược bất tận.
Trên thực tế, không chỉ chip mà cả các cuộc khủng hoảng điện cũng chồng chéo lên nhau: mức tiêu thụ điện năng của máy tính AI chiếm 46% tốc độ tăng trưởng tiêu thụ điện trong toàn xã hội, vượt xa mức tăng trưởng chung là 6,1% và tính linh hoạt của nguồn điện không đủ đã trở thành một hạn chế cứng rắn.
Trong bối cảnh này, ngành đang trải qua quá trình chuyển đổi mô hình từ "đốt tiền miễn phí để trao đổi người dùng" sang "tinh chỉnh hoạt động của sức mạnh tính toán". Alibaba Cloud và Tencent Cloud đã bắt đầu tăng giá sức mạnh tính toán, với mức tăng cao nhất đạt 34%. Nhưng mặc dù nghe có vẻ giống như tăng giá nhưng trên thực tế, nó chỉ xóa bỏ các khoản giảm giá từ giai đoạn chiến tranh giá cả trước đó và khôi phục lại mức giá bình thường.
Vào ngày 8 tháng 4, khi Zhipu phát hành mẫu mã nguồn mở hàng đầu GLM-5.1, nó lại tăng giá thêm 10%. Nó đã tăng giá hai lần trước đó.
Nếu trong hai năm qua, từ khóa của ngành công nghiệp mô hình lớn là "quy mô" và "tốc độ", thì giờ đây, từ khóa đó đã lặng lẽ trở thành hai từ: chi phí.
Ngay cả các công ty ngôi sao ở nước ngoài như OpenAI và Anthropic vẫn đang trong giai đoạn đầu tư cao, với khoản chi khổng lồ cho sức mạnh tính toán, nhân tài, cơ sở hạ tầng, v.v. Trong khi tiếp tục dựa vào nguồn tài chính, họ phải trả lời một câu hỏi thực tế: Khi nào doanh nghiệp này sẽ trở thành doanh nghiệp tự tạo?
Kết quả là ngành bắt đầu nhìn thấy một bước chuyển biến rõ ràng: khi AI bắt đầu kiếm tiền, bước đầu tiên không phải là kiếm nhiều hơn mà là thua ít hơn.
Một loại người chơi, được đại diện bởi OpenAI, đã chọn một lộ trình cấp tiến hơn: lặp lại sản phẩm nhanh chóng, ưu tiên về khả năng, hệ sinh thái mở và duy trì tốc độ mở rộng thông qua tài trợ liên tục; trong khi loại còn lại, đại diện bởi Anthropic, rõ ràng là hạn chế hơn, tập trung vào cơ cấu chi phí, sự ổn định và dịch vụ doanh nghiệp, đồng thời nâng cao hiệu quả thông qua tối ưu hóa kỹ thuật.
Sự khác biệt giữa hai điều này có thể hiểu đơn giản là: một là "làm trước rồi mới bàn", hai là "tìm hiểu trước rồi mới làm".
Thay đổi này thực sự sẽ có tác động trực tiếp đến người dùng thông thường.
Trước hết, giá API có thể sẽ không tiếp tục giảm đáng kể như nhiều người mong đợi. Dù đơn giá giảm nhưng áp lực kiểm soát chi phí vẫn chưa biến mất. Doanh nghiệp có xu hướng hấp thụ chi phí bằng cách tối ưu hóa cơ cấu hơn là giảm giá không giới hạn.
Thứ hai, hạn ngạch và trợ cấp miễn phí có thể dần được thắt chặt. Giai đoạn dựa vào “đốt tiền để tăng trưởng” trước đây sắp kết thúc. Khi mọi token cần được đo lường chính xác, bản thân chiến lược miễn phí hào phóng sẽ trở nên không bền vững.
Một lần nữa, ở cấp độ trải nghiệm, người dùng cũng có thể trải nghiệm những thay đổi: phản hồi của mô hình sẽ hạn chế và hợp lý hơn; văn bản dài, lý luận phức tạp hoặc cuộc gọi tần suất cao có thể bị hạn chế nghiêm ngặt hơn hoặc được phân loại theo mức giá. Đằng sau những "câu trả lời ngắn hơn" mà bạn thấy thường không phải là mô hình đã trở nên "lười biếng" mà là hệ thống đang tích cực thực hiện tối ưu hóa chi phí.
Theo một nghĩa nào đó, thời điểm Token được lưu, chi phí không biến mất mà được phân phối lại - luân chuyển giữa các nhà sản xuất mô hình, khách hàng doanh nghiệp và người dùng cuối.
Suy cho cùng, AI đang hoàn tất quá trình chuyển đổi từ “sản phẩm thử nghiệm” thành “hàng hóa”. Các mô hình lớn không bao giờ chỉ là vấn đề kỹ thuật mà là một hoạt động kinh doanh nặng về tài sản. Khi huyền thoại tăng trưởng lùi dần, việc tính toán trở thành vấn đề cốt lõi nhất, thực tế nhất và khó tránh khỏi nhất.
Đây là logic thực sự của ngành đằng sau hoạt động “Khai thác mã thông báo”.