Rửa xe khi đi bộ, mù màu xanh đỏ và các câu hỏi khác không thể trả lời chính xác. Cư dân mạng phàn nàn rằng AI lập trình mạnh nhất đã làm suy giảm nghiêm trọng trí thông minh

Mặc dù Mythos do Anthropic phát hành vài ngày trước đã lập kỷ lục mới về mô hình AI lớn mạnh nhất nhưng nó vẫn chưa được đưa vào sử dụng. Mô hình lớn lập trình AI mạnh nhất hiện nay là Claude Opus 4.6, cũng đắt nhất hiện nay. Tuy nhiên, vấn đề suy giảm trí thông minh của Claude gần đây đã gây ra sự bất mãn của một số lượng lớn các nhà phát triển đã trả giá cao. Ngay cả giám đốc điều hành bộ phận AI của AMD cũng đứng ra nói rằng vấn đề suy giảm trí thông minh đã ảnh hưởng đến sự phát triển và phạm vi ảnh hưởng là khá lớn.

Trong cộng đồng Linux.do trong nước, nhiều cư dân mạng cũng nói về vấn đề Opus 4.6 làm giảm trí thông minh và cũng xác minh nó bằng hai câu hỏi kiểm tra mô hình lớn AI nổi tiếng.

Một trong hai câu hỏi này là nên lái xe hay đi bộ đến tiệm rửa xe ở khoảng cách 50 mét, và câu hỏi còn lại là về người cha suy sụp do chứng mù màu xanh đỏ của con gái mình. Về bản chất, chúng là bẫy logic nhưng có thể kiểm tra khả năng của AI.

Nhiều AI trong và ngoài nước đã lật tẩy vấn đề rửa xe trước đây. Mô hình lớn của Claude là một trong số ít những mô hình lớn có thể trả lời chính xác câu hỏi với lợi thế về IQ rõ ràng.

Tuy nhiên, theo các thử nghiệm thực tế hiện nay, ngay cả mẫu lớn Opus 4.6 mạnh nhất cũng bắt đầu trả lời sai hai câu hỏi này và mất đi khả năng IQ cao trước đó.

Một số cư dân mạng còn đăng tải hình ảnh bài kiểm tra của chính mình, nói rằng họ có thể trả lời đúng nên câu hỏi này không hoàn toàn phiến diện.

Dựa trên những khiếu nại trước đây của AMD, rõ ràng trí thông minh của Cluade gần đây đã bị giảm đi, nhưng nguyên nhân của việc giảm thì khó nói. Các giám đốc điều hành của Anthropic không thừa nhận rằng trước đó đã có vấn đề.

Một phỏng đoán hợp lý hơn có liên quan đến sức mạnh tính toán. Câu hỏi của Musk cách đây vài ngày đã vô tình tiết lộ rằng Sonnet 4.6 của Claude là model lớn với 1 nghìn tỷ thông số, Opus 4.6 có 5 nghìn tỷ thông số, , và nó không thuộc loại MoE. Mô hình dày đặc đòi hỏi sức mạnh tính toán rất cao và tốn kém nên giá sạc cũng đắt nhất.

Các công ty AI ngày nay vẫn đang thua lỗ khi bán gói đăng ký. Điều này cũng có thể giải thích phần nào động lực của Anthropic trong việc cấm các ứng dụng có mức tiêu thụ token cực cao như Crayfish.

Đối với các nhà phát triển trong nước, còn có một lý do khác để giảm trí thông minh, Đó là Anthropic sẽ nhắm mục tiêu giảm trí thông minh dựa trên IP, Về cơ bản, đây cũng là vấn đề phân bổ sức mạnh tính toán, nhưng họ không phải là những người duy nhất thực hiện việc này dưới hình thức IP/quốc gia được nhắm mục tiêu. Các công ty khác của Mỹ như OpenAI cũng bị phát hiện đã sử dụng phương pháp này để hạn chế các nhà phát triển và người dùng trong nước.

TAG PH83