Cựu nhà phát triển lõi Windows Dave Plummer đã chạy thành công mẫu Transformer trên máy tính PDP-11/44 47 tuổi và hoàn thành khóa đào tạo AI với CPU 6 MHz và bộ nhớ 64KB. Mô hình do PDP-11 này chạy có tên là ATTN-11, được viết bởi Damien Boureille bằng hợp ngữ PDP-11, để triển khai Máy biến áp một đầu, một lớp, chỉ chứa 1216 tham số.

Nhiệm vụ của mô hình có vẻ đơn giản, đó là nhập một chuỗi số và xuất ra kết quả đảo ngược. Nhưng để hoàn thành nhiệm vụ này, mô hình phải độc lập tìm hiểu các quy tắc cấu trúc của sự đảo ngược trình tự. Plummer tin rằng điều này nắm bắt chính xác bản chất hoạt động của các mô hình lớn hiện đại như ChatGPT.

Để chạy trên phần cứng cực kỳ hạn chế, ATTN-11 đã thực hiện rất nhiều tối ưu hóa cực độ. Độ chính xác của quá trình truyền tiến được giảm xuống còn các số điểm cố định 8 bit và mọi chu kỳ CPU đều được tối ưu hóa.

Cuối cùng, Plummer đã sử dụng bảng bộ đệm, để đạt được độ chính xác 100% của mô hình sau khoảng 350 bước đào tạo và toàn bộ quá trình mất khoảng 3,5 phút.

Plummer mô tả quá trình đào tạo trong video: “Mô hình lúc đầu ngu ngốc, giá trị tổn thất cao, sau đó đến một thời điểm nhất định, các trọng số bắt đầu hội tụ và máy chú ý Hệ thống đã phát hiện ra ánh xạ đảo ngược và cỗ máy đã vượt qua ranh giới vô hình từ đoán sang biết."

Điểm cốt lõi của ông là bản chất của AI hiện đại không phải là sức mạnh bí ẩn mà là "máy liên tục cập nhật sức mạnh của hàng nghìn kết nối có trọng số, khiến câu trả lời tiếp theo ít sai hơn lần trước một chút".

Plummer cuối cùng đã chỉ ra rằng khi tài nguyên máy tính ngày càng trở thành nút thắt cổ chai, các công ty có thể quay trở lại mục tiêu theo đuổi hiệu quả và tối ưu hóa cao nhất sẽ có lợi thế lớn hơn trong cuộc cạnh tranh AI trong tương lai.