Các mô hình AI tiên tiến cạnh tranh với nhau trong giao dịch chứng khoán, dẫn đến lỗ nhiều hơn và lợi nhuận ít hơn. Công việc khó khăn nhất trong ngành tài chính vẫn dựa vào con người thật

Trí tuệ nhân tạo (AI) chưa sẵn sàng thay thế người quản lý quỹ của bạn và một loạt thử nghiệm công khai sẽ minh họa lý do. Trong loạt cuộc thi giao dịch mới có sự tham gia của các mô hình AI hàng đầu thế giới, hiệu suất của AI cho đến nay vẫn chưa cao. Hầu hết các hệ thống đều bị tổn thất. Họ giao dịch quá thường xuyên và đưa ra các quyết định hoàn toàn khác khi nhận được cùng một hướng dẫn . Và vẫn chưa ai biết liệu những sai sót này sẽ biến mất khi mô hình được nâng cấp lặp đi lặp lại hay liệu chúng có bộc lộ khoảng cách cơ bản giữa các mô hình ngôn ngữ lớn và cách thị trường thực sự hoạt động hay không.

Lấy Alpha Arena do startup công nghệ Nof1 điều hành làm ví dụ. Nền tảng này đưa tám hệ thống AI tiên tiến lớn cạnh tranh với nhau trong bốn cuộc thi, bao gồm Claude của Anthropic, Gemini của Google, ChatGPT của OpenAI và Grok của Elon Musk. Mỗi hệ thống được tài trợ 10.000 USD trước mỗi trận đấu và sau đó giao dịch độc lập cổ phiếu công nghệ của Hoa Kỳ trong hai tuần. Các thách thức bao gồm giao dịch dựa trên nhiều tín hiệu, áp dụng chiến lược phòng thủ, phản ứng với hiệu suất của đối thủ cạnh tranh và hoạt động với đòn bẩy cao.

Tổng danh mục đầu tư cuối cùng đã mất khoảng 1/3 số vốn. Trong tổng số 32 bộ kết quả, mô hình chỉ đạt lợi nhuận 6 lần. Grok 4.20 đạt được kết quả tốt nhất trong một thử thách cung cấp cái nhìn sâu sắc về hiệu suất của đối thủ cạnh tranh. Nó chỉ thực hiện 158 giao dịch; Qianwen của Alibaba đã thực hiện 1.418 giao dịch với cùng thời điểm.

Alpha Arena chỉ là một trong số các thử nghiệm liên quan ngày càng tăng. Những thử nghiệm này đang kiểm tra xem liệu các mô hình ngôn ngữ lớn có thể thực hiện được công việc khó khăn nhất trong lĩnh vực tài chính hay không: đánh bại thị trường. Mặc dù các cuộc thi không hề khắt khe về mặt học thuật, nhưng chúng là minh chứng công khai nhất cho đến nay về điều gì sẽ xảy ra khi các hệ thống này cố gắng đảm nhận một số công việc sinh lợi và rủi ro nhất của Phố Wall.

Lý do khiến những kết quả sơ bộ này quan trọng là vì giao dịch là một trong số ít công việc trong lĩnh vực tài chính vẫn thận trọng khi giao hoàn toàn cho AI. Trong vài năm qua, những gã khổng lồ trong ngành từ JPMorgan Chase đến Balyasny Asset Management đã sử dụng công nghệ này trong hầu hết mọi khía cạnh khác. Ngày nay, các mô hình ngôn ngữ lớn được sử dụng trong các tổ chức định lượng để phân tích tin tức, trong các quỹ phòng hộ để soạn thảo các bản ghi nhớ, trong các ngân hàng lớn để xác định gian lận, v.v. Nhưng khi nói đến các giao dịch vàng và bạc thực, “sự tham gia của con người” vẫn là tín ngưỡng của ngành và điều đó có vẻ dễ hiểu.

Người sáng lập Nof1 Jay Azhang

Người sáng lập Nof1 Jay Azhang cho biết: "Bản thân các mô hình ngôn ngữ lớn không thể kiếm tiền được. Về cơ bản, bạn cần một bộ khung ràng buộc rất phức tạp, hệ thống hỗ trợ và nền tảng dữ liệu để cho chúng cơ hội chơi."

Ông cho rằng các mô hình ngôn ngữ lớn rất giỏi trong việc nghiên cứu, đồng thời chúng cũng giỏi tìm kiếm và gọi các công cụ phù hợp cho một số nhiệm vụ nhất định. Nhưng họ vẫn không biết tầm quan trọng của từng biến số trong số nhiều biến số ảnh hưởng đến biến động giá cổ phiếu, bao gồm xếp hạng của các nhà phân tích, giao dịch nội bộ và những thay đổi trong tâm lý thị trường. Họ có xu hướng giao dịch sai thời điểm, kích thước vị thế không chính xác và mua và bán quá thường xuyên.

Blog Flat Circle của AI đã theo dõi 11 nền tảng cạnh tranh liên quan đến thị trường, tất cả đều có ít nhất một mô hình đã đạt được lợi nhuận. Nhưng trong số 11 nền tảng này, chỉ có hai mô hình trung bình của nền tảng đạt được lợi nhuận, cho thấy hầu hết các mô hình đều gặp khó khăn trong việc đánh bại thị trường.

Kết quả này phản ánh hiệu suất của con người, vì hầu hết các quỹ được quản lý tích cực đều hoạt động kém hơn thị trường. Và cũng giống như con người, những mô hình này dễ có những thành kiến đáng kể. Nhiều cuộc thi đã chỉ ra rằng các hệ thống AI đưa ra các quyết định rất khác nhau khi được đưa ra cùng một hướng dẫn, điều này có ý nghĩa quan trọng đối với các tổ chức triển khai chúng. Zhang đã đưa ra một ví dụ. Trong vòng thi đấu mới nhất tại Alpha Arena, Claude chủ yếu có xu hướng mua, Gemini không ác cảm với việc bán khống và Qianwen sẵn sàng chấp nhận rủi ro hơn với sự trợ giúp của đòn bẩy cao.

Doug Clinton, người điều hành Alpha thông minh, cho biết: "Họ có 'tính cách' của riêng mình và bạn phải quản lý họ giống như cách bạn làm với một nhà phân tích con người." Ông nói, kết quả có thể được cải thiện nếu mô hình được nhận thức được rằng nó thể hiện một số dạng sai lệch. Alpha thông minh có một quỹ được hỗ trợ bởi các mô hình ngôn ngữ lớn công bố tiêu chuẩn riêng về mức độ AI dự đoán thu nhập của công ty.

Điểm chuẩn của Intellect Alpha cung cấp quyền truy cập vào hồ sơ tài chính, dự báo của nhà phân tích, biên bản cuộc gọi thu nhập, dữ liệu kinh tế vĩ mô và tối đa 10 lượt tìm kiếm trên web cho 10 mô hình AI. Các mô hình ngôn ngữ lớn hoạt động hiệu quả hơn trong bài kiểm tra này do trọng tâm hẹp hơn của chúng. Trong quý 4 năm 2025, độ chính xác của ChatGPT của OpenAI trong việc đánh giá hướng thay đổi thu nhập dự kiến đạt 68%, lập kết quả tốt nhất cho đến nay. Clinton cho biết những mô hình này thường tiếp tục được cải tiến với mỗi lần phát hành mới.