GPT-4 không biết mình sai. Lỗ hổng LLM mới lộ diện: tỷ lệ tự sửa lỗi thành công chỉ 1%

GPT-4 thậm chí còn không biết mình đã mắc lỗi? Nghiên cứu mới nhất cho thấy trong các tác vụ suy luận, LLM không thể cứu hiệu suất khỏi tình trạng suy giảm sau khi tự sửa lỗi, điều này đã thu hút ông trùm AI LeCun Marcus theo dõi. Một lỗ hổng lớn khác được phát hiện ở mô hình lớn đã thu hút sự chú ý của hai ông lớn là LeCun và Marcus, những người đồng loạt chuyển tiếp nó!

Trong thí nghiệm suy luận, mô hình tuyên bố cải thiện độ chính xác đã tự sửa, "cải thiện" độ chính xác từ 16% lên 1%!

Nói một cách đơn giản, LLM không thể cải thiện kết quả đầu ra thông qua việc tự sửa lỗi trong các nhiệm vụ suy luận, trừ khi LLM đã biết câu trả lời đúng trong quá trình tự sửa lỗi.

Hai bài báo được xuất bản bởi các nhà nghiên cứu của ASU đã bác bỏ phương pháp "tự sửa lỗi" được nhiều nghiên cứu trước đây đề xuất - cho phép các mô hình lớn tự sửa kết quả đầu ra của chính chúng có thể cải thiện chất lượng đầu ra của mô hình.

Địa chỉ giấy tờ: https://arxiv.o rg/abs/2310.12397

Vị trí giấy Địa chỉ: https://arxiv.org/abs/2310.08118

Giáo sư Subbarao Kambhampati, đồng tác giả của bài báo, đã cam kết nghiên cứu về khả năng suy luận của AI. Ông đã xuất bản một bài báo vào tháng 9 và thậm chí còn phủ nhận hoàn toàn khả năng suy luận và lập kế hoạch của GPT-4.

Địa chỉ giấy: https://arxiv.org/pdf/2206.10498 .pdf

Ngoài giáo sư này, các nhà nghiên cứu từ DeepMind và Đại học UIUC gần đây cũng đặt câu hỏi về khả năng “tự sửa lỗi” của LLM trong các nhiệm vụ suy luận.

Bài viết này thậm chí còn kêu gọi tất cả các học giả đang thực hiện nghiên cứu liên quan vui lòng thực hiện nghiên cứu của bạn một cách nghiêm túc và đừng nói cho mô hình lớn câu trả lời đúng rồi để nó thực hiện cái gọi là "tự sửa lỗi".

Vì nếu mô hình không biết câu trả lời đúng thì chất lượng đầu ra sẽ giảm sau khi mô hình "tự sửa".

https://arxiv.org/abs/2310.01798

Tiếp theo, chúng ta hãy xem chi tiết hai bài báo mới nhất này.

GPT-4 "tự sửa", nhưng kết quả đầu ra kém hơn

Bài báo đầu tiên nghiên cứu GPT-4, để GPT-4 cung cấp giải pháp cho vấn đề tô màu đồ họa, sau đó để GPT-4 "tự sửa" các giải pháp của riêng mình.

Đồng thời, tác giả giới thiệu hệ thống đánh giá bên ngoài để đánh giá đầu ra trực tiếp của GPT-4 và đầu ra sau chu trình "tự sửa lỗi".

Kết quả thử nghiệm cho thấy độ chính xác trong việc đoán màu của GPT-4 là dưới 20%, điều này có vẻ không có gì đáng ngạc nhiên.

Nhưng thật ngạc nhiên, độ chính xác ở chế độ "tự sửa" giảm đáng kể (thanh thứ hai trong hình bên dưới) - hoàn toàn trái ngược với mọi ý định tự sửa!

Tác giả tin rằng tình huống có vẻ phản trực giác này có thể được giải thích như sau: GPT-4 cũng hoạt động rất kém trong việc xác minh các câu trả lời đúng!

Bởi vì ngay cả khi GPT-4 vô tình đoán đúng màu, tính năng "tự sửa" của nó khiến nó nghĩ rằng câu trả lời đúng có vấn đề và sau đó thay thế câu trả lời đúng.

Nghiên cứu sâu hơn cũng cho thấy rằng nếu trình xác thực bên ngoài cung cấp câu trả lời chính xác có thể kiểm chứng cho màu mà GPT-4 đoán thì GPT-4 thực sự sẽ cải thiện giải pháp của nó.

Trong trường hợp này, các từ nhắc nhở được tạo ra bởi "tự sửa" thực sự có thể cải thiện chất lượng của kết quả đầu ra (3-5 thanh trong hình trên)TAGPH 125

Tóm lại, đối với nhiệm vụ "vấn đề về màu sắc", tính năng "tự sửa" độc lập của GPT-4 sẽ thực sự gây hại cho hiệu suất đầu ra, vì GPT-4 không thể xác minh liệu câu trả lời có đúng hay không.

Nhưng nếu có thể cung cấp quy trình xác minh bên ngoài chính xác thì "tự sửa lỗi" do GPT-4 tạo ra thực sự có thể cải thiện hiệu suất.

Một bài báo khác nghiên cứu khả năng “tự sửa lỗi” của các mô hình ngôn ngữ lớn từ góc độ nhiệm vụ lập kế hoạch và kết quả nghiên cứu cũng tương tự như bài báo trước.

Hơn nữa, các nhà nghiên cứu nhận thấy rằng điều thực sự cải thiện độ chính xác của đầu ra không phải là khả năng "tự sửa lỗi" của LLM mà là phản hồi từ một người xác minh độc lập bên ngoài.

Trong phân tích cuối cùng, LLM không có cách nào để tiến hành xác minh độc lập và phải dựa vào "câu trả lời đúng" do người xác minh bên ngoài đưa ra để "tự sửa" một cách hiệu quả.

“Vấn đề tô màu” hoạt động kém và LLM không thể độc lập xác minh câu trả lời đúng

Khung thiết kế nghiên cứu

"Bài toán tô màu" là một bài toán lý luận rất cổ điển. Ngay cả khi nó không khó, các câu trả lời cũng đủ đa dạng và tính chính xác của các câu trả lời rất dễ kiểm chứng.

Sự đa dạng của kết quả khiến dữ liệu đào tạo LLM khó có thể bao quát tất cả và cố gắng tránh khả năng dữ liệu đào tạo LLM bị ô nhiễm.

Những lý do này khiến “bài toán tô màu” rất phù hợp để nghiên cứu khả năng suy luận của LLM, đồng thời cũng rất thuận lợi cho việc nghiên cứu khả năng “tự sửa” trong suy luận của LLM.

Các nhà nghiên cứu đã xây dựng tập dữ liệu của riêng họ, sử dụng GrinPy2 để xử lý các phép toán biểu đồ phổ biến. Mỗi ô được xây dựng bằng phương pháp Erdos-Rényi (˝p=0,4).

Sau khi tìm thấy câu trả lời đúng, nó sẽ được biên dịch thành định dạng DiMacS tiêu chuẩn và gắn thêm chú thích chứa số màu được tính toán trước.

Đối với các thử nghiệm sau, các nhà nghiên cứu đã tạo ra 100 trường hợp, mỗi trường hợp có trung bình 24 cạnh, trải rộng trên một phạm vi số nút từ 10 đến 17—một phân bố vì kinh nghiệm cho thấy đó là một phạm vi có hành vi đủ biến đổi.

Sơ đồ được các nhà nghiên cứu sử dụng được hiển thị trong Hình 1 bên dưới. Quá trình này bao gồm phản hồi đầu tiên của LLM, lời nhắc trả lời (nhắc ngược) của phản hồi và bảng màu chính xác cuối cùng.

Kiến trúc Backprompting lặp lại

TAGP H38PromptGenerator:

Trình tạo từ nhắc nhở này chọn một phiên bản DIMACS, dịch mỗi cạnh thành một câu, sau đó gói toàn bộ trong một tập hợp các hướng dẫn chung để xây dựng một từ nhắc nhở ngôn ngữ tự nhiên.

Các nhà nghiên cứu cố tình thu hẹp sự khác biệt giữa các lời nhắc phiên bản khác nhau để giảm lượng thông tin dành riêng cho vấn đề mà các nhà nghiên cứu rò rỉ tới LLM. Ví dụ về các loại lời nhắc khác nhau có thể được tìm thấy trong phần phụ lục.

Mô hình ngôn ngữ quy mô lớn:

Gọi GPT-4 thông qua OpenAIAPI, hiện là mô hình tiên tiến nhất.

Các nhà nghiên cứu đưa ra vai trò hệ thống: "Bạn là người giải quyết sự thỏa mãn ràng buộc, giải quyết các CSP khác nhau (vấn đề thỏa mãn ràng buộc)".

BackpromptGeneration

Ở chế độ xác minh, LLM nhận được một loại lời nhắc khác.

Ngoài các hướng dẫn tiêu chuẩn, nó chỉ chứa mô tả về hình và bảng màu gợi ý. Nhiệm vụ của nó là xác minh tính đúng đắn, tối ưu và liệu mỗi đỉnh có được sơn một màu hay không.

Nếu tập hợp các cạnh trong câu trả lời được tạo mâu thuẫn nhau thì bảng màu sai.

Để so sánh từng điểm, các nhà nghiên cứu cũng xây dựng một trình xác thực liệt kê mọi cạnh mâu thuẫn.

Vì phản hồi LLM cũng bằng ngôn ngữ tự nhiên nên trước tiên, các nhà nghiên cứu đã dịch chúng sang định dạng tạo điều kiện thuận lợi cho việc phân tích. Để làm cho quy trình trở nên nhất quán hơn, các nhà nghiên cứu đã thiết kế những gợi ý ban đầu để mô tả định dạng đầu ra chính xác mà một mô hình cần tuân theo. Phản hồi sau đó được đánh giá về tính chính xác.

Để đánh giá kết quả xác thực LLM, các nhà nghiên cứu kiểm tra xem họ thực hiện tốt như thế nào trong việc tìm ra lỗi trong các lược đồ tô màu được đề xuất.

Theo trực giác, những điều này sẽ dễ dàng được xác định: nếu hai đỉnh tạo nên một cạnh có cùng màu, hãy trả lại cạnh đó ngay lập tức. Từ góc độ thuật toán, vấn đề chỉ là phát hiện tất cả các cạnh và so sánh màu của từng đỉnh với màu của các điểm kết nối của nó.

Xác minh

Để hiểu rõ hơn về khả năng xác minh của LLM, các nhà nghiên cứu đã nghiên cứu hiệu suất của chúng trong việc tìm ra lỗi trong các sơ đồ tô màu được đề xuất.

Theo trực giác, những lỗi này có thể dễ dàng được phát hiện: nếu hai đỉnh tạo nên một cạnh có cùng màu thì cạnh đó sẽ được trả về ngay lập tức. Từ góc độ thuật toán, tất cả những gì cần làm là lặp qua tất cả các cạnh và so sánh màu của mỗi đỉnh với màu của đỉnh tương ứng.

Các nhà nghiên cứu đã sử dụng quy trình phân tích tương tự nhưng xây dựng một miền mới mà các nhà nghiên cứu gọi là color_verification. LLM được hướng dẫn để kiểm tra tính chính xác, tối ưu của việc tô màu và liệu mỗi đỉnh đã được gán một màu hay chưa.

Nếu màu không chính xác, nó sẽ được hướng dẫn liệt kê lỗi trong màu, tức là nếu hai nút được kết nối có chung một màu, hãy trả về cạnh để biểu thị lỗi. Không có lời nhắc nhở nào được đưa ra.

Các nhà nghiên cứu đã sử dụng cùng một phiên bản biểu đồ như trước đây nhưng đã tạo ra bốn phương pháp tô màu để thử nghiệm mô hình. Trường hợp:

Chính xác: Sơ đồ tạo bóng tối ưu không có lỗi được tạo bởi thuật toán tham lam lặp đi lặp lại, ngẫu nhiên (sử dụng số màu được tính toán trước để đảm bảo mức tối ưu).

Abrated: Thay đổi một nút ngẫu nhiên từ tập hợp các bảng phối màu trước đó thành màu của các nút lân cận.

Không tối ưu: Chọn ngẫu nhiên một phần màu từ bộ chính xác và đổi màu thành màu mới.

Random: Màu sắc được gán hoàn toàn ngẫu nhiên, số lượng màu khác nhau bằng số màu của hình ảnh.

LLM: Lược đồ tô màu được chọn ngẫu nhiên từ kết quả do LLM tạo ra trong các thử nghiệm trước đó.

Kết luận

T AGPH12nhắc LLM, đánh giá các câu trả lời và chuyển sang phiên bản tiếp theo mà không có bất kỳ dấu nhắc ngược nào, dẫn đến đường cơ sở điểm 16%.

Khi các nhà nghiên cứu chạy cùng một phiên bản, nhưng lần này sử dụng phản hồi được tạo bởi cùng một mô hình ngôn ngữ đóng vai trò là người xác minh cho lời nhắc trả lại, hiệu suất đã giảm đáng kể—chỉ một trong số 100 phiên bản có câu trả lời đúng.

Kết quả trả về gợi ý bằng trình xác thực đủ điều kiện bên ngoài ban đầu có vẻ hiệu quả hơn.

Số trường hợp trả lời đúng gần 40%, nhưng nếu điều này có nghĩa là GPT-4 đang lắng nghe, cải thiện và lý luận dựa trên phản hồi thì các nhà nghiên cứu kỳ vọng rằng lời nhắc trả lời chính xác hơn sẽ dẫn đến kết quả tốt hơn.

Tuy nhiên, trong lĩnh vực này, điểm thô (xem Hình 2 ở trên) không chứng minh được điều này.

Khả năng xác minh của LLM

Các nhà nghiên cứu đã thử nghiệm khả năng của GPT-4 trong việc xác minh cách phối màu đồ thị trên cùng một phiên bản, tạo ra năm loại cách phối màu khác nhau cho mỗi phiên bản.

Kết quả rõ ràng hoàn toàn giống với kết quả tự sửa lỗi LLM ở trên: mô hình gần như miễn cưỡng đánh dấu bất kỳ câu trả lời nào là đúng. Trong số 100 cách tô màu tối ưu, người ta chỉ đồng ý có 2 trong số đó là đúng.

Trong toàn bộ bộ sưu tập 500 sơ đồ tạo bóng, 118 sơ đồ trong số đó là đúng và nó chỉ tuyên bố rằng 30 sơ đồ trong số đó là đúng. Trong số 30 điều đó, chỉ có 5 điều thực sự đúng.

Nhìn chung, mẫu vẫn giữ nguyên. Trong chưa đầy 10% trường hợp, LLM đưa ra phản hồi "đúng", "không tối ưu" hoặc "thiếu bài tập". Trong những trường hợp này, hành vi có vẻ hơi ngẫu nhiên.

Trong khoảng một phần tư trường hợp, nó phản hồi với xác thực "điều này không chính xác", lời giải thích phù hợp với thực tế và nó thực hiện điều này bằng cách chỉ định không quá một cạnh, do đó giảm thiểu khả năng trình bày sai điều gì đó.

Kết quả được thể hiện trong Bảng 2 ở trên. Lưu ý rằng khi tỷ lệ lỗi của miền tăng lên thì tỷ lệ ảo giác sẽ giảm. Nghĩa là, khi có nhiều cạnh không chính xác hơn, mô hình có nhiều khả năng xác định chính xác các lỗi ở chúng hơn.

LLM tự phê bình, hiệu suất không tăng mà giảm

Trong bài báo nộp ngày 12, tác giả cũng đưa ra kết luận tương tự như trên.

Cho dù là lập kế hoạch, số học đơn giản hay logic, mẫu lớn GPT-4 tiên tiến nhất hiện nay đều không đủ năng lực.

Nhiều nhà nghiên cứu đã thực hiện nhiều khám phá và cải tiến, bao gồm cả việc cho phép LLM học cách tự lặp, tự xác minh và các chiến lược khác để cải thiện hiệu suất.

Vì vậy, những người trong ngành lạc quan rằng các mô hình lớn vẫn có thể được cứu!

Tuy nhiên, độ phức tạp của nhiệm vụ suy luận theo nghĩa cổ điển là không liên quan đến các mô hình lớn, bởi vì LLM là mô hình sử dụng truy xuất gần đúng thay vì suy luận chính xác.

Trong một bài báo được gửi tới arXiv vào ngày 12, các nhà nghiên cứu của ASU đã đánh giá và phân tích một cách có hệ thống khả năng tự phê bình của LLM trong các nhiệm vụ lập kế hoạch và khả năng tối ưu hóa lặp lại của nó.

Trong nghiên cứu, tác giả đã đề xuất một hệ thống quy hoạch bao gồm LLM tạo và LLM xác minh.

Trong số đó, trình tạo GPT-4 chịu trách nhiệm tạo các kế hoạch ứng viên và trình xác thực GPT-4 chịu trách nhiệm xác minh tính chính xác của kế hoạch và đưa ra phản hồi.

Sau đó, các nhà nghiên cứu đã tiến hành thử nghiệm trên miền quy hoạch Blocksworld và đánh giá bằng thực nghiệm:

-Tự phê bình về toàn bộ LLM+LLM Tác động đến hiệu suất tạo kế hoạch của hệ thống

- Hiệu suất của trình xác minh LLM so với thực tế cơ bản xác minh;

- Tác động của cùng mức phản hồi đến hiệu suất tổng thể của hệ thống khi chỉ trích việc tạo LLM.

Kết quả cho thấy việc tự phê bình làm giảm hiệu suất tạo kế hoạch LLM so với việc sử dụng trình xác thực đáng tin cậy bên ngoài.

Sự suy giảm hiệu suất có thể trực tiếp do kết quả kém của trình xác thực LLM, tạo ra số lượng lớn kết quả dương tính giả, có thể gây tổn hại nghiêm trọng đến độ tin cậy của hệ thống.

Độ chính xác phân loại nhị phân của LLM xác minh chỉ là 61% và có một số lượng lớn kết quả dương tính giả (kế hoạch sai được đánh giá là đúng).

Ngoài ra, dựa trên việc so sánh mức độ phản hồi chi tiết, người ta thấy rằng nó ít ảnh hưởng đến hiệu suất tạo kế hoạch.

Nhìn chung, cuộc điều tra có hệ thống của nghiên cứu này cung cấp bằng chứng sơ bộ đặt ra câu hỏi về tính hợp lệ của LLM như một công cụ xác nhận các nhiệm vụ lập kế hoạch trong khuôn khổ tự phê bình, lặp đi lặp lại.

Giới thiệu về tác giả

SubbaraoKambhampati

SubbaraoKambhampati là giáo sư khoa học máy tính tại Đại học bang Arizona. Kambhampati nghiên cứu các vấn đề cơ bản trong việc lập kế hoạch và ra quyết định, đặc biệt được thúc đẩy bởi những thách thức của hệ thống trí tuệ nhân tạo nhận thức của con người.

Tham khảo:

https://twitter.com/rao2z/status/17 15800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736