Nhân loại sẽ mở ra AGI vào năm 2028: Bài viết dài của người đồng sáng lập DeepMind dự đoán sự phát triển AI trong tương lai

AGI được xác định như thế nào và khi nào nó sẽ đến? Shane Legg, người sáng lập và nhà khoa học trưởng AGI của Google DeepMind, đã mô tả cho chúng tôi khoảng cách hiện tại giữa chúng tôi và AGI. Vào ngày 26 tháng 10, Dwarkesh Patel, người dẫn chương trình DwarkeshPodcast (Dwark Podcast) với 30.000 lượt đăng ký trên X, đã phỏng vấn Shane Legg, người sáng lập và nhà khoa học trưởng AGI của Google DeepMind.

Họ đã thảo luận về nút thời gian cho sự xuất hiện của AGI, các kiến trúc mới có thể có của AGI, đa phương thức là chuẩn mực tiếp theo của ngành, cách điều chỉnh các mô hình ngoài con người và sự lựa chọn của Deepmind giữa khả năng của mô hình và bảo mật.

Cách đây không lâu, tờ Wall Street Journal đã thảo luận về tương lai của AGI với Giám đốc điều hành OpenAI Sam Altman và CTOMira Murati (liên kết).

Một bữa tiệc thảo luận AGI lần lượt tiếp nối nhau. AGI, thứ từng chỉ tồn tại trong các tác phẩm khoa học viễn tưởng, dường như sắp sửa xuất hiện.

01 Định nghĩa về AGI và nút xuất hiện

Trước khi đo tiến trình của AGI, trước tiên cần phải xác định AGI.

AGI, trí tuệ nhân tạo tổng hợp. Nhưng có nhiều định nghĩa khác nhau về “mục đích chung” là gì, điều này khiến cho việc trả lời AGI là gì là rất khó khăn.

ShaneLegg tin rằng những người có thể thực hiện các nhiệm vụ nhận thức do con người bình thường hoàn thành hoặc thậm chí vượt quá phạm vi này có thể được coi là AGI.

Theo đó, để kiểm tra xem AI đang tiến gần hay đạt đến ngưỡng này hay không, chúng ta cần thực hiện các loại phép đo khác nhau trên đó bao gồm phạm vi nhận thức của con người.

Nhưng điều này rất khó khăn vì chúng ta sẽ không bao giờ có bộ đầy đủ những gì con người có thể "làm", phạm vi quá lớn và được cập nhật liên tục.

Do đó, khi đánh giá xem đó có phải là AGI hay không, nếu một hệ thống trí tuệ nhân tạo đạt đến mức hiệu suất của con người đối với tất cả các nhiệm vụ nhận thức của con người có thể được đề xuất, thì đó có thể được coi là AGI.

Theo cách hiểu thông thường, có thể có một số việc con người có thể làm nhưng máy móc thì không. Nhưng khi chúng ta đã dùng hết mọi nỗ lực và không tìm được “thứ” như vậy thì con người sẽ có trí tuệ nhân tạo nói chung.

Tuy nhiên, trong các phép đo thực tế, chúng tôi vẫn không thể đề xuất các nhiệm vụ bao gồm tất cả các cấp độ nhận thức của con người, chẳng hạn như bài kiểm tra điểm chuẩn nổi tiếng: Đo lường khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU). Mặc dù nó bao gồm nhiều lĩnh vực kiến thức của con người nhưng nó thiếu hiểu biết về việc truyền phát video theo mô hình ngôn ngữ.

Việc thiếu vắng những nhiệm vụ như vậy cũng chỉ ra một vấn đề: các mô hình ngôn ngữ hiện tại không có trí nhớ phân đoạn như con người.

Bộ nhớ của chúng tôi bao gồm bộ nhớ làm việc, đó là những gì đã xảy ra gần đây; trí nhớ vỏ não, được tìm thấy trong vỏ não. Có một hệ thống khác giữa trí nhớ làm việc và trí nhớ vỏ não, trí nhớ phân đoạn, chịu trách nhiệm về vùng hải mã.

Bộ nhớ phân đoạn chủ yếu được sử dụng để tìm hiểu và ghi nhớ nhanh chóng các sự kiện hoặc thông tin cụ thể. Nó cho phép chúng ta Nghĩ lại các sự kiện trong quá khứ ở những thời điểm khác nhau, giống như bạn có thể nhớ lại những cảnh trong lễ tốt nghiệp của mình, bao gồm diện mạo bạn mặc trên áo choàng, màu mũ, lời nói của diễn giả trong lễ tốt nghiệp và lễ kỷ niệm bạn đã có với các bạn cùng lớp.

Trí nhớ phân đoạn đóng vai trò quan trọng trong việc giúp chúng ta xây dựng trải nghiệm cá nhân và học hỏi thông tin mới.

Nhưng model này không có chức năng như vậy. Nó chỉ bù đắp những khiếm khuyết của bộ nhớ mô hình bằng cách tăng độ dài của cửa sổ ngữ cảnh (giống bộ nhớ làm việc hơn).

Từ góc độ khác, trí nhớ phân đoạn giúp con người có hiệu suất lấy mẫu rất cao và có thể tìm hiểu thêm thông tin từ ít mẫu hơn.

Đối với các mô hình ngôn ngữ lớn, chúng cũng có thể tận dụng thông tin trong cửa sổ ngữ cảnh để đạt được một mức độ hiệu quả mẫu nào đó, nhưng điều này hơi khác so với cách con người học.

Các mô hình có thể nhanh chóng tìm hiểu thông tin trong cửa sổ ngữ cảnh của chúng, một quy trình học tập cục bộ, nhanh chóng giúp chúng thích ứng trong một bối cảnh cụ thể.

Nhưng khi các mô hình thực tế được đào tạo, chúng sẽ trải qua một quá trình dài hơn và xử lý hàng nghìn tỷ dữ liệu được gắn nhãn để tìm hiểu cấu trúc và quy luật ngôn ngữ một cách toàn diện hơn.

Có thể thiếu một số cơ chế hoặc quy trình học tập nhất định giữa hai giai đoạn này, điều này có thể khiến mô hình không thể hiểu hoặc xử lý tốt thông tin trong một số trường hợp.

Nhưng ShaneLegg không nghĩ rằng việc thiếu bộ nhớ phân đoạn của mô hình là một hạn chế cơ bản.

So với trước đây, các mô hình ngôn ngữ quy mô lớn đã trải qua những thay đổi cơ bản. Bây giờ chúng ta đã biết cách xây dựng các mô hình với mức độ hiểu biết, việc có những cách có thể mở rộng để thực hiện điều này sẽ mở ra cánh cửa mở ra nhiều khả năng hoàn toàn mới.

"Bây giờ chúng ta có một con đường tương đối rõ ràng để giải quyết hầu hết những thiếu sót trong các mô hình hiện có, cho dù đó là về ảo tưởng, tính xác thực, trí nhớ và phong cách học tập mà chúng có hay hiểu mọi thứ như video. TA GPH13

Chúng ta chỉ cần nghiên cứu và làm việc nhiều hơn, và tất cả những vấn đề này sẽ được cải thiện hoặc đã giải quyết được.”

Quay lại câu hỏi ban đầu: Làm thế nào để đo lường khi nào trí tuệ nhân tạo đạt hoặc vượt qua trình độ con người?

Shane Legg nói: “Đây không phải là chuyện có thể giải quyết chỉ bằng một yếu tố duy nhất, và đó là bản chất của vấn đề.

3Bởi vì nó liên quan đến trí thông minh tổng quát. Chúng ta phải đảm bảo rằng nó có thể hoàn thành nhiều nhiệm vụ khác nhau mà không có một lỗ hổng nào ”

Chúng tôi đã có những hệ thống có thể hoạt động rất ấn tượng, thậm chí vượt xa trình độ của con người, trong một số lĩnh vực.

ShaneLegg nói rằng anh ấy muốn có một bộ bài kiểm tra rất toàn diện. Khi ai đó muốn sử dụng phương pháp đối đầu để đề xuất điều gì đó mà máy móc không thể làm được nhưng con người có thể làm được, chúng tôi tìm đến AGI khi những người này thất bại.

Trong nghiên cứu ban đầu của DeepMind, nhiều nhiệm vụ liên quan đến hoạt động của trí tuệ nhân tạo trong môi trường mở.

Điều này phù hợp với định nghĩa và thước đo trí thông minh mà Shane Legg đang cố gắng đưa ra, đó là khả năng thực hiện tốt trong các lĩnh vực và nhiệm vụ khác nhau.

Điều này liên quan đến khả năng hoạt động của mô hình và bề rộng của hiệu suất.

Khi đánh giá trí thông minh, có một khuôn khổ đánh giá các nhiệm vụ và môi trường dựa trên mức độ phức tạp của chúng.

Sự đánh đổi này hơi giống dao cạo của Occam, có xu hướng coi trọng các nhiệm vụ và hoàn cảnh đơn giản hơn, quan trọng hơn.

Trong độ phức tạp Kolmogorov (độ phức tạp Kolmogorov), có một tham số miễn phí, máy tham chiếu.

Việc lựa chọn máy tham chiếu có thể ảnh hưởng đến kết quả đo thông minh, có thể thay đổi trọng lượng và sự phân bổ của các nhiệm vụ và môi trường khác nhau trong phép đo.

Nhưng việc chọn một máy tham chiếu phù hợp vẫn là một bài toán chưa có lời giải, vì không có máy tham chiếu phổ quát và thông thường người ta sẽ sử dụng máy Turing làm tài liệu tham khảo.

Shane Legg tin rằng cách tự nhiên nhất để giải quyết vấn đề này là suy nghĩ xem trí thông minh có ý nghĩa như thế nào đối với con người.

Trí thông minh của con người có ý nghĩa to lớn trong môi trường chúng ta đang sống. Nó tồn tại, có tác động sâu sắc đến thế giới và rất mạnh mẽ.

Nếu AI có thể đạt tới trí thông minh ở cấp độ con người, điều này sẽ có tác động quan trọng ở cấp độ kinh tế và triết học, chẳng hạn như thay đổi cấu trúc kinh tế và liên quan đến hiểu biết triết học của chúng ta về trí thông minh.

Nhìn từ góc độ lịch sử, đây cũng là một bước ngoặt quan trọng.

Do đó, việc lựa chọn trí thông minh của con người làm máy tham chiếu là hợp lý ở một số khía cạnh.

Một lý do khác là định nghĩa thuần túy về độ phức tạp Kolmogorov thực sự không thể tính toán được.

02Chúng ta có cần kiến trúc AI mới không?

Về khiếm khuyết của bộ nhớ theo ngữ cảnh của AI, Shane Legg tin rằng điều này liên quan đến kiến trúc của mô hình.

Kiến trúc LLM hiện tại chủ yếu dựa vào cửa sổ ngữ cảnh và trọng số, nhưng điều này không đủ để đáp ứng các nhiệm vụ nhận thức phức tạp.

Bộ não sử dụng một cơ chế khác khi xử lý trí nhớ phân đoạn để tìm hiểu thông tin cụ thể một cách nhanh chóng, trái ngược với việc học từ từ các khái niệm tổng quát, sâu sắc.

Tuy nhiên, một hệ thống thông minh toàn diện sẽ có thể xử lý đồng thời cả hai nhiệm vụ, vì vậy chúng tôi cần cải thiện kiến trúc.

Việc sử dụng trí thông minh của con người làm quan điểm máy tham khảo xuất phát từ bài báo năm 2008 của Shane Legg.

Ông đã đề xuất một phương pháp đo lường trí thông minh vào thời điểm đó, bài kiểm tra nén, bao gồm việc điền các từ trong mẫu văn bản để đo trí thông minh.

Phương pháp này rất phù hợp với phương pháp đào tạo LLM hiện tại, tức là dự đoán trình tự dựa trên lượng lớn dữ liệu.

Điều này liên quan đến lý thuyết AIXI của MarcusHutter và quy nạp Solomonoff.

Solomonoff là một hệ thống dự đoán mẫu rất tinh tế và hiệu quả về mặt lý thuyết, mặc dù nó không thể áp dụng trong tính toán thực tế.

Nhưng Shane Legg nói rằng bằng cách sử dụng quy nạp Solomonoff làm cơ sở, bạn có thể xây dựng một tổng đại lý và biến nó thành trí tuệ nhân tạo nói chung bằng cách thêm các tín hiệu tìm kiếm và củng cố. Đây là nguyên tắc của AIXI.

Nếu chúng ta có một công cụ dự đoán trình tự tốt hoặc một số giá trị gần đúng của quy nạp Solomonoff, thì việc xây dựng một hệ thống AGI đa năng, mạnh mẽ từ thời điểm đó chỉ là một bước nữa.

Shane Legg nói rằng đó chính xác là những gì chúng ta đang thấy ngày nay:

Những mô hình cơ sở cực kỳ mạnh mẽ này thực sự là những công cụ dự đoán trình tự rất tốt giúp nén thế giới dựa trên tất cả dữ liệu này.

Sau đó, chúng tôi sẽ có thể mở rộng các mô hình này theo nhiều cách khác nhau và xây dựng các tác nhân rất mạnh mẽ.

03 “Siêu liên kết” của DeepMind

“Siêu liên kết” đề cập đến quá trình đảm bảo rằng các mục tiêu, hành vi và quyết định của hệ thống AI hoặc hệ thống trí tuệ nhân tạo chung (AGI) phù hợp với các giá trị, nguyên tắc đạo đức và mục tiêu của con người.

Điều này nhằm ngăn chặn hệ thống AI khỏi những hành vi không phù hợp với giá trị con người hoặc có thể gây nguy hiểm và để đảm bảo rằng chúng có thể đưa ra các quyết định có đạo đức khi giải quyết các vấn đề đạo đức.

DeepMind đã tham gia sâu vào hoạt động học tăng cường và tự chơi trò chơi phổ biến hiện nay, chẳng hạn như Hiến phápAI hoặc RLHF trong nhiều thập kỷ.

DeepMind tiếp tục nỗ lực giải quyết các vấn đề bảo mật của các mô hình có trình độ trí tuệ con người:

Khả năng diễn giải mô hình, giám sát quy trình, đội đỏ, đánh giá mức độ rủi ro của mô hình và hợp tác với các tổ chức và chính phủ Các chính phủ đang hợp tác...

Và Shane Legg tin rằng khi các hệ thống cấp AGI xuất hiện, việc cố gắng hạn chế hoặc ngăn chặn sự phát triển của chúng không phải là một lựa chọn tốt.

Việc chúng ta phải làm là điều chỉnh mô hình này sao cho phù hợp cao độ với các giá trị đạo đức con người và có tính đạo đức cao ngay từ đầu.

Điều này đòi hỏi một hệ thống có khả năng hiểu biết sâu sắc về thế giới, hiểu biết tốt về đạo đức và đạo đức cũng như khả năng lý luận mạnh mẽ và đáng tin cậy.

AGI đáng tin cậy không chỉ tạo ra “phản ứng đầu tiên” như mô hình cơ bản hiện tại mà còn phải có khả năng của “hệ thống thứ hai” để tiến hành lý luận chuyên sâu và phân tích đạo đức.

Shane Legg đã đề cập rằng để đảm bảo rằng hệ thống AGI tuân theo các nguyên tắc đạo đức của con người, trước tiên hệ thống này phải trải qua quá trình đào tạo sâu rộng về đạo đức để đảm bảo rằng nó có hiểu biết tốt về đạo đức con người.

Trong quá trình này, các nhà xã hội học, nhà đạo đức học và các bên khác cần cùng nhau quyết định các nguyên tắc và giá trị đạo đức mà hệ thống nên tuân theo.

Và, hệ thống cần được thiết kế để đảm bảo rằng hệ thống sử dụng sự hiểu biết sâu sắc về thế giới và sự hiểu biết về đạo đức để phân tích đạo đức mỗi khi đưa ra quyết định.

Ngoài ra, chúng tôi cũng cần liên tục xem xét quy trình ra quyết định và quy trình lý luận của hệ thống để đảm bảo rằng hệ thống tiến hành lý luận một cách chính xác về mặt đạo đức.

Nhưng việc kiểm tra cũng quan trọng không kém để đảm bảo rằng hệ thống tuân thủ các nguyên tắc đạo đức.

Chúng ta cần xác định rõ ràng cho hệ thống các nguyên tắc đạo đức mà nó phải tuân theo và kiểm tra chúng để đảm bảo rằng hệ thống nhất quán tuân theo các nguyên tắc này ít nhất cũng như một nhóm chuyên gia con người.

Ngoài ra, chúng ta cũng nên cảnh giác với những nguy hiểm tiềm ẩn mà học tăng cường có thể mang lại, vì học tăng cường có thể khiến hệ thống học hành vi lừa đảo.

Về câu hỏi liệu có cần thiết phải thiết lập khuôn khổ để xây dựng các tiêu chuẩn bảo mật cụ thể khi hệ thống đạt đến một mức năng lực nhất định hay không, Shane Legg cho rằng điều này có ý nghĩa nhưng cũng khá khó khăn.

Bởi vì việc xây dựng một tiêu chuẩn cụ thể bản thân nó đã là một nhiệm vụ đầy thách thức.

04 An toàn hay hiệu suất?

Trước khi DeepMind được thành lập, Shane Legg đã lo lắng về tính bảo mật của AGI.

Nhưng trong những ngày đầu, việc thuê các chuyên gia làm việc về bảo mật trí tuệ nhân tạo nói chung là một thử thách khó khăn.

Ngay cả khi họ đã xuất bản các tài liệu nghiên cứu bảo mật AGI trong lĩnh vực này, họ vẫn không muốn theo đuổi công việc này toàn thời gian vì lo lắng về những tác động mà nó có thể gây ra đối với sự nghiệp của họ.

DeepMind đã tích cực tiến hành nghiên cứu trong lĩnh vực này và đã nhiều lần nhấn mạnh tầm quan trọng của bảo mật AGI.

Về tác động của DeepMind đối với sự phát triển của AI, Shane Legg cho biết DeepMind là công ty đầu tiên tập trung vào AGI, luôn có đội ngũ bảo mật AGI và đã xuất bản nhiều bài báo về bảo mật AGI trong nhiều năm qua.

Những nỗ lực này đã tăng thêm uy tín cho lĩnh vực bảo mật AGI, lĩnh vực mà cách đây không lâu còn là một thuật ngữ tương đối xa vời.

Shane Legg thừa nhận rằng DeepMind đã đẩy nhanh sự phát triển các khả năng của AI ở một mức độ nào đó, nhưng cũng có một số vấn đề, chẳng hạn như ảo giác mô hình.

Nhưng mặt khác, dự án AlphaGo của DeepMind đã thay đổi quan điểm của một số người.

Tuy nhiên, Shane Legg chỉ ra rằng sự phát triển của lĩnh vực AI không chỉ phụ thuộc vào DeepMind mà sự tham gia của các công ty và tổ chức quan trọng khác cũng rất quan trọng.

ShaneLegg tin rằng mặc dù DeepMind có thể đã đẩy nhanh tiến bộ ở một số khía cạnh, nhưng nhiều ý tưởng và đổi mới thường lan truyền một cách tự nhiên giữa giới học thuật và ngành công nghiệp, vì vậy rất khó để xác định mức độ ảnh hưởng của DeepMind.

Nhưng liên quan đến vấn đề bảo mật AGI, ShaneLegg không chọn hướng nghiên cứu lạc quan nhất mà đề cập đến phương pháp ra quyết định mang tên "DeliberativeDialogue".

Nó được thiết kế để sử dụng cuộc tranh luận nhằm đánh giá các hành động mà một nhân viên có thể thực hiện hoặc câu trả lời đúng cho một số câu hỏi nhất định.

Phương pháp này có thể mở rộng sự liên kết thành các hệ thống mạnh mẽ hơn.

05 Thời điểm AGI xuất hiện

20 Vào năm 2011, Shane Legg đã dự đoán sự xuất hiện của trí tuệ nhân tạo nói chung (AGI) trong một bài đăng trên blog:

“Trước đây tôi đã đưa ra dự đoán phân phối log-chuẩn về thời điểm AGI sẽ xuất hiện, trong đó năm 2028 là mức trung bình và năm 2025 là chế độ. Tôi vẫn giữ nguyên quan điểm của mình, nhưng tiền đề là những sự kiện điên rồ như chiến tranh hạt nhân sẽ không xảy ra.”

T AGPH1Shane Legg giải thích rằng dự đoán của ông dựa trên hai điểm quan trọng:

Đầu tiên, sức mạnh tính toán của máy móc sẽ tăng theo cấp số nhân trong vài thập kỷ tới, trong khi lượng dữ liệu toàn cầu cũng sẽ tăng theo cấp số nhân.

Khi cả khối lượng tính toán và dữ liệu đều tăng theo cấp số nhân, giá trị của các thuật toán có khả năng mở rộng cao sẽ tiếp tục tăng vì chúng có thể sử dụng tính toán và dữ liệu hiệu quả hơn.

Thứ hai, thông qua việc khám phá các thuật toán có thể mở rộng và đào tạo mô hình, quy mô dữ liệu của các mô hình trong tương lai sẽ vượt xa lượng dữ liệu mà con người đã trải qua trong đời.

ShaneLegg tin rằng đây sẽ là bước đầu tiên trong việc mở khóa AGI. Vì vậy, ông tin rằng có 50% cơ hội đạt được AGI trước năm 2028. Nhưng mọi người cũng có thể gặp phải những vấn đề mà họ không ngờ tới lúc này.

Nhưng theo quan điểm của Shane Legg, tất cả những vấn đề chúng ta gặp phải hiện nay dự kiến sẽ được giải quyết trong vài năm tới.

Các mô hình hiện có của chúng tôi sẽ trở nên hoàn thiện hơn, thực tế hơn và hợp thời hơn.

Đa phương thức sẽ là tương lai của các mô hình, điều này sẽ khiến chúng trở nên hữu ích hơn nữa.

Nhưng giống như hai mặt của một đồng xu, người mẫu cũng có thể bị lạm dụng.

06 Tương lai đa phương thức

Cuối cùng, Shane Legg đã đề cập rằng cột mốc quan trọng tiếp theo trong lĩnh vực AI sẽ là các mô hình đa phương thức.

Công nghệ đa phương thức sẽ mở rộng khả năng hiểu biết của các mô hình ngôn ngữ sang nhiều lĩnh vực hơn.

Khi mọi người trong tương lai nghĩ lại những mô hình chúng ta có bây giờ, họ có thể nghĩ: "Ôi trời ơi, những mô hình trước đây chỉ có thể được coi là hộp thoại trò chuyện, chúng chỉ có thể xử lý văn bản."

Các mô hình đa phương thức có thể hiểu được hình ảnh, video, âm thanh và khi chúng ta giao tiếp với chúng, các mô hình đa phương thức sẽ hiểu rõ hơn về những gì đang diễn ra.

Có cảm giác như hệ thống thực sự được nhúng vào thế giới thực.

Khi các mô hình bắt đầu xử lý lượng lớn video và nội dung khác, chúng sẽ phát triển hiểu biết cơ bản hơn về thế giới cũng như nhiều kiến thức tiềm ẩn khác.