Kết quả nghiên cứu đầu tiên của Musk xAI được công bố, đồng tác giả bởi thành viên sáng lập Yang Ge và cựu sinh viên Yaoban

XAI của Musk, kết quả nghiên cứu công khai đầu tiên đã có ở đây! Một trong những đồng tác giả là Greg Yang, thành viên sáng lập xAI và là đệ tử của Qiu Chengtong. Trước đây, Yang Ge đã công khai rằng hướng nghiên cứu của ông về xAI là "MathforAI" và "AIforMath". Một trong những điểm mấu chốt là tiếp tục nghiên cứu trước đây của anh: TensorPrograms, một ngôn ngữ lập trình thống nhất để mô tả kiến trúc mạng thần kinh - các kết quả liên quan đã được áp dụng trong GPT-4.

Bài viết mới này thuộc loạt bài này, tập trung vào "cách đào tạo mạng sâu vô hạn".

Vì lý do này mà chính Yang cũng đã tiến hành phát sóng trực tiếp trên ??.

Hãy xem nội dung thú vị nào đáng được đánh dấu~

Đào tạo Không có Mạng thần kinh có độ sâu hạn chế

Nói một cách đơn giản, bài viết này nghiên cứu phần mở rộng của mạng dư (ResNet) theo hướng sâu.

Chúng tôi biết rằng mạng dư giải quyết vấn đề suy giảm hiệu suất của mạng nơ ron tích chập sâu khi độ sâu tăng lên. Nhưng khi mạng tiếp tục đi sâu, việc đào tạo một mạng dư sâu tốt vẫn không phải là điều dễ dàng:

Khi mạng đi sâu, kích thước của các tính năng sẽ tiếp tục tăng lên, dẫn đến mạng mất ổn định; sau khi đào sâu mạng, cần phải điều chỉnh lại các siêu tham số là rất nhiều công việc...

Ý tưởng của Yang Ge và những người bạn của anh ấy là tìm ra một phương pháp tham số hóa sâu có thể vừa học các tính năng vừa đạt được sự di chuyển siêu tham số.

Đầu tiên, họ nghĩ đến hai trường hợp giới hạn của mạng thần kinh vô hạn rộng: máy nhân hoặc máy học tính năng. Đối với cái sau, các siêu tham số tối ưu không thay đổi theo chiều rộng.

Ở đây, họ sử dụng khung TensorPrograms để phân tích trường hợp giới hạn của mạng rộng vô hạn.

Như đã đề cập trước đó, TensorPrograms là mục tiêu nghiên cứu dài hạn của Young: sử dụng ngôn ngữ toán học để thiết lập ngôn ngữ lập trình cấp thấp có thể mô tả và phân tích kiến trúc mạng thần kinh.

Cụ thể, TensorPrograms bao gồm các hàm kích hoạt và nhân ma trận. Young phát hiện ra rằng nếu chức năng mạng thần kinh có thể được biểu diễn bằng ngôn ngữ này thì việc phân tích khởi tạo có thể được thực hiện một cách tự động và hoàn chỉnh.

Phần đạo hàm toán học sẽ không được trình bày chi tiết ở đây. Chúng ta có thể cảm nhận ngắn gọn phong cách vẽ tranh...

T AGPH91

Dựa trên những phân tích đạo hàm này, tác giả đã đề xuất phương pháp Depth-μP, có thể thực hiện di chuyển siêu tham số theo hướng độ sâu và đơn giản hóa đáng kể việc điều chỉnh siêu tham số ở các độ sâu khác nhau.

Depth-μP chứa các điểm sau:

Mỗi nhánh dư tỷ lệ nghịch với căn bậc hai của độ sâu L với hệ số a/sqrt(L).

Tốc độ học của từng ma trận trọng số giảm khi độ sâu L trở nên lớn hơn, tùy thuộc vào loại thuật toán tối ưu hóa. Đối với SGD, tốc độ học là hằng số η và đối với các thuật toán tối ưu hóa thích ứng như Adam, tốc độ học là eta/sqrt(L).

Điều đáng chú ý là tác giả nhận thấy rằng khi độ sâu của khối dư là 1, Depth-μP là cách tham số hóa độ sâu tối ưu, có thể đảm bảo rằng các siêu tham số hội tụ khi tăng độ sâu và nhận ra sự truyền siêu tham số theo hướng độ sâu.

Nhưng khi độ sâu khối dư là ≥ 2, vẫn sẽ xảy ra sự cố với lỗi di chuyển siêu tham số và suy giảm hiệu suất đào tạo.

Ngoài ra, bài viết cũng khám phá khái niệm "đa dạng tính năng" và tin rằng nó đóng một vai trò quan trọng trong các mạng sâu.

Một đồng tác giả khác của bài báo là Dingli Yu đến từ Princeton. Anh tốt nghiệp lớp Yao của Đại học Thanh Hoa và hiện đang theo đuổi bằng tiến sĩ. tại Khoa Khoa học Máy tính tại Princeton.

Dương Ca đã nói gì trong buổi phát sóng trực tiếp?

Trong buổi phát sóng trực tiếp, Dương Ca cũng đã trả lời những câu hỏi được khán giả quan tâm. Không thay đổi ý nghĩa ban đầu, Qubit đã giải quyết được một số vấn đề.

Q: Đối với nhiều người trong chúng ta, (nội dung bài viết) có thể nằm ngoài tầm hiểu biết của chúng ta. Nhưng tôi muốn biết, mô hình bạn đề cập khác với công nghệ ChatGPT và OpenAI như thế nào mà chúng tôi có thể trải nghiệm? Sự khác biệt hoặc đổi mới đáng kể giữa bài viết này và kết quả của OpenAI là gì?

Younger: Hãy để tôi đưa ra nhận xét ngắn gọn. Tôi muốn nói rằng hiện tại những tính năng này không liên quan trực tiếp đến các ứng dụng thực tế mà mang tính chất nghiên cứu nhiều hơn.

Tất nhiên, mục tiêu cuối cùng của việc làm tất cả những điều này là làm cho mô hình trở nên tốt hơn và an toàn hơn, sau đó mang lại lợi ích cho nhân loại. Những gì chúng tôi đang làm bây giờ là mô tả hiệu quả mong đợi, không nhất thiết phải có tác động trực tiếp.

Bây giờ chúng ta đang ở trên cùng một con thuyền và chúng ta đang làm những gì có thể, cho dù đó là công việc ngắn hạn hay nghiên cứu ứng dụng dài hạn, để mang lại hiệu quả cho tất cả mọi người.

Q: Có vẻ như bạn đang xây dựng một bộ não máy tính nhân tạo có khả năng suy luận, vậy đó có phải là công việc bạn đang làm không? Ngoài ra, tôi là một người mẹ và cậu con trai 7 tuổi của tôi rất thích toán học. Bạn có gợi ý gì để anh ấy tiếp tục quan tâm và nhiệt tình với lĩnh vực AI không?

Trẻ hơn: "Mạng mới" dùng để chỉ mạng thần kinh nhân tạo. Tôi nghĩ nó là xương sống của nhiều công nghệ hiện đại, bao gồm Google, Facebook, Instagram, v.v. mà bạn sử dụng hàng ngày. Các mạng thần kinh nhân tạo này được sử dụng ở phần dưới cùng của các dịch vụ này. Những mạng lưới này được lấy cảm hứng từ mạng lưới thần kinh thực sự ở động vật và con người khoảng sáu mươi hoặc bảy mươi năm trước, nhưng chúng đã đi chệch khỏi khoa học thần kinh thực sự.

Các mạng này về cơ bản là các vấn đề toán học, vì vậy sau khi nắm vững các vấn đề toán học mới này và tiến hành nhiều phân tích, chúng ta có thể hiểu sâu sắc về các mạng thần kinh này.

Mặc dù chúng ta chưa biết các nơ-ron thực sự được kết nối với nhau như thế nào nhưng thông qua nghiên cứu toán học, chúng ta có thể tối ưu hóa các mạng nơ-ron nhân tạo này và giúp các công ty công nghệ cải thiện cuộc sống của con người.

Về câu hỏi thứ hai của bạn, tôi nghe nói con trai bạn rất thích môn toán, điều này thật tuyệt. Đây là nền tảng để tạo ra những điều tuyệt vời về công nghệ và cải thiện cuộc sống của mọi người.

Lời khuyên tôi muốn đưa ra là điều quan trọng nhất là bạn phải giữ được niềm đam mê toán học của con mình trước tiên. Một khi bạn mất đi tình yêu này thì việc tiếp tục học tập sẽ khó khăn.

Cũng hãy chú ý đến những điều bé thích để quá trình học tập trở nên thú vị và kích thích hơn nữa sự hứng thú của bé. Đồng thời, chúng ta cũng nên nuôi dưỡng trí tò mò của trẻ về cách mọi thứ hoạt động, đồng thời cố gắng phát triển tư duy khoa học và việc nghiên cứu phải được thúc đẩy bởi sự tò mò. Giống như tách mọi thứ ra và cố gắng hiểu cách chúng hoạt động.

Nếu một người mất đi niềm đam mê khám phá những chân lý toán học của vũ trụ thì có thể khó có động lực để tiến về phía trước. Nhìn chung, tôi khuyên bạn nên phát triển ở con mình sự quan tâm và tò mò mạnh mẽ về thế giới, đặc biệt là về bản chất của toán học và khoa học.

Q: Tôi có một câu hỏi trừu tượng hơn. Bạn có ý tưởng rằng độ sâu tiến tới vô tận, và sau đó bạn viết bài báo này dựa trên ý tưởng đó. Vậy bạn đã cân nhắc sử dụng các kiến trúc khác nhau của mạng lưới thần kinh chưa? Không phải là một kiến trúc tiêu chuẩn với các nơ-ron và vô số lớp, mà là một thứ gì đó hoàn toàn khác. Giống như những tế bào thần kinh này được kết nối theo một cách hoàn toàn khác, có thể là một dạng hình vuông nào đó?

Younger: Trên thực tế, những hiểu biết sâu sắc về tính phi tuyến tính và số lớp trong công việc của chúng tôi chỉ là nghiên cứu sơ bộ. Chắc chắn có nhiều câu hỏi có thể được khám phá về cấu trúc phù hợp là gì hoặc cấu trúc nên như thế nào.

Các nhóm như Meta trước đây đã nghiên cứu điều gì xảy ra khi các nơ-ron được kết nối ngẫu nhiên và thu được một số kết quả thú vị. Vì vậy, chắc chắn có rất nhiều việc phải làm ở đây. Bây giờ tôi thực sự không có câu trả lời cụ thể về cấu trúc chính xác hoặc tốt hơn.

Giới thiệu về Yang Ge

Yang Ge sinh ra ở tỉnh Hồ Nam. Sau khi tốt nghiệp tiểu học, anh sang Mỹ. Anh ấy học tại Harvard để học đại học dưới sự hướng dẫn của Giáo sư Shing-tung Yau.

△ Yang và Qiu Chengtong, nguồn: Yang Twitter

Năm 2017, Yang tốt nghiệp Harvard và sau đó gia nhập Microsoft dưới sự giới thiệu của Shen Xiangyang.

Tại Microsoft, Yang nhận được sự đánh giá cao từ Shun Xiangyang. Cách đây vài tháng, tại một diễn đàn mang tên "Khoa học cơ bản và trí tuệ nhân tạo", Shen Xiangyang đã công khai tuyên bố:

Microsoft Research thường chỉ tuyển sinh tiến sĩ. Yang Ge gia nhập Microsoft Research với tư cách là sinh viên tốt nghiệp đại học. Anh không chỉ tham gia Microsoft Research mà còn làm việc cực kỳ xuất sắc trong 5 năm qua, đặc biệt là đóng góp quyết định vào sự phát triển của GPT.

Điều đáng nói là chính anh ấy đã thừa nhận rằng GPT-4 sử dụng phương pháp μTransfer (Dòng TensorPrograms) của mình.

Nghiên cứu của Yang Ge về TensorPrograms đã bắt đầu từ rất sớm. Anh ấy đã xuất bản “TensorProgramsI” vào năm 2019 và tiếp tục khám phá chuyên sâu khi làm việc tại Microsoft. Ông tin rằng hầu hết mọi phép tính trong deep learning đều có thể được biểu diễn dưới dạng TensorPrograms.

Vào tháng 7 năm nay, Musk tuyên bố thành lập một công ty mới, xAI. Young rời Microsoft và gia nhập nhóm sáng lập xAI, trở thành nhà toán học của xAI.

Sau khi gia nhập xAI, Yang Ge đã hơn một lần tiết lộ rằng mục tiêu dài hạn của dự án TensorPrograms là phát triển một "lý thuyết về mọi thứ" cho deep learning quy mô lớn, tức là tìm ra một quy tắc lý thuyết có thể thực sự hiểu được hành vi của các mô hình AI lớn.

Ông cũng nói:

AI sẽ cho phép mọi người hiểu vũ trụ toán học của chúng ta theo những cách mà trước đây không thể tưởng tượng được.

Link giấy: https://arxiv.org/abs/2310.02244