AI tổng hợp mới của MIT hoạt động tốt hơn mô hình Khuếch tán về thế hệ hình ảnh

CSAIL của MIT giới thiệu PFGM++, một mô hình trí tuệ nhân tạo kết hợp các quá trình khuếch tán và Poisson. Nó tạo ra những hình ảnh đáng chú ý bằng cách tái tạo hành vi của điện trường và thể hiện bước nhảy vọt trong lĩnh vực trí tuệ nhân tạo. Lấy cảm hứng từ vật lý, mô hình tạo hình mới PFGM++ hoạt động tốt hơn các mô hình khuếch tán trong việc tạo hình ảnh. Trí tuệ nhân tạo sáng tạo hiện đang là một chủ đề nóng, hứa hẹn tạo ra một thế giới nơi các phân phối đơn giản phát triển thành các mẫu hình ảnh, âm thanh hoặc văn bản phức tạp, khiến trí tuệ nhân tạo trở nên chân thực đến kinh ngạc.

Vương quốc của trí tưởng tượng không còn chỉ là một khái niệm trừu tượng khi các nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT đưa các mô hình trí tuệ nhân tạo tiên tiến vào cuộc sống. Kỹ thuật mới của họ tích hợp hai định luật vật lý dường như không liên quan làm nền tảng cho các mô hình sinh học hoạt động tốt nhất cho đến nay: khuếch tán (thường giải thích cho sự chuyển động ngẫu nhiên của các phần tử, chẳng hạn như nhiệt thấm vào phòng hoặc khí giãn nở vào không gian) và các quá trình Poisson (dựa trên các nguyên tắc chi phối hoạt động của điện tích).

Ezoic Sự kết hợp hài hòa này giúp nó vượt trội trong việc tạo ra hình ảnh mới, vượt qua các mẫu máy hiện đại nhất. Kể từ khi thành lập, Mô hình tạo dòng chảy Poisson++ (PFGM++) đã tìm thấy các ứng dụng tiềm năng trong các lĩnh vực khác nhau, từ tạo chuỗi kháng thể và RNA đến sản xuất âm thanh và tạo đồ họa.

Mô hình này có thể tạo ra các mẫu phức tạp, chẳng hạn như tạo hình ảnh thực tế hoặc mô phỏng các quy trình trong thế giới thực. PFGM++ được xây dựng dựa trên PFGM của nhóm, là kết quả nghiên cứu của năm ngoái. PFGM lấy cảm hứng từ một phương trình toán học được gọi là phương trình "Poisson" và sau đó áp dụng nó vào dữ liệu mà mô hình đang cố gắng tìm hiểu. Để làm điều này, nhóm đã sử dụng một thủ thuật thông minh: họ đã thêm một chiều bổ sung vào "không gian" của mô hình, giống như chuyển từ bản phác thảo hai chiều sang mô hình ba chiều. Thứ nguyên bổ sung này cung cấp nhiều không gian hơn để vận hành, đặt dữ liệu vào bối cảnh lớn hơn và giúp người ta tiếp cận dữ liệu từ mọi hướng khi tạo mẫu mới.

Jesse Thaler, nhà vật lý hạt lý thuyết tại Trung tâm Vật lý lý thuyết tại Phòng thí nghiệm khoa học hạt nhân MIT và là giám đốc Viện trí tuệ nhân tạo và tương tác cơ bản (NSFAIIAIFI) của Quỹ khoa học quốc gia, cho biết: "PFGM++ là một ví dụ về sự hợp tác liên ngành giữa các nhà vật lý và nhà khoa học máy tính để thúc đẩy sự tiến bộ của trí tuệ nhân tạo. Trong những năm gần đây, từ hình ảnh sống động như thật đến dòng văn bản rõ ràng, dựa trên trí tuệ nhân tạo. đã tạo ra vô số kết quả đáng kinh ngạc, một số mô hình sáng tạo mạnh mẽ nhất dựa trên các khái niệm đã được thử nghiệm theo thời gian trong vật lý, chẳng hạn như tính đối xứng và nhiệt động lực học, lấy một khái niệm có từ thế kỷ trước từ vật lý cơ bản - rằng có thể có thêm các chiều trong không gian và thời gian - và biến nó thành một công cụ mạnh mẽ và mạnh mẽ để tạo ra các tập dữ liệu tổng hợp nhưng thực tế.

Cơ chế cơ bản của PFGM không phức tạp như người ta tưởng. Các nhà nghiên cứu ví các điểm dữ liệu với các điện tích nhỏ trên một mặt phẳng trong một thế giới mở rộng theo chiều. Những điện tích này tạo ra một "điện trường" di chuyển các đường sức vào một chiều bổ sung, tạo ra sự phân bố đồng đều trên một bán cầu tưởng tượng khổng lồ. Quá trình tạo ra giống như tua lại: bắt đầu với một tập hợp các điện tích phân bố đều trên một bán cầu và theo dõi tiến trình của chúng trở lại mặt phẳng dọc theo các đường sức điện trường, chúng căn chỉnh sao cho phù hợp với sự phân bố của dữ liệu gốc. Quá trình thú vị này cho phép các mô hình thần kinh học điện trường và tạo ra dữ liệu mới phù hợp với dữ liệu gốc.

Mô hình

PFGM++ mở rộng điện trường trong PFGM thành một khung nhiều chiều phức tạp. Khi bạn tiếp tục mở rộng các kích thước này, điều gì đó bất ngờ sẽ xảy ra—mô hình bắt đầu giống với một lớp mô hình quan trọng khác, đó là mô hình khuếch tán. Công việc chủ yếu là tìm kiếm sự cân bằng phù hợp. Các mô hình PFGM và các mô hình khuếch tán nằm ở hai đầu đối diện nhau: một mô hình mạnh mẽ nhưng phức tạp để xử lý, mô hình còn lại đơn giản nhưng kém chắc chắn hơn. Mô hình PFGM++ tìm thấy sự cân bằng phù hợp giữa độ bền và tính dễ sử dụng. Sự đổi mới này mở đường cho việc tạo ra hình ảnh và mẫu hiệu quả hơn, đánh dấu một bước tiến quan trọng của công nghệ. Ngoài việc có thể điều chỉnh kích thước, các nhà nghiên cứu còn đề xuất một phương pháp đào tạo mới có thể học điện trường hiệu quả hơn.

Để áp dụng lý thuyết này vào thực tế, nhóm nghiên cứu đã giải một cặp phương trình vi phân mô tả chi tiết chuyển động của các điện tích này trong điện trường. Họ đánh giá hiệu suất của nó bằng cách sử dụng điểm Frechette Inception Distance (FID), một thước đo được chấp nhận rộng rãi để đánh giá chất lượng hình ảnh do mô hình tạo ra so với hình ảnh thực. PFGM++ còn thể hiện khả năng chịu lỗi cao hơn và độ tin cậy cao hơn đối với kích thước bước trong phương trình vi phân.

Trong tương lai, họ nhắm đến việc tinh chỉnh các khía cạnh nhất định của mô hình, đặc biệt bằng cách phân tích hành vi lỗi ước tính của mạng thần kinh để xác định một cách có hệ thống các giá trị "điểm chuẩn" của D được điều chỉnh cho phù hợp với dữ liệu, kiến trúc và nhiệm vụ cụ thể. Họ cũng có kế hoạch áp dụng PFGM++ để tạo văn bản thành hình ảnh/văn bản thành video quy mô lớn hiện đại.

"Các mô hình khuếch tán đã trở thành động lực quan trọng đằng sau cuộc cách mạng trí tuệ nhân tạo tổng hợp", Song Yang, một nhà khoa học nghiên cứu tại OpenAI cho biết. "PFGM++ cung cấp khả năng khái quát hóa mạnh mẽ của mô hình khuếch tán, cho phép người dùng tạo ra hình ảnh chất lượng cao hơn bằng cách cải thiện khả năng tạo hình ảnh mạnh mẽ trước các nhiễu loạn và lỗi học tập. Ngoài ra, PFGM++ cũng phát hiện ra mối liên hệ đáng ngạc nhiên giữa tĩnh điện và mô hình khuếch tán, cung cấp những hiểu biết lý thuyết mới về nghiên cứu mô hình khuếch tán."

Karsten Kreis, nhà khoa học nghiên cứu cấp cao tại NVIDIA, cho biết: "Mô hình tạo dòng Poisson không chỉ dựa vào các công thức lấy cảm hứng từ vật lý tinh tế dựa trên tĩnh điện mà còn trên thực tế cung cấp hiệu suất mô hình tổng quát tiên tiến. Chúng thậm chí còn tốt hơn các mô hình khuếch tán phổ biến hiện đang thống trị tài liệu. Điều này khiến chúng trở thành công cụ tạo mô hình tổng quát rất mạnh mẽ và tôi hình dung chúng sẽ được sử dụng trong nhiều lĩnh vực từ nội dung số Nói rộng hơn, tôi tin rằng có tiềm năng lớn để khám phá thêm các khuôn khổ mô hình hóa lấy cảm hứng từ vật lý và các mô hình tạo ra dòng Poisson mới chỉ là bước khởi đầu.