DALL·E Thử nghiệm Bing beta 3: Khắc phục sự cố phi hành gia trên lưng ngựa, chỉ định 50 vật thể trong một bức tranh

DALL·E3Bài kiểm tra giới hạn đã được mở bởi Microsoft Bing. Xem bạn có phải là một trong những hoàng đế châu Âu không? Sẽ không có vấn đề gì nếu bạn chưa nhận được bằng cấp. Cùng với các bản xem trước nghiên cứu của bên thứ ba và các thử nghiệm nội bộ của nhân viên OpenAI, nhiều trường hợp thử nghiệm khác nhau lần lượt xuất hiện, đảm bảo sẽ rất thú vị. Phóng đại nhất là "50 đối tượng khác nhau xuất hiện trong màn hình được chỉ định" . Kết quả là hàng trăm người trong số họ đã được rút thăm.

△ từ WindowsLa test

Ngoài cách sắp xếp ô đơn giản, các đồ vật này có thể được kết hợp một cách sáng tạo hơn.

phi hành gia cưỡi ngựaTA GPH75Đối với khái niệm phản thực tế này, nhiều mô hình khác nhau của OpenAI và Google trước đây chỉ có thể vẽ các phi hành gia cưỡi ngựa .

Bài báo thường được coi là một trường hợp thất bại và bị Marcus, một người bi quan về AI vào thời điểm đó, chế nhạo.

Giờ đây, DALL·E3 có thể dễ dàng xử lý nó với sự hỗ trợ của ChatGPT.

DALL·E3 Tiến bộ to lớn này không chỉ là nỗ lực của chính OpenAI mà còn là kết quả của và sự hợp tác chung của Microsoft .

Mặc dù không được nêu rõ ràng nhưng ít nhất ba kỹ sư và nhà nghiên cứu của Microsoft đã tham gia vào phần nghiên cứu trong danh sách đóng góp và hầu hết các thành viên trong phần tối ưu hóa suy luận đều đến từ nhóm Microsoft DeepSpeed.

Nhìn lại, GPT-4 vẫn chủ yếu được OpenAI phát triển nội bộ và sau đó được cấp quyền truy cập mở cho Microsoft và các tổ chức nghiên cứu khác để thử nghiệm.

Sự thay đổi này trong mô hình hợp tác cũng thể hiện sự sâu sắc hơn nữa trong mối quan hệ giữa hai công ty.

Chỉ định 50 đối tượng trong một bức tranh

Được xác nhận bởi Giám đốc điều hành Microsoft Bing Mikhail ParakhinMột vài phần trăm người dùng may mắn đã đủ điều kiện để thử nghiệm.

Vì số lượng địa điểm thực sự có hạn nên cư dân mạng nóng lòng muốn đưa ra ý tưởng của mình trực tuyến và nhờ những người có tài khoản giúp kiểm tra.

Cư dân mạng đề xuất vẽ 50 đối tượng khác nhau chỉ muốn kiểm tra xem DALL·E3 có thể chứa bao nhiêu đối tượng trong một bức tranh, tương tự như "Cửa sổ bối cảnh" của mô hình ngôn ngữ lớn.

Một nhà thiết kế bên thứ ba đã nhận được phiên bản xem trước của nghiên cứu Nathan Shipley đã thực hiện thử thách.

Đầu tiên, anh ấy yêu cầu ChatGPT liệt kê ngẫu nhiên 50 đồ vật hàng ngày, sau đó trực tiếp yêu cầu vẽ những đồ vật này vào một bức tranh. Từ nhắc hoàn chỉnh là ChatGPT tự hoàn thành và sau đó DALL·E3 rút ra từ đó.

Tiếp theo Nathan hỏi: “Bạn có thể tạo hình ảnh một người lướt sóng xếp những vật này thành một đống trong khi lướt mạnh không?”

Lời nhắc ChatGPT Một số chi tiết được thêm vào trong từ:

Một nam vận động viên lướt sóng trung niên người Polynesia với làn da rám nắng, đang vật lộn lướt sóng trong khi cầm trên tay 50 đồ vật, bao gồm tách trà, xe đạp, ô... Những con sóng ập vào xung quanh anh, vẻ mặt đầy quyết tâm và có chút hoảng loạn, cố gắng cân bằng những thứ này đồ vật và ván lướt sóng của anh ấy.

Kết quả là tôi nhận được một hình ảnh về cơ bản đáp ứng yêu cầu trong một lần thử, ngoại trừ biểu cảm của nhân vật trông giống một người rất hoảng loạn hơn là một chút hoảng loạn.

Sau đó, Nathan đưa ra một yêu cầu khác về góc nhìn thấp hơn. Lần này ChatGPT đã thay đổi mô tả nhân vật trong từ gợi ý thành "một phụ nữ lớn tuổi người Tây Ban Nha".

Người xem thấy rất ngạc nhiên nhưng cũng chỉ ra lý do tại sao kích thước của bút chì không tỷ lệ thuận với các đồ vật khác.

Một số người suy đoán rằng người mẫu chỉ biết một vật thể trông như thế nào chứ không biết kích thước tương đối của nó, đặc biệt khi các bức ảnh công khai về cây bút thường sử dụng góc nhìn cận cảnh.

Ngoài ra, Nathan còn hỏi ChatGPT những thông số nào của màn hình mà người dùng có thể kiểm soát.

ChatGPT đã trả lời như sau:

Mô tả: Bạn có thể cung cấp mô tả chi tiết về hình ảnh mà bạn muốn. Bạn càng cụ thể và chi tiết thì hình ảnh thu được sẽ càng gần với mong muốn của bạn.

Phong cách và Phương tiện: Bạn có thể chỉ định kiểu hoặc phương tiện của hình ảnh, chẳng hạn như "Tranh", "Ảnh", "Minh họa", "Hoạt hình", "Màu nước", "Kết xuất 3D", v.v.

Độ phân giải: Theo mặc định, hình ảnh được tạo ở độ phân giải 1729x1024. Nhưng nếu mô tả của bạn đề xuất ảnh chân dung có chiều dài đầy đủ hoặc thứ gì đó phù hợp hơn với tỷ lệ khung hình cao thì hình ảnh sẽ được tạo ở độ phân giải 1024x1792. Bạn cũng có thể yêu cầu độ phân giải hình vuông (1024x1024) nếu cần.

Số lượng hình ảnh : Nếu bạn không chỉ định, tôi thường tạo bốn hình ảnh khác nhau dựa trên mô tả của bạn. Tuy nhiên, bạn có thể yêu cầu một số cụ thể (tối đa bốn).

Sửa đổi : Nếu không hài lòng với kết quả ban đầu, bạn có thể cung cấp phản hồi và yêu cầu sửa đổi. Mặc dù tôi không thể trực tiếp sửa đổi các hình ảnh hiện có nhưng tôi có thể sử dụng phản hồi của bạn để tạo ra những hình ảnh mới phù hợp hơn với tầm nhìn của bạn.

Hạt giống ngẫu nhiên: Nếu bạn muốn sửa đổi hình ảnh trước đó, tôi có thể sử dụng hạt giống trong siêu dữ liệu của hình ảnh để tạo phiên bản mới. Điều này đảm bảo tính nhất quán nhất định giữa hình ảnh gốc và hình ảnh đã sửa đổi.

Xin lưu ý rằng có một số hạn chế nhất định . Ví dụ: không thể tạo trực tiếp hình ảnh của các nhân vật của công chúng và phong cách của các nghệ sĩ trong vòng 100 năm qua.

Nhấn mạnh vào những điều sau:

Tuy nhiên, tôi có thể đưa ra các lựa chọn thay thế hoặc sử dụng tính từ để nắm bắt bản chất của một phong cách cụ thể mà không cần đề cập trực tiếp đến nó.

Giải đố câu đố phi hành gia ngựa

Trong số các nhân viên nội bộ của OpenAI, WillDePue là người tích cực nhất trong việc tiết lộ kết quả của cuộc thử nghiệm DALL·E3.

Trong cuộc thử nghiệm phi hành gia cưỡi ngựa, anh ấy nói rằng nó không thành công 100%.

Bạn có thể làm đúng sau hai hoặc ba lần thử vì GPT-4 sẽ cùng bạn hoàn thiện từ gợi ý cho đến khi bạn hiểu đúng.

Chỉ cần một chút nỗ lực, bạn có thể có được hầu hết mọi thứ bạn muốn.

Một số cư dân mạng đã cố gắng sử dụng MidJourney để đạt được kết quả tương tự. Chỉ có thể nói không phải là hoàn toàn không thể làm được mà sẽ phải tốn rất nhiều công sức.

gần như không thể thực hiện được, đòi hỏi nhiều kỹ thuật nhanh chóng và khó tái tạo.

Nếu bạn là người dùng MidJourney có kinh nghiệm, bạn cũng có thể thử xem nó có hoạt động hay không.

Trong thử thách “8 chú hươu cao cổ uống nước” do cư dân mạng đề xuất, DALL·E3 một lần nữa cho thấy điểm yếu của là khó đếm chính xác các con số.

△Đếm xem có bao nhiêu con hươu cao cổ trong hình

Nhiều lần thử lỗi hơn và một con hai đầu hươu cao cổ xuất hiện.

Việc bắt AI đếm chính xác lần này không được giải quyết, nhưng ít nhất nó giải quyết được vấn đề hiểu các mối quan hệ không gian.

Một cư dân mạng đề xuất “Bốn con ngựa vằn chạy trên đồng cỏ, một con sư tử đang đuổi theo phía sau, phía trên có một con đại bàng, không có con vật nào khác trong ảnh.” Trong thử thách, mối quan hệ không gian về cơ bản là đúng , nhưng có thêm một con ngựa vằn.

Ngược lại, DALL·E2 và StableDiffusion hiểu kém hơn về mối quan hệ không gian.

OpenAI's Adam Goldberg, người chịu trách nhiệm về phiên bản doanh nghiệp của ChatGPT, cũng đã đăng nhiều kết quả chất lượng cao nhưng không chia sẻ những lời nhắc nhở.

Chịu trách nhiệm về A Jerry Tworek, người viết mã và gọi là công cụ, đã tạo ra nhiều bức tranh khái niệm trừu tượng, chẳng hạn như "Phân chia các tế bào cơ học" .

và "Cây chương trình máy tính xuyên thiên hà" .

Microsoft OpenAI hợp tác

DALL·E3 Đây là một cải tiến lớn. Ngoài việc tích hợp ChatGPT thì phần tạo hình ảnh cụ thể được thực hiện như thế nào?

Thật không may, với xu hướng OpenAI ngày càng đến gần, rất có thể nó sẽ không xuất bản các bài báo như hai thế hệ trước. Chúng tôi chỉ có thể đưa ra một số dự đoán từ danh sách đóng góp.

DALL·E2 bài báo có 5 tác giả.

Bất kể nhóm sản phẩm, bảo mật, truyền thông công cộng và pháp lý, DALL·E3 có 18 người tham gia riêng vào phần nghiên cứu.

đề xuất mô hình nhất quán dành cho cựu sinh viên Thanh Hoa (ConsistencyModels) Song Yang(YangSong) được liệt kê.

Mô hình nhất quán nhanh hơn mô hình khuếch tán phổ biến nhất hiện nay và có thể tạo ra 64 hình ảnh 256*256 trong 3,5 giây.

Tuy nhiên, đóng góp nghiên cứu của Song Yang lần này rất nhỏ. Không chắc liệu DALL·E3 có sử dụng mô hình nhất quán hay không. Có nhiều khả năng là ông đã mượn phương pháp của mình trong mô hình khuếch tán cải tiến.

Ngoài ra, ngoài tác giả của DALL·E2 và Ouyang Long của nhóm ChatGPT, còn có ít nhất ba nhà nghiên cứu đến từ Microsoft.

Jianfeng WangPh.D. tốt nghiệp Đại học Khoa học và Công nghệ Trung Quốc và là trưởng nhóm nghiên cứu tại Microsoft.

Lijuan WangPh.D. tốt nghiệp Đại học Thanh Hoa và làm giám đốc nghiên cứu tại Microsoft.

Hai người họ đã tham gia nghiên cứu tạo ra hình ảnh canvas vô hạn NUWA-Ininity.

李林婕TAGPH 169 (Lindsey Li) là cựu sinh viên của Học viện Công nghệ Bắc Kinh. Ông đã nhận được hai bằng thạc sĩ từ Đại học Purdue và UC San Diego. Ông là nhà nghiên cứu cấp cao tại Microsoft và đã xuất bản nhiều tài liệu hội nghị hàng đầu trong lĩnh vực đa phương thức.

Ngoài nghiên cứu, DALL·E3 Tối ưu hóa suy luận còn có nhóm Microsoft DeepSpeed liên quan sâu sắc.

Deepspeed là thư viện tối ưu hóa deep learning mã nguồn mở giúp giảm mức tiêu thụ điện năng tính toán và mức sử dụng bộ nhớ, đồng thời đào tạo và suy luận các mô hình phân tán quy mô lớn thông qua khả năng song song tốt hơn trên phần cứng hiện có.

Nhiều người trong số họ bày tỏ sự vui mừng khi được tham gia vào công việc này và rất hào hứng với việc phát hành DALL·E3.

Cuối cùng, trong số những đóng góp đặc biệt, CEO của Microsoft, Mikhail Parakhin, chính thức của Bing, , , Phó chủ tịch trưởng Azure Cloud, Misha Bilenko nằm trong số đó.

Microsoft cũng đã xác nhận trong các hoạt động phát hành trước đó rằng Bing sẽ trực tiếp tích hợp DALL·E3.

Theo quy định hiện hành, DALL·E2 trên Bing là miễn phí. 99 mã thông báo tăng tốc sẽ được phát hành. Nếu không có token, việc xếp hàng sẽ mất nhiều thời gian hơn.

Mặc dù DALL·E3 sẽ tính phí 20 USD mỗi tháng trên ChatGPTPlus vào tháng 10.

Nhưng vì GPT-4 được cung cấp miễn phí trên Bing nên bạn cũng có thể mong đợi làn sóng DALL·E3 miễn phí trong tương lai~