ChatGPT, ứng dụng có thể vẽ và nhận dạng hình ảnh, cuối cùng cũng có mặt...

DALL·E3 đã có mặt! Nó không chỉ sắp ra mắt mà còn sẽ được tích hợp vào ChatGPT. Nói cách khác, ngoài các cuộc hội thoại thông thường, viết mã và giải toán, ChatGPT, tích hợp DALL·E3 mới nhất, lần này cuối cùng cũng có chức năng hình ảnh.

ChatGPT+D ALL·E, làn sóng này được coi là một liên minh mạnh mẽ. Một người là vị vua không đăng quang trong mô hình ngôn ngữ lớn, người kia cũng là người dẫn đầu trong mô hình đồ thị Vincentian. Hiệu quả thực sự chắc chắn sẽ là 1+1>2.

Thông báo chính thức đột ngột này được coi là đã lấp đầy một lỗ hổng lớn trong ChatGPT đa phương thức vốn được đồn đại rộng rãi sau khi GPT-4 ra mắt vào đầu năm nay.

Tuy nhiên, OpenAI hiện mới công bố tin tức và thời gian ra mắt cụ thể của là tháng 10. Đối với người dùng Plus và Enterprise Edition, một DALL·E3 riêng biệt cũng sẽ được ra mắt vào mùa thu này.

Thứ này mạnh đến mức nào? Mặc dù chúng ta chưa thể bắt đầu nhưng xét từ các ví dụ do OpenAI đưa ra, nó vẫn còn khá bùng nổ.

Trong số đó, một số cư dân mạng nhiệt tình đã gọi điện trực tiếp cho Midjourney và đưa cho nó những lời nhắc mẫu của DALL·E3 để họ có thể cạnh tranh trực tiếp.

Và kết quả chỉ có thể nói: Giữa hành trình gặp nguy hiểm.

Đầu tiên là một meme y học về quả bơ rất cổ điển. Lời nhắc là: một quả bơ đang ngồi trên ghế của nhà trị liệu và nói rằng "Tôi cảm thấy trong lòng thật trống rỗng." Có một cái lỗ có kích thước bằng một cái hố nhỏ ở giữa quả bơ. Nhà trị liệu, thìa, ghi chú vẽ nguệch ngoạc.

Mặc dù thoạt nhìn chúng có vẻ có ưu điểm riêng, hai phong cách khác nhau. Nhưng nếu so sánh kỹ các từ gợi ý thì rõ ràng Midjourney đã bỏ qua nhà trị liệu, chiếc thìa và những ghi chú vẽ bậy. Văn bản trong hộp thoại cũng được viết ngẫu nhiên, không đúng yêu cầu.

Sau đó, họ được yêu cầu tạo ra một bức ảnh về một trái tim trong suốt và yêu cầu khắc một câu trích dẫn cụ thể bên dưới trái tim.

Lời nhắc: Đây là hình ảnh minh họa trái tim con người được làm bằng thủy tinh mờ, đứng trên bệ giữa đại dương đầy giông bão. Ánh nắng xuyên qua mây và chiếu sáng tâm hồn, làm lộ ra vũ trụ nhỏ bé bên trong. Câu trích dẫn “Khám phá vũ trụ bên trong bạn” được khắc chữ in đậm ở phần đế.

Không còn nghi ngờ gì nữa, lần này DALL·E3 một lần nữa đánh bại Midjourney. Midjourney không hiển thị các chi tiết như đại dương giông bão và vũ trụ vi mô bên trong ngoại trừ việc không khắc theo yêu cầu.

Một bức ảnh khác về chiếc ghế hình cầu lấy cảm hứng từ vải thiều. Các chi tiết đòi hỏi bề ngoài gập ghềnh màu trắng và nội thất mềm mại tương phản với giấy dán tường nhiệt đới phía sau nó.

Điều này làm sống động tất cả các yếu tố của bức ảnh do họ tạo ra, nhưng Midjourney dường như vẫn hiểu nhầm sự khác biệt giữa hình nền nhiệt đới và rừng mưa nhiệt đới.

Tất nhiên, việc hiểu sai các từ gợi ý và đưa chúng ra khỏi ngữ cảnh cũng tương đương với các bệnh mãn tính của mô hình sơ đồ Vincent trước đây.

Một con cua được tạo ra giống như một con cua ẩn sĩ...

Hãy để nó tạo ra âm nhạc rừng nhân tạo 2D Nhóm đã tạo ra Kết quả 3D...

Và những vấn đề cũ này, theo tuyên bố của chính OpenAI và các ví dụ được đưa ra, về cơ bản không tồn tại trong DALL·E3 mới.

Ngoài việc giải quyết các vấn đề cũ, DALL·E3 còn nâng cấp kết cấu của phiên bản gốc thế hệ thứ hai.

Ví dụ: hãy để họ vẽ cảnh một cầu thủ bóng rổ đang lao xuống nước, với yếu tố bầu trời đầy sao nổ tung.

Ban đầu, các hình ảnh do DALL·E2 tạo ra đã đáp ứng yêu cầu. Thật bất ngờ, DALL·E3 được nâng cấp lại thực tế hơn. Các chi tiết như đường cơ và màu sắc của vũ trụ đều được hiển thị lần lượt. Đó thực sự là một đòn giảm kích thước.

Trái: DALL·E2, Phải: DALL·E3

Tổng thể, Với sự hỗ trợ của ChatGPT, khả năng hiểu ngôn ngữ của DALL·E3 trực tiếp được phát huy tối đa và gần như không thể giành chiến thắng.

Phiên bản nâng cấp của ChatGPT không những không làm mất các điểm thông tin quan trọng mà ngay cả khi bạn chỉ gõ một vài từ khóa chỗ này chỗ kia, nó còn có thể giúp bạn tự động hoàn thành phần mô tả, sau đó để DALL·E3 tạo ra hình ảnh.

OpenAI đã nắm bắt được bản chất "sa mạc văn hóa" của cư dân mạng đương thời (đầu chó).

Tất nhiên, việc tích hợp DALL·E3 và ChatGPT không chỉ đơn giản là có thể hiểu mọi người hơn mà còn tạo ra một số tia lửa tuyệt vời.

Ví dụ: phiên bản nâng cấp của ChatGPT cũng có khả năng hiểu ngữ cảnh trong bản vẽ và thậm chí có thể được sử dụng trực tiếp như một công cụ năng suất.

Chính xác thì nó mạnh đến mức nào, trang web chính thức của OpenAI cung cấp một video trình diễn. Thành thật mà nói, sau khi xem xong, Shichao cũng lo lắng cho công việc của họa sĩ minh họa.

Đầu tiên hãy để ChatGPT tạo ra chú nhím siêu hướng dương. Nó sẽ cung cấp cho bạn bốn hình ảnh. Sau khi chọn được điều bạn thích nhất, bạn có thể chuyển sang bước tiếp theo của cuộc trò chuyện.

Sau đó đặt tên cho chú nhím Larry và để ChatGPT tạo thêm một vài bức ảnh về nó.

Tiếp theo, hãy tăng độ khó và tạo cảnh trực tiếp để giới thiệu ngôi nhà của Larry.

Điều này có thể trực tiếp thể hiện sức mạnh của DALL·E3+ChatGPT. Larry không chỉ có ngoại hình được giữ nguyên (điều này có thể đã thay đổi đối với các AI khác), mà hộp thư ở cửa còn có tên "LARRY" được viết trên đó.

Ngoài ra, việc mô tả tính cách của Larry, sử dụng hình ảnh để thể hiện tình yêu của anh ấy và thậm chí làm thiết bị ngoại vi cho Larry và thiết kế một số nhãn dán đều dễ dàng đối với ChatGPT.

Cuối cùng, hãy để nó tổ chức một câu chuyện trước khi đi ngủ và một tư thế kết thúc. ChatGPT cũng nằm trong tầm tay bạn. u1s1 Tôi thực sự bị sốc trước đoạn hội thoại mượt mà này...T AGPH40

Nhìn thấy điều này, Shichao đột nhiên có cảm hứng mới. Sau đó, bài viết chúng ta viết có thể ném thẳng vào ChatGPT, nó sẽ trích xuất từ khóa để làm bìa.

Nếu có bất kỳ yêu cầu đặc biệt nào, bạn có thể nói trực tiếp với ChatGPT. Bạn cũng có thể ném hình ảnh tham khảo vào nó. Kỹ năng câu cá +1+1...

0Quay lại chủ đề, những tác dụng nêu trên chỉ được OpenAI thể hiện một cách đơn phương. Nó sẽ thực sự được sử dụng như thế nào vẫn chưa được biết cho đến khi nó được đưa lên mạng vào tháng 10. Người ta ước tính rằng khi đó sẽ có một làn sóng các kỹ thuật ẩn được cư dân mạng phát triển. Hãy chờ xem.

Ngoài ra, khi nói đến vẽ tranh AI, vẫn có một chủ đề thường gặp: vấn đề bản quyền.

OpenAI vẫn giữ nguyên vị trí trước đó. Giống như phiên bản thứ hai, hình ảnh được tạo bằng DALL·E3 có thể được sử dụng mà không được phép và có thể được thương mại hóa.

Tuy nhiên, với quá nhiều bài học rút ra từ quá khứ, lần này OpenAI hơi thông minh khi nói rằng các nghệ sĩ có thể chọn từ chối cung cấp tác phẩm của mình cho DALL·E, miễn là họ điền vào một biểu mẫu.

Mặc dù điều này phần nào có nghĩa là "không từ chối tức là chấp nhận", nhưng so với trước đây, ít nhất các nghệ sĩ không còn thụ động như vậy nữa...

T AGPH67DALL·E cũng có biện pháp đối phó trước đó Những bức tranh AI vi phạm quyền riêng tư của nhân vật công chúng và các vấn đề thiên vị khác xuất hiện trên Internet: Trong thực tế sử dụng, ChatGPT sẽ trực tiếp từ chối các yêu cầu có tên của nhân vật công chúng trong lời nhắc.

Nói cách khác, có lẽ chúng ta sẽ không thấy những bức ảnh vui nhộn như thế này trong ChatGPT...

TAG PH73

Và họ cũng thành lập một "đội đỏ" để đánh giá và giảm thiểu những rủi ro có thể xảy ra phát sinh từ mô hình ở mỗi giai đoạn.

Cuối cùng, OpenAI cũng tuyên bố trên trang web chính thức rằng họ đang nghiên cứu một công cụ xác định các bản vẽ AI có thể xác định những bức ảnh nào được tạo bởi DALL·E3.

(Chỉ mong nó sẽ không giống công cụ nhận dạng văn bản AI trước đây, vì nó vô dụng...

Nói chung ChatGPT với chức năng đồ thị Vincent đủ tạo nên một làn sóng nhiệt tình trong giới AI, còn làn sóng này là phiên bản nâng cấp tích hợp của DA LL·E3 thì khó mà không Dù sao đi nữa, Shichao nóng lòng muốn dùng thử

Nhưng một số người vui mừng và một số lo lắng. Làn sóng OpenAI này một lần nữa đã bỏ xa các đồng nghiệp của nó sau bản cập nhật tháng 10, ước tính rằng nhiều công ty khởi nghiệp AI sẽ bị nghiền nát dưới bánh xe của ChatGPT...