Nhà khoa học nghiên cứu OpenAI Chen Boyuan đã đăng một bài viết trên Zhihu, bắt đầu rất trực tiếp: "Xin chào mọi người, tôi là Chen Boyuan, nhà khoa học nghiên cứu của nhóm GPT Image. Mô hình hình ảnh GPT được phát hành tuần trước là khóa đào tạo chính của tôi!" Anh ấy cũng đề cập rằng lần này kết xuất mô hình bằng tiếng Trung cuối cùng đã được sửa. Nếu người dùng Trung Quốc có bất kỳ phản hồi nào, bạn có thể trả lời trực tiếp cho họ.
Hình ảnh ChatGPT 2.0 Sau khi ra mắt, phản ứng đầu tiên của nhiều người là: Khả năng tiếng Trung của model này hơi vô lý.
Hình ảnh mẫu ngày xưa có phần "khó hiểu". Họ có thể vẽ phong cảnh và hình vẽ, nhưng một khi có sử dụng ký tự Trung Quốc, họ có thể dễ dàng biến thành một mớ hỗn độn các biểu tượng ma quái không thể giải mã được. Nhưng GPT-image-2 thì khác. Nó không chỉ có thể viết các từ chính xác mà còn có thể sắp chữ, phân đoạn và tạo đồ họa thông tin tiếng Trung với cấu trúc logic.
Phương pháp cũ là “xem văn bản để xác định xem nó có phải do AI tạo ra” không còn hoạt động ở thế hệ này nữa.

Chen Boyuan là một trong những người thực sự đứng ở quầy lễ tân trong buổi huấn luyện và thể hiện khả năng GPT Image 2. Tại buổi họp báo, anh và Ultraman đã trình diễn khả năng kết xuất văn bản. Sau khi phát hành, anh ấy giải thích nhiều mẩu tin đằng sau những bức ảnh trên trang web chính thức trên Zhihu: Trong quá trình thử nghiệm mù đôi của LMArena, GPT Image 2 đã sử dụng "băng keo" làm tên mã; nhiều bức ảnh trên blog chính thức được anh thực hiện cùng với người mẫu; Truyện tranh Trung Quốc, tranh khắc hạt gạo, văn bản đa ngôn ngữ, bằng chứng trực quan và mã QR được tạo tự động. Những bức ảnh trông giống như tài liệu quảng cáo này thực chất được thiết kế để kiểm tra khả năng nhiều lần.
Anh ấy đã đưa ra một lời giải thích rất thú vị cho loại băng “băng keo” này:
“Về lý do tại sao nó được gọi là băng keo...tất nhiên là vì bạn có thể dùng băng keo để dán chuối lên trên tường!”
01
Anh ấy là hỏi một câu hỏi chậm hơn
Chen Boyuan không phải là loại nhà nghiên cứu có thể được ghi nhớ trong nháy mắt. Không có việc nói chuyện thường xuyên trước công chúng và không có sự quản lý có chủ ý trong cách thể hiện cá nhân. Anh ấy viết blog và đăng những nội dung nhẹ nhàng, nhưng những thứ này giống như những bản ghi chép hơn là xây dựng sức ảnh hưởng.
Ngược lại, cảm giác hiện diện của anh ấy đến từ chính người mẫu nhiều hơn.

Anh hiện là nhà nghiên cứu tại OpenAI và tham gia đào tạo người mẫu hình ảnh. Trước đó, anh đã hoàn thành bằng Tiến sĩ về kỹ thuật điện và khoa học máy tính tại MIT với chuyên ngành triết học. Anh cũng tham gia nghiên cứu các mô hình đa phương thức tại Google DeepMind.
Những trải nghiệm này đủ bắt mắt nhưng quan trọng hơn là những mối quan tâm lâu dài của anh ấy.
Từ DeepMind đến OpenAI, hướng nghiên cứu của Chen Boyuan hầu như không thay đổi. Khi hầu hết mọi người vẫn đang thảo luận xem liệu mô hình có thể được viết tốt hơn và được vẽ chặt chẽ hơn hay không, họ quan tâm đến một mức độ cơ bản hơn: mô hình là gì để "hiểu biết".
Cụ thể có thể xem là 3 câu hỏi: Người mẫu hiểu hình ảnh như thế nào? Mối quan hệ giữa hình ảnh và ngôn ngữ là gì? Khi một mô hình đối mặt với thế giới thực, nó tạo ra kết quả hay mô phỏng thế giới?
Những câu hỏi này nghe có vẻ trừu tượng nhưng chúng xác định khá nhiều ranh giới của thế hệ mô hình ngày nay.
Trên trang chủ cá nhân, anh viết rất thẳng thắn hướng nghiên cứu của mình: Mô hình thế giới, thể hiện trí tuệ, học tập tăng cường.
Cái gọi là mô hình thế giới có thể hiểu là một điều: cho phép AI hình thành phán đoán về thế giới trong nội bộ.
Nó không chỉ phải biết điều gì đang xảy ra trước mắt bạn mà còn có thể đoán trước điều gì sẽ xảy ra tiếp theo.
Điều này hơi khác so với LLM (mô hình ngôn ngữ lớn) phổ biến hiện nay. LLM giống ngôn ngữ xử lý hơn, trong khi mô hình thế giới gần với một cấu trúc hơn: nó cần hiểu không gian, thời gian, nguyên nhân và kết quả cũng như kết quả của hành vi.
Để lấy một ví dụ rất đơn giản, nếu AI thực sự "hiểu" được thế giới, nó nên biết rằng một chiếc cốc nhựa sẽ nảy lên khi rơi xuống đất, trong khi cốc thủy tinh sẽ vỡ.
Trí thông minh thể hiện và học tập củng cố có thể được hiểu là phần mở rộng của vấn đề này - nếu một mô hình thực sự hiểu thế giới, nó không chỉ trả lời các câu hỏi mà còn phải có khả năng hành động và liên tục sửa đổi phán đoán của mình trong khi hành động.
Công việc anh tham gia thường không phải là tối ưu hóa một nhiệm vụ đơn lẻ mà là nỗ lực kết nối các mô hình tổng quát, hiểu biết trực quan và hệ thống ra quyết định với nhau.

Một trong những tác phẩm tiêu biểu nhất của ông là nghiên cứu mang tên Cưỡng bức khuếch tán.
Nghiên cứu này nhằm giải quyết một vấn đề rất cơ bản: Mô hình được tạo từng bước hay được tạo cùng một lúc?
LLM là loại trước đây, có khả năng tạo linh hoạt tốt nhưng dễ mắc lỗi ở nội dung dài; mô hình khuếch tán gần với mô hình sau hơn, ổn định hơn nhưng thiếu cấu trúc.
Cách tiếp cận của Chen Boyuan là đặt hai phương pháp này vào cùng một mô hình, để mô hình có thể được tạo dần dần và hạn chế toàn bộ.
Nếu Buộc khuếch tán là về việc thống nhất trong chiều thời gian, thì SpatialVLM, một công việc khác mà anh ấy tham gia, là về việc bổ sung các khả năng trong chiều không gian.
Công việc này giải quyết một vấn đề tồn tại từ lâu: mặc dù người mẫu có thể nhìn vào hình ảnh và nói chuyện nhưng nó không thực sự hiểu được mối quan hệ không gian. Nó không biết khoảng cách, kích thước hoặc vị trí tương đối của các vật thể.
Để giải quyết vấn đề này, nhóm của ông đã xây dựng một hệ thống suy luận không gian ba chiều để mô hình không chỉ có thể "nhìn thấy" mà còn có thể "lý luận".
Những ý tưởng tương tự cũng đã xuất hiện trong các tác phẩm khác, chẳng hạn như phương pháp Hướng dẫn Lịch sử sử dụng thông tin lịch sử để hướng dẫn việc tạo ra hoặc nghiên cứu về mô hình thống nhất về tầm nhìn, hành động và ngôn ngữ. Những nỗ lực này có vẻ rải rác, nhưng tất cả đều hướng đến cùng một hướng: làm cho mô hình không chỉ đưa ra kết quả mà còn tạo thành một biểu tượng ổn định trong nội bộ.
Ngoài hướng nghiên cứu nghiêm túc của mình, Chen Boyuan thỉnh thoảng còn bộc lộ sở thích cá nhân rất sống động.
Ví dụ, lần này anh ấy đăng một bài viết trên Zhihu, chẳng hạn như anh ấy giới thiệu cụ thể trên trang chủ cá nhân rằng sở thích của anh ấy là trà sữa trân châu (làm boba), và thậm chí tên của anh ấy trên Zhihu là "Quản lý cửa hàng trà sữa MIT".

Ông còn viết blog và xếp hạng các trường khoa học máy tính hàng đầu ở Hoa Kỳ. Tiêu chí không phải là sức mạnh nghiên cứu khoa học mà là trà sữa trân châu.
Anh xếp Berkeley đầu tiên vì khuôn viên “gần như bị bao quanh bởi các cửa hàng trà sữa chất lượng cao”, trong khi MIT nhận điểm thấp vì “có quá ít quán trà sữa gần đó và chất lượng không ổn định”.

Kiểu biểu đạt này rất thoải mái nhưng có thể thấy thói quen nghiên cứu của anh ấy là: tách rời các vấn đề phức tạp, tìm các khía cạnh có thể so sánh được rồi đưa ra phán đoán.
Bản thân công việc của anh ấy cũng đang làm những việc tương tự, nhưng vật thể được thay thế bằng một mô hình.
02
Anh ấy đã tránh con đường dễ dàng hơn Hướng tới
Nếu bạn chỉ Nhìn vào con đường phát triển của các mô hình hình ảnh, logic trước đây thực sự rất rõ ràng: dữ liệu lớn hơn, độ phân giải cao hơn và quá trình tạo ổn định hơn. Hầu hết các cải tiến đều tập trung vào việc "vẽ giống hơn".
Nhưng khi mô hình bắt đầu xử lý nội dung phức tạp hơn, đường dẫn này cũng gặp phải một nút thắt cổ chai: khi hình ảnh không chỉ chứa các yếu tố hình ảnh mà còn chứa văn bản, cấu trúc và thậm chí cả các mối quan hệ logic, câu hỏi không còn là giống hay không giống mà là làm thế nào thông tin này được thiết lập cùng một lúc.
Vấn đề chuyển từ chất lượng sản xuất sang tính nhất quán về cấu trúc.
Không phải nhà nghiên cứu nào cũng giải được loại bài toán này. Nó không tương ứng trực tiếp với một chỉ số đánh giá nhất định và rất khó chuyển thành tác động của sản phẩm trong thời gian ngắn. Ngược lại, thường dễ dàng nhận thấy những cải tiến hơn khi làm việc về độ phân giải, kiểu dáng và chi tiết.
Con đường của Chen Boyuan tình cờ tránh được những hướng đi “dễ dàng hơn” đó: ngay từ khi bắt đầu nghiên cứu ở giai đoạn học thuật, anh ấy không tập trung vào các khả năng đơn phương thức mà là cách kết nối các khả năng khác nhau với nhau.
Từ lâu, các mô hình trực quan, mô hình ngôn ngữ và hệ thống ra quyết định đã phát triển độc lập. Chúng có thể được kết nối thông qua các giao diện, nhưng thường tách biệt bên trong. Vì vậy, dù mô hình có thể “kêu gọi năng lực” nhưng khó thể hiện được sự hiểu biết nhất quán.
Điều Chen Boyuan làm là cố gắng thay đổi tình trạng này.
Nhiều khả năng được mô hình này thể hiện ban đầu xuất hiện ở sự giao thoa giữa "hình ảnh, văn bản, meme, đồ vật thực và bối cảnh văn hóa".
Chen Boyuan cho biết nhiều bức ảnh trên blog chính thức là do anh thực hiện. Toàn bộ blog được tạo bằng hình ảnh, không có văn bản thông thường nào cả. Nói cách khác, nhiều ví dụ mà người dùng nhìn thấy trên trang web chính thức không chỉ là tài liệu quảng cáo mà còn là một phần khả năng của mô hình.
Ví dụ: truyện tranh quả trứng Phục sinh của Trung Quốc.
Anh ấy muốn làm một bộ truyện tranh thật hài hước nên đã sử dụng "bắt cuống" và "cân chuối". Để thể hiện khả năng viết của mình, anh ấy đã đặc biệt yêu cầu người mẫu thêm văn bản bằng nhiều ngôn ngữ vào ảnh, đồng thời tạo ra các ký tự tiếng Trung rất nhỏ ở góc dưới bên phải của tấm áp phích quê hương để kiểm tra xem mô hình có thể xử lý chi tiết như thế nào.
Quan trọng hơn, bức ảnh này không được ghép lại với nhau - theo anh, toàn bộ bức ảnh, bao gồm cả ảnh trong ảnh và ảnh trong ảnh trong ảnh, đều được tạo ra cùng một lúc. Anh lo lắng mọi người sẽ cho rằng đó là bức tranh ghép nên đã cố tình thêm một dòng chú thích ở cuối bức tranh.
Điều này chỉ minh họa cho độ khó của Hình ảnh GPT 2. Nếu mô hình hình ảnh ngày xưa có thể viết một vài ký tự lớn mà không mắc lỗi thì được coi là rất tốt. Nhưng GPT Image 2 phải xử lý cả một loạt cấp độ: nó cần biết đây là ảnh truyện tranh, có ảnh trong truyện tranh và có ảnh trong ảnh; nó cần đặt văn bản bằng các ngôn ngữ khác nhau ở các cấp độ khác nhau; nó cũng cần thiết lập mối quan hệ giữa những từ này và bức tranh, thay vì rải rác ngẫu nhiên trong bức tranh.
Một ví dụ khác là khắc hạt gạo.
Chen Boyuan cho biết ban đầu anh cảm thấy khả năng hiển thị văn bản thông thường chưa đủ ấn tượng nên anh đã tạo một bức ảnh 4K sau khi được đồng đội nhắc nhở: bức ảnh cho thấy một đống hạt gạo, một trong số đó có khắc chữ.

Điều này kiểm tra khả năng kiểm soát văn bản của mô hình ở quy mô rất nhỏ.
Và bằng chứng trực quan trên bảng đen đó.
Chen Boyuan nói: "Có vẻ quá đơn giản nếu tôi yêu cầu anh ấy giải các bài toán thông thường như phương trình. Nano chuối dường như có thể làm được điều đó thông qua chế độ tư duy + hiển thị văn bản. Vì vậy, tôi đã nghĩ ra một bằng chứng trực quan mà tôi rất thích để thực sự kiểm tra Hiệu ứng suy luận trực quan độc đáo của GPT Image 2. Lời nhắc trong hình là sử dụng hình ảnh (chứ không phải đại số) để chứng minh rằng tổng các số lẻ bắt đầu từ 1 là một hình vuông. Mô hình thông thường thực sự có thể dễ dàng suy luận về giải pháp đại số, nhưng giải pháp đồ họa chỉ có thể được thực hiện bằng mô hình trực quan "
Đây cũng là Hình ảnh GPT. 2 Một trong những thay đổi đáng chú ý nhất trong phiên bản này: nó có thể bắt đầu biến mối quan hệ trừu tượng thành cấu trúc hình ảnh và sau đó thể hiện cấu trúc này một cách trực quan.

Vì vậy, thay vì nói rằng GPT Image 2 là "tạo hình ảnh", tốt hơn nên nói rằng nó đang tạo ra biểu thức trực quan có cấu trúc.
Phim hoạt hình, áp phích, bằng chứng trực quan... Những thứ này về bản chất không phải là hình ảnh thuần túy. Chúng cũng chứa văn bản, kiểu chữ, thứ bậc, mối quan hệ đối tượng, mục tiêu nhiệm vụ và đánh giá thẩm mỹ.
Các mô hình hình ảnh trước đây có xu hướng thu gọn ở đây vì chúng coi hình ảnh là kết quả pixel. Thế hệ mô hình hình ảnh mạnh mẽ hơn này phải xử lý hình ảnh như một biểu thức có cấu trúc.
03
TAGP H40Anh ấy không đơn độc
Trong OpenAI, không có nhiều người thực sự tham gia vào việc đào tạo người mẫu. Sau khi phát hành GPT-image-2, trưởng nhóm nghiên cứu Gabriel Goh đã công khai cảm ơn các thành viên trong nhóm của họ trên mạng xã hội.
Danh sách không dài, chỉ có chục người.

Đây giống một nhóm nhỏ hơn là một hệ thống kỹ thuật khổng lồ.
Các thành viên trong nhóm phân tán theo các hướng khác nhau. Một số đang thực hiện tầm nhìn, một số đang thực hiện các cơ chế tạo và một số đang xử lý cấu trúc hệ thống, nhưng cuối cùng họ đều hướng đến một điều giống nhau: trang bị cho mô hình một bộ khả năng có thể xử lý hình ảnh, ngôn ngữ và cấu trúc cùng một lúc.
Hình minh họa trong tweet ở một mức độ nào đó cũng giống như một phép ẩn dụ: một nhóm người tập hợp lại với nhau, mỗi người đảm nhận một phần, và cuối cùng ghép lại thành một bức tranh giống nhau.
Cấu trúc của mô hình, ranh giới khả năng và thậm chí cả "hình ảnh phải như thế nào" đều được thực hiện từng chút một trong một nhóm như vậy.
Một điều đáng chú ý là trong đội ngũ nòng cốt gồm hơn chục người, bạn có thể thấy một số lượng đáng kể những cái tên Trung Quốc.
Ngoài Chen Boyuan, còn có Jianfeng Wang, người thực hiện mô hình ngôn ngữ hình ảnh, Weixin Liang, người thực hiện đánh giá mô hình và các vấn đề về dữ liệu, Yuguang Yang, người đã tham gia lĩnh vực tạo hình ảnh trong một thời gian dài và nhiều nhà nghiên cứu tham gia vào việc tạo hình ảnh và đào tạo hệ thống.
Chen Boyuan không viết sự việc này như một chiến thắng cá nhân. Cuối bài viết của Zhihu, anh đặc biệt cảm ơn toàn đội. Anh ấy nói rằng mọi người đã làm rất nhiều việc. Cuối giai đoạn chuẩn bị ra mắt, ngoài việc sửa chữa một số việc nhỏ, anh còn phối hợp với các đồng nghiệp ở bộ phận marketing và đồng nghiệp nghệ thuật để chuẩn bị họp báo và website.
Nói cách khác, GPT Image 2 là sự hoàn thiện chung của nghiên cứu, sản phẩm, thẩm mỹ và truyền thông. Nhóm người mẫu cần tạo ra các khả năng, nhóm nghệ thuật cần biết loại hình ảnh nào có thể thể hiện khả năng và nhóm tiếp thị cần chuyển những khả năng này thành những bức tranh mà người dùng bình thường có thể hiểu, sẵn sàng thử nghiệm và sẵn sàng lan truyền.
Đó là lý do tại sao nhiều ví dụ trong phiên bản này rất đặc biệt. Cuối cùng, họ không chỉ tạo ra một bức tranh đẹp mà còn tích cực tạo ra các vấn đề: nhiều ngôn ngữ, văn bản rất nhỏ, hình ảnh trong ảnh, đồ vật thật, bằng chứng trực quan, áp phích do tìm kiếm tạo ra và nhúng mã QR.
Mỗi bức ảnh sẽ cho người dùng biết: Điều mà trước đây bạn cho rằng mô hình hình ảnh không thể làm được thì bây giờ bạn có thể thử lại.
Từ góc độ này, vị trí của Chen Boyuan rất đặc biệt.
Anh ấy vừa là người đào tạo người mẫu vừa là người tường thuật xuất bản; anh không chỉ tham gia làm mô hình mà còn đích thân thiết kế nhiều bức tranh để thế giới bên ngoài hiểu được khả năng của mô hình.
GPT Image 2 chắc chắn không phải là tác phẩm của riêng Chen Boyuan, nhưng xét theo thông tin dư luận, Chen Boyuan quả thực là một trong những cái tên đáng được cộng đồng người Trung Quốc quan tâm nhất trong lần ra mắt người mẫu hình ảnh này.
Một mặt, anh ấy đã huấn luyện mô hình đồ thị GPT được phát hành lần này; mặt khác, anh ấy tình cờ là người chịu trách nhiệm về một bước đột phá mà người dùng Trung Quốc dễ dàng cảm nhận nhất: kết xuất tiếng Trung.
Khi AI cuối cùng có thể viết tiếng Trung thành các hình ảnh phức tạp, nhà nghiên cứu đằng sau nó, người đã nghiên cứu các mô hình thế giới từ lâu, hiểu biết về không gian và tính nhất quán tổng quát đã đi đầu.
Anh ấy nói: "Tôi hy vọng lần này tôi có thể bắt kịp mọi người."