Mở khóa đa phương thức ChatGPT: mã được tạo bằng cách chụp ảnh, có thể nhận dạng nhanh các bản thảo cuộn cổ và tóm tắt biểu đồ vượt quá 6

Vào thứ Tư, OpenAI vừa công bố việc bỏ cấm các khả năng đa phương thức của ChatGPT. Bây giờ, ngay khi nó được đưa lên mạng, cư dân mạng ngay lập tức phát điên. Tiếp theo, chúng ta hãy xem khả năng nhận dạng hình ảnh của ChatGPT mạnh đến mức nào.

Ảnh chụp, mã tức thời

Một cư dân mạng đã ghi lại một hình ảnh bảng trắng được tải lên trong một cuộc họp và sau đó yêu cầu ChatGPT viết mã.

Ngoài ra, bạn có thể tải lên hình ảnh nháp vẽ tay rồi yêu cầu ChatGPT tạo trang web bằng HTML.

Whoosh, mã xuất hiện mỗi phút.

Đây đơn giản là khả năng đa phương thức được Greg Brockman thể hiện khi GPT-4 vừa được phát hành trong năm nay.

Đối với một ví dụ khác, hãy chụp ảnh cuốn sách todolist của bạn.

Sau đó, hãy để GPT-4 tạo kinterGUI PythonT, và thế là xong đã triển khai...

Bản thảo cuộn cổ, được dịch tại một liếc nhìnTAGPH 93

Đây là một bản vẽ khác của nhà giả kim thế kỷ 17 Robert Boyle. GPT-4 có đọc được không?

Đây là một miếng bánh dành cho nó.

Ví dụ: "Sách hướng dẫn sử dụng thuốc của người Catalan về xác ướp thuốc".

ChatGPT cũng có thể được phiên âm và dịch.

Benjamin Breen, phó giáo sư lịch sử từ UCSC, cho biết

Điều này sẽ có tác động đáng kể đến các nhà sử học. Hãy tưởng tượng một GPT-4 đa phương thức tùy chỉnh được đào tạo trên một bộ bản thảo cụ thể. Nó không chỉ có thể phiên âm mà còn có thể dịch và phân loại. (Theo tôi, việc viết mà không có LLM là một vấn đề lớn).

25
Bảng tóm tắt cũng rất tốt 6
Bạn cũng có thể ra lệnh cho GPT-4 trích xuất dữ liệu dựa trên biểu đồ.

Sau đó, bạn có thể tạo mã Python để sao chép biểu đồ và làm cho nó giống biểu đồ hơn.

Sau đó ném biểu đồ xu hướng chứng khoán vào đó, bạn cũng có thể phân tích và tóm tắt các đặc điểm.

04TAG PH148
Nhận dạng hình ảnh "Siêu IQ"
Tặng GPT-4 một bức tranh trừu tượng.
Nó thực sự có thể xác định chính xác ẩn dụ về "tầm quan trọng của giao tiếp" mà bốn bức tranh này muốn thể hiện. Điều này thật quá đáng.

GPT-4V thậm chí có thể đọc chữ viết tay của bác sĩ.

TAG PH166
Cũng có những cư dân mạng Nhật Bản đã trực tiếp sử dụng Tôn Ngộ Không trong "Dragon Ball" để làm bài kiểm tra ChatGPT.

Ngoài ra còn có nhiều mã xác minh khác nhau cho "bạn có phải là con người không?"

Tải lên một phần tác phẩm của riêng bạn và GPT-4 cũng có thể cung cấp cho bạn các đề xuất cải tiến.

Một số cư dân mạng phát hiện ra rằng GPT-4V đã đưa ra câu trả lời chính xác cho câu hỏi này trong bài báo kosmos-1, nhưng đã xảy ra lỗi trong quá trình suy luận.

Với chức năng này, trẻ không còn phải làm bài tập về nhà nữa.

05
TAGP H197Một số lượng lớn của cư dân mạng tóm tắt
Ngoài những trải nghiệm trên, một số cư dân mạng đã viết một bài báo dài giới thiệu thử nghiệm GPT-4V của riêng họ.

Bài kiểm tra 1:TAGPH 208Câu hỏi trực quan và Trả lời
Cho tôi một biểu tượng cảm xúc để xem GPT-4V hiểu nó đến mức nào?

GPT-4V giải thích thành công lý do tại sao nó thú vị và đề cập đến các thành phần khác nhau của hình ảnh cũng như cách chúng được kết nối với nhau.
Điều đáng chú ý là GPT-4V có thể hiểu và phản hồi các nhận xét trong ngoặc được cung cấp.
Tuy nhiên, GPT-4V đã mắc lỗi và gắn nhãn "NVIDIABURGER" thay vì "GPU".
Sau đó, kiểm tra nó bằng ảnh chụp một đồng xu, một xu Mỹ. GPT-4V có thể xác định thành công nguồn gốc và mệnh giá của đồng xu.

Nhưng nếu là hình nhiều đồng xu và hỏi GPT-4V thì tôi có bao nhiêu tiền?
Tại thời điểm này, nó chỉ có thể xác định số lượng xu chứ không thể xác định loại tiền tệ.

Kiểm tra 2: OCR Nhận dạng
và chặn hình ảnh văn bản trong trang web để tải lên. GPT-4V có thể đọc nội dung rất tốt.

Bài kiểm tra 3: Tìm hiểu số OCR
OCR toán học là một dạng nhận dạng ký tự quang học đặc biệt nhằm mục tiêu toán học phương trình.
Một cư dân mạng đã hỏi GPT-4V một bài toán và trình bày dưới dạng ảnh chụp màn hình của tài liệu.
Bài toán này liên quan đến việc tính độ dài của đường dây kéo cho 2 góc, với lời nhắc "giải nó" trên hình ảnh.

Mô hình xác định các vấn đề có thể giải được bằng phép đo lượng giác, xác định các hàm sẽ được sử dụng và cung cấp hướng dẫn từng bước về cách giải quyết vấn đề vấn đề. GPT-4V sau đó sẽ cung cấp câu trả lời chính xác cho câu hỏi.
Nói như vậy, thẻ hệ thống GPT-4V cho biết rằng mô hình có thể thiếu các ký hiệu toán học.
Các bài kiểm tra khác nhau, bao gồm các bài kiểm tra có phương trình hoặc biểu thức viết tay trên giấy, có thể cho thấy mô hình không đủ khả năng để trả lời các câu hỏi toán học.
Bài kiểm tra thứ tư: Phát hiện đối tượng
Hãy để GPT-4 V phát hiện con chó trong hình ảnh và cung cấp các giá trị x_min, y_min, x_max và y_max liên quan đến vị trí của con chó. Tọa độ hộp giới hạn được GPT-4V trả về không khớp với vị trí của con chó.

Mặc dù GPT-4V rất mạnh mẽ trong việc trả lời các câu hỏi về hình ảnh, nhưng nếu bạn muốn biết vị trí của một đối tượng trong ảnh, mô hình này không thể thay thế mô hình phát hiện đối tượng đã được tinh chỉnh.
Kiểm tra 5: Mã xác minh
Người ta nhận thấy rằng GPT-4V có thể nhận ra rằng hình ảnh chứa mã xác minh nhưng thường không vượt qua được bài kiểm tra.
Trong ví dụ về chọn lưới đèn giao thông, GPT-4V đã chọn ít lưới chứa đèn giao thông hơn.

Bài kiểm tra thứ sáu: Trò chơi ô chữ và Sudoku
Trong bài kiểm tra Sudoku, GPT-4V đã nhận dạng trò chơi nhưng đã hiểu sai cấu trúc của bảng và do đó trả về kết quả không chính xác.

Nhân tiện, chức năng kết nối mạng ChatGPT đã hoạt động trở lại.