ChatGPT mở mang tầm mắt thực sự là mở mang tầm mắt

Hãy cho bản thân một kỳ nghỉ. ChatGPT cập nhật nhanh đến mức trí tưởng tượng của cư dân mạng không thể theo kịp. Vào thứ Hai, ChatGPT đã công bố một bản cập nhật lớn với đầy đủ khả năng đa phương thức. Trong tương lai, nếu bạn cảm thấy có vấn đề gì đó xảy ra với chiếc xe đạp trên đường đi làm về bằng xe đạp chung, bạn có thể chụp ảnh bộ phận đó và hỏi trực tiếp.

Sau đó, bạn về nhà và xem những thứ trong tủ lạnh mà bạn không biết và ChatGPT có thể cho bạn biết nên chọn món nào cho bữa tối.

Sau khi ăn và đi ngủ, nếu bạn vẫn chưa buồn ngủ, nó cũng có thể cung cấp cho bạn một số dịch vụ ASMR, nếu bạn chán nghe những blogger đó trên Bilibili hoặc YouTube.

Vào tháng 9 năm 1985, Calvino, người viết "Những thành phố vô hình", qua đời vì một cơn đột quỵ. Mùa hè năm nay, anh phải nhờ bác sĩ giúp đỡ vì bị đau đầu. Bác sĩ phẫu thuật cho biết ông chưa bao giờ nhìn thấy một bộ não phức tạp và tinh tế như vậy.

ChatGPT khởi đầu là một bộ não vô cùng xinh đẹp—và vô hình—nhưng giờ đây cuối cùng nó cũng có mắt, tai và miệng.

Cư dân mạng trên toàn thế giới: Nào, hãy thực hiện cử chỉ.

Nguồn: Twitter

Một số người đã dùng thử và về cơ bản nó có thể phát triển các dự án phần mềm cho những người khác.

Sự ra đời của một dự án phần mềm đại khái như thế này: đầu tiên vẽ một khung dây trên bảng trắng, sắp xếp logic sắp xếp, sau đó bắt đầu viết mã và cuối cùng tạo ra giao diện. Bây giờ trong vấn đề này, công việc trên bảng trắng thuộc về bạn và việc để lại bảng trắng thuộc về nó.

Một nhà phát triển đã chụp ảnh wireframe của anh ấy và ném nó cho ChatGPT, và ChatGPT đã trực tiếp viết phần mềm.

Anh ấy cũng chơi một số thủ thuật nhỏ, chẳng hạn như thay thế các vị trí sắp xếp bằng các mũi tên không đều. ChatGPT không chỉ nhìn thấy mà còn chấp nhận.

Có lẽ chúng ta vẫn đánh giá thấp những gì mà đa phương thức sẽ mang lại.

Ở đây sự phát triển của trí tuệ nhân tạo và trí tuệ con người trái ngược nhau. Con người đầu tiên có mắt, sau khi nhìn thế giới, họ hình thành ngôn ngữ và logic, từ đó có thể mô tả và hiểu rõ hơn về thế giới mà họ nhìn thấy. Sự cải thiện trí thông minh của con người trong 6 triệu năm qua đã trở thành một lò máy học khổng lồ.

Về phần ChatGPT, anh ấy đã có trình độ thông minh tốt nhất và có thể hiểu được nhiều thứ. Điều hạn chế của nó là việc nén thông tin bằng văn bản, khiến nó không thể tiếp cận các vấn đề phức tạp hơn. Điều gì sẽ xảy ra khi bạn cho một bộ não như vậy một đôi mắt. Tức là được phép xem trực tiếp thông tin hình ảnh, khả năng tháo gỡ vấn đề bắt đầu bùng nổ.

Ai đó đã cung cấp cho ChatGPT một sơ đồ giao diện của phần mềm SaaS và yêu cầu nó chia nó thành các thành phần nhỏ và viết ra tất cả mã, và nó đã làm như vậy.

Bạn thậm chí có thể cung cấp cho nó một ảnh chụp màn hình thô về giao diện chỉnh sửa của Unity và yêu cầu nó cung cấp quy trình thêm các hành động mô hình.

Nguồn: Twitter

Sau khi mở ra khả năng đa phương thức, khả năng hiểu và suy luận của ChatGPT đã trở nên trực quan hơn, thậm chí có phần đáng sợ.

Hãy dành cho mình một phút để xem bạn có hiểu được ý nghĩa của bộ ảnh này không nhé:

TAGP H93

Nguồn: Twitter

Đây là cách giải thích của ChatGPT ：

Nguồn: Twitter

"Bộ truyện tranh này dường như nhấn mạnh tầm quan trọng của giao tiếp, sự hiểu biết và sự liên kết trong nhóm." ChatGPT đã kết thúc vào cuối.

Khả năng hiểu biết như vậy khiến Pietro Schirano, một kỹ sư AI từng làm việc tại Facebook và Uber không nói nên lời.

Ngoài mắt còn có tai và miệng.

Đằng sau bản nâng cấp ChatGPT này, khả năng nhận dạng giọng nói dựa trên mô hình Whisper nguồn mở và khả năng tạo âm thanh dựa trên mô hình TTS (chuyển văn bản thành giọng nói) bổ sung. Hiện tại, tổng hợp giọng nói hỗ trợ năm giọng nói, tất cả đều được sản xuất với sự hợp tác của các diễn viên lồng tiếng chuyên nghiệp.

Nhưng nhìn thấy ChatGPT trên hai chiếc điện thoại di động đang bàn luận trước mặt bạn về việc "Có người dùng nào thử hát karaoke với bạn chưa?" - nó không hỏi bạn, nó hỏi người khác - có vẻ hơi đi trước thời đại một chút.

Ngoài ra, nó dường như có tiềm năng trở thành bác sĩ tâm thần. Lilian Weng, thành viên nhóm bảo mật OpenAI, đã có cuộc trò chuyện riêng rất xúc động với ChatGPT ở chế độ giọng nói, nói về sự căng thẳng và sự cân bằng giữa công việc và cuộc sống.

"Điều buồn cười là tôi cảm thấy được lắng nghe và ấm áp", Lilian Weng nói trên Twitter. Cô ấy gợi ý rằng nếu bạn chỉ sử dụng nó như một công cụ năng suất thì tốt hơn nên thử khía cạnh tinh tế hơn của nó.

Nguồn: Twitter

Đối với sự phát triển của chính ChatGPT, việc mở ra các khả năng đa phương thức đã được đào tạo vào năm 2022 cũng đang thiết lập nền tảng mới cho sự phát triển trong tương lai.

Kiến trúc sư trưởng của ChatGPT John Schulman cho biết trong một podcast cách đây một tháng bởi Pieter Abbeel (cố vấn của John Schulman khi anh ấy đang tập trung vào học tập tăng cường trong thời gian làm Tiến sĩ tại Đại học California, Berkeley) rằng ông cảm thấy rằng những cải tiến hiệu suất do dữ liệu hiện có và các phương pháp mở rộng quy mô mô hình mang lại có thể đạt đến giới hạn sau một khoảng thời gian. Sau đó, những cải tiến do thuật toán, tập dữ liệu, kích thước tập dữ liệu và sức mạnh tính toán mang lại sẽ giảm dần.

"Vì vậy, việc bổ sung các khả năng đa phương thức sẽ mang lại những cải tiến hiệu suất rất lớn. Điều này cho phép mô hình thu được kiến thức không thể có được từ văn bản và có khả năng làm chủ các nhiệm vụ mà mô hình ngôn ngữ thuần túy không thể. Ví dụ: mô hình có thể đạt được lợi ích to lớn bằng cách xem video tương tác với thế giới vật lý hoặc thậm chí với màn hình máy tính. Tất cả phần mềm được thiết kế cho con người, nếu mô hình có thể xem pixel và hiểu video, chúng tôi có thể sử dụng nhiều phần mềm hiện có hoặc giúp mọi người sử dụng các phần mềm này. Mang lại cho mô hình những khả năng mới và cho phép mô hình tương tác với những thứ mới sẽ nâng cao đáng kể khả năng thực tế của mô hình ”

Vậy ChatGPT có thể làm gì vào tháng tới? Mong chờ nó rất nhiều.