Trên chiến trường của các mẫu lớn đa phương thức, một số người đã biết đến nó. Theo báo cáo phương tiện truyền thông nước ngoài, mô hình đa phương thức mới Gobi của OpenAI dường như đang được chuẩn bị. Cuộc đọ sức giữa Google và OpenAI dường như sắp xảy ra. Khi mùa thu này đến gần, cuộc chiến mô hình đa phương thức giữa Google và OpenAI cũng bước vào giai đoạn khốc liệt.
Chỉ mới tuần trước, Google đã mở rộng khả năng của mô hình lớn đa phương thức Gemini cho một số công ty bên ngoài.
Tất nhiên OpenAI sẽ không ngồi yên chờ chết. Họ đang chạy đua với thời gian để tích hợp các chức năng đa phương thức vào GPT-4, phấn đấu tung ra một mô hình đa phương thức lớn với các chức năng tương tự như Gemini và giết chết Google trong một cú hích.
Chức năng đa phương thức huyền thoại đã được trình diễn tại hội nghị GPT-4 của OpenAI gây chấn động thế giới vào tháng 3 năm nay -
Vẽ bản phác thảo trên giấy, chụp ảnh và gửi đến GPT-4 và nói "Tạo cho tôi một trang web theo bố cục này" và nó sẽ viết mã trang web ngay lập tức.
Sếp Greg Brockman đã đích thân trình diễn trực tuyến
Nhưng sau đó, đa phương thức dường như chỉ là một tia chớp trong thời gian ngắn và chưa ai từng thấy chức năng vật lý được sản xuất ra.
Vậy, liệu cuộc chiến đa phương thức giữa Google và OpenAI cuối cùng cũng sắp diễn ra?
Đấu tranh với Google, OpenAI gấp rút tung ra các mô hình đa phương thức cỡ lớn
Đối mặt với tin đồn Google sẽ tự mình tiêu diệt sát thủ lớn này, OpenAI chắc chắn sẽ không thờ ơ.
Theo phương tiện truyền thông nước ngoài The Information, một mẫu xe cỡ lớn đa phương thức mới có tên Gobi đang được chuẩn bị kỹ lưỡng.
Kế hoạch OpenAI ra mắt LLM đa phương thức trước khi Gemini được phát hành, đánh bại hoàn toàn Google.
Greg Brockman của OpenAI đấu với DemisHassabis của GoogleT AGPH80
Trên thực tế, sau khi tung ra bản xem trước tính năng đa phương thức GPT-4 vào tháng 3, OpenAI đã đưa tính năng này lên một tầm cao mới công ty có tên BeMyEyes, nhưng chưa cung cấp cho công ty khác.
Như bạn có thể biết từ cái tên, công ty này đang phát triển công nghệ cho phép người mù hoặc người có thị lực kém nhìn rõ hơn.
Gần đây, OpenAI có kế hoạch ra mắt một tính năng có tên GPT-Vision rộng rãi hơn.
Tại sao OpenAI lại mất nhiều thời gian như vậy?
Lý do chính là họ lo lắng rằng chức năng hình ảnh mới sẽ bị bọn tội phạm sử dụng, chẳng hạn như tự động bẻ khóa mã xác minh để mạo danh con người hoặc theo dõi con người thông qua nhận dạng khuôn mặt.
Tuy nhiên, các kỹ sư của OpenAI dường như đã giải quyết được những rủi ro bảo mật pháp lý này.
Tương tự, người phát ngôn của Google cũng cho biết: Google đã thực hiện một số biện pháp để ngăn chặn Song Tử bị lạm dụng.
Trong cam kết được đưa ra vào tháng 7, Google cam kết phát triển trí tuệ nhân tạo có trách nhiệm trong tất cả các sản phẩm của mình.
Gobi có thể trở thành GPT-5 không?
Sau GPT-Vision, OpenAI có thể sẽ ra mắt một mô hình lớn đa phương thức mạnh mẽ hơn, có tên mã là Gobi.
Không giống như GPT-4, Gobi ngay từ đầu đã được xây dựng trên mô hình đa phương thức.
Vậy Gobi có phải là GPT-5 huyền thoại không?
Hiện tại, chúng tôi chưa biết. Không có thông tin chắc chắn về việc Gobi đã đạt được bao xa trong quá trình huấn luyện.
Vào đầu tháng 9, Mustafa Suleyman, đồng sáng lập DeepMind và hiện là Giám đốc điều hành của InflectionAI, đã tung ra một tin chấn động trong một cuộc phỏng vấn - theo suy đoán của ông, OpenAI đang bí mật đào tạo GPT-5.
Suleyman tin rằng SamAltman có thể không nói sự thật khi gần đây anh ấy nói rằng họ không đào tạo GPT-5. (Từ gốc là: Comeon.Idon'tknow.Ithinkit'sbetterthatwe'realljuststraightaboutit.)
Ở đây, theo những người đã thử dùng Gemini, Gemini sẽ tạo ra ít ảo giác hơn những người mẫu hiện có. Những lý do được trình bày chi tiết dưới đây.
Tóm lại, cuộc chiến mô hình đa phương thức giữa Google và OpenAI này có thể nói là phiên bản AI của cuộc đọ sức giữa iPhone và Android.
Một người là gã khổng lồ ở Thung lũng Silicon đã thống trị lĩnh vực AI trong nhiều năm, còn người kia là công ty khởi nghiệp AI hàng đầu không có đối thủ dưới ánh đèn sân khấu. Khoảng cách giữa hai người lớn đến mức nào, mọi người đều nín thở chờ đợi.
Google bí mật kiểm tra Gemini
Mặt khác, Google cũng đã bắt đầu mời một số nhà phát triển bên ngoài đẩy nhanh quá trình thử nghiệm mô hình lớn đa phương thức thế hệ tiếp theo Gemini sắp ra mắt.
Tuần trước, The Information đưa tin độc quyền rằng Gemini có thể sẽ sớm sẵn sàng phát hành thử nghiệm và sẽ được tích hợp vào các dịch vụ như Google Cloud Vertex AI.
Tại Hội nghị nhà phát triển Google I/O năm nay, Pichai đã công khai giới thiệu Gemini, một mô hình đa phương thức, công cụ tích hợp hiệu quả và API.
Để cùng nhau làm nên những điều lớn lao, Google cũng đã sáp nhập Google Brain với DeepMind Labs.
Người ta nói rằng ít nhất hơn 20 giám đốc điều hành đã tham gia vào quá trình nghiên cứu và phát triển của Gemini, dẫn đầu bởi Demis Hassabis, người sáng lập DeepMind và Sergey Brin, người sáng lập Google, đã tham gia nghiên cứu và phát triển.
Ngoài ra còn có hàng trăm nhân viên tại Google DeepMind, bao gồm cả cựu giám đốc Google Brain Jeff Dean và những người khác.
Một người đã thử nghiệm nó cho biết Gemini có lợi thế hơn GPT-4 ở ít nhất một điểm: ngoài thông tin công khai trên web, mô hình này còn tận dụng một lượng lớn dữ liệu độc quyền từ các sản phẩm tiêu dùng của Google (tìm kiếm, Youtube).
Do đó, Song Tử phải đặc biệt chính xác trong việc hiểu ý định của người dùng đối với một truy vấn cụ thể và điều đó dường như tạo ra ít câu trả lời sai hơn, tức là ảo giác.
Theo báo cáo trước đây từ các nhà phân tích của SemiAnalysis, mô hình lớn Gemini thế hệ tiếp theo của Google đã bắt đầu đào tạo trên TPUv5Pod mới, với sức mạnh tính toán lên tới ~1e26FLOPS, lớn hơn 5 lần so với sức mạnh tính toán khi đào tạo GPT-4.
Ngoài ra, cơ sở dữ liệu đào tạo của Gemini chứa 93,6 tỷ phút phụ đề video trên Youtube và tổng kích thước tập dữ liệu gần gấp đôi so với GPT-4.
Người ta nói rằng mô hình lớn thế hệ tiếp theo của Google cũng bao gồm nhiều tỷ lệ và có thể sử dụng kiến trúc MoE và công nghệ lấy mẫu suy đoán.
Mã thông báo được tạo trước thông qua mô hình nhỏ và chuyển đến mô hình lớn để đánh giá nhằm cải thiện tốc độ suy luận tổng thể của mô hình.
Hassabis, người đứng đầu Google DeepMind, cho biết trong một cuộc phỏng vấn rằng Gemini dự kiến sẽ có giá từ hàng chục đến hàng trăm triệu đô la, tương đương với chi phí phát triển GPT-4.
Gemini sẽ tích hợp công nghệ được sử dụng trong AlphaGo, mang đến cho hệ thống khả năng lập kế hoạch và giải quyết vấn đề mới.
Có thể nói, Gemini kết hợp một số ưu điểm của hệ thống AlphaGo với khả năng ngôn ngữ tuyệt vời của các mô hình ngôn ngữ lớn. Và chúng tôi có một số đổi mới thú vị khác.
Công nghệ đằng sau AlphaGo là học tăng cường, một công nghệ do DeepMind tiên phong.
RL tác nhân tương tác với môi trường theo thời gian, học các chiến lược thông qua thử và sai để tối đa hóa sự tích lũy lâu dài Phần thưởng
Thông qua học tăng cường, AI có thể điều chỉnh hiệu suất của mình thông qua các thử nghiệm lặp đi lặp lại và nhận được phản hồi, do đó học cách đối phó với những vấn đề rất khó khăn các vấn đề, chẳng hạn như chọn cách thực hiện bước tiếp theo trong cờ vây hoặc trò chơi điện tử.
Ngoài ra, AlphaGo còn sử dụng phương pháp Monte Carlo Tree Search (MCTS) để khám phá và ghi nhớ tất cả các nước đi có thể có trên bàn cờ.
So với các mô hình hiện có, Gemini sẽ cải thiện đáng kể khả năng tạo mã của các nhà phát triển phần mềm và Google hy vọng sẽ sử dụng nó để bắt kịp trợ lý mã GitHub Copilot của Microsoft.
Google cũng đã thảo luận về việc sử dụng Gemini để triển khai các chức năng như phân tích biểu đồ, chẳng hạn như yêu cầu mô hình diễn giải ý nghĩa của các biểu đồ đã hoàn thành và sử dụng lệnh văn bản hoặc giọng nói để duyệt trình duyệt web hoặc phần mềm khác.
Nền tảng nhà phát triển Google Cloud Google Cloud Vertex AI cũng sẽ được Gemini hỗ trợ, với cả phiên bản lớn và nhỏ, vì vậy các nhà phát triển có thể trả tiền để mua các mô hình nhỏ để chạy trên thiết bị cá nhân.
Bây giờ, Google đang chuẩn bị đầy đủ cho cuộc chiến, chờ đợi Gemini bắt đầu phản công.
gpt-3.5-turbo-instruct được phát hành
Vào tháng 7, OpenAI đã thông báo rằng API GPT-4 đã có sẵn đầy đủ và sẽ ra mắt các mẫu mới trong vài tháng tới.
Không, chỉ hôm nay, cư dân mạng đã nhận được email phát hành mẫu gpt-3.5-turbo-instruct mới để thay thế mẫu cũ text-davinci-003.
Theo báo cáo, gpt-3.5-turbo-instruct là mô hình kiểu InstructGPT và phương pháp đào tạo của nó tương tự như text-davinci-003.
Phương pháp sử dụng tương tự như Hoàn thành lời nhắc trước đó và được hoàn thành theo hướng dẫn của từ nhắc nhở.
Về mặt giá cả, gpt-3.5-turbo4K vẫn ổn định.
Một số cư dân mạng đã bắt đầu sử dụng mẫu mới nhất để chơi cờ với khoảng 1800 Elo.
Trước đây anh ấy phát hiện ra rằng GPT hoàn toàn không thể làm được điều này, nhưng bây giờ có vẻ như đây chỉ là vấn đề với mô hình trò chuyện RLHF và mô hình Hoàn thành thuần túy đã thành công.
Trong trò chơi, gpt-3.5-turbo-instruct dễ dàng đánh bại Stockfish cấp 4 (1700 điểm) và vẫn không bị tụt lại phía sau ở trò chơi cấp 5 (2000 điểm).
Nó không bao giờ thực hiện một nước đi bất hợp pháp, sử dụng những hy sinh khai cuộc thông minh, và những quân tốt và vua đáng kinh ngạc, cho phép đối thủ tiến lên mà không có bất kỳ ý nghĩa thực sự nào.
Cư dân mạng sử dụng lời nhắc kiểu PGN sau đây để mô phỏng trò chơi chính. Việc đánh dấu có chút sai sót. GPT thực hiện các bước đi của riêng mình và anh ấy nhập các bước đi của Stockfish theo cách thủ công.
Nhân tiện, việc đăng ký tham gia hội nghị nhà phát triển OpenAI đầu tiên được tổ chức vào tháng 11 đã bắt đầu, vì vậy hãy nhanh tay đăng ký.