Vào ngày 19 tháng 3, Xiaomi đã công bố ra mắt ba mẫu máy lớn tự phát triển là Xiaomi MiMo-V2-Pro, Xiaomi MiMo-V2-Omni và Xiaomi MiMo-V2-TTS. Được biết, MiMo-V2-Pro và MiMo-V2-Omni đã chính thức mở dịch vụ API.

Theo giới thiệu chính thức của Xiaomi, trong số ba mẫu, MiMo-V2-Pro là cơ sở văn bản hàng đầu, được thiết kế cho các tình huống làm việc của Đặc vụ cường độ cao, tập trung vào lý luận, lập kế hoạch và gọi công cụ. MiMo-V2-Omni là cơ sở Tác nhân đầy đủ phương thức tích hợp nguyên bản nhận thức văn bản, hình ảnh và âm thanh để mở ra một liên kết hoàn chỉnh từ hiểu đến thực thi. MiMo-V2-TTS là mô hình tổng hợp giọng nói lớn. Mục tiêu của nó là mang lại cho Đại lý khả năng thể hiện giọng nói ấm áp và đầy cảm xúc, tạo thành mối liên kết cuối cùng của toàn bộ nhóm.

MiMo-V2-Pro, với tư cách là mẫu cơ sở hàng đầu, được tối ưu hóa đặc biệt cho các tình huống đại lý. Nó thực hiện việc tinh chỉnh và học tăng cường có giám sát cho các kiến ​​trúc tác nhân phức tạp và đa dạng, có khả năng gọi công cụ mạnh hơn và khả năng lý luận nhiều bước và cuối cùng mang lại kết quả. Từ quan điểm kiến ​​trúc, tổng kích thước tham số của mô hình vượt quá 1 nghìn tỷ (1T), trong đó tham số kích hoạt là 42B. Nó áp dụng cơ chế chú ý kết hợp cải tiến (Hybrid Chú ý), giúp cải thiện đáng kể năng lực của mô hình trong khi vẫn đảm bảo hiệu quả lý luận. Cửa sổ ngữ cảnh của nó được mở rộng hơn nữa lên 1 triệu Token, có thể hỗ trợ các chuỗi nhiệm vụ cực dài và quy trình làm việc phức tạp.

MiMo-V2-Omni và MiMo-V2-TTS, được ra mắt đồng thời, đã hoàn thành hai mảnh ghép về nhận thức và biểu hiện. Giá trị cốt lõi của cái trước nằm ở sự liên kết giữa âm thanh, hình ảnh và video. Cái sau hỗ trợ một công cụ biểu hiện cảm xúc với khả năng kiểm soát chi tiết, giúp khả năng biểu hiện của Đại lý gần gũi hơn với con người.

Về mặt giá cả, giá API của MiMo-V2-Pro thấp hơn so với các sản phẩm cạnh tranh cùng cấp. Trong bối cảnh 256K, giá đầu vào trên một triệu mã thông báo là 1 đô la Mỹ và đầu ra là 3 đô la Mỹ; trong phạm vi ngữ cảnh là 1 triệu, đầu vào là 2 đô la Mỹ và đầu ra là 6 đô la Mỹ. Hiện tại MiMo-V2-Pro đã chính thức mở dịch vụ API. MiMo-V2-Omni cũng đã mở API và hỗ trợ độ dài ngữ cảnh 256K. Giá đầu vào là 0,4 USD trên một triệu token và giá đầu ra là 2 USD.


MiMo-V2-Pro và tiêu chuẩn tính phí dịch vụ API của Claude

Ngoài ra, Xiaomi còn cùng tham gia Năm nhóm Agent framework của OpenClaw, OpenCode, KiloCode, Blackbox và Cline cung cấp hỗ trợ giao diện miễn phí trong thời gian giới hạn một tuần để thúc đẩy hơn nữa sự thâm nhập của nó trong cộng đồng nhà phát triển.

Đây cũng được coi là tín hiệu quan trọng cho thấy Xiaomi đang đặt cược toàn lực vào kỷ nguyên đại lý. Sáng sớm hôm đó, người sáng lập Xiaomi Lei Jun đã đăng trên mạng xã hội: “Trong lĩnh vực AI, hoạt động R&D và đầu tư vốn của chúng tôi trong năm nay sẽ vượt quá 16 tỷ nhân dân tệ”. MiMo-V2-Pro đứng thứ tám trên thế giới về Phân tích nhân tạo, bảng xếp hạng trí tuệ toàn diện toàn cầu dành cho các mô hình lớn. Được xếp hạng theo thương hiệu mô hình lớn, nó đứng thứ năm trên thế giới. “Mô hình của chúng tôi vừa được hoàn thành và sẽ nhanh chóng được lặp lại và nâng cao trong tương lai.”

Điều đáng nói là người quản lý mẫu lớn MiMo của Xiaomi, Luo Fuli cũng công khai tuyên bố trên nền tảng xã hội rằng “Hunter Alpha” ra mắt trước đó là phiên bản thử nghiệm nội bộ của mẫu hàng đầu MiMo-V2-Pro. Luo Fuli, sinh năm 1995, được giới trong ngành gọi là "người phụ nữ tài năng AI".

Vào ngày 11 tháng 3, mô hình bí ẩn có tên mã “Hunter Alpha” đã được ra mắt trên OpenRouter, nền tảng tổng hợp API lớn nhất thế giới. Được biết, chỉ trong 7 ngày, số lượng cuộc gọi tích lũy đến mô hình này đã vượt quá 1 nghìn tỷ Token và đứng đầu danh sách trong nhiều ngày liên tiếp, gây ra những cuộc tranh luận sôi nổi và từng bị nhầm lẫn với phiên bản đầu tiên của "DeepSeek V4". .

Thật trùng hợp, Luo Fuli từng làm việc tại DeepSeek. Cô bắt đầu sự nghiệp của mình tại Học viện Alibaba Damo, nơi cô lãnh đạo việc phát triển mô hình đào tạo trước đa ngôn ngữ VECO và quảng bá công việc nguồn mở của AliceMind. Năm 2022, Luo Fuli gia nhập công ty mẹ của DeepSeek Huanquan Quantitative để tham gia vào công việc liên quan đến deep learning. Sau đó, cô làm nhà nghiên cứu về deep learning tại DeepSeek và tham gia phát triển DeepSeek-V2 cũng như các mô hình khác.

Vào tháng 12 năm ngoái, Luo Fuli lần đầu tiên xuất hiện trước công chúng tại hội nghị đối tác “Hệ sinh thái con người, ô tô và ngôi nhà” của Xiaomi.

Vào ngày 17 tháng 12, đối tác và chủ tịch tập đoàn Xiaomi Lu Weibing đã thông báo rằng mẫu AI lớn Xiaomi MiMo-V2-Flash do Xiaomi tự phát triển đã chính thức là mã nguồn mở và ra mắt. Lu Weibing tiết lộ vào thời điểm đó rằng Xiaomi đã đưa ra "đầu tư áp lực" vào lĩnh vực AI, và tiến độ của các mô hình và ứng dụng lớn "vượt xa sự mong đợi". Trong tương lai, nó sẽ tập trung vào hướng cốt lõi là “sự tích hợp sâu sắc giữa AI và thế giới vật chất”.