Công ty trí tuệ nhân tạo cấp doanh nghiệp Cohere đã phát hành mô hình ghi âm lời nói đầu tiên vào thứ Năm. Đây là mô hình nhận dạng giọng nói tự động (ASR) nguồn mở, chủ yếu để ghi giọng nói thành văn bản, phân tích nội dung giọng nói và các tình huống khác. Kích thước tham số mô hình xấp xỉ 2 tỷ và được định vị là giải pháp "nhẹ", dễ chạy trên GPU cấp độ người tiêu dùng và phù hợp để triển khai bởi các doanh nghiệp và nhà phát triển có yêu cầu tự lưu trữ.

Phiên âm hiện hỗ trợ 14 ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, tiếng Hà Lan, tiếng Ba Lan, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Việt và tiếng Ả Rập. Cohere cho biết trong danh sách Open ASR của Hugging Face, Transcribe đạt tỷ lệ lỗi từ trung bình (WER) là 5,42, vượt trội so với các mô hình như Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B Speech trong điểm chuẩn này.
Về mặt đánh giá thủ công, Cohere cho biết khi người đánh giá so sánh kết quả phiên âm từ các khía cạnh như độ chính xác, tính nhất quán và khả năng sử dụng, Transcribe có tỷ lệ chiến thắng trung bình là 61% so với các mô hình khác. Tuy nhiên, hãng cũng thừa nhận hiệu năng của mẫu máy này vẫn kém hơn một chút so với một số sản phẩm cạnh tranh ở các ngôn ngữ như tiếng Bồ Đào Nha, tiếng Đức và tiếng Tây Ban Nha.
Về hiệu suất, dữ liệu do Cohere đưa ra là Transcribe có thể xử lý khoảng 525 phút âm thanh mỗi phút, đây là mức cao so với các mẫu máy tương tự. Cohere có kế hoạch tích hợp mô hình giọng nói này vào North, nền tảng điều phối đại lý dành cho doanh nghiệp và làm cho nó có thể truy cập miễn phí thông qua API của công ty. Đồng thời, Transcribe cũng sẽ được liệt kê trên nền tảng suy luận được lưu trữ Model Vault của Cohere, cho phép khách hàng gọi trực tiếp.
Với nhu cầu ngày càng tăng về các ứng dụng ghi chú bằng giọng nói và dựa trên chính tả như Granola và Wispr Flow, mô hình nhận dạng giọng nói tổng thể đang nóng lên nhanh chóng. Trong bối cảnh này, Cohere cố gắng thâm nhập thị trường thông qua nguồn mở, hỗ trợ nhẹ và đa ngôn ngữ, cung cấp cơ sở hạ tầng thoại thân thiện và tự lưu trữ cho các doanh nghiệp muốn kiểm soát dữ liệu và môi trường triển khai của họ.
Đầu năm nay, có thông tin cho rằng Cohere sẽ tạo ra khoảng 240 triệu USD doanh thu định kỳ hàng năm (ARR) vào năm 2025 và Giám đốc điều hành công ty Aidan Gomez được trích dẫn cho biết công ty khởi nghiệp này "có thể sẽ sớm ra mắt công chúng".