Các nhà nghiên cứu tại MIT và Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson đã công bố EfficiencyViT, một mô hình thị giác máy tính giúp tăng tốc phân đoạn ngữ nghĩa theo thời gian thực của hình ảnh có độ phân giải cao và được tối ưu hóa cho các thiết bị có phần cứng hạn chế, chẳng hạn như ô tô tự lái.

Ô tô tự lái phải xác định nhanh chóng và chính xác các vật thể mà chúng gặp phải, từ một chiếc xe tải giao hàng đang chạy không tải đậu ở góc phố cho đến một người đi xe đạp đang lao vút về phía giao lộ.

Mô hình học máy dành cho thị giác máy tính có độ phân giải cao cho phép các ứng dụng thị giác có tính toán chuyên sâu như lái xe tự động hoặc phân đoạn hình ảnh y tế trên các thiết bị biên. Bức ảnh thể hiện sự giải thích của một nghệ sĩ về công nghệ lái xe tự động. Nguồn hình ảnh: MIT News

Để làm được điều này, ô tô tự lái có thể sử dụng các mô hình thị giác máy tính mạnh mẽ để phân loại từng pixel trong hình ảnh có độ phân giải cao của một cảnh để các vật thể có thể bị che khuất trong hình ảnh chất lượng thấp hơn không bị bỏ qua. Tuy nhiên, nhiệm vụ này, được gọi là phân đoạn ngữ nghĩa, rất phức tạp và đòi hỏi nhiều phép tính ở độ phân giải hình ảnh cao.

Các nhà nghiên cứu từ MIT, Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson và các tổ chức khác đã phát triển một mô hình thị giác máy tính hiệu quả hơn giúp giảm đáng kể độ phức tạp tính toán của nhiệm vụ này. Mô hình của họ có thể thực hiện phân đoạn ngữ nghĩa một cách chính xác theo thời gian thực trên các thiết bị có tài nguyên phần cứng hạn chế, chẳng hạn như máy tính tích hợp cho phép ô tô tự lái đưa ra quyết định trong tích tắc.

Xử lý thời gian thực được tối ưu hóa