Công nghệ

Mô hình AI của MIT tăng tốc thị giác máy tính có độ phân giải cao cho ô tô tự lái

2023-09-12 16:20:07 Tác giả: AI Editor

Các nhà nghiên cứu tại MIT và Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson đã công bố EfficiencyViT, một mô hình thị giác máy tính giúp tăng tốc phân đoạn ngữ nghĩa theo thời gian thực của hình ảnh có độ phân giải cao và được tối ưu hóa cho các thiết bị có phần cứng hạn chế, chẳng hạn như ô tô tự lái.

Ô tô tự lái phải xác định nhanh chóng và chính xác các vật thể mà chúng gặp phải, từ một chiếc xe tải giao hàng đang chạy không tải đậu ở góc phố cho đến một người đi xe đạp đang lao vút về phía giao lộ.

Mô hình học máy dành cho thị giác máy tính có độ phân giải cao cho phép các ứng dụng thị giác có tính toán chuyên sâu như lái xe tự động hoặc phân đoạn hình ảnh y tế trên các thiết bị biên. Bức ảnh thể hiện sự giải thích của một nghệ sĩ về công nghệ lái xe tự động. Nguồn hình ảnh: MIT News

Để làm được điều này, ô tô tự lái có thể sử dụng các mô hình thị giác máy tính mạnh mẽ để phân loại từng pixel trong hình ảnh có độ phân giải cao của một cảnh để các vật thể có thể bị che khuất trong hình ảnh chất lượng thấp hơn không bị bỏ qua. Tuy nhiên, nhiệm vụ này, được gọi là phân đoạn ngữ nghĩa, rất phức tạp và đòi hỏi nhiều phép tính ở độ phân giải hình ảnh cao.

Các nhà nghiên cứu từ MIT, Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson và các tổ chức khác đã phát triển một mô hình thị giác máy tính hiệu quả hơn giúp giảm đáng kể độ phức tạp tính toán của nhiệm vụ này. Mô hình của họ có thể thực hiện phân đoạn ngữ nghĩa một cách chính xác theo thời gian thực trên các thiết bị có tài nguyên phần cứng hạn chế, chẳng hạn như máy tính tích hợp cho phép ô tô tự lái đưa ra quyết định trong tích tắc.

Xử lý thời gian thực được tối ưu hóa

Các mô hình phân đoạn ngữ nghĩa tiên tiến gần đây trực tiếp tìm hiểu sự tương tác giữa mỗi cặp pixel trong một hình ảnh, do đó độ phức tạp tính toán của chúng tăng gấp bốn lần khi độ phân giải hình ảnh tăng. Do đó, những mô hình này tuy chính xác nhưng lại quá chậm để xử lý hình ảnh có độ phân giải cao trong thời gian thực trên các cảm biến hoặc thiết bị biên như điện thoại di động.

Các nhà nghiên cứu của MIT đã thiết kế một khối xây dựng mới cho các mô hình phân đoạn ngữ nghĩa có khả năng tương tự như các mô hình hiện đại này nhưng chỉ có độ phức tạp tính toán tuyến tính và hoạt động với hiệu quả phần cứng.

Kết quả là một dòng mô hình mới dành cho thị giác máy tính có độ phân giải cao, hoạt động nhanh hơn tới 9 lần so với các mô hình trước đây khi được triển khai trên thiết bị di động. Điều quan trọng là dòng mô hình mới này cho thấy độ chính xác bằng hoặc cao hơn các mô hình thay thế này.

EfficientViT cho phép ô tô tự lái thực hiện phân đoạn ngữ nghĩa một cách hiệu quả, một tác vụ thị giác máy tính có độ phân giải cao bao gồm việc phân loại từng pixel trong một cảnh để ô tô có thể nhận dạng chính xác các đối tượng. Trong ảnh là ảnh từ video demo hiển thị các màu khác nhau được sử dụng để phân loại đối tượng. Hình ảnh do các nhà nghiên cứu cung cấp

Giải pháp xem cận cảnh

Công nghệ này sẽ không chỉ giúp xe tự hành đưa ra quyết định theo thời gian thực mà còn cải thiện hiệu quả của các tác vụ thị giác máy tính có độ phân giải cao khác, chẳng hạn như phân đoạn hình ảnh y tế.

"Mặc dù các nhà nghiên cứu đã sử dụng máy biến áp hình ảnh truyền thống trong một thời gian dài và đã đạt được kết quả đáng kinh ngạc, nhưng chúng tôi hy vọng rằng mọi người cũng sẽ tập trung vào khía cạnh hiệu quả của các mô hình này. Công trình của chúng tôi cho thấy có thể giảm đáng kể nỗ lực tính toán. Điều này cho phép phân đoạn hình ảnh theo thời gian thực cục bộ trên thiết bị", Han Song, phó giáo sư tại Khoa Kỹ thuật Điện và Khoa học Máy tính (EECS), thành viên Phòng thí nghiệm AI của MIT-IBM Watson, cho biết. và là tác giả cấp cao của bài báo mô tả mô hình mới.

Cùng viết bài báo với anh ấy là Cai Han, một sinh viên tốt nghiệp Khoa Kỹ thuật Điện và Khoa học Máy tính, tác giả đầu tiên của bài báo, Li Junyan, một sinh viên đại học tại Đại học Chiết Giang, Hu Muyan, một sinh viên đại học tại Đại học Thanh Hoa, và Gan Chuang, một nhà nghiên cứu chính tại Phòng thí nghiệm Trí tuệ Nhân tạo MIT-IBM Watson. Nghiên cứu này sẽ được trình bày tại Hội nghị quốc tế về Thị giác máy tính.

Giải pháp đơn giản hóa

Phân loại từng pixel trong hình ảnh có độ phân giải cao có thể có hàng triệu pixel là một nhiệm vụ khó khăn đối với các mô hình học máy. Gần đây, một mô hình mới mạnh mẽ mang tên Visual Converter đã được áp dụng một cách hiệu quả. Máy biến áp

ban đầu được phát triển để xử lý ngôn ngữ tự nhiên. Trong trường hợp này, họ mã hóa từng từ trong câu dưới dạng một mã thông báo, sau đó tạo ra một bản đồ chú ý để nắm bắt mối quan hệ giữa từng mã thông báo và tất cả các mã thông báo khác. Bản đồ chú ý này giúp hiểu bối cảnh khi mô hình đưa ra dự đoán.

Sử dụng cùng một khái niệm, bộ biến đổi hình ảnh sẽ chia hình ảnh thành các mảng pixel và mã hóa từng mảng thành một nhãn, sau đó tạo bản đồ chú ý. Khi tạo bản đồ chú ý này, mô hình sẽ trực tiếp tìm hiểu sự tương tác giữa từng cặp pixel bằng chức năng tương tự. Bằng cách này, mô hình hình thành cái được gọi là trường tiếp nhận toàn cục, có nghĩa là nó có quyền truy cập vào tất cả các phần có liên quan của hình ảnh.

Vì hình ảnh có độ phân giải cao có thể chứa hàng triệu pixel và được chia thành hàng nghìn phân đoạn nên biểu đồ chú ý có thể nhanh chóng trở nên rất lớn. Vì vậy, khi độ phân giải của hình ảnh tăng lên thì số lượng tính toán tăng lên gấp bốn lần.

Trong dòng mô hình mới có tên là EfficiencyViT, các nhà nghiên cứu của MIT đã áp dụng một cơ chế đơn giản hơn để xây dựng bản đồ chú ý—thay thế các hàm tương tự phi tuyến tính bằng các hàm tương tự tuyến tính. Do đó, họ có thể sắp xếp lại thứ tự các thao tác và giảm tổng công sức tính toán mà không làm thay đổi chức năng và làm mất trường tiếp nhận toàn cục. Trong mô hình của họ, nỗ lực tính toán cần thiết để dự đoán tăng tuyến tính với độ phân giải hình ảnh.

"Nhưng không có bữa trưa miễn phí. Sự chú ý tuyến tính chỉ có thể chụp được nền chung của hình ảnh và sẽ làm mất thông tin cục bộ, do đó làm cho độ chính xác kém hơn", Han nói. Để bù đắp cho sự mất mát về độ chính xác, các nhà nghiên cứu đã thêm hai yếu tố bổ sung vào mô hình, mỗi yếu tố chỉ thêm một lượng nhỏ tính toán.

Một trong các thành phần có thể giúp mô hình nắm bắt được sự tương tác của các tính năng cục bộ và giảm bớt điểm yếu của các hàm tuyến tính trong việc trích xuất thông tin cục bộ. Thành phần thứ hai là mô-đun thực hiện học tập đa quy mô, giúp mô hình nhận biết các vật thể lớn và nhỏ.

Cai Han cho biết: "Phần quan trọng nhất ở đây là chúng ta cần cân bằng cẩn thận giữa hiệu suất và hiệu quả." Họ đã thiết kế EfficiencyViT với kiến trúc thân thiện với phần cứng, giúp chạy dễ dàng hơn trên các loại thiết bị khác nhau, chẳng hạn như tai nghe VR hoặc máy tính biên dành cho ô tô tự lái. Mô hình của họ cũng có thể được áp dụng cho các tác vụ thị giác máy tính khác như phân loại hình ảnh.

Đơn giản hóa việc phân đoạn theo ngữ nghĩa

Khi chúng được sử dụng trong phân đoạn theo ngữ nghĩa Khi kiểm tra mô hình của mình trên tập dữ liệu, họ nhận thấy rằng mô hình này chạy trên bộ xử lý đồ họa (GPU) NVIDIA nhanh hơn 9 lần so với các mẫu biến áp hình ảnh phổ biến khác, với độ chính xác tương đương hoặc cao hơn.

Han Song cho biết: "Bây giờ, chúng ta có thể tận dụng tối đa cả hai thế giới, làm chậm quá trình tính toán đủ để chạy trên thiết bị di động và đám mây." Dựa trên những kết quả này, các nhà nghiên cứu hy vọng có thể áp dụng công nghệ này để tăng tốc các mô hình học máy tổng quát, chẳng hạn như các mô hình được sử dụng để tạo ra hình ảnh mới. Họ cũng hy vọng sẽ tiếp tục mở rộng ứng dụng EfficiencyViT sang các nhiệm vụ tầm nhìn khác.

LuTian, Giám đốc cấp cao về thuật toán trí tuệ nhân tạo tại AMD, cho biết: "Mô hình máy biến áp hiệu quả do nhóm của Giáo sư Han Song tiên phong giờ đây đã trở thành xương sống của công nghệ tiên tiến trong các nhiệm vụ thị giác máy tính khác nhau như phát hiện và phân đoạn. Nghiên cứu của họ không chỉ chứng minh hiệu quả và khả năng của máy biến áp mà còn cho thấy tiềm năng to lớn của nó trong các ứng dụng trong thế giới thực, chẳng hạn như cải thiện chất lượng hình ảnh trong trò chơi điện tử."

"Nén mô hình và thiết kế mô hình nhẹ là những chủ đề nghiên cứu quan trọng để đạt được hiệu quả tính toán trí tuệ nhân tạo, đặc biệt là trong các mô hình cơ bản quy mô lớn. Nhóm nghiên cứu của Giáo sư Han Song đã đạt được tiến bộ đáng kể trong việc nén và tăng tốc các mô hình học sâu hiện đại, đặc biệt là các máy biến áp trực quan." Jay Jackson, phó chủ tịch toàn cầu về trí tuệ nhân tạo và học máy tại Oracle, người không tham gia vào nghiên cứu, cho biết thêm. "Cơ sở hạ tầng đám mây của Oracle đã và đang hỗ trợ nhóm của anh ấy trong việc thúc đẩy nghiên cứu có tác động mạnh mẽ này nhằm tạo ra trí tuệ nhân tạo xanh, hiệu quả."