Google đã công bố mở rộng chức năng tìm kiếm tệp trong API Gemini, mang đến cho các nhà phát triển khả năng RAG đa phương thức hoàn chỉnh hơn

Google gần đây đã công bố việc mở rộng chức năng tìm kiếm tệp trong API Google Gemini, mang đến cho các nhà phát triển khả năng tạo nâng cao truy xuất đa phương thức (RAG) hoàn chỉnh hơn. Cốt lõi của bản cập nhật này bao gồm: hỗ trợ truy xuất hỗn hợp hình ảnh và văn bản, hỗ trợ lọc siêu dữ liệu tùy chỉnh, hỗ trợ tham chiếu cấp trang mới cũng như cải thiện khả năng truy cập và độ chính xác của hệ thống AI trong các tình huống như cơ sở kiến thức doanh nghiệp, hỏi đáp tài liệu và tổng đài viên.

Theo blog chính thức của Google, phiên bản mới của chức năng tìm kiếm tệp không còn bị giới hạn ở tìm kiếm vectơ văn bản truyền thống nữa mà là khả năng nhúng đa phương thức thống nhất được xây dựng trên Gemini Embedding 2, có thể hiểu đồng thời nội dung hình ảnh và nội dung văn bản trong hình ảnh, tệp PDF và tài liệu. Các nhà phát triển không cần phải xây dựng cơ sở dữ liệu vectơ phức tạp, quy trình nhúng hoặc hệ thống phân đoạn tài liệu và có thể hoàn thành RAG hoàn chỉnh trực tiếp trong API Gemini. Quy trình làm việc.

Trong các hệ thống RAG truyền thống, nội dung trực quan như hình ảnh, biểu đồ, ảnh chụp màn hình và bản vẽ thiết kế thường khó lập chỉ mục một cách hiệu quả, dẫn đến thiếu hiểu biết theo ngữ cảnh về các câu trả lời AI và API Gemini. Khả năng tìm kiếm tệp đa phương thức mới có thể xác định nguyên bản nội dung trong hình ảnh và xây dựng chỉ mục tìm kiếm cùng với văn bản. Ví dụ: các công ty có thể tải lên các tệp PDF chứa hình ảnh sản phẩm, biểu đồ dữ liệu hoặc sơ đồ kiến trúc kỹ thuật và AI có thể hiểu đồng thời thông tin trực quan và mô tả văn bản khi trả lời.

Google tuyên bố rằng khả năng này đặc biệt phù hợp để xây dựng trợ lý tri thức cấp doanh nghiệp, robot dịch vụ khách hàng, hệ thống phân tích tài liệu và tác nhân AI. Các nhà phát triển có thể làm cho các mô hình thực hiện suy luận dựa trên các tài liệu nội bộ mà không cần phải bảo trì thêm các hệ thống truy xuất hình ảnh độc lập. Đối với các doanh nghiệp có lượng lớn dữ liệu hình ảnh và văn bản hỗn hợp, điều này có nghĩa là độ phức tạp triển khai thấp hơn và độ chính xác truy xuất cao hơn.

Một tính năng mới khác là lọc siêu dữ liệu tùy chỉnh. Nhà phát triển có thể thêm siêu dữ liệu như thẻ, danh mục, thời gian và bộ phận vào các tệp đã tải lên để chúng có thể được lọc theo siêu dữ liệu trong quá trình truy xuất tiếp theo nhằm cải thiện độ chính xác và hiệu quả. Điều này cũng phù hợp hơn cho việc quản lý cơ sở tri thức quy mô lớn và giảm nội dung không liên quan xâm nhập vào cửa sổ ngữ cảnh.

Một tính năng quan trọng khác là trích dẫn cấp trang. Khi tạo câu trả lời, Gemini AI có thể đánh dấu rõ ràng thông tin đến từ trang nào của tài liệu, thay vì chỉ tham chiếu mơ hồ toàn bộ tệp. Điều này cho phép người dùng nhấp vào để xem trang tài liệu cụ thể sau khi nhận được câu trả lời để đánh giá tính chính xác của nội dung và đọc toàn bộ tài liệu để biết thêm thông tin.

Hiện tại, phiên bản mới của chức năng tìm kiếm tệp Google Gemini API được mở cho tất cả các nhà phát triển. Các nhà phát triển quan tâm có thể mở API Gemini thông qua các nền tảng như Google AI Studio và Google Cloud để trải nghiệm.

Hướng dẫn dành cho nhà phát triển: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878