Hình ảnh do AI tạo ra ngày càng trở nên chân thực hơn nhưng việc sử dụng tốt các định luật vật lý vẫn có thể tiết lộ chúng

Các công cụ tạo hình ảnh AI hiện đại đang phát triển nhanh chóng và những sai sót có thể nhìn thấy ngay trong những ngày đầu—chẳng hạn như bàn tay và bàn chân bị biến dạng, văn bản lộn xộn và nhiễu hình ảnh kỳ lạ—đang dần được xử lý bằng các phương tiện kỹ thuật. Hiện nay, nhiều hình ảnh tổng hợp cũng đủ đánh lừa mắt thường của người dân và lan truyền không kiểm soát trên mạng xã hội. Tuy nhiên, một nghiên cứu đăng trên tạp chí Science chỉ ra rằng những mô hình này về cơ bản vẫn “không hiểu” cách ánh sáng và hình học vận hành trong thế giới thực, và các định luật vật lý đang trở thành một trong những công cụ đáng tin cậy nhất để xác định hình ảnh thật và giả.

Các nhà nghiên cứu đã chỉ ra rằng miễn là đo được độ phản chiếu, bóng, đường phối cảnh và các phần tưởng chừng như tầm thường khác, vẫn có cơ hội tiết lộ một bức ảnh AI dường như hoàn hảo. Phương pháp xác minh dựa trên tính nhất quán của thế giới vật lý này được các chuyên gia pháp y kỹ thuật số coi là một tuyến phòng thủ quan trọng trong việc phân biệt ảnh thật với ảnh giả mạo AI trong thời đại “giả sâu”. Việc nhận dạng ban đầu thường dựa vào mắt thường để nắm bắt những sai sót kỹ thuật thô, nhưng khi chất lượng sản xuất được cải thiện, hình ảnh bắt đầu ngày càng phù hợp với mong đợi chủ quan của con người về “thực tế”—màu sắc tươi sáng, bố cục kịch tính và đầy cảm giác điện ảnh. “Vở kịch được dàn dựng” này đã giúp mọi người dễ dàng thả lỏng cảnh giác hơn.

Hany Farid, giáo sư tại Đại học California, Berkeley, người được nhiều người coi là một trong những người sáng lập lĩnh vực pháp y kỹ thuật số, đã khai thác một "điểm yếu tiềm ẩn" khác của hình ảnh AI. Cách tiếp cận của ông không phải là tìm kiếm các lỗi hình ảnh rõ ràng mà là so sánh các hình ảnh được tạo ra với các mối quan hệ hình học sẽ xuất hiện trong thế giới thực. Theo ông, các mô hình tạo hình ảnh hiện tại vẫn chưa thực sự học được khái niệm cơ bản trong lớp nghệ thuật - điểm biến mất.

Lấy bức ảnh "những người lính hành quân trên hành lang" do AI tạo ra làm ví dụ. Bạn có thể thấy một số sai sót rõ ràng trong bức tranh, chẳng hạn như văn bản trên tường mờ và khó đọc, những chuỗi không thể giải thích được, v.v. Nhưng manh mối quan trọng hơn được ẩn giấu trong những viên gạch trên mặt đất: theo nguyên tắc phối cảnh, các đường song song trong thực tế (chẳng hạn như các đường nối của gạch lát sàn và sàn gỗ) sẽ kéo dài và hội tụ đến cùng một điểm biến mất trong bức tranh. Nếu bạn vẽ các đường dọc theo các cấu trúc này bằng công cụ Đường, bạn có thể kiểm tra xem liệu chúng có gặp nhau ở khoảng cách xa như trong ảnh thật hay không, giúp bạn có cảm giác ban đầu về việc hình ảnh đó có đáng tin cậy hay không.

Các mối quan hệ hình học tương tự cũng áp dụng cho phản xạ. Nghiên cứu chỉ ra rằng mặc dù các mô hình thế hệ ngày nay đã có thể tổng hợp nước hoặc phản xạ gương đủ để đánh lừa mắt người, nhưng các vấn đề sẽ bộc lộ miễn là bạn dùng thước để đo chúng. Trong thế giới thực, các đường nối một điểm nhất định của một vật thể và điểm tương ứng của nó trong hình phản chiếu phải song song với nhau và hướng về cùng một điểm biến mất sau khi được kéo dài; khi những đường này xuất hiện có độ lệch quá mức, điều đó có thể có nghĩa rằng đây là một hình ảnh tổng hợp.

Bóng do mặt trời tạo ra cũng tạo thêm độ bám cho loại thử nghiệm này. Vì mặt trời ở rất xa trái đất nên có thể coi gần đúng rằng ánh sáng mặt trời chiếu xuống mặt đất là ánh sáng song song. Theo tiền đề này, đường thẳng giữa một điểm nhất định của vật thể và điểm tương ứng của nó trong bóng cũng có thể được kéo dài và hội tụ tại một điểm triệt tiêu. Nếu các đường bóng của các vật thể khác nhau trong một bức ảnh không thể chỉ ra mối quan hệ hình học nhất quán thì điều đó có thể vi phạm các định luật quang học cơ bản.

Hiện rất khó dự đoán khi nào và liệu các mô hình tổng quát có thể khắc phục được các lỗi cấp độ vật lý này về cơ bản hay không. So với những sai sót có thể dễ dàng nhận thấy bằng mắt thường những ngày đầu, việc "xác minh hình học" dựa trên phối cảnh và ánh sáng đòi hỏi người quan sát phải tốn nhiều thời gian và sức lực hơn, vượt xa ngưỡng cảnh giác hàng ngày của người dùng mạng xã hội thông thường. Một số nhà nghiên cứu thậm chí còn tin rằng việc nắm bắt sâu sắc các quy tắc vật lý như vậy có thể vượt quá khả năng thiết kế của các mô hình sinh sản chính thống hiện nay.

Ngoài công việc này, các chuyên gia còn nhắc nhở người dùng hãy thận trọng với việc "dùng AI để nhận dạng AI". Một số công cụ phát hiện tự động thực sự có thể đáng tin cậy hơn mắt người chưa qua đào tạo trong một số điều kiện nhất định, nhưng một khi việc phân phối hình ảnh đầu vào và dữ liệu huấn luyện của nó quá khác nhau, thuật toán sẽ mắc lỗi và thậm chí là sai lệch hệ thống. Nói cách khác, việc giao hoàn toàn nhiệm vụ sàng lọc cho một mẫu hộp đen khác không phải là một giải pháp hoàn hảo.

Một nghiên cứu liên quan cũng đưa ra một khám phá hấp dẫn: việc xác nhận rằng một bức ảnh là “thật” có thể khó hơn việc xác định một bức ảnh “giả”. Nghiên cứu cho thấy người xem nhìn vào một bức ảnh càng lâu mà không tìm thấy sai sót thì khả năng đó là một bức ảnh thật càng cao. Từ góc độ này, bản thân "không tìm thấy lỗi" có thể trở thành một trong những bằng chứng về tính xác thực.