Không phải vô lý khi AI không thể đánh bại AI. Gần đây, các công cụ phát hiện AI đã không thể đưa ra câu trả lời nhất quán cho những bức ảnh về trẻ sơ sinh đã chết được hàng chục triệu người theo dõi. Máy dò hình ảnh AI đã được phát triển trở lại! Gần đây, một số lượng lớn các bức ảnh về xung đột ở Trung Đông xuất hiện trên Internet, cho thế giới thấy cuộc sống mong manh và bất lực như thế nào trong điều kiện khắc nghiệt như vậy.
Trong số đó, bức ảnh "đứa bé bị bỏng" quá tàn nhẫn để có thể tin được.
Vì vậy, ai đó đã đưa các bức ảnh vào trình dò tìm ảnh AI để phát hiện xem những bức ảnh này có phải do AI tạo ra hay không.
Chắc chắn rồi, bức ảnh này được máy dò AI - Optic xác định là "AI tạo ra".
Trên 4chan thậm chí còn có một "bức ảnh gốc" trong đó xác chết ban đầu thực ra là một con chó.
Vì vậy, cư dân mạng đã giận dữ để lại tin nhắn dưới dòng tweet của người đăng, tấn công anh ta vì sử dụng ảnh do AI tạo ra để gieo rắc nỗi kinh hoàng giả về ngày tận thế.
Dòng tweet này tin rằng bức ảnh được tạo ra bởi AI, đã được 21 triệu lượt đọc trong vòng chưa đầy 2 ngày.
Nhưng ngay sau đó, cư dân mạng đã phát hiện ra rằng họ đưa các bức ảnh lên cùng một máy dò AI và kết quả phát hiện gần như ngẫu nhiên, cả AI và con người.
Một số người phát hiện ra rằng chỉ cần cùng một bức ảnh bị cắt hoặc màu nền chuyển thành đen trắng, máy dò sẽ cho rằng bức ảnh đó được chụp bởi con người.
Thậm chí đôi khi máy dò "lật đồng xu", đồng xu sẽ bật lên ngay lập tức. Đứng dậy...
Vậy bức ảnh này có phải do AI tạo ra không?
Cuối cùng, quan chức của AI Detector cũng đã tweet về sự việc này, tin rằng họ không có cách nào để xác định liệu hình ảnh có phải do AI tạo ra hay không và mong mọi người có thể thảo luận một cách hợp lý.
TA GPH105
Máy dò hình ảnh AI, nó không đáng tin cậy đến mức nào?
Giáo sư Hany Farid của UC Berkeley, một trong những chuyên gia hàng đầu thế giới về xử lý hình ảnh kỹ thuật số, cho biết hình ảnh này không có dấu hiệu nào cho thấy nó được tạo ra bởi AI.
“Một trong những vấn đề lớn nhất với trình tạo hình ảnh AI là các hình dạng có cấu trúc cao và các đường thẳng,” Farid nói. "Nếu bạn nhìn thấy chân bàn và ốc vít, mọi thứ đều trông hoàn hảo thì AI gần như không thể tạo ra hình ảnh đó."
Ví dụ, trong bức tranh "SpongeBob SquarePants Made 9/1" nổi tiếng này, các đường nét của Tòa tháp đôi bên ngoài cửa sổ không thẳng và các bảng điều khiển trên máy bay đều xoắn lại với nhau, trông có vẻ "A trong A".
“Những gì chúng tôi có thể thấy trong bức ảnh đó là cấu trúc của vật thể chính xác, bóng tối chính xác và không có hiện vật - điều này khiến tôi tin rằng bức ảnh này phải hoàn toàn có thật,” Farid nói.
Farid cũng đã xác định hình ảnh thông qua các máy dò hình ảnh AI khác của riêng mình và bốn công cụ phát hiện hình ảnh AI khác cũng đồng ý rằng hình ảnh đó không phải do AI tạo ra.
Farid cho biết: "Máy dò AI là một công cụ, nhưng nó chỉ là một phần của bộ công cụ. Người dùng cần tiến hành một loạt thử nghiệm trên toàn bộ hình ảnh và không thể nhận được câu trả lời chỉ bằng cách nhấn nút."
Công cụ phát hiện AI Optic không đưa ra thông tin chi tiết cụ thể về công nghệ phát hiện của riêng mình.
Trang web của Optic cũng tuyên bố rằng “Trình phát hiện AI có thể tạo ra kết quả không chính xác”.
Công nghệ nhận dạng hình ảnh AI
Giáo sư Farid đã viết một bài báo vào năm ngoái, giới thiệu cách đánh giá tính nhất quán của các công cụ tạo hình ảnh AI.
Bằng cách đánh giá tính nhất quán của hình ảnh, nó có thể giúp xác định xem hình ảnh có phải do AI tạo ra hay không.
Liên kết giấy: https://arxiv.org/abs/2206.14617?ref=404media.co
Giáo sư bắt đầu bằng cách phác thảo ba phương pháp phân tích dựa trên vật lý có liên quan, mỗi phương pháp khai thác các nguyên tắc cơ bản giống nhau của hình học phối cảnh vốn có trong quá trình hình thành hình ảnh.
Điểm biến mất
Các đường rút lui song song hội tụ tại một điểm biến mất.
Các đường thẳng giữa các ô trong Hình 1(a) là song song. Khi chụp ảnh, những đường thẳng này đều hội tụ tại một điểm triệt tiêu. Nếu các đường song song trong một cảnh cách xa máy ảnh theo chiều sâu thì sẽ tồn tại một điểm ảo, mặc dù nó có thể nằm ngoài ảnh.
Nếu các đường thẳng song song trong một cảnh không lùi về độ sâu, tức là nếu chúng song song hoàn toàn với cảm biến ống kính (ở bất kỳ khoảng cách nào) thì các đường song song sẽ được tạo ảnh thành các đường thẳng song song và trong thực tế, điểm biến mất có thể được coi là ở vô cực. Hình học này bắt nguồn từ những điều cơ bản của phép chiếu phối cảnh.
Trong phép chiếu phối cảnh, điểm (X, Y, Z) trong cảnh được tạo ảnh thành điểm (fX/Z, fY/Z), trong đó f là tiêu cự của ống kính.
Vì vị trí của một điểm trong ảnh tỷ lệ nghịch với khoảng cách Z nên các điểm được chiếu nén lại như một hàm của khoảng cách, khiến các đường trong ảnh hội tụ;
TAGP H162. Các đường song song trên các mặt phẳng song song hội tụ về cùng một điểm biến mấtHộp xa trong Hình 1(b) được căn chỉnh với các ô trên sàn sao cho cạnh của hộp song song với đường thẳng giữa các ô. Vì các đường thẳng song song trên các mặt phẳng song song có chung một điểm tụ nên các điểm tụ của các cạnh của hộp và sàn gạch là như nhau;
3. Điểm tụ của mọi đường thẳng trên mặt phẳng đều nằm trên đường tụ đó.
Nhiều nhóm đường thẳng song song, mỗi nhóm đường thẳng song song hội tụ đến các điểm triệt tiêu khác nhau, như trong Hình 1(c). Nếu một nhóm các đường thẳng song song trải dài trên cùng một mặt phẳng trong cảnh thì các điểm triệt tiêu của chúng sẽ nằm trên đường triệt tiêu. Hướng của đường biến mất được xác định bằng chuyển động quay của thấu kính so với mặt phẳng được kéo dài bởi đường thẳng song song
Bóng
Thật đáng ngạc nhiên, hình học tương tự phía sau điểm biến mất cũng áp dụng cho việc tạo bóng.
Hình ảnh trên hiển thị ba tia nối các điểm trên hộp và các điểm tương ứng của chúng trên bóng đổ. Sau khi mở rộng ranh giới hình ảnh, người ta thấy ba tia này giao nhau tại một điểm, tương ứng với hình chiếu của nguồn sáng chiếu sáng khung cảnh.
Ràng buộc hình học này đối với bóng, vật thể và ánh sáng giữ nguyên cho dù nguồn sáng ở gần (đèn bàn) hay ở xa (mặt trời) và giữ nguyên bất kể vị trí và hướng của bề mặt mà bóng đổ lên.
Tất nhiên, phân tích này giả định rằng khung cảnh được chiếu sáng bởi một nguồn sáng chính duy nhất, bằng chứng rõ ràng là sự hiện diện của chỉ một bóng đổ duy nhất trên mỗi vật thể.
Trong ví dụ trên, nguồn sáng chiếu sáng cảnh ở phía trước ống kính, do đó hình chiếu của nguồn sáng nằm ở nửa trên của mặt phẳng hình ảnh.
Tuy nhiên, nếu ánh sáng ở phía sau ống kính, hình chiếu của nguồn sáng sẽ nằm ở nửa dưới của mặt phẳng hình ảnh. Vì sự đảo ngược này nên bóng của các ràng buộc đối tượng cũng phải được đảo ngược.
Do đó, phân tích bóng đổ của hình ảnh phải xem xét ba khả năng:
(1) Ánh sáng ở phía trước ống kính, hình chiếu của nguồn sáng nằm ở nửa trên của mặt phẳng hình ảnh và các ràng buộc được cố định trên bóng đổ và bao quanh vật thể;
(2) Tia nằm phía sau ống kính và hình chiếu của nguồn sáng nằm ở nửa dưới của mặt phẳng hình ảnh và các ràng buộc được cố định vào vật thể và bao quanh bóng đổ;
(3) Tia nằm ngay phía trên hoặc phía dưới tâm thấu kính và hình chiếu của nguồn sáng ở vô cực và các giới hạn sẽ giao nhau ở vô cực. Nếu bất kỳ tình huống nào trong số này dẫn đến sự giao thoa chung của tất cả các ràng buộc, thì việc tạo bóng là hợp lý về mặt vật lý.
Sự phản chiếu
Cảnh thể hiện trong Hình 2 bên dưới là ba hộp được phản chiếu trong một gương phẳng.
Phần dưới của hình này thể hiện mối quan hệ hình học giữa hộp thật và hộp ảo.
Đường màu cam tượng trưng cho tấm gương, nằm ở điểm giữa giữa hai bộ hộp. Các đường màu vàng nối các điểm tương ứng trên hộp thực và hộp ảo. Các đường thẳng song song với nhau và vuông góc với gương.
Bây giờ hãy xem xét cách các đường thẳng song song này xuất hiện khi được đặt chồng lên cảnh. Các đường thẳng song song khi nhìn từ mặt phẳng gương không còn song song nữa. Thay vào đó, do phép chiếu phối cảnh, những đường thẳng song song này hội tụ về một điểm, giống như những đường thẳng song song trên thế giới hội tụ về một điểm triệt tiêu.
Vì các đường nối các điểm tương ứng trong cảnh và hình ảnh phản chiếu của chúng luôn song song nên các đường này phải có một điểm giao nhau chung trong ảnh thì mới hợp lý về mặt vật lý.
Phân tích mẫu
TAGPH 73
Hình 3 ở trên hiển thị ba ví dụ tiêu biểu về hình ảnh do AI tổng hợp, với phân tích về sự nhất quán về phối cảnh hình học của sàn và mặt bàn.
Mỗi hình ảnh ghi lại chính xác (trong một vài pixel) hình học phối cảnh của sàn gạch, làm bằng chứng về các điểm biến mất nhất quán (được hiển thị bằng màu xanh lam). Tuy nhiên, điểm tụ của mesa song song (thể hiện bằng màu lục lam) không nhất quán về mặt hình học với điểm tụ của mesa song song.
Các ô căn chỉnh tương ứng. Ngay cả khi mặt bàn không song song với gạch, điểm tụ màu lục lam phải nằm trên đường tụ (được hiển thị bằng màu đỏ) được xác định bởi điểm tụ của sàn gạch. Lưu ý rằng đối với ảnh ở góc trên bên phải Hình 3, các đường ngang trên sàn gạch gần như song song nên các điểm tụ tương ứng ở vô cực và do đó không giao nhau.
Mặc dù các điểm biến mất trong những hình ảnh này nhất quán cục bộ nhưng chúng không nhất quán toàn cục. Mô hình tương tự đã được tìm thấy trong mỗi 25 hình ảnh nhà bếp tổng hợp.
Hình trên là hình ảnh khối được tạo bằng các từ nhắc nhở. Sự không nhất quán là rõ ràng trong bóng tối.
Hình 8 ở trên cho thấy kết quả của việc áp dụng phân tích hình học cho hình ảnh do AI tạo ra có chứa các phản xạ có vẻ khá chính xác.
Mặc dù những phản xạ này có âm thanh trực quan nhưng chúng không nhất quán về mặt hình học.
Không giống như bóng đổ và cấu trúc hình học trong các phần trước, DALL·E-2 gặp khó khăn trong việc tổng hợp các phản xạ hợp lý, có lẽ vì những phản xạ như vậy ít phổ biến hơn trong tập dữ liệu hình ảnh huấn luyện của nó.
Dựa trên sự hiểu biết này về những hạn chế của hình ảnh do AI tạo ra, thông qua việc phát hiện tính nhất quán của hình ảnh, việc xác định xem hình ảnh có được AI tổng hợp hay không có thể rất hữu ích.
Nhận dạng hình ảnh khó, AI đánh bại AI
Trình tạo hình ảnh AI không ngừng phát triển.
Trong nửa đầu năm, Midjourney trở nên phổ biến. Nó có thể tạo ra những bức ảnh đủ chân thực nhưng đã đánh lừa nhiều người.
Vị giáo hoàng 86 tuổi đội một chiếc mũ dưa màu trắng trên đầu, mặc áo khoác ngoài màu trắng có miệng chuông, lộ ra một chiếc vòng cổ hình thánh giá bằng kim loại và vẻ mặt nghiêm túc.
Vào thời điểm đó, khi bức ảnh này được tung ra đã đánh lừa tất cả mọi người trên mạng xã hội và được nhiều cư dân mạng chuyển tiếp rầm rộ. Một số thậm chí còn cho rằng Giáo hoàng quá thời trang.
Khi mọi người tin rằng đó là sự thật thì có người bất ngờ chỉ ra rằng nó được tạo ra bởi AI, và nhiều người ngay lập tức chết lặng.
Đây chỉ là một trong số đó. Ngoài ra còn có nhiều bức ảnh sai sự thật và được lan truyền về bạn gái mới của Musk, Giám đốc điều hành GM Barra, v.v., đã đến mức hoàn toàn là giả.
Sự cố này trực tiếp khiến các nhà lãnh đạo công nghệ như Musk và đồng sáng lập Apple Stephen Wozniak kêu gọi đình chỉ nghiên cứu và phát triển AI.
Mặc dù việc tạo ra AI rất thú vị và tiện lợi nhưng nó mang lại rủi ro cho toàn bộ ngành.
Nếu không nhỏ, nó sẽ bị những người có động cơ thầm kín lợi dụng để phát tán thông tin sai lệch, vi phạm quyền sở hữu trí tuệ hoặc sử dụng để tạo ra "ảnh trái cây", v.v.
Trong vài tháng tới, Midjourney sẽ phát hành phiên bản V6 mới nhất. Phiên bản V5 hiện tại đã rất hoàn hảo về tính chân thực trong việc tạo ra hình ảnh.
Các trình tạo hình ảnh AI khác cũng đang lặp lại nhanh chóng. Cách đây một thời gian, OpenAI vừa phát hành DALL·E3. Đồng thời, việc tạo hình ảnh Microsoft Bing cũng sử dụng DALL·E3.
Tất nhiên, các nhà nghiên cứu cũng đang nỗ lực xây dựng các công cụ có thể nhận dạng hình ảnh. Điều quan trọng là làm thế nào để theo kịp sự nâng cấp liên tục của các trình tạo hình ảnh AI?
Cuộc thi công cụ phát hiện AI
Hiện nay, có hơn chục công ty cung cấp Công cụ làm việc được sử dụng để xác định xem hình ảnh có phải do AI tạo ra hay không. Tên của họ bao gồm SensityAI (phát hiện giả mạo sâu), Ficticious.AI (phát hiện đạo văn), Originality.AI, v.v.
Optic, một công ty an toàn và tin cậy trí tuệ nhân tạo, đã ra mắt trang web “AIorNot”.
Trên trang web này, bạn có thể tải ảnh lên hoặc dán URL hình ảnh và trang web sẽ tự động xác định xem ảnh có phải do AI tạo ra hay không. Không có giới hạn về số lượng hình ảnh bạn có thể tải lên.
Ngoài ra, bạn có thể đăng hoặc đăng lại hình ảnh trên tài khoản Twitter của Optic @optic_xyz hoặc thêm #aiornot và bạn sẽ nhận được phản hồi bao gồm phần trăm độ tin cậy của hình ảnh.
Giám đốc điều hành của công ty, Andrey Doronichev, cho biết các công cụ AI của Optic có thể kiểm tra từng hình ảnh để tìm các hiện vật mà mắt người không thể nhìn thấy, chẳng hạn như những thay đổi về độ sáng và màu sắc trong hình ảnh.
Điều đáng ngạc nhiên là công cụ này có độ chính xác lên tới 95%.
Tuy nhiên, với việc nâng cấp và lặp lại các công cụ tạo hình ảnh AI như Midjourney, tỷ lệ chính xác của "AIorNot" đã giảm xuống còn 88,9%.
Ví dụ, trong bức ảnh này của Giáo hoàng, AI tin rằng có 87% khả năng nó được tạo ra bởi con người.
Hình ảnh Giáo hoàng mặc áo khoác trắng đã bị đánh lừa trước khi cập nhật Optic
5
Trên thực tế, một số cư dân mạng cho rằng nếu nhìn kỹ bức ảnh này, bạn sẽ thấy những dấu hiệu rõ ràng của thế hệ trí tuệ nhân tạo, bao gồm một số vùng chi tiết bị mờ rõ ràng:
-Bàn tay dường như chưa hoàn chỉnh đang cố nắm lấy thứ gì đó không giống cốc cà phê và có vết bẩn ở bên cạnh
-Thánh giá mà Giáo hoàng đeo không có hình vuông và có hình ảnh một từ được khắc trên đó. Đất sét điêu khắc và cho Chúa Giêsu ngồi
- Cặp kính không phù hợp với độ bóng của khuôn mặt
điểm nào cho thấy nó được tạo ra bởi trí tuệ nhân tạo. Nó chỉ hiểu bề mặt của thực tế chứ không hiểu các quy tắc cơ bản chi phối cách các vật thể tương tác với nhau.
Ngoài các công cụ của Optic, Hive, một công ty trí tuệ nhân tạo chuyên thêm thẻ vào nội dung, gần đây đã cập nhật trình phát hiện nội dung miễn phí do AI tạo ra.
Công cụ AI này đã được đào tạo trên hàng triệu hình ảnh từ DALL-E, StableDiffusion và Midjourney.
Hive ước tính rằng nó có thể phát hiện chính xác khoảng 95% hình ảnh do AI tạo ra, đặc biệt là những hình ảnh được chia sẻ lan truyền trên Internet và thường tốt hơn các kết quả nhận dạng hình ảnh khác.
CEO Kevin Guo cho biết khi mọi người chia sẻ hình ảnh trí tuệ nhân tạo, họ sẽ chọn những hình ảnh giả giống thật nhất, để mọi người có thể dễ dàng phân biệt đâu là thật.
Hình ảnh bên trái là hình ảnh do AI tạo ra có thể phân biệt được bằng hai ngón tay và một động tác đập tay kỳ lạ, trong khi hình ảnh thực sự trông giống như trong một bức ảnh iStock thông thường thì như hiển thị ở bên phải.
Giống như Optic, Hive cũng bị lỗi khi phát hiện hình ảnh từ Bing ImageCreator.
Tuy nhiên, những công cụ phát hiện này không đứng yên. Chúng cũng sẽ được cập nhật và nâng cấp khi mô hình tích hợp hình ảnh AI được lặp lại.
Trên thực tế, nhận dạng hình ảnh AI không chỉ dựa vào các công cụ phát hiện trong ngành mà còn phải thiết lập các rào chắn trong quá trình đào tạo mô hình.
Nhiều trình tạo hình ảnh trí tuệ nhân tạo cũng có một "danh sách đen" giới hạn việc có thể tạo một số nội dung hay không.
Ví dụ: Bing ImageCreator gắn cờ và chặn lời nhắc của người dùng yêu cầu nó tạo hình ảnh của các nhân vật nổi tiếng.
Midjourney có "người điều hành con người" và đang triển khai một cách để kiểm duyệt các yêu cầu của người dùng theo thuật toán.
Ngoài ra còn có báo cáo kỹ thuật DALL·E3 nêu rõ rằng khi bạn yêu cầu ChatGPT tạo một số "hình ảnh trái cây" hoặc hình ảnh liên quan đến người da đen và da trắng, lời nhắc đầu vào sẽ được viết lại trực tiếp.
Watermarking AI, các nhà sản xuất lớn đang làm điều đó
Ngoài ra, hình mờ kỹ thuật số cũng là một trong những phương tiện quan trọng để tăng cường tính bảo mật của AI tổng hợp. Những gã khổng lồ công nghệ như Microsoft và Google đã sử dụng nó trong các sản phẩm của họ.
Microsoft đã giới thiệu khả năng tạo hình ảnh của Bing với sự hỗ trợ của DALL·E3 tại Hội nghị Surface vào tháng 9.
Đồng thời, để đảm bảo hình ảnh không bị lạm dụng, nhóm Microsoft đã sử dụng phương pháp mã hóa để tạo hình mờ vô hình cho mỗi hình ảnh, bao gồm cả ngày và giờ tạo.
Bất kỳ ai cũng có thể nhấp vào từng bức ảnh để dễ dàng xác định xem nó có phải do AI tạo ra hay không.
Meta cũng mở StableSignature có nguồn gốc, có thể nhúng hình mờ kỹ thuật số trực tiếp vào hình ảnh do AI tự động tạo ra.
Địa chỉ trên giấy: https://arxiv.org/pdf/2303.15435. pdf
Điều đáng nói là hình mờ kỹ thuật số do StableSignature tạo ra không bị ảnh hưởng bởi các hoạt động phá hoại như cắt xén, nén và thay đổi màu sắc và có thể truy nguyên nguồn gốc của hình ảnh.
Nó có thể được áp dụng cho mô hình khuếch tán, GAN và các mô hình khác, chẳng hạn như StableDiffusion.
Google cũng đã phát hành SynthID trên Google Cloud Next để tạo hình mờ cho các hình ảnh do AI tạo ra để phát hiện và nhận dạng.
SynthID sử dụng hai mô hình deep learning, một mô hình dành cho hình mờ và một mô hình nhận dạng. Họ có thể được đào tạo cùng nhau trên một bộ hình ảnh khác nhau.
Mô hình kết hợp được tối ưu hóa cho nhiều mục tiêu, bao gồm xác định chính xác nội dung có hình mờ và cải thiện khả năng che giấu hình mờ bằng cách căn chỉnh hình mờ với nội dung gốc một cách trực quan.
Hình mờ kỹ thuật số do SynthID tạo ra được nhúng trực tiếp vào các pixel của hình ảnh và mắt người không thể phát hiện được. Nhưng SynthID có thể phát hiện và xác định chúng.
SynthID có thể giúp đánh giá khả năng hình ảnh được tạo bởi ImagenTAGP H51
Amit Roy-Chowdhury, giáo sư kỹ thuật điện và máy tính tại Đại học California, Riverside, đã cẩn thận nói rằng Nhìn vào nền ảnh, chúng ta có thể tận mắt phát hiện ảnh giả tốt hơn.
Tuy nhiên, với tốc độ lặp lại nhanh chóng của các mô hình AI, việc có một "con mắt chói lóa" là quá khó.