Năm 2018, các công ty bao gồm Google và Meta đã sử dụng phép đo tông màu da để kiểm tra tính hiệu quả của phần mềm AI của họ sau khi có báo cáo xuất hiện vào năm 2018 rằng các thuật toán phân tích khuôn mặt hàng đầu kém chính xác hơn đối với những người có tông màu da tối hơn. Nghiên cứu mới của Sony cho thấy những thử nghiệm này chưa thể hiện được khía cạnh quan trọng của sự đa dạng màu da con người.
Các nhà nghiên cứu tại tập đoàn Sony cho biết, các phương pháp đo màu da thông dụng hiện nay chỉ sử dụng thang trượt từ nhạt nhất đến đậm nhất hoặc từ trắng đến đen để thể hiện màu da, từ đó bỏ qua tác động của tông màu vàng và đỏ đối với phạm vi màu da của con người. Họ phát hiện ra rằng các hệ thống trí tuệ nhân tạo tổng hợp, thuật toán quét hình ảnh và các công cụ phân tích ảnh đều gặp khó khăn đặc biệt với làn da vàng hơn. Điểm yếu tương tự có thể áp dụng cho nhiều công nghệ mà độ chính xác được chứng minh là bị ảnh hưởng bởi màu da, chẳng hạn như phần mềm trí tuệ nhân tạo để nhận dạng khuôn mặt, theo dõi cơ thể và phát hiện deepfake hoặc các tiện ích như máy đo nhịp tim và máy phát hiện chuyển động.
Alice Xiang, nhà khoa học nghiên cứu trưởng và người đứng đầu toàn cầu về đạo đức AI tại Tập đoàn Sony, cho biết: "Nếu các sản phẩm chỉ được đánh giá theo cách duy nhất này, sẽ có rất nhiều thành kiến không được phát hiện và không được giảm thiểu. Ánh sáng. Chúng tôi hy vọng rằng công việc chúng tôi làm ở đây có thể giúp thay thế một số thang đo tông màu da hiện có, vốn thực sự chỉ tập trung vào màu sáng và màu tối. Nhưng không phải ai cũng tin rằng các lựa chọn hiện có là không đủ để phân loại AI." Ellis Monk, một nhà xã hội học tại Đại học Harvard, cho biết bảng màu 10 màu mà ông đưa ra với Google vào năm ngoái cung cấp các tùy chọn từ sáng đến tối, nhưng nó không phải là một chiều. "Tôi phải thừa nhận, tôi hơi bối rối trước ý kiến cho rằng các tông màu da đã bị bỏ qua trong nghiên cứu trước đây trong lĩnh vực này", Monk, người đã nghiên cứu về việc quyết định nên ưu tiên tông màu da nào trên thang đo và ở những điểm nào, sau khi tham khảo ý kiến của các chuyên gia và những người khác. 10 tông màu da đã được chọn cho thang đo của anh ấy "
X. Eyeé, Giám đốc điều hành của công ty tư vấn đạo đức AI MaloSanto và là người sáng lập nhóm nghiên cứu tông màu da của Google, cho biết thang đo Munch chưa bao giờ được coi là giải pháp cuối cùng và gọi công việc của Sony là một bước tiến quan trọng. Nhưng Eyeé cũng cảnh báo rằng việc định vị máy ảnh có thể ảnh hưởng đến giá trị màu CIELAB trong hình ảnh, một trong nhiều vấn đề khiến tiêu chuẩn này trở thành điểm tham chiếu có thể không đáng tin cậy. Eyeé cho biết: “Cần phải làm nhiều việc hơn để đảm bảo tính nhất quán của phép đo trước khi chúng tôi có thể áp dụng các phép đo tông màu da cho các thuật toán AI trong thế giới thực, chẳng hạn như bộ lọc máy ảnh và hội nghị truyền hình”.
Cuộc tranh luận về quy mô không chỉ mang tính học thuật. Tìm ra thước đo thích hợp về cái mà các nhà nghiên cứu AI gọi là “sự công bằng” là ưu tiên hàng đầu của ngành công nghệ, khi các nhà lập pháp ở các quốc gia bao gồm Liên minh Châu Âu và Hoa Kỳ thảo luận về việc yêu cầu các công ty kiểm tra hệ thống AI của họ cũng như cảnh báo các rủi ro và sai sót. Các nhà nghiên cứu tại Sony cho biết các phương pháp đánh giá yếu kém có thể làm suy yếu một số lợi ích thực tế của quy định.
Về màu da, Xiang cho biết cần nỗ lực phát triển thêm các biện pháp cải thiện: "Chúng ta cần tiếp tục cố gắng đạt được tiến bộ. Tùy theo tình hình, các biện pháp khác nhau có thể tỏ ra hữu ích. Tôi rất vui vì về lâu dài Sau khi bị bỏ qua, sự quan tâm đến lĩnh vực này ngày càng tăng."
Người phát ngôn của Google, Brian Gabriel, cho biết công ty hoan nghênh nghiên cứu mới và đang xem xét nó.
Màu da của con người đến từ sự tương tác của ánh sáng với protein, tế bào máu và các sắc tố như melanin. Cách tiêu chuẩn để kiểm tra xem thuật toán có bị sai lệch theo tông màu da hay không là kiểm tra xem thuật toán hoạt động như thế nào trên các tông màu da khác nhau, với sáu tùy chọn từ sáng nhất đến tối nhất được gọi là thang đo Fitzpatrick. Thang đo này ban đầu được phát triển bởi các bác sĩ da liễu để đánh giá phản ứng của da với tia UV. Năm ngoái, các nhà nghiên cứu trí tuệ nhân tạo trong thế giới công nghệ đã ca ngợi việc ra mắt Thang đo Munch của Google, cho rằng nó mang tính toàn diện hơn. Các nhà nghiên cứu của Sony cho biết trong một nghiên cứu được trình bày tuần này tại Hội nghị quốc tế về Thị giác máy tính ở Paris,
CIELAB, tiêu chuẩn màu quốc tế dành cho chỉnh sửa và sản xuất ảnh, cung cấp một cách trung thực hơn để thể hiện phổ rộng của làn da. Khi họ áp dụng tiêu chuẩn CIELAB để phân tích ảnh của những người khác nhau, họ nhận thấy rằng làn da của họ không chỉ khác nhau về sắc độ (độ sâu của màu) mà còn về sắc độ (tức là sự chuyển màu). Việc
không thể nắm bắt chính xác thang màu da của tông màu đỏ và vàng trên da người dường như đã giúp một số sai lệch không bị phát hiện trong thuật toán hình ảnh. Các nhà nghiên cứu của Sony đã thử nghiệm các hệ thống trí tuệ nhân tạo nguồn mở, bao gồm công cụ thu thập hình ảnh do Twitter phát triển và một cặp thuật toán tạo hình ảnh, và nhận thấy rằng các thuật toán ưu tiên làn da màu đỏ, nghĩa là một số lượng lớn những người có làn da hơi vàng không được thể hiện đúng mức trong hình ảnh cuối cùng mà thuật toán đưa ra. Điều này có khả năng gây bất lợi cho các nhóm dân cư đa dạng, bao gồm Đông Á, Nam Á, Mỹ Latinh và Trung Đông.
Các nhà nghiên cứu của Sony đã đề xuất một cách mới để thể hiện tông màu da nhằm nắm bắt được sự đa dạng mà trước đây bị bỏ qua. Hệ thống của họ sử dụng hai tọa độ thay vì một số để mô tả tông màu da trong hình ảnh. Nó chỉ định cả nơi tông màu da chuyển từ sáng sang tối và từ vàng sang đỏ, điều mà ngành công nghiệp mỹ phẩm đôi khi gọi là tông màu ấm đến lạnh.
Phương pháp mới hoạt động bằng cách tách tất cả các pixel trong hình ảnh hiển thị da, chuyển đổi giá trị màu RGB của từng pixel thành mã CIELAB, sau đó tính toán màu sắc và sắc độ trung bình của nhóm pixel da. Một ví dụ từ nghiên cứu cho thấy những bức ảnh đại diện rõ ràng của cựu ngôi sao NFL Terrell Owens và nữ diễn viên quá cố Eva Garbo có cùng tông màu da nhưng tông màu khác nhau, trong đó hình ảnh của Owens có vẻ hơi đỏ hơn và hình ảnh của Garbo có màu vàng hơn.
Thang màu không nắm bắt chính xác tông màu đỏ và vàng của da người giúp không phát hiện được các thành kiến trong thuật toán hình ảnh.
Khi nhóm Sony áp dụng phương pháp tiếp cận của họ với hệ thống dữ liệu và trí tuệ nhân tạo trực tuyến, họ đã phát hiện ra những vấn đề nghiêm trọng. Các nhà nghiên cứu phát hiện ra rằng CelebAMask-HQ, một tập dữ liệu phổ biến về khuôn mặt của những người nổi tiếng được sử dụng để đào tạo nhận dạng khuôn mặt và các chương trình thị giác máy tính khác, có 82% hình ảnh thiên về tông màu da đỏ, trong khi một tập dữ liệu khác do NVIDIA phát triển, FFHQ, có 66% thiên về tông màu da đỏ. Hai mô hình tạo AI được đào tạo trên FFHQ đã tái tạo xu hướng này: khoảng 4 trong số 5 hình ảnh mà chúng tạo ra có xu hướng thiên về tông màu đỏ.
Vấn đề không dừng lại ở đó. Theo nghiên cứu của Sony, khi các chương trình AI ArcFace, FaceNet và Dlib được yêu cầu xác định xem hai bức chân dung có tương ứng với cùng một người hay không, chúng hoạt động tốt hơn trên làn da đỏ. Davis King, nhà phát triển Dlib, cho biết ông không ngạc nhiên trước sự thiên vị này vì người mẫu này chủ yếu được đào tạo về ảnh của những người nổi tiếng Mỹ.
Các công cụ AI trên đám mây để phát hiện nụ cười do Microsoft Azure và Amazon Web Services cung cấp cũng hoạt động tốt hơn trên tông màu đỏ hơn. Sarah Bird, người đứng đầu bộ phận kỹ thuật trí tuệ nhân tạo tại Microsoft, cho biết công ty đang tăng cường đầu tư vào sự công bằng và minh bạch. Người phát ngôn của Amazon, Patrick Neighhorn, cho biết: “Chúng tôi hoan nghênh sự hợp tác với cộng đồng nghiên cứu và chúng tôi đang xem xét cẩn thận nghiên cứu này”. NVIDIA từ chối bình luận.
Là một người có làn da vàng, Xiang rất quan tâm đến việc bộc lộ những hạn chế của các phương pháp thử nghiệm trí tuệ nhân tạo ngày nay. Bà cho biết Sony sẽ sử dụng hệ thống mới để phân tích các mô hình thị giác máy tính lấy con người làm trung tâm khi chúng được đưa ra để xem xét, nhưng từ chối chỉ rõ mô hình nào. Cô nói: “Tất cả chúng ta đều có màu da khác nhau. Điều này không nên được sử dụng để phân biệt đối xử với chúng ta”.
Cách tiếp cận của Sony có một lợi thế tiềm năng khác. Các phép đo như Monkscale của Google yêu cầu con người phân loại vị trí da của một cá nhân cụ thể trên quang phổ. Các nhà phát triển AI cho biết đây là một nhiệm vụ có thể thay đổi vì nhận thức của mọi người có thể bị ảnh hưởng bởi vị trí hoặc nhận thức về chủng tộc và bản sắc của chính họ.
Phương pháp của Sony hoàn toàn tự động và không cần sự phán xét của con người. Nhưng Monk của Harvard đặt câu hỏi liệu điều đó có tốt hơn không. Các phương pháp đo lường khách quan như của Sony có thể đơn giản hóa hoặc bỏ qua những vấn đề phức tạp khác về tính đa dạng của con người. Ông nói: “Nếu mục tiêu của chúng tôi là loại bỏ thành kiến và thành kiến là một hiện tượng xã hội, thì tôi không chắc chúng ta nên loại bỏ khỏi phân tích cách con người nhìn nhận màu da về mặt xã hội”.