Nghiên cứu "A Crowdsourcing Methodology to Measure Algorithmic Bias in Black-box Systems"

Dịch ra Tiếng Việt Là

Phương pháp nguồn lực cộng đồng để Đo lường độ chệch của thuật toán trong hệ thống hộp đen: Một nghiên cứu điển hình với các Tìm kiếm liên quan đến COVID⋆

Báo cáo

Báo cáo tại 44th European Conference on Information Retrieval - ECIR 2022

Ngày 10-14 April 2022 | Stavanger, Norway

Các tác giả đồng nghiên cứu

Damiano Spina - Đại Học RMIT Melbourne, Australia

Falk Scholer -  Đại Học RMIT Melbourne, Australia

Hui Chia - Đại Học Melbourne University Melbourne, Australia

Giới thiệu ngắn - Abstract

Commercial software systems are typically opaque with regard to their inner workings. This makes it challenging to understand the nuances of complex systems, and to study their operation, in particular in the context of fairness and bias. We explore a methodology for studying aspects of the behavior of black box systems, focusing on a commercial search engine as a case study. A crowdsourcing platform is used to collect search engine result pages for a pre-defined set of queries
related to the COVID-19 pandemic, to investigate whether the returned search results vary between individuals, and whether the returned results vary for the same individual when their information need is instantiated in a positive or a negative way. We observed that crowd workers tend to obtain different search results when using positive and negative query wording of the information needs, as well as different results for the same queries depending on the country in which they reside. These results indicate that using crowdsourcing platforms to study system behavior, in a way that preserves participant privacy, is a viable approach to obtain insights into black-box systems, supporting research investigations into particular aspects of system behavior.

Các hệ thống phần mềm thương mại thường không rõ ràng về hoạt động bên trong của chúng. Điều này gây khó khăn cho việc hiểu các sắc thái của các hệ thống phức tạp và nghiên cứu hoạt động của chúng, đặc biệt là trong bối cảnh công bằng và thiên vị. Chúng tôi khám phá một phương pháp để nghiên cứu các khía cạnh về hoạt động của hệ thống hộp đen, tập trung vào một công cụ tìm kiếm thương mại như một nghiên cứu điển hình. Nền tảng nguồn cung ứng cộng đồng được sử dụng để thu thập các trang kết quả của công cụ tìm kiếm cho một tập hợp các truy vấn được xác định trước liên quan đến đại dịch COVID-19, để điều tra xem kết quả tìm kiếm trả về có khác nhau giữa các cá nhân hay không và liệu kết quả trả về có khác nhau đối với cùng một cá nhân khi nhu cầu thông tin của họ được cung cấp theo cách tích cực hay tiêu cực hay không. Chúng tôi quan sát thấy rằng nhân viên đám đông có xu hướng nhận được các kết quả tìm kiếm khác nhau khi sử dụng từ ngữ truy vấn tích cực và tiêu cực về nhu cầu thông tin, cũng như các kết quả khác nhau cho cùng một truy vấn tùy thuộc vào quốc gia mà họ cư trú. Những kết quả này chỉ ra rằng việc sử dụng nền tảng nguồn cung ứng cộng đồng để nghiên cứu hành vi của hệ thống, theo cách bảo vệ quyền riêng tư của người tham gia, là một cách tiếp cận khả thi để có được thông tin chi tiết về hệ thống hộp đen, hỗ trợ điều tra nghiên cứu về các khía cạnh cụ thể của hành vi hệ thống.

Download

Bạn có thể xem chi tiết bài nghiên cứu tại đây