Measuring Diversity
検索・ランキング・レコメンドなどのシステムは、大量のデータセットから有用な情報を見つけるのに役立ちます。しかし、それらのデータセットには社会のバイアスが反映されており、システムがその偏りを再生産してしまうリスクがあります。たとえば白人男性以外の人が「CEO pictures」と検索して白人男性ばかりの結果を見れば、「CEO は白人男性だけだ」と感じてしまい、企業の経営層における代表性の欠如をさらに助長するかもしれません。
最新の論文 Diversity and Inclusion Metrics in Subset Selection で提案された定量化手法を使えば、こうしたバイアスを測定し、システムにより幅広い結果を返すよう促すことができます。
数式だけで理解するのは難しいので、抽象的な図形を使って考えてみましょう。
例えば、元の図形の分布を反映して 30% の緑の四角 を返したいとしましょう。下の図形をクリックして選択してみてください。より良いサブセットを見つけられるでしょうか?
もうひとつ意識したい多様性指標は、点の割合です。35% の点 にどれくらい近づけるでしょうか?
ひとつのサブセットしか返せない場合はどう考えればよいでしょうか。すべての指標で差をゼロにするのは難しいこともあります。自然なアプローチのひとつは、全指標の差の平均値が最小になるような選択を見つけ、目標値に総合的に近づけることです。
状況によっては、スピーカーを選ぶようなシナリオで特定のカテゴリだけ極端に偏らないようにするほうが重要かもしれません。その場合は、差の最大値が最小になるサブセットを選ぶ方法が有効です。どちらの指標でも最小化を試してみてください。
平均を最小化したときと最大を最小化したときで選ばれるサブセットが違うことに注目してください。どちらを使うかで他にはどんな違いが生まれるでしょうか?
平均差と最大差によるランキングを見ると、さらに詳細が分かります。下には 10 個の図形からなる 20 のセットがあり、2 つの指標で並べ替えています。左側のターゲットスライダーを動かし、ランク付けがどう変わるか観察してください。各セットの緑・ドット・小サイズの割合は小さなヒストグラムで表示されています。
極端な設定にすると、指標の選択が大きな違いを生むことが分かります。たとえば緑をすべて返したい場合は、緑のターゲットを 100% に動かしてみましょう。最小差でソートすると緑の数が多い順に並び、残りの指標は同点のときのタイブレークとして働きます。一方、平均差で並べると、緑・ドット・小サイズをよりバランスよく考慮します。
平均差と最大差以外にも多様性指標を組み合わせる方法はあります。例えば 2 つの指標の交差を取って インターセクショナリティ を考慮するやり方です。また、目標と実績の差の絶対値を別の尺度で測ることもできます。たとえば目標を下回る場合を上回る場合より強くペナルティにしたいかもしれません。どの指標を重視し、どのようなデータセットで運用するのかを意識することが重要です。
どのランキング手法も理屈としては正当化できます。どれを採用するかは、データセットや社会的な文脈への理解が欠かせません。
たとえば左側の医師グループはシャツの色にはバリエーションがありますが、性別の多様性は右側よりも低いかもしれません。今回設定したシャツの色と性別のターゲットに対しては、両方のグループで平均差と最大差は同じです。しかし、多くの場面では、衣服の色といった目立たない属性よりも、性別のような社会的に重要な属性で代表性を確保するほうが大切でしょう。
多様なサンプルを選ぶだけでは十分ではありません。Diversity and Inclusion Metrics in Subset Selection は「インクルージョン(包摂性)」の測り方を紹介しています。検索結果の中に自分がきちんと表されていると検索者は感じるでしょうか?
たとえば「建設作業員」の画像ドメインでは、女性の包摂性が欠けたジェンダー多様性の例が見られます。男性的に見える人物は現代的でリアルな建設現場に描かれている一方、女性的あるいはその他のジェンダー表現の人物は、歴史的でノスタルジックな風景やおもちゃ、クリップアート、受動的な姿で描かれがちです。
クエリの文脈や検索者の背景も、結果の質に影響します。「work clothing」で検索した際に、男性向けには多彩な色が表示され、女性向けにはピンクばかりが表示されたら、「女性は職場でもステレオタイプ的な女性らしさを求められる」と感じてしまうかもしれません。ただし「pink women work clothes」といった検索や、検索者自身がピンクを好むと示している場合には、同じ結果が適切になることもあります。
平均から最大への小さな切り替えが、抽象図形の戻り方に大きな違いを生むと確認しました。社会的に重要な属性が絡むとさらに複雑になります。既定値や些細な決定であっても、私たちの優先事項や価値観が反映されてしまいます。どのように多様性と包摂性を測り、どの属性を重視するのかを意識的に考えることが、より公正なシステム設計への第一歩です。
Diversity and Inclusion Metrics の論文には、詳細な指標解説や追加の可視化、Python リファレンス実装が含まれる Colab が用意されています。
一般的な公平性の測り方についても多く研究されていますが、サブセット選択は今も活発な研究分野です。Fairness of Exposure in Rankings は公平性制約を組み込んだランキング手法を提案し、Toward creating a fairer ranking in search engine results は実際の検索結果における多様性バイアスを測定しています。
ユーザーの嗜好を推測するのも難しい課題です。クエリに対するユーザーフィードバックや制御の設計方法については、People + AI Guidebook も参考になります。
Adam Pearce, Dylan Baker, Ellen Jiang, Meg Mitchell*、Timnit Gebru* // 2021 年 3 月
*Google 在籍時の成果
このコンテンツの制作には、Alex Hanna、Carey Radebaugh、Emily Denton、Fernanda Viégas、James Wexler、Jess Holbrook、Ludovic Peran、Martin Wattenberg、Michael Terry、Yannick Assogba、Zan Armstrong の協力を得ました。