隠れたバイアス

大学 GPA を予測する

Hidden Bias

大学入試の担当者になったつもりで、学生が入学後にどれくらいの GPA を取るかを予測してみましょう（ここではシミュレーションしたデータを使います）。

もっとも単純な方法は、高校時代の GPA と同じ値を大学の GPA として予測することです。

しかしこれは大まかな近似に過ぎず、このデータセットの重要な特徴を見逃しています。多くの学生は高校のほうが大学より成績が良いのです。

その結果、大学での成績を過大に予測することのほうが、過小に予測するよりもずっと多くなってしまいます。

機械学習で予測すると

ここで機械学習モデルを使い、学生の成績データを入力すると、モデルはこのパターンを認識して予測値を調整します。

モデルは高校と大学の評価の違いといった現実世界の文脈を知らなくても、この調整を行います。

学生についての情報を増やすほど、予測の精度は高まっていきます…

…さらに高まります。

モデルは過去のバイアスを抱え込む

学生に関する機微な情報も、モデルにとっては数値の長い並びに過ぎません。

もし過去に性差別的な大学文化があって女性の成績が低く抑えられていたなら、モデルはその相関を学習し、女性の成績を低く予測してしまいます。

歴史的なデータで学習すると、歴史的なバイアスがそのまま埋め込まれてしまいます。たとえ現実の文化が改善されていても、モデルは過去の相関を覚えているため、いまだに男性の成績を高く予測してしまうのです。

属性を隠しても差別がなくなるとは限らない

モデルに学生の性別を知らせなかったとしても、女性の評価を低く見積もる可能性があります。

十分に詳細な情報がそろっていれば、モデルは他の変数から性別の代理変数を作り出してしまうのです。

あえて属性を加えることで差別を減らせる場合もある

次に、卒業生インタビューの推薦だけを考慮する単純化したモデルを見てみましょう。

インタビュアーは概ね正確ですが、低所得の学生には偏見を持って評価しています。

このおもちゃモデルでは、学生が大学に入ってしまえば成績は収入に依存しません。つまり、入力がバイアスを含んでいる一方で、アウトカムにはバイアスがありません。先ほどの例とは逆で、先ほどは入力に偏りがなく、毒性のある文化がアウトカムを歪めていました。

ここでモデルにも学生の世帯収入を知らせると、モデルは高校と大学の GPA の差を補正したときと同じように、高所得の学生を過大評価してしまう傾向を自然と補正します。

バイアスを丁寧に見極めて補正すれば、モデルをより公平かつ正確にできます。とはいえ、これは簡単ではありません。とくに過去の有害な大学文化のように、バイアスのないデータが乏しい状況ではなおさらです。

そもそも公平性には避けられないトレードオフがあります。どんなトレードオフが起きるのかは Measuring Fairness のエクスプローラブルで確認してみてください。

Adam Pearce // 2020 年 5 月

Carey Radebaugh、Dan Nanas、David Weinberger、Emily Denton、Emily Reif、Fernanda Viégas、Hal Abelson、James Wexler、Kristen Olson、Lucas Dixon、Mahima Pushkarna、Martin Wattenberg、Michael Terry、Rebecca Salois、Timnit Gebru、Tulsee Doshi、Yannick Assogba、Yoni Halpern、Zan Armstrong をはじめ、Google の同僚たちに感謝します。