公平性を測る

異なる人々のグループに対して、モデルが同じようにうまく機能しているとどうやって確かめればよいでしょうか？　実は多くの状況では、想像以上に難しい課題です。

というのも、モデルの精度の測り方にはさまざまな指標があり、それらすべてをグループ間で同時に等しくすることは、数学的に不可能な場合が多いからです。

ここでは架空の医療モデルを作り、病気のスクリーニングに使ってみることで、その難しさを見ていきます。

この人たちの約半分は実際に病気を患っています a。残りの半分は健康です b。

理想的な世界では、病気の人だけが陽性になり、健康な人だけが陰性になるはずです。

しかし、モデルや検査は完璧ではありません。

病気の人を健康だと誤判定することがあります c。

その逆に、健康な人を病気だと判定してしまうこともあります f。

簡単な追検査があるなら、モデルを攻め気味に設定して、病気を見逃すケースをほとんどなくすという方法が考えられます。

これは、病気の人 a のうち陽性と判断される割合 gで定量化できます。

一方で、追加の検査ができない場合や、治療に使う薬に限りがある場合には、陽性と判定された人のうち、実際に病気である割合 gを重視したくなるかもしれません。

こうした指標の選択やトレードオフは目新しい話ではありませんが、病気の診断をどれだけ厳しく行うかを細かく調整できるようになると、改めて重要性が浮かび上がります。

モデルがどれくらい積極的に病気を診断するか、スライダーで試してみてください

モデルが異なるグループを公平に扱っているかを確認すると、状況はさらに複雑になります。¹

どの指標を重視するにしても、異なる人々のグループ間でその値が大きく偏らないようにしたいところです。

たとえば資源を均等に配りたい場合、子どものほうが大人より多く見逃されるようなモデルでは困ります！ ²

よく見ると、子どものほうが病気にかかっている人が多いことがわかります。つまり、グループごとに病気の「ベースレート」（基礎発生率）が異なっています。

ベースレートが違うと、状況は驚くほど厄介になります。たとえば、検査で病気の大人と子どもを同じ割合でとらえていたとしても、陽性になった大人が病気である確率は、陽性になった子どもより低くなってしまいます。

なぜ大人と子どもで診断の偏りが生まれるのでしょうか？　健康な大人の割合が高いため、検査の誤判定によって陽性とされる健康な大人が、健康な子どもより多くなってしまうからです（陰性の誤判定でも同様です）。

これを是正するには、モデルに年齢を考慮させるという方法があります。

スライダーを動かして、子どもより大人の診断を控えめにしてみましょう。

これでひとつの指標は揃えられますが、今度は病気の大人が診断されにくくなってしまいます。

どれだけスライダーを操作しても、両方の指標を同時に公平にすることはできません。ベースレートが異なり、テストが完璧でない限り、これは避けられないのです。

公平性を数学的に定義する方法は複数ありますが、そのすべてを満たすことは通常できません。³