Datasets Have Worldviews
形状のデータセットがあると想定します。それらは網掛けまたは網掛けなしのいずれかになります。それは次のようなものです:
各形状を網掛けまたは網掛けなしとして自動的に分類する教師付き機械学習分類器を構築しました。これを「網掛け分類器」と呼びます。
「分類器を実行」をクリックして、モデルのパフォーマンスを確認します。
それは完璧ではありません。いくつかの形状は間違いなく誤分類されています。モデルを改善したいです!
そのためには、モデルが犯している間違いの種類についてもっと知りたいです。
訓練では、各形状の生画像と1つの正解ラベルのみをモデルに与えました:網掛けと網掛けなし。ただし、使用した訓練データの分布、選択したアーキテクチャ、ハイパーパラメータの設定方法など、モデルに関するなんらかの問題により、モデルがいくつかの形状では他の形状よりも優れたパフォーマンスを発揮することになった可能性があります。
実際のところ、形状データの円、三角形、長方形間のバイアスのあるモデルパフォーマンスの問題を引用する多くの論文や記事を見かけました。1つの論文は、形状検出アルゴリズムが三角形でより悪いパフォーマンスを発揮する傾向があることを発見しています。別の記事は、色精度が円の問題であると言っています。そこで、あなたは疑問に思います:あなたのモデルの誤分類にバイアスがありますか?

モデルが円、三角形、長方形全体で同等のパフォーマンスを発揮していることを確認したいので、公平性分析を行うことを決定しました。
ただし、1つの問題があります:どの形状が円、三角形、または長方形であるかを示すラベルがありません。
そこで、データをデータラベラーに送信することを決定しました。

データラベリングチームからのフィードバックを受け取ったところ、正確には円、三角形、または長方形ではない形状をどうするべきか確実ではないとのことです。

不明な形状については、最善の推測を使用させるか、単に「その他」としてラベル付けすることができます。これで、公平性分析をようやく実行できます!
以下は、彼らが見るインターフェースです:
これらの形状をラベル付けする必要があります…
ラベラーの指示に戻って変更した場合、どの形状のパフォーマンスが最も悪いですか?バイアスはどこで見つけますか?
結果は、データ内の形状をどのように分類するかを選択するかどうかにかかっていることに気付きます。
結局のところ、これは円、三角形、長方形だけの世界ではないからです!
別の方法でカテゴリを使用した場合、分類器のパフォーマンスについて何を知ることができますか?
基本的に、すべての形状は…
その他のすべてはラベル付けする必要があります…
異なるカテゴリーごとに、どの形状のパフォーマンスが最も悪いですか?バイアスはどこで見つけますか?
形状を分類する各方法は重要なことについて異なるスタンスを取ります。それぞれが一部の機能をより重要にし、一部の区別を可視にし、他の区別を非表示にし、一部のものを分類しやすくしながら、他のものはアウトライアーになります。
そして、それぞれが分類器にどのようなバイアスがあるかについて、異なる何かを教えてくれます!
同じ結果を見る別の方法があります。破線の上に正しく分類されたすべての形状を描画し、その下に正しく分類されていないすべての形状を描画できます。
同じモデルが同じ形状の同じ分類を行っているため、同じ形状は線の上と下にとどまります。しかし、結果をグループ化する各方法は、誤りを異なる方法で分散します。各方法は異なる何かをあなたに教えてくれます。
分類についての決定、たとえ小さくても…
…他の人の決定を形作り始めます…
…それらはあなたができる分析を形作ります…
…そして、それらは起こる会話の種類を形作ります。
より多くの機能を収集するか、より多くのデータを収集することで、この問題から抜け出す方法を見つけたいのは自然なことです。十分なデータについて十分な詳細があれば、これらの種類の決定を避けることができるでしょう。正しいですか?
残念ながら、そうではありません。周囲の世界を何らかの方法で説明することは、友人に物語を語るか、形状についてコンピューターに語るかに関係なく、伝えるのに重要な情報と、それを伝えるために使用したいツールを選択する必要があります。
それについて考えるかどうかに関係なく、私たちは常に分類についての選択を常にしています。
形状を見たように、これらの選択はすべて一部の機能を他より重要にし、一部の区別を目に見えるようにし、他の区別を非表示にし、一部のものを分類しやすくしながら、他のものはアウトライアーになります。
これが実際の機械学習アプリケーションにどのように展開されるかを詳しく見てみましょう。わかりやすい例は、教師付きオブジェクト検出タスクです。
例えば、このイメージを含むデータセット上でオブジェクト検出モデルを訓練したいと想像してください:

次の正解のバウンディングボックスを与えることができます:

これは客観的に見えますよね?結局のところ、建物は建物であり、茂みは茂みであり、山は山です!
しかし、同じイメージの同じ領域にラベルを付けていても、非常に異なる視点を伝えることができます:

または、以下の画像を検討してください。これは、「正解」ラベルの複数のセットがあります。これらのラベルそれぞれを見ると、考えてください:
どの機能が重要ですか?何がラベル付けされていますか?誰の世界観が現れていますか?別の世界観から学ばないであろう、このラベルセットから何を学ぶかもしれません。
「どこからも見えない見方」はなく、すべてのオブジェクト、単語、または画像を整理する普遍的な方法もありません。データセットは常に特定の時間、場所、および一連の条件の産物です。それらは社会的に位置づけられたアーティファクトです。彼らは歴史を持っています。彼らは政治を持っています。そして、この事実を無視することは非常に現実的な結果をもたらしています。
それでは、この情報をどのようにするのですか?
開始するのに最適な場所は、自分のコンテキストについて反映し、データについて好奇心を持つことです。
データセットの値を見るのが難しい場合、つまり「客観的」、「普遍的」、または「中立的」に感じる場合は、単に慣れている世界観を反映しているだけかもしれません。したがって、あなた自身の世界観の制限を理解することは、「客観的」データの制限についてあなたに知らせることができます。世界についてどのような仮定をしていますか?何が常識のように感じますか?何が奇妙に感じられますか?
そして、データについて調査してください!誰がこのデータを集めましたか?なぜそれが集められたのですか?誰がそれのために支払ったのですか?「正解」はどこから来たのですか?
あなた自身機械学習データセット開発を支える仮定の種類を疑問に思うことや、分類全体についてさらに深く考えることさえわかるかもしれません。
自分自身が多くの質問を見つけた場合、あなたはすでに良いスタートを切っています。
Dylan Baker // January 2022
このピースの作成をサポートしてくれた、Adam Pearce、Alex Hanna、Emily Denton、Fernanda Viégas、Kevin Robinson、Nithum Thain、Razvan Amironesei、Vinodkumar Prabhakaranに感謝します。