Saliencyで意図しないバイアスを探す

Searching for Unintended Biases With Saliency

機械学習モデルは、自動運転車の操舵や医療スキャンからの癌組織の検出など、高リスクのタスクに使用されます。訓練データに疑似相関1がある場合、モデルは意図しないバイアスを発展させる可能性があり、これは誤りにつながる可能性があります。このポストでは、モデルが決定を下す方法の説明を求めることで、これらのバイアスを検出するための技術を探ります。

このポストでは、画像が猫 🐱 なのか犬 🐶なのかを検出するために訓練された単純な分類モデルのペアを通じて、この現象を探ります。

以下は、50個の画像のテストセットに対する両モデルの予測2です。ユーザーにデプロイするのに、どちらのモデルが優れていると思いますか？

大きな違いはありません。実世界の設定では、どのモデルがより良いパフォーマンスを発揮するかは言い難いです。これら2つのモデルを区別するために、別の画像コレクションを使用して、予測が訓練データセットの疑似相関から意図しないバイアスを持っているかどうかを確認しましょう。

ほぼすべての場合で、モデルBは画像が犬であると予測しています！

最初の一連の画像を詳しく見ると、猫と犬の画像の間に小さいが重要な違いがあります。

すべての猫画像の隅にウォーターマークがあり、モデルBは猫ではなくウォーターマークを検出することを学習したようです。実際のところ、ウォーターマークモデルと呼ぶモデルBは、猫がウォーターマークを持つデータセットで訓練され、ウォーターマークを猫に関連付けるバイアスを拾いました。モデルAはウォーターマークのない画像の猫を正しく認識し、ショートカットを使用しているようには見えません。通常のモデルと呼ぶこのモデルは、ウォーターマークのない画像で訓練されたため、ウォーターマークショートカットを拾いませんでした。デプロイするにははるかに優れた選択肢となります。

この人為的な例では、不偏データセットへのアクセス権を持っていたので幸運でした。これにより、モデルBのパフォーマンスが非常に悪い理由を説明するための予備的な仮説を形成することができました。しかし、不偏データセットがない場合はどうでしょう？

次に、モデルが画像のどの領域に依存しているかを示すツールセットを見ていきます。ウォーターマークのようなものが猫と犬を区別するために使用されているかどうかを確認した場合、モデルの潜在的な問題についていくつかの洞察を得ることができます。

オクルージョン

モデルが画像のどの部分を使用しているかを知るにはどうすればよいですか？1つの単純な方法は、画像の一部を黒いボックスでオクルージョンし、モデルの予測がどのように変わるかを確認することです。

この猫の異なる部分にマウスを置いてみてください。ウォーターマークモデルが犬を予測させるために何を隠す必要がありますか？通常のモデルではどうですか？

左下隅がカバーされている場合、ウォーターマークモデルの予測が変わります。これは、モデルが疑似相関に依存していることの証拠を提供します。

ただし、各ボックスを手動でチェックするのは遅いです。代わりに、ボックスを1つずつ自動的にチェックし、結果を画像に重ねることで、処理を高速化できます。

オクルージョンはモデルの推論に関する予備的な説明を与えてくれますが、完全にはほど遠いです。高い解像度では、ウォーターマークモデルの左下をハイライトしません。これは、オクルージョンが単一のボックスをカバーする効果のみを示し、複数のボックスが同時にオクルージョンされた場合に何が起こるかを考慮していないためです。

オクルージョンベースの方法は、計算能力もかなり必要です。グリッド内のセルを非表示にするたびにモデルを再実行する必要があり、グリッドの解像度が増加すると時間がかかります。

勾配を活用する

機械学習研究者は、モデルの意思決定を視覚化するための様々な技術を開発しました。1つのアプローチセットは、モデルの視点から最も「顕著な」画像領域を決定し、オーバーレイされたオクルージョン予測に似たsaliencyマップを生成しようとします。それらは通常、画像に対するモデルの予測の勾配を取ることに基づいています。

勾配は、個々の入力画像機能（つまり、ピクセルのRGB値）に小さな正の変更を適用した場合に予測がどのように変わるかについての情報を提供し、すべての画像機能に対してこれを同時に行います。この同時性により、saliencyマップは上記のオクルージョン方法よりもはるかに計算集約的になります。

勾配をより良く理解するために、下の画像は、各ピクセルを変更するとモデルの予測「猫」がどのように変わるかを示しています。変更がモデルに画像が猫であると考えさせる可能性が高い場合、上矢印を使用します。矢印が太いほど、その特定のピクセルを変更するための勾配の変化が大きくなります。大きな違いを生む画素を「顕著」と呼びます。

単純な勾配ベースの方法は、saliencyがモデル勾配のみによって決定されるため、バニラ勾配と呼ばれることがよくあります。その後の仕事は、saliencyマップの説得力を向上させるために、異なる方法で勾配を変換することでこのアプローチに基づいて構築されています。

その後の視覚化では、ピクセルとしてsaliencyマップを計算し、白は顕著なピクセル（予測に最も影響する）を示し、黒は非顕著性を示します。以下のサムネイル画像の上にカーソルを置いて、2つのモデルのバニラ勾配saliencyマップがどのように見えるかを確認してください。

ご覧のとおり、バニラ勾配法はやや騒々しい傾向があります。

バニラ勾配のアプローチに対して、ノイズを減らすためにいくつかの単純な変換が可能です。簡単なものは勾配の正方形を取ることで、3より高い値を強調し、勾配の大きさに焦点を当て、方向を無視します。4

通常のモデルでは、saliencyマップは画像のさまざまな機能（猫と犬の予測に関連する可能性のある目、鼻、体形など）をハイライトしますが、解釈するのは非常に困難です。

ウォーターマークモデルのsaliencyマップが、ウォーターマーク付きおよびウォーターマークなしの猫🐱および犬🐶の画像で検出するものを詳しく見てみましょう：

ウォーターマークモデルがどのように決定を下すかを忠実に反映するために、saliencyマップはウォーターマークのない画像でもウォーターマーク領域をハイライトすると予想するかもしれません。これは一般的なケースですが、特にバニラ勾配では、saliencyマップはウォーターマークのない画像ではあまり正確ではなく、より騒々しいです。

より微妙なバイアス

バイアスがもっと明白でなかった場合はどうでしょう？単純なピクセルベースのsaliencyマップでもそれをピックアップしますか？

ウォーターマークモデルは、すべての猫画像がウォーターマークされたバイアスデータセットで訓練されました。しかし、バイアスは通常、より微妙です。訓練セットの100％に影響することはめったにありませんが、より散発的に現れることがよくあります。

以下は、50％の猫画像がウォーターマークされたデータセットで訓練されたモデルです。

モデルが予測にウォーターマークを使用することがある場合があります。これは、それが作成する誤りから見ることができますが、saliencyマップでどの程度検出されていますか？

単純なメトリックでウォーターマークをフラグしてのsaliencyマップの効果を定量化できます。つまり、ウォーターマーク領域内に位置する「顕著な」ピクセルの割合です。5このアプローチのレシピは：（1）疑わしい疑似相関6（ウォーターマーク）を含む最小の長方形を取ります（2）saliencyマップから高い勾配値をすべて選択します（「非常に白い」ピクセル）7（3）これらの値のいくつがウォーターマークの長方形にあるかを数えます。

以下の図で、4つの異なるテストデータカテゴリーに対してこのアプローチを実装しました。各円はそのカテゴリーに属する別の画像に対するモデル予測を表しています。ドットの上にマウスを置いて、対応する画像とsaliencyマップを表示します。

0％モデルは、訓練データの猫画像のいずれもウォーターマークを持つ場所です。私たちの通常のモデルです。猫の画像（左象限）はすべて猫として正しく分類されます。ほぼすべての犬画像（右象限）は犬として正しく分類されます。

100％モデルは、訓練データのすべての猫画像がウォーターマークを持つ場所は、ウォーターマークモデルです。当然のことながら、モデルが左下と右上の象限を誤分類して多くの間違いを犯していることが分かります。チャート上のポイントはx軸の右端に移動し、ほとんどの高salient性ピクセルが画像のウォーターマーク領域にあることを示し、モデルがこれらの誤りを起こす理由を理解するのに役立ちます。ただし、ウォーターマークのない画像では、ウォーターマークはあまり明確にハイライトされていません。左下象限のいくつかのsaliencyマップは、画像が誤分類されましたが、ウォーターマークをまったく拾わないでください。

バイアスが訓練セットではより散発的である場合（例えば、50％の猫画像のみに影響する場合）、特にウォーターマークのない画像を見ると、saliencyマップを使用して疑似相関を検出することはさらに難しくなります。右上の象限では、誤分類された犬の最も顕著な機能がウォーターマーク領域にあります。ただし、左下の象限では、多くの猫画像がウォーターマークを持たないため、おそらく犬として誤分類されていますが、ほとんどのsaliencyマップは実際にウォーターマーク領域をハイライトしていません。それはsaliencyマップの1つの制限です。彼らは欠けているものをハイライトするのが得意ではありません。

バイアスの他の形式

疑似相関はさまざまな形をとることができ、通常はウォーターマークよりも微妙です。単純なsaliencyマップは他の形式のバイアスについて警告できますか？

以下の図では、4つの入力画像に3つの「ミステリーモデル」のsaliencyマップがあります。

いずれかのモデルが疑似相関に依存しているかどうかを認識できますか？もしそうなら、どれですか？心に決めたら、列のタイトルをクリックして、モデルの特性を明かしてください。

saliencyマップだけでバイアスを検出することがいかに困難かおそらくに気付いたでしょう。

たとえば、「ミステリーモデル2」は動物の色に依存して予測を行いますが、このモデルのsaliencyマップは動物の顔と体をハイライトしているようで、おそらく人間が意味のあると考えるものと一致しています。この場合、saliencyマップは害よりも多くの害をもたらす可能性さえあります。彼らはあなたがこのモデルが関連する機能に基づいて正しい決定を下していると考えているとあなたを誤解させた可能性があります。

saliencyマップが疑似信号を正しく示すことができても、何を探しているかわからない場合、これらの信号を見ることは困難です。いくつかの管理された実験では、Adebayo他がsaliencyマップ8が特定の未知の疑似相関を検出するのに人々を支援できないことを発見しました。

モデルが決定を下す理由を理解することはモデルを信頼することにとって重要ですが、説明自体をどの程度信頼できるかも重要な質問であり、オープンな研究トピックです。このポストで、saliencyマップはデータセットのいくつかのバイアスを検出するのに役立つが、訓練セットでより微妙で散発的である場合にバイアスを見ることは困難です。モデルがその決定を下すために使用または悪用している機能についての洞察を与えることができますが、saliencyマップは単にモデルについて結論を引き出すのに役立たないことがあります。

一般的に、訓練データを徹底的に理解することは常に役立ちます。データを知るやLITなどのツールは、研究者、エンジニア、プロダクトチーム、ポリシーチームがデータセットとモデル予測を調査し、データ品質を向上させ、バイアス問題を軽減するのに役立ちます。

さらに、複数の種類の解釈可能性の方法を使用して分析を補充することで、エラーを検出する可能性が向上します。以下のセクションでは、他の有用な解釈可能性の方法のいくつかの例を提供します。

シンプルなSaliency法を超えて

このポストで提示されたシンプルな技術を超えて、無数の他のsaliency法が存在します。それらは広く分けられています3つのカテゴリーに。感度方法、バニラ勾配など、入力への小さな変更が予測にどのように影響するかを示します。信号方法、DeConvNetまたはガイド付きBackPropなど、ニューロン活性化をモデル内で調べて、入力機能の重要性を属性化します。最後に、属性化方法、統合勾配 9およびSHAPは、すべての入力機能の属性化を完全に指定することを目的としているため、出力に合計されます。

Saliency法は、テキストなどの他の種類のデータに適用できます。saliencyマップをより「人間が解釈可能な」にすることに焦点を当てた研究もあります。個々のピクセルを見ることは人々にとって難しく、解釈するのが困難であるため、XRAIおよびLIMEなどの技術は、代わりに画像の最も重要な領域をハイライトするマップを作成します。

解釈可能性の研究が常に新しい方法を生み出している一方で、補完的な仕事の行は、それらの制限を批判的に検査し、測定することに専念しています。Saliency MapsのSanity Checksは、期待どおりに動作することを確認するためのsaliencyマップ上の異なる実験を提示します。

さらに、解釈可能性の研究スペースはsaliency法に制限されていません。たとえば、影響方法（訓練データ属性化とも呼ばれる）は、どの訓練データポイントが特定の入力と出力のモデルの動作の原因である可能性があるかを示唆しています。影響方法の最先端の例は、このペーパー、このペーパーまたはこのペーパーです。

研究者はまた、モデルの内部表現を人間の概念にマッピングすることも探索しています。自然言語ドメインでは、Bolukbasi他。概念間の関係を使用して、単語埋め込みのバイアスを削減しました。最近では、Kim他は画像モデルのための人間が指定したラベルの使用を普及させ、「ひげ」や「爪」などの高レベルの概念のための分類器の作成を可能にしました。

クレジット

Astrid Bertrand、Adam Pearce、Nithum Thain // December 2022

このポストを支援してくれた、Ben Wedin、Tolga Bolukbasi、Nicole Mitchell、Lucas Dixon、Andrei Kapishnikov、Blair Bilodeau、Been Kim、Jasmijn Bastings、Katja Filippova、Seyed Kamyar Seyed Ghasemipourに感謝します。

以下のようにお引用ください：

Astrid Bertrand、Adam Pearce、Nithum Thain。「Saliencyで意図しないバイアスを探す」PAIR Explorables、2022年。

BibTeX：

@article{bertrand2022saliency,
   title={Searching for Unintended Biases with Saliency},
   author={Bertrand, Astrid and Pearce, Adam and Thain, Nithum},
   year={2022},
   journal={PAIR Explorables},
   note={https://pair.withgoogle.com/explorables/saliency/}
}

画像はPexelsおよびKaggleから。

脚注

「疑似相関」は、2つの変数が相関しているが、因果関係を持たない場合を示す用語です。私たちの場合、ウォーターマークと猫は疑似相関しています。

信頼度スコアも表示されています。

バニラ勾配の二乗を取ることで、ノイズの少ない画像が生成されます。

バニラ勾配を「デノイズ」するために、より洗練された他の方法が存在します。例えば、SmoothGrad（Smilkov et al.、2017）は不完全なコピーを通じて分散を減らします。この技術は、ノイズが追加された入力画像のいくつかのコピーのsaliencyマップを取得し、それらを平均化することで構成されています。

この図では、勾配二乗法を使用してこのモデルのsaliencyマップを視覚化します。

saliencyマップを評価するために使用できる他の測定値があります。「既知の疑似信号検出尺度」（K-SSD）は非常に似ています。それは、疑似モデルから導出されたsaliencyマップと、厳密に疑似信号がハイライトされている画像の類似性を測定します。「誤報警報尺度（FAM）」は、疑似入力の通常のモデルから導出された説明と同じ入力の疑似モデルから導出された説明の類似性を測定します。完全な定義についてはAdebayo et al、2022を参照し、セマンティック機能空間でのsaliencyマップの埋め込みを使用した類似性測定の実装についてはDenain et al.、2022を参照してください。

最上位の0.5%の勾配値を取ります。このようにしか取らない理由は、勾配値のほとんどが0に非常に接近しているためです（saliencyマップで黒で表示）。最大値に近いのはごくわずか（0.5%）です。

50%の場合のように、モデルが動物とウォーターマーク機能の両方を使用する場合など、モデルに複数の真実のソースがある場合、モデルは予測を行うために1つのタイプの機能のみを必要とするかもしれません。これは、時々ウォーターマークに注意を払わず、代わりに訓練中に学習した他の重要な機能を考慮する可能性があることを意味します。したがって、ウォーターマークのない画像の場合、モデルは本当に猫を犬と推測するかもしれません。ウォーターマークがなかったからではなく、訓練が不十分だからです。

以下のsaliency法を使用しました：入力勾配、SmoothGrad、統合勾配（IG）、およびガイド付きBackprop（GBP）。

このポストを参照してください。これは、統合勾配法についてさらに詳しく説明しています。

参考文献

Adebayo, Julius, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt, and Been Kim. “Sanity Checks for Saliency Maps.” arXiv, November 6, 2020. https://doi.org/10.48550/arXiv.1810.03292. Adebayo, Julius, Michael Muelly, Harold Abelson, and Been Kim. “Post Hoc Explanations May Be Ineffective for Detecting Unknown Spurious Correlation,” 2022. https://openreview.net/forum?id=xNOVfCCvDpM. Akyürek, Ekin, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, and Kelvin Guu. “Towards Tracing Factual Knowledge in Language Models Back to the Training Data.” arXiv, October 25, 2022. http://arxiv.org/abs/2205.11482. Bastings, Jasmijn, Sebastian Ebert, Polina Zablotskaia, Anders Sandholm, and Katja Filippova. “‘Will You Find These Shortcuts?’ A Protocol for Evaluating the Faithfulness of Input Salience Methods for Text Classification.” Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022. https://doi.org/10.48550/arXiv.2111.07367. Bolukbasi, Tolga, Kai-Wei Chang, James Zou, Venkatesh Saligrama, and Adam Kalai. “Man Is to Computer Programmer as Woman Is to Homemaker? Debiasing Word Embeddings.” arXiv, July 21, 2016. https://doi.org/10.48550/arXiv.1607.06520. Denain, Jean-Stanislas, and Jacob Steinhardt. “Auditing Visualizations: Transparency Methods Struggle to Detect Anomalous Behavior.” arXiv, June 27, 2022. http://arxiv.org/abs/2206.13498. Kapishnikov, Andrei, Tolga Bolukbasi, Fernanda Viégas, and Michael Terry. “XRAI: Better Attributions Through Regions.” arXiv, August 20, 2019. https://doi.org/10.48550/arXiv.1906.02825. Kim, Been, Martin Wattenberg, Justin Gilmer, Carrie Cai, James Wexler, Fernanda Viegas, and Rory Sayres. “Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV).” arXiv, June 7, 2018. https://doi.org/10.48550/arXiv.1711.11279. Koh, Pang Wei, and Percy Liang. “Understanding Black-Box Predictions via Influence Functions.” arXiv, December 29, 2020. https://doi.org/10.48550/arXiv.1703.04730. Lundberg, Scott, and Su-In Lee. “A Unified Approach to Interpreting Model Predictions.” arXiv, November 24, 2017. https://doi.org/10.48550/arXiv.1705.07874. Pruthi, Garima, Frederick Liu, Satyen Kale, and Mukund Sundararajan. “Estimating Training Data Influence by Tracing Gradient Descent.” In Advances in Neural Information Processing Systems, 33:19920–30. Curran Associates, Inc., 2020. https://proceedings.neurips.cc/paper/2020/hash/e6385d39ec9394f2f3a354d9d2b88eec-Abstract.html. Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “‘Why Should I Trust You?’: Explaining the Predictions of Any Classifier.” arXiv, August 9, 2016. http://arxiv.org/abs/1602.04938. Schioppa, Andrea, Polina Zablotskaia, David Vilar, and Artem Sokolov. “Scaling Up Influence Functions.” Proceedings of the AAAI Conference on Artificial Intelligence 36, no. 8 (June 28, 2022): 8179–86. https://doi.org/10.1609/aaai.v36i8.20791. Simonyan, Karen, Andrea Vedaldi, and Andrew Zisserman. “Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps.” arXiv, April 19, 2014. https://doi.org/10.48550/arXiv.1312.6034. Smilkov, Daniel, Nikhil Thorat, Been Kim, Fernanda Viégas, and Martin Wattenberg. “SmoothGrad: Removing Noise by Adding Noise.” arXiv, June 12, 2017. https://doi.org/10.48550/arXiv.1706.03825. Springenberg, Jost Tobias, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. “Striving for Simplicity: The All Convolutional Net.” arXiv, April 13, 2015. http://arxiv.org/abs/1412.6806. Sundararajan, Mukund, Ankur Taly, and Qiqi Yan. “Axiomatic Attribution for Deep Networks.” arXiv, June 12, 2017. https://doi.org/10.48550/arXiv.1703.01365. Zeiler, Matthew D., and Rob Fergus. “Visualizing and Understanding Convolutional Networks.” arXiv, November 28, 2013. https://doi.org/10.48550/arXiv.1311.2901. Zhou, Yilun, Serena Booth, Marco Tulio Ribeiro, and Julie Shah. “Do Feature Attribution Methods Correctly Attribute Features?” arXiv, December 15, 2021. http://arxiv.org/abs/2104.14403.