Why Some Models Leak Data
サッカーの試合を見てみましょう。
各選手の位置を訓練データとして使用することで、フィールド上の各スポットで、どのチームが最初にルーズボールに到達するかを予測するモデルを構築できます(色で示されています)。
リアルタイムで更新されます。選手を移動させてモデルの変化を見てください。
このモデルは、それを訓練するのに使用されたデータについて多くのことを明らかにしています。選手の実際の位置がなくても、選手がどこにいるかを推測するのは簡単です。
このボタンをクリックして
黄色いチームのゴールキーパーがどこにいるか推測してから、実際の位置を確認してください。どのくらい近かったですか?
この特定のサッカーの例では、モデルが訓練に使用したデータについて推測できることはそれほど重要ではありません。しかし、データポイントがより機微な情報を表している場合はどうでしょう?
同じ数値をモデルに入力しましたが、今回はサッカーデータではなく給与データを表しています。このようなモデルの構築は、差別を検出するための一般的な技術です。労働組合は、勤続年数を考慮した給与モデルを構築することで、企業が男女に対して公平に給与を支払っているかどうかを検査することができます。その後、結果を公開して、変化の圧力をかけたり改善を示したりすることができます。
この仮説的な給与研究では、個別の給与が公開されていなくても、最新の男性雇用者の給与を簡単に推測できます。LinkedInの公開された開始日とモデルを慎重に相互参照することで、ほぼ完璧に全員の給与を明かすことができます。
ここのモデルは非常に柔軟です(独立して計算された予測を持つ数百の正方形パッチがあります)し、データポイントが非常に少ないため(22人だけ)、個別のデータポイントを「記憶」することができます。給与パターンに関する情報を共有したい場合、線形回帰のようなより単純で制約されたモデルがより適切かもしれません。
22個のデータポイントを2つの直線に圧縮することで、誰の給与も推測できることなく、広い傾向を見ることができます。
しかし、複雑さの除去は完全な解決策ではありません。データの分布方法によっては、単純な直線でさえ意図せず情報が明かされる可能性があります。
この会社では、ほぼすべての男性が数年前に開始したため、直線の勾配は新入社員の給与に特に敏感です。
彼らの給与は平均より?直線に基づいて、かなり良い推測ができます。
より一般的な勤続年数を持つ人の給与を変更しても、直線がほとんど動かないことに注意してください。一般的に、より典型的なデータポイントはより漏えいの影響を受けません。これは難しい妥協をもたらします。モデルがエッジケースから学習し、個別のデータポイントを記憶していないことを確実にしたいのです。
実世界のデータのモデルはしばしば非常に複雑です。これにより精度が向上する可能性がありますが、予期しない情報漏えいの影響を受けやすくなります。医療モデルは意図せず患者の遺伝的マーカーを明かしています。言語モデルはクレジットカード番号を記憶しています。画像モデルから顔まで再構成することができます:

Fredrikson他は、顔認識APIを繰り返しクエリすることで左側の画像を抽出することができました。個人の実際の顔(右側)と完全に一致するわけではありませんが、この攻撃は、モデルの内部状態ではなく、モデルの予測へのアクセスのみが必要でした。
差分プライバシーを使用してモデルを訓練することで、モデルが任意の1つのデータポイントから学習できる量を制限することで、訓練データの漏えいを防ぎます。差分プライベートモデルはまだ研究の最前線にありますが、機械学習フレームワークにパッケージされており、使用がはるかに簡単になっています。差分プライベートモデルの訓練が不可能な場合、モデルがどれだけのデータを記憶しているかを測定できるツールもあります。また、集約や単一のソースが寄与できるデータの量を制限するなどの標準的な手法は、まだ有用であり、通常はモデルのプライバシーを向上させます。
機微情報の収集の探索可能性で見たように、新入社員のようなアウトライアーを保護するために差分プライバシーで十分なランダムノイズを追加することで、良好な精度レベルに達するために必要なデータの量を増やす可能性があります。アプリケーションによっては、差分プライバシーの制約がモデルを改善する可能性さえあります。例えば、1つのデータポイントから多すぎることを学習しないことは、過剰適合の防止を支援できます。
機械学習モデルが多くの実世界のタスクにますます役立つようになるにつれて、より多くのシステム、デバイス、アプリが将来、ある程度、機械学習によって駆動されることは明らかです。非機械学習システムのために開発された標準的なプライバシーのベストプラクティスは機械学習を備えたシステムに引き続き適用されますが、機械学習の導入は、特定の訓練データポイントを記憶するモデルの能力など、新しい課題をもたらします。幸いなことに、差分プライバシーなどの手法が存在し、この特定の課題を克服するのに役立つ可能性があります。責任あるAIの他の領域と同様に、機械学習に伴う新しい課題と、それらを軽減するために取ることができるステップについて認識することが重要です。
Adam Pearce and Ellen Jiang // December 2020
このコンテンツに協力してくれた、Andreas Terzis、Ben Wedin、Carey Radebaugh、David Weinberger、Emily Reif、Fernanda Viégas、Hal Abelson、Kristen Olson、Martin Wattenberg、Michael Terry、Miguel Guevara、Thomas Steinke、Yannick Assogba、Zan Armstrongおよび他のGoogleの同僚に感謝します。