Explorables

ランダム応答で機微情報を安全に集める方法

How randomized response can help collect sensitive information responsibly

巨大なデータセットはがん所得格差など重要な領域における新しいパターンを明らかにしています。しかし公開データを突き合わせられる高速計算環境の普及により、プライバシーを損なわずに機微情報を集めることが難しくなりました。現代的なランダム化手法を使えば匿名性を保てます。

匿名化されたデータ

私たちが小さな大学のアナリストで、剽窃に関する匿名アンケート結果を調べていると想像してみましょう。

学生全員から回答が集まり、これまでに剽窃したことがあるか、ないかを報告してもらいました。正直に答えてもらうため、名前は記録していません。

ここで使うデータはすべてランダムに生成したダミーです。

アンケートには、自分自身についていくつかの情報も記入してもらいました。たとえば年齢や…

…どの州の出身か、といった項目です。

こうした追加情報があることで、データの中に潜むパターンを探せます。例えば「なぜニューハンプシャー出身の1年生に剽窃経験者が多いのか?」といった問いに迫れるのです。

明かされてしまう情報

しかし、細かな情報には代償があります。

年齢と出身州の組み合わせが一意な学生が1人いました。別の学生データベースで「バーモント州出身の19歳」を探せば、匿名のはずのアンケートでも剽窃経験者を特定できてしまいます。

より細かい情報を集めるほど問題は深刻になります。誕生した季節まで答えてもらったら、学生の約6人に1人は特定できてしまいます。

これは空想ではありません。誕生日・性別・郵便番号の組み合わせだけで、米国の83%の人を一意に特定できることが分かっています。

巨大なデータセットが普及した今、誰かの身元をうっかり明かさずに詳細な情報を公開するのはますます難しくなっています。位置情報を1週間分持っていれば、自宅や勤務先が分かり、公開記録から名前を割り出すことさえできるかもしれません。

ランダム化という解決策

1つの解決策は、回答をランダム化し、学生全員に言い逃れの余地を与えることです。剽窃率の推定には多少の不確実性が生じますが、プライバシーを守ることができます。

ステップ1: まず学生はコインを投げ、誰にも見せずに結果を確認します。

ステップ2: 表(heads)が出た学生は、たとえ剽窃していなくても剽窃したと報告します。

裏(tails)が出た学生は本当のことを答えます。仮に回答が自分の名前と結び付けられても「表が出たので仕方なくそう答えた」と主張できるからです。

少し数学を使えば、このランダム化された回答から剽窃率を推定できます。詳しい式は省略しますが、「剽窃していない」と報告された割合を2倍すると、実際に剽窃していない学生の割合を良い具合に推定できます。

コインを1回投げる

どれくらい誤差が出るのか?

このコイン投げを何度もシミュレーションすると、推定誤差の分布が見えてきます。

ほとんどの場合は近い値になりますが、ときにはかなり大きな誤差が出ます。

コインを200回投げる

ランダムノイズを減らす(表が出たときに剽窃したと報告する学生を減らす)ほど、推定は正確になりますが、学生の情報が漏れるリスクが高まります。

コインが裏に偏っていれば、「表が出たから剽窃したと答えた」という言い訳が通じなくなってしまいます。

精度とプライバシーのトレードオフを和らげる意外な方法があります。さらに多くの人から丁寧に情報を集めることです。

他校の学生にもアンケートを依頼できれば、全員のプライバシーを守りつつ剽窃率を正確に測れます。十分な人数が集まれば、年齢グループごとの剽窃率も安全に比較できるようになります。

 

まとめ

機微な情報の集計統計は価値がありますが、集めるにはリスクも伴います。医療履歴を近所の人に知られずに、人口統計と健康の関係を研究してもらいたいものです。本記事で紹介したランダム応答というコイン投げの手法を使えば、こうした情報を安全に調べることができます。

「コインを投げる以外に方法はないのか」と思うかもしれません。実際には、差分プライバシーのように、データセットへ狙いを定めたランダムノイズを加えてプライバシーを保証する手法もあります。ランダム応答より柔軟で、2020年の国勢調査でも回答者のプライバシー保護に使われました。差分プライバシーは回答をランダム化するだけでなく、公開データに与える個々の回答の影響も制限します。

クレジット

Adam Pearce, Ellen Jiang // 2020年9月

Carey Radebaugh、Fernanda Viégas、Emily Reif、Hal Abelson、Jess Holbrook、Kristen Olson、Mahima Pushkarna、Martin Wattenberg、Michael Terry、Miguel Guevara、Rebecca Salois、Yannick Assogba、Zan Armstrong、そして Google の同僚たちに感謝します。