

Appleのソフトウェアエンジニアは最近、Appleがウェブ閲覧と健康データの両方を対象に差分プライバシーの使用を展開していることを明らかにした。同社は現在、この技術を使用してデバイスユーザーから毎日何百万もの情報を処理している。
差分プライバシーはこれまであまり注目されてこなかったため、今こそそれが何を意味し、どのように機能するのかを検証し、Apple によるその広範な使用についてどの程度安心感を抱いているかを尋ねる良い機会だと考えました。
この技術が開発される以前、膨大なデータにアクセスできるテクノロジー企業は根本的なジレンマに直面していました。データを収集・分析すれば、顧客の行動やニーズを理解する上で非常に大きな価値が得られ、結果としてより良いサービスを提供できるようになります。一方、データ分析を個々のユーザーレベルまで落とし込めば、高度にパーソナライズされたサービスを提供できますが、その際にはプライバシーが損なわれる可能性があります。
これは Google が採用したアプローチであり、電子メールで送られた電子チケットから旅行計画を識別し、空港へ出発する時間を事前に知らせるといった機能に関しては Apple よりかなり先を行っている理由でもある。
一方、ユーザーのプライバシーがデータマイニングよりも重要であると判断した場合、顧客はすべてのデータがマイニングされるわけではないという事実に安心するでしょう。ただし、そのデメリットとして、サービスがあまりインテリジェントでなくなる可能性があります。
これは、Apple がこれまで採用してきたアプローチです。
差分プライバシーとは何ですか?
差分プライバシーは、このジレンマを解決する可能性のある方法です。これは、個人から大量のデータを収集・分析する手法ですが、その際に、特定の個人に紐付けられる情報は一切含まれません。Googleのように完全にパーソナライズされたサービスを提供することはできませんが、集約学習を活用することで、顧客に総合的に優れたサービスを提供することができます。
ウォール ・ストリート・ジャーナルは、この手法が違法薬物使用に関する調査にどのように活用できるかを例に挙げています。100人に匿名でマリファナ使用の有無を尋ね、さらに他の質問も複数行うと、回答の組み合わせによって個人が特定されてしまうリスクがあります。
例えば、これらの人々に車の色も尋ねた場合、その調査対象者の中で青い車を運転している人は1人だけかもしれません。マリファナを吸うかどうか「はい」と答え、かつ車も青いと答えた人がいたとしたら、データは理論上は匿名であっても、その人が誰なのかを特定することができます。
現実の例は明らかにより複雑で、数百万人の人々と2つ以上のデータ項目が関係しますが、同じ原則が当てはまります。例えば、Netflixは匿名IDを使ってユーザーのテレビ番組や映画の好みを記録していますが、テキサス大学の分析によると、個人に関するほんの少しの知識があれば、データの匿名性を解除できることが示されています。
差分プライバシーでは、収集したデータに一定量の数学的な「ノイズ」を追加して、特定の個人について確実に何かを知ることができなくします。
薬物調査の例では、90人に対する質問1はマリファナを吸ったことがあるかどうかです。残りの10人に対する質問1は「コインを投げて表が出たらはい」です。そして、青い車の運転手が質問1に「はい」と答えたとしたら、彼が薬物使用者であるとはもはや言えません。彼はコイン投げ版の調査を受けた人の一人である可能性があります。
ダミーの質問は、回答率がわかっているもの(コイン投げの場合は 50/50)である必要があり、データ分析が正確であることを保証するには巧妙な数学的処理が必要ですが、最終結果は、誰も特定せずに、誤差の範囲内で、マリファナを吸う人の割合を判断できるということです。
健康データの場合、例えば、特定のBMIを持つiPhone所有者が何人いるかはAppleは把握できるが、その中の誰が誰であるかは把握できない。
あなたは Apple のアプローチにどれくらい満足していますか?
Apple は、iOS 10 のリリースから差分プライバシーの使用を開始しました。診断データと使用状況データの送信に同意すると、Apple はそのデータに差分プライバシーを適用します。
この動きには議論がなかったわけではない。同僚のグレッグ・バルボサは、Appleがデータの使用方法をユーザーに明確に伝えていないことについて記事を書いた。また、ジョンズ・ホプキンス大学の暗号学教授は、Appleのアプローチが本当に安全なのか疑問視した。
問題は、収集するデータの正確さと個人のプライバシーの間には避けられないトレードオフがあるということだと彼は言います。つまり、プライバシーを守るために数学的なノイズを多く取り入れれば取り入れるほど、データの正確性は低下するということです。
しかし、あらゆる兆候は、Appleが慎重な姿勢を取り、このトレードオフにおいてプライバシーを最優先に考えていることを示している。Appleによると、同社は「一般的なパターン」のみを探しているという。
差分プライバシーは、個人の身元を隠蔽するために、個人の使用パターンの小さなサンプルに数学的なノイズを追加します。同じパターンを共有する人が増えるにつれて、一般的なパターンが浮かび上がり、ユーザーエクスペリエンスを向上させる情報を提供します。
同社はこれまで、このデータを活用して自動修正提案などの機能を改善してきた。
Apple のアプローチについて具体的な知識を持たないある学者はこれに疑問を呈しているが、その技術を少なくとも「ざっと」見た別の学者は、同社のアプローチは妥当だと考えている。
ペンシルバニア大学のコンピューターサイエンスの准教授であるアーロン・ロス氏は、このことは「今日のテクノロジー企業の中で、アップルを明らかにプライバシーのリーダーとして位置づける」ものであり、自分が見たビットを調べた結果、同社が「正しいことをしている」ことが示唆されると述べた。
しかし、同社がウェブ閲覧習慣、特に健康データの分析によって、より機密性の高い領域に進出しつつあることは確かだ。こうした利用方法は、Appleに対し、これまで以上に広範なアプローチの詳細を公開するよう圧力をかけることになるだろう。
Appleが差分プライバシーを用いたデータ分析を拡大し、ウェブ閲覧や健康データを収集していることについて、あなたはどの程度安心できると思いますか?アンケートにご協力いただき、コメント欄でご意見をお聞かせください。
Apple のニュースをもっと知りたい方は YouTube の 9to5Mac をご覧ください。
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。