マイニング探検会#07

プライバシー保護データマイニング(PPDM): データマイニング研究の

最前線

東京大学情報基盤センター

学術情報研究部門特任講師／

株式会社リッテル最高技術責任者

清田陽司

2010年10月22日＠東京大学アントレプレナープラザ会議室

データマイニングの現況

• データ蓄積のコストが劇的に低下している

– 常時接続はいまや当たり前

– 1TBytesのハードディスクは1万円以下

• コンピューター資源が容易に入手可能

– 市販のPCでもそこそこできたりする

– パブリッククラウドも使える

• ツールも整備されてきた

– オープンソースソフトでもできる (R、GETAssoc、…)

課題

• 使いやすい形で蓄積するのは簡単ではない

– ハードディスクの肥やしでは意味がない

– 商用データウェアハウスは超高価

• そんなに簡単に有用な結果は出ない

– 大量の試行錯誤必須

• プライバシー保護とどうやって両立する？

– トレードオフ問題

そもそも、プライバシー保護って？

• 個人情報保護法 (2005年制定)– 個人情報＝個人を特定可能な情報

• 氏名、性別、生年月日、住所、電話番号、職業、年収、家族構成、IPアドレス、メールアドレス…

– 「個人情報保護の有益性に配慮しつつ、個人の権利利益を保護」

• 業界ごとの倫理規程– cf. 図書館の自由に関する宣言

• プライバシー≠個人情報

– 利用履歴、検索キーワード、メールの内容などはプライバシーに該当

ちょっとした疑問

• 定性的な議論は多くなされている

– ○○という情報は公開すべきか否か？

• 定量的な議論があまりなされていない？

– 「データの有益性」と「個人の権利利益保護」のトレードオフならば、両者の比較のために定量化は不可欠では？

– 飛行機や薬品のリスクも定量的に議論されている

• 「個人情報を公開しない」は「プライバシー保護」の十分条件ではない

link attack の例• Massachussetts州知事の医療記録が公開情報から特定可能– MA では、収集した医療データをサニタイズして公開している左円内

– 一方、選挙の投票者名簿は公開右円内

• 両者をつきあわせると

• 6 人が知事と同じ生年月日

うち3 人が男

うち1 人が同じzipcode

• 1990年の the US 1990 census dataによれば

– 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能

プライバシー保護データマイニング(PPDM)

• 2002～2006年頃から導入された概念

• キーワード

– k-匿名性（k-anonymity）– l -多様性（l-diversity）– t-closeness

動機

• 複数の組織がプライシーに係わるクリティカルなデータを持ち、場合によっては公開している– microdata (vs. aggregated macrodata) と呼ばれる詳細データが解析やマイニングに利用される状況である。（米国では公開は法令で義務化 )

• microdata の保護のため sanitized（不要部分の削除など）– 例えば、explicit identifiers (Social Security Number, 氏名, 電話番号) の削除

• しかし、それで十分か？• 否! link attacksの脅威

– 公開データからプライバシー情報を推測できる可能性あり

microdataのプライバシー

microdataの属性 explicit identifiers は削除 quasi identifiers （QI＝擬ID)は個人特定に利用可能 sensitive attributes は sensitive 情報を持つ

Name Birthdate Sex Zipcode Disease

Andre 21/1/79 male 53715 Flu

Beth 10/1/81 female 55410 Hepatitis

Carol 1/10/44 female 90210 Brochitis

Dan 21/2/84 male 02174 Sprained Ankle

Ellen 19/4/72 female 02237 AIDS

identifier quasi identifiers sensitiveName Birthdate Sex Zipcode Disease

Andre 21/1/79 male 53715 Flu

Beth 10/1/81 female 55410 Hepatitis

Carol 1/10/44 female 90210 Brochitis

Dan 21/2/84 male 02174 Sprained Ankle

Ellen 19/4/72 female 02237 AIDS

プライバシー保護の目標は、個人をsensitive 情報から特定できないようにすること

k-匿名性（k-anonymity） k-匿名性によるプライバシー保護, Sweeney and Samarati [S01,

S02a, S02b] k-匿名性: 個人を他のk-1 人に紛れさせるつまり、公開された microdata においては、Quasi Identifier:QI の値

が同一の個人は少なくともk 人存在することを保証よって、link attackでも個人特定の確率は 1/k

実現方法一般化 and 抑圧当面はデータの値の perturbation（摂動）は考えない。摂動は、後に差

分プライバシーのところで活用されることになる

プライバシーとデータマイニングにおける有用性のトレードオフ必要以上に匿名化しない

k-匿名性の例

匿名化手法一般化例えば、対象分野のデータは抽象度によって階層化されているなら、

上の階層のデータを公開

抑圧特異性のあるデータ項目は削除

Birthdate Sex Zipcode

21/1/79 male 53715

10/1/79 female 55410

1/10/44 female 90210

21/2/83 male 02274

19/4/82 male 02237

Birthdate Sex Zipcode

group 1*/1/79 person 5****

*/1/79 person 5****

suppressed 1/10/44 female 90210

group 2*/*/8* male 022**

*/*/8* male 022**

original microdata 2-anonymous data

k-匿名性の問題点 k-匿名性の例

Homogeneityによる攻撃: 最終グループは全員 cancer 背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知

られていると。。。

id Zipcode Sex National. Disease1 13053 28 Russian Heart Disease2 13068 29 American Heart Disease3 13068 21 Japanese Viral Infection4 13053 23 American Viral Infection5 14853 50 Indian Cancer6 14853 55 Russian Heart Disease7 14850 47 American Viral Infection8 14850 49 American Viral Infection9 13053 31 American Cancer10 13053 37 Indian Cancer11 13068 36 Japanese Cancer12 13068 35 American Cancer

id Zipcode Sex National. Disease1 130** <30 ∗ Heart Disease2 130** <30 ∗ Heart Disease3 130** <30 ∗ Viral Infection4 130** <30 ∗ Viral Infection5 1485* ≥40 ∗ Cancer6 1485* ≥40 ∗ Heart Disease7 1485* ≥40 ∗ Viral Infection8 1485* ≥40 ∗ Viral Infection9 130** 3∗ ∗ Cancer10 130** 3∗ ∗ Cancer11 130** 3∗ ∗ Cancer12 130** 3∗ ∗ Cancer

microdata 4-anonymous data

l-多様性[MGK+06]

各グループにおいて sensitiveなデータの値がうまく管理されていることを目指す homogeneity 攻撃を防ぐ背景知識攻撃を防ぐ

l-多様性 (簡単な定義)あるグループが l-多様性を持つとは、そのグループ内では少なくともl種類の

sensitive なデータ値が存在する

• group内にl種類のsensitiveな値があり、できるだけ均等に出現することが望ましい。

t-closeness l-多様性があっても、ある属性がaの確率99%,bの確率

1%というように偏りが激しいと、プライバシーは危険２つのグループ（上記a属性のグループとb属性のグループ）は、sensitive データの分布における距離と、全属性の分布における距離が t以下であるとき、 t-closeness である。

上記の分布間の距離としては、属性を各次元としてにおいてEarth Mover’s distance(EMD)を用いる

14

( ) ( )

( )

1

,1,10..

min,

andbewteen flow

:andbetween distance,,..,,,,..,,

111 1

11

1 1

1 1

2121

===

=+−≤≤≤≤≥

=

=

===

∑∑∑ ∑∑∑

∑ ∑∑ ∑

=== =

==

= =

= =

m

i im

i im

i

m

j ij

im

j jim

j ijiij

ijm

i

m

j ijf

ijm

i

m

j ijij

jiij

jiijmm

qpf

qffpmjmifts

fdQPEMD

EMDfdf

qpfgiven qpdqqqQpppP

ij

最適化したのがを変化させて

：　

　

まとめ

• プライバシー保護は、「情報を公開しない」ことで実現されるわけではない

– 公益に資するために公開しなければならない情報もある

– ほかの機関の情報とあわせることでプライバシーが侵害されてしまうこともあり得る

• 法の精神に従うならば、柔軟に考えてもよいのかも

– 「国民の知る自由を守り、ひろげていく」という考え方に合致する方向であれば、それを推進する責任がある

k-anonymity, l-diversity, t-closenessの参考文献

• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain k-Anonymity. SIGMOD, 2005.

• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-Anonymity. ICDE, 2006.

• Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE TKDE, 13(6):1010-1027, 2001.

• Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.

• Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.

• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.

16

Technology

マイニング探検会#07