75
プププププププププププププププ (PPDM) ププププ ププププ 2002 プププププププププププププププ ププププププププ ププププププププププププププ 。、 ププププププププププププププププププププププ プププププププププププププププププププププププププ 、。 プププププププププププ プププププ プププププププププププププププププププププ

プライバシ保護データマイニング (PPDM)

Embed Size (px)

DESCRIPTION

個人情報保護が叫ばれ る 複数の企業、組織が協力しないと日本はどんどん遅れていく. 2002 年くらいから伸びてきた分野です。最近は機械学習、データ工学系の学会で相当数の論文が発表されています。 こういうご時勢ですから、ひょっとすると重要な技術要素になるかもしれません。. プライバシ保護データマイニング (PPDM). 東京大学 中川裕志. PPDM の基礎概念. 2002 年から 2006 年ころまでに導入された概念. PPDM を始めた動機 k - 匿名性( k -anonymity ) l - 多様性( l -diversity ) t -closeness. - PowerPoint PPT Presentation

Citation preview

Page 1: プライバシ保護データマイニング (PPDM)

プライバシ保護データマイニング(PPDM)

東京大学中川裕志

2002 年くらいから伸びてきた分野です。最近は機械学習、データ工学系の学会で相当数の論文が発表されています。

こういうご時勢ですから、ひょっとすると重要な技術要素になるかもしれません。

個人情報保護が叫ばれる複数の企業、組織が協力しないと日本は

どんどん遅れていく

Page 2: プライバシ保護データマイニング (PPDM)

PPDM の基礎概念

Page 3: プライバシ保護データマイニング (PPDM)

2002 年から 2006 年ころまでに導入された概念 PPDM を始めた動機

k- 匿名性( k-anonymity ) l- 多様性( l-diversity ) t-closeness

Page 4: プライバシ保護データマイニング (PPDM)

動機 複数の組織がプライシーに係わるクリティカルなデータ

(sensitive   data) を持ち、場合によっては公開している microdata (vs. aggregated macrodata) と呼ばれる詳細データが解析

やマイニングに利用される状況である。(USでは公開は法令で義務化 )

microdata の保護のため sanitized (不要部分の削除など) 例えば、 explicit identifiers (Social Security Number, name, phone #)

の削除

しかし、それで十分か? 否 !   link attacks の脅威

公開データからプライバシー情報を推測できる可能性あり

Page 5: プライバシ保護データマイニング (PPDM)

link attack の例 Sweeney [S01a] によれば、 Massachussetts 州知事の医療記

録が公開情報から特定可能 MA では、収集した医療データを sanitize  して公開している

(下図) (microdata) 左円内 一方、選挙の投票者名簿は公開 右円内

• 両者をつきあわせると• 6 人が知事と同じ生年月日  うち 3 人が男  うち 1 人が同じ zipcode

• 1990 年の the US 1990 census data によれば– 87% の人が (zipcode, 性別 , 生年月日 ) によって一意特定可能

Page 6: プライバシ保護データマイニング (PPDM)

microdata のプライバシー microdata の属性

explicit identifiers は削除 quasi identifiers ( QI =擬 ID) は個人特定に利用可能 sensitive attributes は sensitive 情報を持つ

Name Birthdate

Sex Zipcode Disease

Andre 21/1/79 male 53715 Flu

Beth 10/1/81 female 55410 Hepatitis

Carol 1/10/44 female 90210 Brochitis

Dan 21/2/84 male 02174 Sprained Ankle

Ellen 19/4/72 female 02237 AIDS

identifier

quasi identifiers sensitive

Name Birthdate

Sex Zipcode Disease

Andre 21/1/79 male 53715 Flu

Beth 10/1/81 female 55410 Hepatitis

Carol 1/10/44 female 90210 Brochitis

Dan 21/2/84 male 02174 Sprained Ankle

Ellen 19/4/72 female 02237 AIDSプライバシー保護の目標は、個人を

sensitive 情報から特定できないようにすること

Page 7: プライバシ保護データマイニング (PPDM)

k- 匿名性( k-anonymity ) k- 匿名性によるプライバシー保護 , Sweeney and Samarati [S01,

S02a, S02b] k- 匿名性 : 個人を他の k-1 人に紛れさせる

つまり、 公開された microdata においては、 Quasi Identifier:QI の値が同一の個人は少なくとも k 人存在することを保証

よって、 link attack でも個人特定の確率は 1/k

実現方法 一般化 and 抑圧 当面はデータの値の perturbation (摂動)は考えない。摂動は、後に

差分プライバシーのところで活用されることになる

プライバシーとデータマイニングにおける有用性のトレードオフ 必要以上に匿名化しない

Page 8: プライバシ保護データマイニング (PPDM)

k- 匿名性 の例

匿名化手法 一般化

例えば、対象分野のデータは抽象度によって階層化されているなら、上の階層のデータを公開

抑圧 特異性のあるデータ項目は削除

Birthdate

Sex Zipcode

21/1/79 male 53715

10/1/79 female 55410

1/10/44 female 90210

21/2/83 male 02274

19/4/82 male 02237

Birthdate

SexZipcode

group 1*/1/79 person 5****

*/1/79 person 5****

suppressed

1/10/44 female 90210

group 2*/*/8* male 022**

*/*/8* male 022**

original microdata 2-anonymous data

Page 9: プライバシ保護データマイニング (PPDM)

generalization lattice    K-anonymity

assume domain hierarchies exist for all QI attributes

zipcode birthdate sex

construct the generalization lattice for the entire QI set

objectivefind the minimum generalization

that satisfies k-anonymity

gene

rali

zati

on

less

more

Z0

Z1

Z2

={53715, 53710, 53706, 53703}

={5371*, 5370*}

={537**}

B0

B1

={26/ 3/ 1979, 11/ 3/ 1980, 16/ 5/ 1978}

={*}

<S0, Z0>

<S1, Z0> <S0, Z1>

<S1, Z1>

<S1, Z2>

<S0, Z2>

[0, 0]

[1, 0] [0, 1]

[1, 1]

[1, 2]

[0, 2]

S0

S1

={Male, Female}

={Person}

i.e., maximize utility by finding minimum distance vector with k-anonymity

Page 10: プライバシ保護データマイニング (PPDM)

generalization latticeincognito [LDR05]

exploit monotonicity properties regarding frequency of tuples in lattice reminiscent of OLAP hierarchies and frequent itemset mining

<S0, Z0>

<S1, Z0> <S0, Z1>

<S1, Z1>

<S1, Z2>

<S0, Z2>

(I) generalization property (~rollup)if at some node k-anonymity holds, then it also holds for any ancestor node

(II) subset property (~apriori)if for a set of QI attributes k-anonymity doesn’t hold then it doesn’t hold for any of its supersets

e.g., <S1, Z0> is k-anonymous and, thus, so is <S1, Z1> and <S1, Z2>

e.g., <S0, Z0> is not k-anonymous and, thus <S0, Z0, B0> and <S0, Z0, B1> cannot be k-anonymous

incognito [LDR05] considers sets of QI attributes of increasing cardinality (~apriori) and prunes nodes in the lattice using the two properties above

note: the entire lattice, which includes three dimensions <S,Z,B>, is too complex to show

Page 11: プライバシ保護データマイニング (PPDM)

seen in the domain space consider the multi-dimensional domain space

QI attributes are the dimensions tuples are points in this space attribute hierarchies partition dimensions

53703 53705 53709 53711 53714 53718 Z0

fem

ale

mal

eS

0

53703 53705 53709 53711 53714 53718 Z0

fem

ale

mal

eS

0

(53705, f emale)

(53711, male)

53703 53705 53709 53711 53714 53718

5370* 5371*

537**

Z0

Z1

Z2

pers

on

fem

ale

mal

eS

0

S1

(53705, f emale)

(53711, male)

zipcode hierarchy

sex hierarchy

Page 12: プライバシ保護データマイニング (PPDM)

seen in the domain space

incognito example2 QI attributes, 7 tuples, hierarchies shown with bold lines

zipcode

sex

group 1w. 2 tuples

group 2w. 3 tuples

group 3w. 2 tuples

rollu

p sex

rollup zipcode

not 2-anonymous

2-anonymous

Page 13: プライバシ保護データマイニング (PPDM)

seen in the domain spacetaxonomy [LDR05, LDR06]

single dimensional global recodingincognito [LDR05]

generalization taxonomy according to groupings allowed

multi dimensional global recodingmondrian [LDR06]

multi dimensional local recoding

topdown [XWP+06]

generalization strength

Page 14: プライバシ保護データマイニング (PPDM)

mondrian[LDR06] define utility measure: discernability metric (DM)

penalizes each tuple with the size of the group it belongs intuitively, the ideal grouping is the one in which all groups have size k

mondrian tries to construct groups of roughly equal size k

• what else (besides Mondrian) does this painting remind you?

• it’s reminiscent of the kd tree:– cycle among dimensions– median splits

2-anonymous

Page 15: プライバシ保護データマイニング (PPDM)

measuring group quality

DM depends only on the cardinality of the group no measure of how tight the group is

a good group is one that contains tuples with similar QI values define a new metric [XWP+06]: normalized certainty penalty (NCP)

measures the perimeter of the group

bad generalizationlong boxes

good generalizationsquare-like boxes

Page 16: プライバシ保護データマイニング (PPDM)

Topdown [XWP+06] start with the entire data set iteratively split in two

reminiscent of R-tree quadratic split R 木は、階層的に入れ子になった相互に重なり合う最小外接矩形 (MBR) で空間を分割する

continue until left with groups which contain <2k-1 tuples

split algorithmfind seeds, 2 points that are furthest away• heuristic, not complete quadratic search• the seeds will become the 2 split groupsexamine points randomly (unlike quadratic

split)• assign point to the group whose NCP will

increase the least

Page 17: プライバシ保護データマイニング (PPDM)

boosting privacy with external data external databases (e.g., voter list) are used by attackers can we use them to our benefit?

try to improve the utility of anonymized data

join k-anonymity (JKA) [SMP]

x3

k-anonymity

x3 x3

join

JKA

microdata

public data

3-anonymous

join 3-anonymousjoined microdata

Page 18: プライバシ保護データマイニング (PPDM)

k- 匿名性の問題点 k- 匿名性 の例 Homogeneity による攻撃 : 最終グループは全員 cancer 背景知識による攻撃 : 第 1 グループで、日本人は心臓疾患にかかりにくい

ことが知られていると。。。

id Zipcode

Sex National. Disease

1 13053 28 Russian Heart Disease2 13068 29 American Heart Disease3 13068 21 Japanese Viral Infection4 13053 23 American Viral Infection5 14853 50 Indian Cancer6 14853 55 Russian Heart Disease7 14850 47 American Viral Infection8 14850 49 American Viral Infection9 13053 31 American Cancer

10 13053 37 Indian Cancer11 13068 36 Japanese Cancer12 13068 35 American Cancer

id Zipcode

Sex National. Disease

1 130** <30 ∗ Heart Disease2 130** <30 ∗ Heart Disease3 130** <30 ∗ Viral Infection4 130** <30 ∗ Viral Infection5 1485* ≥40 ∗ Cancer6 1485* ≥40 ∗ Heart Disease7 1485* ≥40 ∗ Viral Infection8 1485* ≥40 ∗ Viral Infection9 130** 3∗ ∗ Cancer

10 130** 3∗ ∗ Cancer11 130** 3∗ ∗ Cancer12 130** 3∗ ∗ Cancer

microdata 4-anonymous data

Page 19: プライバシ保護データマイニング (PPDM)

l- 多様性[MGK+06]

各グループにおいて  sensitiveなデータの値がうまく管理されていることを目指す homogeneity 攻撃を防ぐ背景知識攻撃を防ぐ

l- 多様性 (簡単な定義 )あるグループが l- 多様性を持つとは、そのグループ内では少なくとも l種類の sensitive なデータ値が存在する

• group 内に l種類の sensitive な値があり、できるだけ均等に出現することが望ましい。

Page 20: プライバシ保護データマイニング (PPDM)

anatomy[XT06]

fast l-diversity algorithm anatomy is not generalization

seperates sensitive values from tuples shuffles sensitive values among groups

id Age Sex

Zipcode Group ID

1 23 M 11000 12 27 M 13000 13 35 M 59000 14 59 M 12000 15 61 F 54000 26 65 F 25000 27 65 F 25000 28 70 F 30000 2Group-ID Disease Count

1 dyspepsia 21 pneumonia 22 bronchitis 12 flu 22 gastritis 1

1

3

5

62

9

8

7

4

group 1 5 8 7

1

3

62

9

4

5 8

3 9

group 1

group 2 6

7

1 2 4

5 8 7

3 9 6

1 2 4

group 1

group 2

group 3

algorithm• assign sensitive values to buckets• create groups by drawing from l largest

buckets

Page 21: プライバシ保護データマイニング (PPDM)

21

Page 22: プライバシ保護データマイニング (PPDM)

t-closeness l- 多様性があっても、ある属性が a の確率 99%,b の確

率 1% というように偏りが激しいと、プライバシーは危険

2つのグループ(上記 a 属性のグループと b 属性のグループ)は、 sensitive データの分布における距離と、全属性の分布における距離が t 以下であるとき、   t-closeness である。

上記の分布間の距離としては、属性を各次元としてにおいて Earth Mover’s distance(EMD) を用いる

22

1

,1,10..

min,

andbewteen flow

:andbetween distance,,..,,,,..,,

111 1

11

1 1

1 1

2121

m

i i

m

i i

m

i

m

j ij

i

m

j ji

m

j ijiij

ij

m

i

m

j ijf

ij

m

i

m

j ijij

jiij

jiijmm

qpf

qffpmjmifts

fdQPEMD

EMDfdf

qpf

given qpdqqqQpppP

ij

最適化したのがを変化させて

 :

 

Page 23: プライバシ保護データマイニング (PPDM)

k-anonymity, l-diversity, t-closeness の参考文献 LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-

domain k-Anonymity. SIGMOD, 2005. LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional

k-Anonymity. ICDE, 2006. Samarati, P. Protecting Respondents' Identities in Microdata Release.

IEEE TKDE, 13(6):1010-1027, 2001. Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International

Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection

using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.

Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.

23

Page 24: プライバシ保護データマイニング (PPDM)

ここまで述べてきたように、公開された複数のデータベースを串刺しする攻撃への対策は、 t-closenessに至って、一段落した感あり。

攻撃者は、データベースへの質問者の場合を想定 攻撃者の事前知識に左右されることなく、データベースのプライバシー保護の強度を数学的に制御できる概念として、 2006 年以降、マイクロソフトのCynthia Dwork が中心になって提案した差分プライバシーがトレンドとなった。

24

Page 25: プライバシ保護データマイニング (PPDM)

DIFFERENTIAL PRIVACY差分プライバシー 同じドメインのデータベース: D1,D2 要素が 1 個だけ異なる

D1,D2 が質問 f に対して区別できない結果を返す  データベースの内容が利用者に同定しにくいという相対的安全性: 差分プライバシー

X=D1 or D2 に対して Y をうまく決めて t=f(X)+Y p(t-f(D1))  ≦   eε   p(t-f(D2))   あるいは              としたい。   このような Y の分布はラプラス分布で実現

D2  D1 α 1要素だけ違う

2

1log

Dftp

Dftp

25

Page 26: プライバシ保護データマイニング (PPDM)

26

)2()1(exp)2()1(

exp

)2(||)1(exp

/)2(exp

/)1(exp

))2((

))1((

exp2

1:

DfDfDfDf

DftDft

Dft

Dft

Dftp

Dftp

tLapalacep

   

がラプラス分布

p

LaplaceXftp

LaplaceXftpYp

DfDfpDD

)()(

11max2,1

    

パラメータ  ε  の調整

どんな関数 f がこの枠組みに入れるのかが研究課題

Page 27: プライバシ保護データマイニング (PPDM)

Differential Privacy の文献 C. Dwork. Differential privacy. In ICALP, LNCS, pp.1–12,

2006. C. Dwork. Dierential privacy: A survey of results. In  

TAMC, pp. 1-19, 2008. Cynthia Dwork, Frank McSherry, Kunal Talwar. “The

Price of Privacy and the Limits of LP Decoding”. STOC’07, pp.85-94, 2007

27

Page 28: プライバシ保護データマイニング (PPDM)

PPDM に関する最近の研究の動向KDD2010 より

Page 29: プライバシ保護データマイニング (PPDM)

分類 必ずしも信用できないクラウドサーバ計算を任せる

場合の元データのプライバシー維持 Privacy-Preserving Outsourcing Support Vector Machines with

Random Transformation  k-Support Anonymity Based on Pseudo Taxonomy for

Outsourcing of Frequent Itemset Mining   差分プライバシー

Data Mining with Differential Privacy Discovering Frequent Patterns in Sensitive Data 

暗号技術による分散データからのマイニング Collusion-Resistant Privacy-Preserving Data Mining 

その他 Versatile Publishing for Privacy Preservation 29

Page 30: プライバシ保護データマイニング (PPDM)

必ずしも信用できないクラウドサーバ計算を任せる場合の元データのプライバシー維持

Page 31: プライバシ保護データマイニング (PPDM)

(1)Privacy-Preserving Outsourcing Support Vector Machines with Random Transformation 信用できない外部のサーバに SVM を outsourcing するときに、元データを推定されないように Kernel をランダム変換するアルゴリズム 従来は、教師データからランダムに選んだ小さな部分で

SVM の学習をする方法。そこそこの精度。ただし、テストにおいては外部サーバにデータを知られてしまう。

そこで新規提案

31

Page 32: プライバシ保護データマイニング (PPDM)

Privacy-Preserving Outsourcing Support Vector Machines with Random Transformation まず、準備として m 個の教師データのうち m’(<<m) 個

の部分集合だけを用いる Reduced SVM を説明。本来は少ないメモリで SVM を行うアルゴリズム 参考 Y.-J. Lee and O. L. Mangasarian. RSVM: Reduced support vector machines. In Proceedings of

the 1st SIAM International Conference on Data Mining (SDM), 2001.

y= 分類の誤り、 γ=原点からの距離 A=教師データ D=1 if 正解 , =- 1 if 不正解   w= 重みベクトル =ATD u

分離平面  xTw= γ xT ATD u = γ linear kernel K(xT AT)D u = γ

32

Page 33: プライバシ保護データマイニング (PPDM)

すると SVM の最適化は ( ただし A’=AT)

これは条件なし最小化問題  (10)

Newton 法などで解ける。 ここで、カーネル行列 K(A,A’) は大きすぎてメモリに乗らないので、 A の次元を m とすると、より小さな次元 m’<<m の ( これは A のランダムな部分集合)を用いたカーネル行列    を (10) に代入し最適化問題を解くのが RSVM

この  を A とは関係ない乱数にしてしまうのが次ページのアイデア    33

A),(

TAAK

A

Page 34: プライバシ保護データマイニング (PPDM)

Privacy-Preserving Outsourcing Support Vector Machines with Random Transformation

教師データ x に行列M で表されるランダム変換を施したMx と m’ 個のランダムデータ r に逆変換した (MT)-1r を外部サーバに送り、この 2種のデータ間でのペアからなるkernel   k(xi,rj) で SVM を学習。 (m’<<m)   K(A,A’) によるReduced SVM

ランダムベクトルで学習するので、 kernel matrix k(xi,xj) も外部サーバに知られない。ランダムベクトルは漏れなければ他の学習データも漏れない。

線形カーネルの場合は、置換した Mx を計算サーバに与えて計算する識別関数は、以下の通り

(Mx)T(MT)-1r=xTMT(MT)-1r=xTr なので、多項式カーネルも計算できる

34

brxkvbrMMxkvxf j

m

j jjTTm

j j

,)(

'

1

1'

1

Page 35: プライバシ保護データマイニング (PPDM)

よって、実際のテストデータ z は Mz と変換して計算を outsource すれば、計算は O(m’) で少なく、データ内容を(かなり)保護できる。

精度の実験結果は以下 (m’=m/10)

35

brxkvbrMMxkvxf

m

j

m

j jjTTm

j j

,)(

''

1

1'

1

個数とするをランダム教師入力の

参考 . Keng-Pei Lin,Ming-Syan Chen. Privacy-Preserving Outsourcing Support Vector Machines with Random Transformation , KDD2010

Page 36: プライバシ保護データマイニング (PPDM)

(2)k-Support Anonymity Based on Pseudo Taxonomy for Outsourcing of Frequent Itemset Mining This paper focuses on outsourcing frequent itemset mining. k-support anonymity

To achieve k-support anonymity, we introduce a pseudo taxonomy tree.

36

(x)supportT(y)supportTTy :itemk

item) eS(sensitivx

T:DB)(T:DB

INN

NI

個の暗号化少なくとも

においてされたとなものに置き換えるこ名前をの暗号化真の fake

Page 37: プライバシ保護データマイニング (PPDM)

37

○の中の数は、その部分木に含まれるtransaction の数の合計

3-support anonymity support 2 の item にはa,g,h の3種類あり

Page 38: プライバシ保護データマイニング (PPDM)

38

1,2 は p3 には含まれているのでsup(tea) に影響な

sup(p6)=3<sup(wine)sup(p7)=1<sup(wine)

sup(wine) に影響なし

insert

split

insert

1,5 を追加しても

sup(wine)は不変。

Page 39: プライバシ保護データマイニング (PPDM)

39

insert

split

increase

木の変更によって supTN(child node)<supTI(sensitive node)<supTN(parent node)という関係を崩さなければ、 support の計算は保存される

sensitive

Page 40: プライバシ保護データマイニング (PPDM)

差分プライバシー

Page 41: プライバシ保護データマイニング (PPDM)

(3)Discovering Frequent Patterns in Sensitive Data Sensitive なデータのデータセットからトップ k 個の再頻出パタン ( most frequent patterns: top k FPM) を抽出するにあたって、 ε 差分プライバシーを満たすような細工をする。

近似 top k FPM f k  を k番目に多いパタンの真の頻度とする。    信頼

度= ρ: 確率 (1- ρ) 以上で以下の条件を満たす Soundness: 真の頻度が (f k− γ) より少ない頻度のパタンは出力しない。

Completeness:真の頻度が (f k+ γ) より大きいパタンは全て出力する。

Precision: 出力された全パタンの頻度は真の頻度から ±η の範囲に入る。

41

Page 42: プライバシ保護データマイニング (PPDM)

提案アルゴリズム 入力:パタン集合 =U, データセットサイズ

=n 前処理: γ = (8k/εn)ln(|U|/ρ) とし、通常の

Frequent Pattern Mining アルゴリズムで、頻度 > (f k− γ) のパタン集合 U を抽出。残りのパタンの頻度は (f k− γ) と見なす

雑音加算とサンプリング: U の各パタンの頻度に Laplace(4k/εn) を加算。この加算の結果からトップ kパタンを通常の FPM で抽出 する。これを S と呼ぶ。

摂動 (Perturbation): S 中のパタンの頻度にLaplace(2k/εn) を加算し、雑音加算された頻度を得、これを最終結果として出力する。

42

ここで ε/2-差分

private

ここで ε/2-差分

private

併せて ε- 差分private

Page 43: プライバシ保護データマイニング (PPDM)

提案されたアルゴリズムは  ε 差分プライバシー

少なくとも 1-ρ の確率で、真の頻度が (f k− γ) よりの大きなパタン全てを抽出でき、 U 中で (f k+γ) より大きなパタン全てが出力される。ただし、 γ = (8k/εn)ln(|U|/ρ)

少なくとも 1-ρ の確率で、雑音加算された頻度と真の頻度の差は η 以下。ただし、 η = (2k/εn)ln(k/ρ)

Top kパタンの抽出の計算量は O(k’+klogk)      ただし、 k’ は頻度 > (f k− γ) のパタンの個数

43

Page 44: プライバシ保護データマイニング (PPDM)

(4)Data Mining with Differential Privacy

ID3 における decision tree 構築時には、 tree のあるnode にぶら下がるデータを split し、 information gain が最大の split の仕方を選ぶ。

そこで、 split したデータの個数に Laplace 分布に応じたノイズを加え、これにより 差分プライバシーを実現

44

Page 45: プライバシ保護データマイニング (PPDM)

45

次のスライド参照 :q( i.e. 情報量利得)が最大となる属性を求める

Nτ = |T|+Laplace(1/ε)

Page 46: プライバシ保護データマイニング (PPDM)

ExpMech: Exponential Mechanism

46

q は、 Information Gain, Gini Index, Max などから選択してくる

Page 47: プライバシ保護データマイニング (PPDM)

47

Page 48: プライバシ保護データマイニング (PPDM)

その他(6)Versatile Publishing for Privacy Preservation Micro data を公開しても  quasi ID sensitive data

という推論ができないようにデータベースを変形する手法

禁止する推論 QIDS の集合を {QS} とする。 全データを以下のようにして分割し変形し {QS} が禁止されるようにする。 全データから部分 T を切り出す。この T は上記の推論が

できないように 匿名化する。 別の部分 T’ を追加して既存の {T} が {QS} のルールを満

たす場合は、 T から S を除去する。

48

Page 49: プライバシ保護データマイニング (PPDM)

結託攻撃耐性のある PPDM プロトコルの設計 :Secure Product of Sum.

KDD2010 にて発表

ここで我々の成果も少し紹介させていただきます。

Page 50: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 51: プライバシ保護データマイニング (PPDM)

プライバシー保護データマイニング (PPDM)では 自分自身のデータを持つ多数のパーティが、各々の

データを他のパーティに知られることなく、全パーティのデータを統合的に利用したデータマイニング結果を入手すること .

暗号技術に基づく PPDM 実現が目標 . このような PPDM には多数の応用分野がある

疫病の感染ルート追跡 個人の信用情報を得る(与信) 競合数社が共同して市場調査

Page 52: プライバシ保護データマイニング (PPDM)

結託攻撃が強敵結託攻撃とは t パーティが結託して、別のパー

ティのデータを入手すること 定義 t-private :上記の結託攻撃を防げるな

ら、 PPDM は t-private  という . 総パーティ数 = M のとき , M-1-private  なら full-

private  と呼ぶ . full-private は PPDM の安心な利用の試金石 .

Page 53: プライバシ保護データマイニング (PPDM)

これまで提案された PPDM は full-private  ではない

full-private PPDM の実現が我々の目標。具体的にはfull-private な secure dot-products calculation, secure ratio calculation, secure comparison  を提案する .

Works Methods Methods Party Anti-Collusion

S. Jha 2005 K-Means 2 NA

M. Ozarar 2007 -Means Multi ×

J. Vaidya 2004 JNaive Bayes Multi ×

J. Vaidya 2003 K-Means Multi ×

Page 54: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 55: プライバシ保護データマイニング (PPDM)

全体像 Clustering, K-means, EM, Categorization, etc. etc..

Secure Ratio Calculation Protocol : SRoS

Secure Comparison protocol : SCoS

Secure dot-Product calculation protocol : SPoS

Secure linear function Evaluation protocol: SLFE

Random share+ shared random

Homomorphic Encryption

Page 56: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 57: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 58: プライバシ保護データマイニング (PPDM)

この p を結託攻撃を防いで計算し

たい

Page 59: プライバシ保護データマイニング (PPDM)

59

問題:=0 になるように 1β1

2β2 3β3

を決めたいこれが計算したい

提案手法の基礎となる Random Share のアイデア3パーティの場合 :赤はパーティ1、緑はパーティ2、青はパーティ3が元来保持あるいは生成したデータ

Party1:1χ2 γ の計算が必要なので、乱数 1β2 を生成し、 1χ+ 1β2 を作って party2 に送って計算してもらう。1χ3γ も同様にして、 1χ+ 1β3 を作って party3に送って計算してもらう。

これと同じことを party2,party3 も行い、その結果各々 1p, 2p, 3p を供出して pを計算

+ 

+ 

Page 60: プライバシ保護データマイニング (PPDM)

送ってもらった 1 ε2  

と1 ε 3を使えば Party 1

だけが 1β1

を計算でき、他の party に知られることなく

1β1 +2β1 + 3β1=0  とできる

=0

60

各 party はこのような条件の乱数  δ  を生成して他の party に送る

これらの SLFE で 1 ε2  と1 ε 3を計算して party1に送ってもらう

Page 61: プライバシ保護データマイニング (PPDM)

提案手法の基礎となる Random Share のアイデア3パーティの場合 :赤はパーティ1、緑はパーティ2、青はパーティ3が元来保持あるいは生成したデータ

Party1: 元々 1χ を持つ。さらに乱数 1β2 を生成して 1χ + 1β2 = 1α2 を作って

party2 に送る。             同様に、乱数 1β3 を生成して 1χ + 1β3

= 1α3 を作って party3 に送る。Party2: 元々 2χ を持つ。さらに乱数 2β1 を生成して 2χ + 2β1

= 2α1 を作ってparty1 に送る。             同様に、乱数 2β3 を生成して 2χ + 2β3

= 2α3 を作って party3 に送る。Party3: 元々 3χ を持つ。さらに乱数 3β1 を生成して 3χ + 3β1

= 3α1 を作ってparty1 に送る。             同様に、乱数 3β2 を生成して 3χ + 3β2

= 3α2 を作って party2 に送る。

Party1: 1χ , 2χ + 2β1 = 2α1 , 3χ + 3β1

= 3α1  

Party2: 1χ + 1β2 = 1α2, 2χ, 3χ + 3β2

= 3α2  

Party2: 1χ + 1β3 = 1α3 , 2χ + 2β3

= 2α3 , 3χ  

Page 62: プライバシ保護データマイニング (PPDM)

62

Party1: 1χ , 2χ + 2β1 = 2α1 , 3χ + 3β1

= 3α1  

Party2: 1χ + 1β2 = 1α2, 2χ, 3χ + 3β2

= 3α2  

Party2: 1χ + 1β3 = 1α3 , 2χ + 2β3

= 2α3 , 3χ  

ここで、 Party1,2,3各々が、適当な 1β1 2β2

3β3 を生成して χ に加算して1 χ +

1β1 = 1α1,

2χ + 2β2 = 2α2, 3χ + 3β3

= 3α3 を作り、以下の式が成り立つようにしたい

=0 になるように1β1

2β2 3β3 を決めた

これが計算したい

Party1,2,3 が各々 1p, 2p, 3pを供出して p

を計算し共有

Page 63: プライバシ保護データマイニング (PPDM)

この SLFE による計算を使えば Party 1 だけが 1β1

を計算でき、他の party に知られることなく

1β1 +2β1 + 3β1=0  とできる

=0

Page 64: プライバシ保護データマイニング (PPDM)
Page 65: プライバシ保護データマイニング (PPDM)
Page 66: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 67: プライバシ保護データマイニング (PPDM)
Page 68: プライバシ保護データマイニング (PPDM)
Page 69: プライバシ保護データマイニング (PPDM)
Page 70: プライバシ保護データマイニング (PPDM)
Page 71: プライバシ保護データマイニング (PPDM)

Outline

I. 背景II. secure protocol の提案

I. 概要II. 要素技術と protocol

III. 安全な積計算 protocol:SPoS

IV. SPoS から導出される関連 protocol: SRoS and SCoS

III. 実験評価IV. 結論

Page 72: プライバシ保護データマイニング (PPDM)

実験設定

Paillier cryptosystem (P. Pallier, Public-Key Cryptosystems based on Composite Degree Residue Classes, Proceedings of EuroCrypt 99, 1998.)

to implement the SLFE protocol. Intel Pentium Core2 Duo CPU 2.67 GHz and 2.00 GB

ram. The network environment = wireless LAN of

IEEE802.11g/IEEE802.11b.

Page 73: プライバシ保護データマイニング (PPDM)

Number of parties vs. running in SPoS protocol.

Page 74: プライバシ保護データマイニング (PPDM)

Comparison of Efficiency and Security of OMP (WAP), Vaydia's protocol and SPoS in the cases of 2-party, 5-party, 10-party, 20-party and 100-party.

Number of parties 2 5 10 20 100

OMP (WAP)

Time 0.156 0.593 1.326 2.792 14.5

t-Privacy 1 1 1 1 1

Vaydia

Time 3.54 3.54 3.54 3.54 3.54

t-Privacy 1 1 1 1 1

SPoS

Time 0.172 0.692 1.538 3.232 17.2

t-Privacy 1 4 9 19 99

Page 75: プライバシ保護データマイニング (PPDM)

結論結託攻撃耐性のある dot products,

ratios,comparisons を行う protocol を提案した . この提案は  full privacy (m-1 private, where # of

parties is m). full privacy を実現しているので、通信路におい

ては盗聴されてもかまわない提案した protocol の実行時間はパーティ数に比