13
Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου) Ιδιωτικότητα και διαχείριση δεδομένων

Ιδιωτικότητα και διαχείριση δεδομένων

  • Upload
    hans

  • View
    39

  • Download
    0

Embed Size (px)

DESCRIPTION

Ιδιωτικότητα και διαχείριση δεδομένων. Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου ). Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων?. - PowerPoint PPT Presentation

Citation preview

Page 1: Ιδιωτικότητα και διαχείριση δεδομένων

. Π Βασιλειάδης2010-09-09

( . βασισμένο στις διαφάνειες της Α)Πιλαλίδου

Ιδιωτικότητα και διαχείριση δεδομένων

Page 2: Ιδιωτικότητα και διαχείριση δεδομένων

Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? ( , Διάφοροι οργανισμοί νοσοκομεία δημόσιοι

,…) οργανισμοί δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν

( . ., « χρήσιμα συμπεράσματα π χ σε ποιες περιοχές ?»έχουμε αυξημένο ποσοστό καρκίνου του δέρματος

Επειδή τα δεδομένα περιέχουν προσωπικές, πληροφορίες συνήθως οι πληροφορίες αυτές

.αποκρύβονται , « » Είναι εφικτό όμως κάποιος επιτιθέμενος να

μπορέσει να συνδυάσει δημοσιευμένα δεδομένα , από διάφορες πηγές καθώς και δική του

πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων

2

Page 3: Ιδιωτικότητα και διαχείριση δεδομένων

Ο κυβερνήτης της Μασαχουσέτης Ηπιο διάσημη περίπτωση είναι ο

συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων

ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του

. κυβ τηςΜασαχουσέτης Προσέξτε πώς υπάρχει μόνο μία

. 1/21/76, εγγραφή με ημ γέννησηςzipcode 53715 και φύλοMale.

Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους

εκλογικούς καταλόγους + Ήταν γνωστό ότι μπήκε στονοσοκομείο

=> Μπορεί κανείς να συνάγει την

πάθησή του

3

Page 4: Ιδιωτικότητα και διαχείριση δεδομένων

Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών

Detailedmicrodata

T

Anonymizedpublic data

T*

Bob (the victim) to be hidden

Ben, the benevolent data miner

Alice, the external attacker

4

Page 5: Ιδιωτικότητα και διαχείριση δεδομένων

Βασικοί Ορισμοί Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με

κάποιες εξωτερικές πληροφορίες μπορούν να (προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα zip

code, birth date, sex,…). Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίεςγενίκευσης

Sensitive Attributes: Είναι πεδία των οποίων την (πληροφορία θέλουμε να αποκρύψουμε disease, salary,

…) Identifiers: ’ Είναι πεδία που αποκαλύπτουν απ ευθείας

(την ταυτότητα ενός ατόμου name, SNN,..).

5

Page 6: Ιδιωτικότητα και διαχείριση δεδομένων

6

Page 7: Ιδιωτικότητα και διαχείριση δεδομένων

Γενίκευση και ανωνυμία Για να διατηρηθεί η ιδιωτικότητα των

:δεδομένων πρέπει Να αφαιρεθούν από τα δεδομένα τα πεδία

’ εκείνα που απ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή

Οι εγγραφές και οι τιμές των πεδίων του να / / μετασχηματιστούν οργανωθούν σε ομάδες

… :με τέτοιο τρόπο ώστε Οι στατιστικές ιδιότητες του συνόλου των

δεδομένων να διατηρηθούν Ο κακόβουλος επιτιθέμενος να μη μπορεί να

« » μαντέψει σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα

7

Page 8: Ιδιωτικότητα και διαχείριση δεδομένων

k-anonymity

Ένας πίνακας Τ είναι k-anonymous όταν κάθε

εγγραφή του πίνακα είναι ίδια ως προς ταQuasi-Identifier

πεδία του με k-1 άλλες. εγγραφές

8

Page 9: Ιδιωτικότητα και διαχείριση δεδομένων

l-diversity

Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversity όταν

κάθε group του πίνακα έχει τουλάχιστον l διαφορετικές τιμές

στα sensitive πεδία.

9

Page 10: Ιδιωτικότητα και διαχείριση δεδομένων

Παράμετροι του προβλήματος 3 Υπάρχουν παράμετροι του προβλήματος

Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης

Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο

γενίκευσηςAnonymity: ποιο είναι το ελάχιστο ανεκτό

μέγεθος k για κάθε group ( : παρόμοια ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση

των ευαίσθητων τιμών σε ένα group) οι οποίες είναι ανταγωνιστικές στο πόσο

χρήσιμη πληροφορία έχω

10

Page 11: Ιδιωτικότητα και διαχείριση δεδομένων

Κατηγορίες γενίκευσης Global recoding

Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιοlevel στην ιεραρχία του [Swee02a] [Sama01] [LeDR05].

Multidimensional / Οι τιμές ενός χαρ κου σε διαφορετικά groups μπορούν

. να γενικεύονται σε διαφορετικά επίπεδα Αλλά η εμφάνιση ενόςQI-value γενικεύεται στην ίδια τιμή

[LeDR06]. Local recoding

/ Οι εμφανίσεις ενός χαρ κου σε διαφορετικά groups . μπορούν να γενικεύονται σε διαφορετικές τιμές Οι

εμφανίσεις ενόςQI-value μπορεί να γενικευτούν σε διαφορετική τιμή [Xu+06].

11

Page 12: Ιδιωτικότητα και διαχείριση δεδομένων

Αναφορές (1) [Sama01] P. Samarati. Protecting respondents’ identities in microdata

release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. [Swee02a] Latanya Sweeney. k-Anonymity: A Model for Protecting

Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002)

[Swee02b] Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002)

[LeDR05] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005.

[LeDR06] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25

[MaGK06] A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.

12

Page 13: Ιδιωτικότητα και διαχείριση δεδομένων

Αναφορές (2) [Xu+06] Jian Xu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile

Shi, Ada Wai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790

[Agg05] Charu C.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005.

[PaSh07] Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007.

[UCI] U.C. Irvine Repository of Machine Learning Databases. 1998. http://www.ics.uci.edu/~mlearn

[IPUMS] Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html

13