39
Scientific openness with sensitive data De l’ouverture des données scientifiques sensibles Raphaël Fournier-S’niehotta Journée SoData!, IGN 14 mars 2013

Scientific openness with sensitive data

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Scientific openness with sensitive data

Scientific openness with sensitive dataDe l’ouverture des données scientifiques sensibles

Raphaël Fournier-S’niehotta

Journée SoData!, IGN

14 mars 2013

Page 2: Scientific openness with sensitive data

Introduction Données Résultats Analyse 2 / 15

Contexte

équipe ComplexNetworks : grands graphes de terrain etréseaux sociaux, mesure de l’Internet (carte)

compétences en collecte de données

projets MAPE (ANR) et MAPAP (CE) :Measurements and Analysis of P2P Activity againstPaedophile content

Antipaedo http://antipaedo.lip6.fr

sujet sensible

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 3: Scientific openness with sensitive data

Introduction Données Résultats Analyse 3 / 15

Contexte (suite)

L’activité pédophile dans le pair-à-pair (P2P)Victimes directesDanger pour les utilisateurs non pédophilesImpact sur la régulation de l’Internet

Très peu de connaissances

ObjectifsQuantifier les requêtes et les utilisateursÉtudier l’évolution de l’activitéComparer différents réseaux

Améliorer significativement les connaissancessur l’activité pédophile dans le P2P

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 4: Scientific openness with sensitive data

Introduction Données Résultats Analyse 4 / 15

Réseaux P2P

des millions d’utilisateurs

utilisateur serveurmots-clefs −→

←− liste de fichiersfichier(s) −→

←− fournisseur(s)

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 5: Scientific openness with sensitive data

Introduction Données Résultats Analyse 5 / 15

Données

2 collectes en continu sur eDonkey :2007 10 semaines, 100 millions de requêtes, 24 millions d’IP

2009 147 semaines, 1,3 milliard de requêtes, 82 millions d’IP(géolocalisées)

1 collecte pour étudier KAD [1] :KAD 10 jours, ∼ 250 000 requêtes

ed2kFR 60 jours, ∼ 240 000 requêtesed2kUA 60 jours, ∼ 170 000 requêtes

Contient des informations sensibles

T. CHOLEZ, I. CHRISMENT, AND O. FESTOR. Monitoring and Controlling Content Access in KAD. ICC 2010.

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 6: Scientific openness with sensitive data

Introduction Données Résultats Analyse 6 / 15

Des données sensibles

12/03-02:48:08 once upon a time s02e16 <BR><Rio De Janeiro>12/03-02:48:09 devenir male dominant12/03-02:48:09 la historia sin fin <AR><Buenos Aires>12/03-02:48:09 mario party 9 <DE><Enger>12/03-02:48:09 gangster squad <PT><Barcelos>12/03-02:48:09 naruto12/03-02:48:09 desaparecidos fiesta loca12/03-02:48:09 secret life american vostfr12/03-02:48:10 pthc 12yo12/03-02:48:10 the mentalist s01e1912/03-02:48:10 ich mich nach deiner liebe soundtrack12/03-02:48:10 michael jackson bad man in the mirror

28/02-01:25:02 pierre durand cancer <FR><Talence>28/02-01:25:14 college emile fournier de badonvillier <FR><Talence>3/03-18:50:29 julie fournier <IT><Rovigo>7/04-13:22:49 lilian moreno 06 17 79 18 35 <FR><Toulouse>

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 7: Scientific openness with sensitive data

Introduction Données Résultats Analyse 7 / 15

Ouverture

Préoccupation dès le début du projet

MotivationFournir les données à la communauté scientifique

Reproductibilité des résultats

ProblèmesSatisfaire les exigences légales

Ne pas divulguer d’informations personnelles

Trouver un compromisentre richesse des données et anonymat

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 8: Scientific openness with sensitive data

Introduction Données Résultats Analyse 8 / 15

Anonymisation : procédure

Tempsvaleur relative plutôt qu’absolue

Adresses IP« seulement » 232 possibilitésfonction de hachage connue insuffisanteanonymisation à la volée par des entiers

lenteur et demande en calculshaut niveau d’anonymisationusage ultérieur du jeu de données immédiat

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 9: Scientific openness with sensitive data

Introduction Données Résultats Analyse 9 / 15

Anonymisation : procédure (suite)

Requêtesdistinguer le général du particulier (sensible)

peu de requêtesou beaucoup de requêtes du même utilisateurseuil de 50 IP distinctes

nombres : téléphone et cartes de crédit, mais aussi âges

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 10: Scientific openness with sensitive data

Introduction Données Résultats Analyse 10 / 15

Disponibilité

Complètement accessibles

méta donnéeséchantillonsoutil (algorithme de détection)format standard, fichier texte formaté

Sur demande

totalité des jeux de données

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 11: Scientific openness with sensitive data

Introduction Données Résultats Analyse 11 / 15

Résultats

Mise au point d’un outil de détection de requêtes pédophilesconçu en collaboration avec forces de l’ordrevalidationconnaissance des taux d’erreurs (FP/FN)

précision 98,6 %rappel 76%

Statistiques globaleseDonkey [2]

environ 2,5 requêtes pédophiles pour 1 000 (en 2009)1 requête pédophile toutes les 33 secondes environ

environ 2,2 utilisateurs pour 1 000 sont pédophiles

environ 2 fois moins sur KAD

M. LATAPY, C. MAGNIEN, AND R. FOURNIER. Quantifying paedophile activity in a large P2P system.Information Processing and Management, 2012.

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 12: Scientific openness with sensitive data

Introduction Données Résultats Analyse 12 / 15

Évolution temporelle

0,1

0,2

0,3

0,4

0,5

0,6

2009−07

2010−01

2010−07

2011−01

2011−07

2012−01

2012−07

fra

ctio

n d

e r

eq

tes

(en

%)

temps (semaine)

requêtes pédo.

Trafic global stable sur 3 ansTrafic pédophile en forte croissance

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 13: Scientific openness with sensitive data

Introduction Données Résultats Analyse 13 / 15

Intégration sociale

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0 2 4 6 8 10 12 14 16 18 20 22

fra

ctio

n m

oye

nn

e d

es r

eq

tes

(en

%)

heure de la journée

requêtes pédo.

Effet jour/nuitPic de fraction de requêtes pédophiles vers 6 heuresDifférent pour les requêtes pornographiques

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 14: Scientific openness with sensitive data

Introduction Données Résultats Analyse 13 / 15

Intégration sociale

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0 2 4 6 8 10 12 14 16 18 20 22

fra

ctio

n m

oye

nn

e d

es r

eq

tes

(en

%)

heure de la journée

requêtes pédo.requêtes porn.

Effet jour/nuitPic de fraction de requêtes pédophiles vers 6 heuresDifférent pour les requêtes pornographiques

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 15: Scientific openness with sensitive data

Introduction Données Résultats Analyse 14 / 15

Ouverture des données

Puissance de ce type d’analyse (Transaction-Log Analysis)avancées significativescontribution qualitative avec une approche quantitativeutile dans de nombreux autres contextes

Mais :responsabilité / éthique

Google Flu ([1])Étude sur Twitter ([2])

erreursAOLnotre outil

J. GINSBERG, M. H. MOHEBBI, R. S. PATEL, L. BRAMMER, M. S. SMOLINSKI, AND L. BRILLIANT. Detectinginfluenza epidemics using search engine query data. Nature, 457:1012–1014, 2009.

A. SADILEK, H. KAUTZ, AND V. SILENZIO. Predicting disease transmission from geo-tagged micro-blog data.AAAI Conference on Artificial Intelligence, 2012.

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 16: Scientific openness with sensitive data

Introduction Données Résultats Analyse 15 / 15

Merci.

[email protected]

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 17: Scientific openness with sensitive data

Introduction Données Résultats Analyse 16 / 15

Géolocalisation

pays # requêtes # pédo. fractionIT 19569361 15426 0.08 %ES 8881405 5177 0.06 %FR 7583815 8059 0.11 %BR 2795090 4849 0.17 %IL 2139697 2618 0.12 %DE 2093106 11238 0.54 %KR 1386799 336 0.02 %US 1053183 6184 0.59 %PL 975170 1178 0.12 %AR 810466 1465 0.18 %CN 635392 337 0.05 %PT 513327 434 0.08 %IE 511185 54 0.01 %

TW 417893 138 0.03 %BE 402565 646 0.16 %CH 320054 1710 0.53 %GB 319386 1698 0.53 %NL 243646 1131 0.46 %CA 241460 1233 0.51 %SI 239572 167 0.07 %MX 210504 1098 0.52 %RU 200958 2712 1.35 %AT 184248 977 0.53 %

Problèmes :

languesencodageVPN

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 18: Scientific openness with sensitive data

Introduction Données Résultats Analyse 17 / 15

Géolocalisation

total des requêtes

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 19: Scientific openness with sensitive data

Introduction Données Résultats Analyse 17 / 15

Géolocalisation

fraction de requêtes pédophiles

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 20: Scientific openness with sensitive data
Page 21: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 19 / 15

Tool design

4 categories of paedophile queries

?and sex

matcheschild

explicit ?matches

with age<17 and

or child( )?

matches agesuffix

sex

familyparents and

familychild and sex ?

matches

tag as paedophile

query

raygold little girl

porno infantil

incest mom son video

12yo fuck video

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 22: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 20 / 15

Quality

False positive“sexy daddy destinys child”contains “sexy”, “daddy” and “child”but most likely a music-related query

False negative

“pjk 12yo”contains paedophile keywords that we don’t search for

How to estimate false positive and false negative rates?

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 23: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 21 / 15

Tool assessment – Survey

set of 21 volunteering experts (Europol, nationalauthorities, NGOs)

set of 3,000 randomly selected queries:paedophilenot paedophileneighbours (submitted within the 2 previous or next hoursof a paedophile query by the same user)

tag queries as paedophile, probably paedophile, probablynot paedophile, not paedophile or I don’t know

prob. je ne prob. paspédo pédo sais pas pas pédo total pertinence. . . . . . . . . . . . . . . . . . . . .

1174 111 20 64 789 2158 99.1. . . . . . . . . . . . . . . . . . . . .

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 24: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 22 / 15

Assessment results

Limited filter precisionFalse negativesFalse positives

queries

paedophileour tool

correct: 75.5%

wrong: 24.5%

all

queriesour tool paedophile

wrong: 1.39%

correct: 98.61%

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 25: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 23 / 15

Notion d’utilisateur

Approximation possible :utilisateur ∼ adresse IP

ProblèmesTraduction d’adresse (NAT)Renouvellement d’adressesPlusieurs utilisateurs par ordinateurPlusieurs ordinateurs par utilisateur

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 26: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 24 / 15

Notion d’utilisateur

Utilisateur pédophileUn utilisateur est pédophile s’il a fait une requête pédophilePollution : toutes les adresses IP vues comme pédophiles,après un certain temps

3 approches :utilisateur ∼ adresse IP + port de connexionsessions temporellesdurée de la mesure

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 27: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 25 / 15

Notion d’utilisateur : IP vs (IP,port)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 2 4 6 8 10

fraction d

’utilis

ate

urs

dété

cté

s c

om

me p

édophile

s (

en %

)

temps (semaines)

2007, IP2009, IP

(IP, port) permet d’éviter la pollution

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 28: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 25 / 15

Notion d’utilisateur : IP vs (IP,port)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 2 4 6 8 10

fraction d

’utilis

ate

urs

dété

cté

s c

om

me p

édophile

s (

en %

)

temps (semaines)

2007, (IP, port)2007, IP2009, IP

(IP, port) permet d’éviter la pollution

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 29: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 26 / 15

Notion d’utilisateur : sessions temporelles

tt1 t2 t3 t4 t5 t6

session session

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 30: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 27 / 15

Notion d’utilisateur : sessions temporelles

0

0,05

0,1

0,15

0,2

0,25

0,3

0 2 4 6 8 10 12

fra

ctio

n d

e s

essio

ns

técté

es c

om

me

do

ph

iles

δ (heures)

2007, (IP,port)2007, IP2009, IP

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 31: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 28 / 15

Fraction d’utilisateurs pédophiles

faux positifs et négatifs sur les utilisateurs

p(u ∈ U+ | u ∈ V (n,0)) = 1− (1− f ′−)n

p(u ∈ U− | u ∈ V (n, k)) = (f ′+)k (1− f ′−)n−k

U+, U− : ensemble des utilisateurs pédophiles/non pédophilesV+, V− : ensemble des utilisateurs détectés commepédophiles/non pédophilesn : nombre de requêtes d’un utilisateurk : nombre de requêtes détectées comme pédophiles

|U+∩V+||D| =

∑Nn=1

∑nk=1(1− (f ′+)k (1− f ′−)n−k ) |V (n,k)|

|D|

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 32: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 29 / 15

Fraction d’utilisateurs pédophiles

RésultatFraction d’utilisateurs pédophiles proche de 0,22% [2007]

1 utilisateur pédophile sur 450 environ

MATTHIEU LATAPY, CLÉMENCE MAGNIEN, AND RAPHAËL FOURNIER. Quantifying paedophile queries in alarge P2P system. In IEEE International Conference on Computer Communications (INFOCOM)Mini-Conference, 2011.

MATTHIEU LATAPY, CLÉMENCE MAGNIEN, AND RAPHAËL FOURNIER. Quantifying paedophile activity in alarge P2P system. Information Processing and Management, In press, 2012.

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 33: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 30 / 15

Global traffic on server

2

4

6

8

10

12

2009−07

2010−01

2010−07

2011−01

2011−07

2012−01

queries (

mill

ions)

week

all

Stability of global traffic over 3 years

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 34: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 31 / 15

Fraction of paedophile queries

0.1

0.2

0.3

0.4

0.5

0.6

2009−07

2010−01

2010−07

2011−01

2011−07

2012−01

2012−07

fraction o

f queries (

in %

)

week

paedophile queries

Fraction of paedophile queries strongly increasing

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 35: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 32 / 15

Fraction of paedophile users

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

2009−07

2010−01

2010−07

2011−01

2011−07

2012−01

2012−07

fraction o

f IP

addre

sses (

in %

)

week

paedo. IPs

Fraction of paedophile users also increasing

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 36: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 33 / 15

Daily traffic

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

0 2 4 6 8 10 12 14 16 18 20 22

avera

ge n

um

ber

of queries

hour

all queries

Circadian cycle (day/night effect)

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 37: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 34 / 15

Fraction of paedophile activity

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 2 4 6 8 10 12 14 16 18 20 22

avera

ge fra

ction o

f queries

(in %

)

hour

paedo. queries

Fraction of paedophile queries peaks at 6 AM

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 38: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 35 / 15

Pornography vs paedophile activity

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 2 4 6 8 10 12 14 16 18 20 22

avera

ge fra

ction o

f queries

(in %

)

hour

paedo. queries.porn. queries

Paedopornagraphy and traditional pornography differ

Raphaël Fournier-S’niehotta Scientific openness with sensitive data

Page 39: Scientific openness with sensitive data

Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 36 / 15

Evolution of paedophile activity

ResultsImportant growth of paedophile activitybetween 2009 and 2012

Fraction of paedophile queries peaks at 6 AM

Qualitative contribution with quantitative approach

Raphaël Fournier-S’niehotta Scientific openness with sensitive data