Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Scientific openness with sensitive dataDe l’ouverture des données scientifiques sensibles
Raphaël Fournier-S’niehotta
Journée SoData!, IGN
14 mars 2013
Introduction Données Résultats Analyse 2 / 15
Contexte
équipe ComplexNetworks : grands graphes de terrain etréseaux sociaux, mesure de l’Internet (carte)
compétences en collecte de données
projets MAPE (ANR) et MAPAP (CE) :Measurements and Analysis of P2P Activity againstPaedophile content
Antipaedo http://antipaedo.lip6.fr
sujet sensible
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 3 / 15
Contexte (suite)
L’activité pédophile dans le pair-à-pair (P2P)Victimes directesDanger pour les utilisateurs non pédophilesImpact sur la régulation de l’Internet
Très peu de connaissances
ObjectifsQuantifier les requêtes et les utilisateursÉtudier l’évolution de l’activitéComparer différents réseaux
Améliorer significativement les connaissancessur l’activité pédophile dans le P2P
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 4 / 15
Réseaux P2P
des millions d’utilisateurs
utilisateur serveurmots-clefs −→
←− liste de fichiersfichier(s) −→
←− fournisseur(s)
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 5 / 15
Données
2 collectes en continu sur eDonkey :2007 10 semaines, 100 millions de requêtes, 24 millions d’IP
2009 147 semaines, 1,3 milliard de requêtes, 82 millions d’IP(géolocalisées)
1 collecte pour étudier KAD [1] :KAD 10 jours, ∼ 250 000 requêtes
ed2kFR 60 jours, ∼ 240 000 requêtesed2kUA 60 jours, ∼ 170 000 requêtes
Contient des informations sensibles
T. CHOLEZ, I. CHRISMENT, AND O. FESTOR. Monitoring and Controlling Content Access in KAD. ICC 2010.
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 6 / 15
Des données sensibles
12/03-02:48:08 once upon a time s02e16 <BR><Rio De Janeiro>12/03-02:48:09 devenir male dominant12/03-02:48:09 la historia sin fin <AR><Buenos Aires>12/03-02:48:09 mario party 9 <DE><Enger>12/03-02:48:09 gangster squad <PT><Barcelos>12/03-02:48:09 naruto12/03-02:48:09 desaparecidos fiesta loca12/03-02:48:09 secret life american vostfr12/03-02:48:10 pthc 12yo12/03-02:48:10 the mentalist s01e1912/03-02:48:10 ich mich nach deiner liebe soundtrack12/03-02:48:10 michael jackson bad man in the mirror
28/02-01:25:02 pierre durand cancer <FR><Talence>28/02-01:25:14 college emile fournier de badonvillier <FR><Talence>3/03-18:50:29 julie fournier <IT><Rovigo>7/04-13:22:49 lilian moreno 06 17 79 18 35 <FR><Toulouse>
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 7 / 15
Ouverture
Préoccupation dès le début du projet
MotivationFournir les données à la communauté scientifique
Reproductibilité des résultats
ProblèmesSatisfaire les exigences légales
Ne pas divulguer d’informations personnelles
Trouver un compromisentre richesse des données et anonymat
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 8 / 15
Anonymisation : procédure
Tempsvaleur relative plutôt qu’absolue
Adresses IP« seulement » 232 possibilitésfonction de hachage connue insuffisanteanonymisation à la volée par des entiers
lenteur et demande en calculshaut niveau d’anonymisationusage ultérieur du jeu de données immédiat
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 9 / 15
Anonymisation : procédure (suite)
Requêtesdistinguer le général du particulier (sensible)
peu de requêtesou beaucoup de requêtes du même utilisateurseuil de 50 IP distinctes
nombres : téléphone et cartes de crédit, mais aussi âges
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 10 / 15
Disponibilité
Complètement accessibles
méta donnéeséchantillonsoutil (algorithme de détection)format standard, fichier texte formaté
Sur demande
totalité des jeux de données
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 11 / 15
Résultats
Mise au point d’un outil de détection de requêtes pédophilesconçu en collaboration avec forces de l’ordrevalidationconnaissance des taux d’erreurs (FP/FN)
précision 98,6 %rappel 76%
Statistiques globaleseDonkey [2]
environ 2,5 requêtes pédophiles pour 1 000 (en 2009)1 requête pédophile toutes les 33 secondes environ
environ 2,2 utilisateurs pour 1 000 sont pédophiles
environ 2 fois moins sur KAD
M. LATAPY, C. MAGNIEN, AND R. FOURNIER. Quantifying paedophile activity in a large P2P system.Information Processing and Management, 2012.
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 12 / 15
Évolution temporelle
0,1
0,2
0,3
0,4
0,5
0,6
2009−07
2010−01
2010−07
2011−01
2011−07
2012−01
2012−07
fra
ctio
n d
e r
eq
uê
tes
(en
%)
temps (semaine)
requêtes pédo.
Trafic global stable sur 3 ansTrafic pédophile en forte croissance
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 13 / 15
Intégration sociale
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0 2 4 6 8 10 12 14 16 18 20 22
fra
ctio
n m
oye
nn
e d
es r
eq
uê
tes
(en
%)
heure de la journée
requêtes pédo.
Effet jour/nuitPic de fraction de requêtes pédophiles vers 6 heuresDifférent pour les requêtes pornographiques
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 13 / 15
Intégration sociale
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0 2 4 6 8 10 12 14 16 18 20 22
fra
ctio
n m
oye
nn
e d
es r
eq
uê
tes
(en
%)
heure de la journée
requêtes pédo.requêtes porn.
Effet jour/nuitPic de fraction de requêtes pédophiles vers 6 heuresDifférent pour les requêtes pornographiques
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 14 / 15
Ouverture des données
Puissance de ce type d’analyse (Transaction-Log Analysis)avancées significativescontribution qualitative avec une approche quantitativeutile dans de nombreux autres contextes
Mais :responsabilité / éthique
Google Flu ([1])Étude sur Twitter ([2])
erreursAOLnotre outil
J. GINSBERG, M. H. MOHEBBI, R. S. PATEL, L. BRAMMER, M. S. SMOLINSKI, AND L. BRILLIANT. Detectinginfluenza epidemics using search engine query data. Nature, 457:1012–1014, 2009.
A. SADILEK, H. KAUTZ, AND V. SILENZIO. Predicting disease transmission from geo-tagged micro-blog data.AAAI Conference on Artificial Intelligence, 2012.
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 15 / 15
Merci.
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 16 / 15
Géolocalisation
pays # requêtes # pédo. fractionIT 19569361 15426 0.08 %ES 8881405 5177 0.06 %FR 7583815 8059 0.11 %BR 2795090 4849 0.17 %IL 2139697 2618 0.12 %DE 2093106 11238 0.54 %KR 1386799 336 0.02 %US 1053183 6184 0.59 %PL 975170 1178 0.12 %AR 810466 1465 0.18 %CN 635392 337 0.05 %PT 513327 434 0.08 %IE 511185 54 0.01 %
TW 417893 138 0.03 %BE 402565 646 0.16 %CH 320054 1710 0.53 %GB 319386 1698 0.53 %NL 243646 1131 0.46 %CA 241460 1233 0.51 %SI 239572 167 0.07 %MX 210504 1098 0.52 %RU 200958 2712 1.35 %AT 184248 977 0.53 %
Problèmes :
languesencodageVPN
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 17 / 15
Géolocalisation
total des requêtes
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse 17 / 15
Géolocalisation
fraction de requêtes pédophiles
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 19 / 15
Tool design
4 categories of paedophile queries
?and sex
matcheschild
explicit ?matches
with age<17 and
or child( )?
matches agesuffix
sex
familyparents and
familychild and sex ?
matches
tag as paedophile
query
raygold little girl
porno infantil
incest mom son video
12yo fuck video
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 20 / 15
Quality
False positive“sexy daddy destinys child”contains “sexy”, “daddy” and “child”but most likely a music-related query
False negative
“pjk 12yo”contains paedophile keywords that we don’t search for
How to estimate false positive and false negative rates?
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 21 / 15
Tool assessment – Survey
set of 21 volunteering experts (Europol, nationalauthorities, NGOs)
set of 3,000 randomly selected queries:paedophilenot paedophileneighbours (submitted within the 2 previous or next hoursof a paedophile query by the same user)
tag queries as paedophile, probably paedophile, probablynot paedophile, not paedophile or I don’t know
prob. je ne prob. paspédo pédo sais pas pas pédo total pertinence. . . . . . . . . . . . . . . . . . . . .
1174 111 20 64 789 2158 99.1. . . . . . . . . . . . . . . . . . . . .
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 22 / 15
Assessment results
Limited filter precisionFalse negativesFalse positives
queries
paedophileour tool
correct: 75.5%
wrong: 24.5%
all
queriesour tool paedophile
wrong: 1.39%
correct: 98.61%
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 23 / 15
Notion d’utilisateur
Approximation possible :utilisateur ∼ adresse IP
ProblèmesTraduction d’adresse (NAT)Renouvellement d’adressesPlusieurs utilisateurs par ordinateurPlusieurs ordinateurs par utilisateur
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 24 / 15
Notion d’utilisateur
Utilisateur pédophileUn utilisateur est pédophile s’il a fait une requête pédophilePollution : toutes les adresses IP vues comme pédophiles,après un certain temps
3 approches :utilisateur ∼ adresse IP + port de connexionsessions temporellesdurée de la mesure
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 25 / 15
Notion d’utilisateur : IP vs (IP,port)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 2 4 6 8 10
fraction d
’utilis
ate
urs
dété
cté
s c
om
me p
édophile
s (
en %
)
temps (semaines)
2007, IP2009, IP
(IP, port) permet d’éviter la pollution
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 25 / 15
Notion d’utilisateur : IP vs (IP,port)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 2 4 6 8 10
fraction d
’utilis
ate
urs
dété
cté
s c
om
me p
édophile
s (
en %
)
temps (semaines)
2007, (IP, port)2007, IP2009, IP
(IP, port) permet d’éviter la pollution
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 26 / 15
Notion d’utilisateur : sessions temporelles
tt1 t2 t3 t4 t5 t6
session session
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 27 / 15
Notion d’utilisateur : sessions temporelles
0
0,05
0,1
0,15
0,2
0,25
0,3
0 2 4 6 8 10 12
fra
ctio
n d
e s
essio
ns
dé
técté
es c
om
me
pé
do
ph
iles
δ (heures)
2007, (IP,port)2007, IP2009, IP
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 28 / 15
Fraction d’utilisateurs pédophiles
faux positifs et négatifs sur les utilisateurs
p(u ∈ U+ | u ∈ V (n,0)) = 1− (1− f ′−)n
p(u ∈ U− | u ∈ V (n, k)) = (f ′+)k (1− f ′−)n−k
U+, U− : ensemble des utilisateurs pédophiles/non pédophilesV+, V− : ensemble des utilisateurs détectés commepédophiles/non pédophilesn : nombre de requêtes d’un utilisateurk : nombre de requêtes détectées comme pédophiles
|U+∩V+||D| =
∑Nn=1
∑nk=1(1− (f ′+)k (1− f ′−)n−k ) |V (n,k)|
|D|
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 29 / 15
Fraction d’utilisateurs pédophiles
RésultatFraction d’utilisateurs pédophiles proche de 0,22% [2007]
1 utilisateur pédophile sur 450 environ
MATTHIEU LATAPY, CLÉMENCE MAGNIEN, AND RAPHAËL FOURNIER. Quantifying paedophile queries in alarge P2P system. In IEEE International Conference on Computer Communications (INFOCOM)Mini-Conference, 2011.
MATTHIEU LATAPY, CLÉMENCE MAGNIEN, AND RAPHAËL FOURNIER. Quantifying paedophile activity in alarge P2P system. Information Processing and Management, In press, 2012.
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 30 / 15
Global traffic on server
2
4
6
8
10
12
2009−07
2010−01
2010−07
2011−01
2011−07
2012−01
queries (
mill
ions)
week
all
Stability of global traffic over 3 years
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 31 / 15
Fraction of paedophile queries
0.1
0.2
0.3
0.4
0.5
0.6
2009−07
2010−01
2010−07
2011−01
2011−07
2012−01
2012−07
fraction o
f queries (
in %
)
week
paedophile queries
Fraction of paedophile queries strongly increasing
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 32 / 15
Fraction of paedophile users
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
2009−07
2010−01
2010−07
2011−01
2011−07
2012−01
2012−07
fraction o
f IP
addre
sses (
in %
)
week
paedo. IPs
Fraction of paedophile users also increasing
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 33 / 15
Daily traffic
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
0 2 4 6 8 10 12 14 16 18 20 22
avera
ge n
um
ber
of queries
hour
all queries
Circadian cycle (day/night effect)
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 34 / 15
Fraction of paedophile activity
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0 2 4 6 8 10 12 14 16 18 20 22
avera
ge fra
ction o
f queries
(in %
)
hour
paedo. queries
Fraction of paedophile queries peaks at 6 AM
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 35 / 15
Pornography vs paedophile activity
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0 2 4 6 8 10 12 14 16 18 20 22
avera
ge fra
ction o
f queries
(in %
)
hour
paedo. queries.porn. queries
Paedopornagraphy and traditional pornography differ
Raphaël Fournier-S’niehotta Scientific openness with sensitive data
Introduction Données Résultats Analyse Tool design Tool assessment Identifier Quantifier Long-term evolution Daily evolution 36 / 15
Evolution of paedophile activity
ResultsImportant growth of paedophile activitybetween 2009 and 2012
Fraction of paedophile queries peaks at 6 AM
Qualitative contribution with quantitative approach
Raphaël Fournier-S’niehotta Scientific openness with sensitive data