Upload
duongthien
View
220
Download
4
Embed Size (px)
Citation preview
Data science and social network analysis for An3-‐Money Laundering
Silvia Figini
Collaboratori: Ma<a Andreosso, Umberto Gilardi, Nicolò Quilico
Università degli Studi di Pavia
Proge6 di ricerca europei • MUISING (2006-‐2010): Multy Industry semanDc based next
generaDon business intelligence (in collaborazione con Università di Pisa, Università di Insbruck, Università di Sheffield, DFKI, MPS, Consorzio Nazionale Ricerche di Pisa, Credit Reform, KPI).
• SYRTO (2013-‐2016): “SYstemic Risk TOmography” (in collaborazione con Università di Brescia, Centre NaDonal De La Recherche ScienDfique (CNRS) – Centre d'Economie de la Sorbonne – Axe Finance (CES-‐Finance), MIT Massachuse_s InsDtute of Technology, Department of OperaDon Research Boston College, Athens University of Economics and Business – Research Center (AUEB-‐RC), VU University Amsterdam, Banca Centrale Europea, Università Ca’ Foscari di Venezia).
Obie6vi del seminario
• Presentazione della metodologia da noi proposta per il monitoraggio e previsione di fenomeni di riciclaggio.
• UDlizzo di modelli di classificazione per la profilazione (sulla base di criteri derivanD dal “Provvedimento recante gli indicatori di anomalia per gli intermediari” di Banca d’Italia) dei sogge6 clienD dell’intermediario.
• Proposta delle social network analysis per evidenziare i legami tra i sogge6.
• Evidenze empiriche su basi daD reali.
Tecniche proposte in le_eratura • Modelli non supervisionaD
• Modelli supervisionaD
• Tecniche locali
• Tecniche per la riduzione della dimensionalità e per l’idenDficazione mulDvariata di valori anomali.
Si veda ad esempio: Mohhiuddin Ahmed, Abdun Naser Mahmood e Md. Rafiqul Islam (2015) “A survey of anomaly
detecDon techiniques in financial domain” in Future GeneraDon Computer Systems. Ngai, Hu, Wong, Chen e Sun (2010) “The applicaDon of data mining techniques in financial fraud
detecDon: A classificaDon framework and an accademic review of literature” in Decision Support Systems
RiferimenD in le_eratura su data analyDcs per l’anDriciclaggio
• Supporto stru_urale e analiDco per gesDre un grande insieme di daD stru_uraD, semi-‐stru_uraD, non stru_uraD e transazionali.
• Approcci presenD in le_eratura:
Rules-‐based Clustering-‐based ClassificaDon-‐based Model-‐based
Rohit, Patel (2015), Review on detec,on of sospicious transac,on in an,-‐money laudering using data mining framework, InternaDonal Journal for innovaDve research in Science & Technology, vol. 1, issue 8.
Rules based approach • Harmeet Kaur Khanuja et al. (2014): proposta di metodologie
forensi per idenDficazione e monitoraggio delle operazioni sospe_e (Reserve Bank of India).
• Rajput et al. (2014): uDlizzo di strumenD di opinion mining e SemanDc Web Rule Language per l’individuazione di operazioni sospe_e.
• Khan et al. (2013): Bayesian Network al fine di profilare ogni sogge_o in base ai daD sulle operazioni e variabili relaDve al sogge_o.
• Suvasini Panigrahi et al. (2009) sistema di interrogazioni su database a_raverso l’uso di regole di estrazione determinisDche per segmentare le transazioni.
ClassificaDon based approach
• Stefan Axelsson et al. (2012) propongono algoritmi di machine learning per l’anDriciclaggio. Applicazione in ambito di “mobile money financial transacDon” per la classificazione di transazioni sospe_e.
• Suspicious. Xingqi Wang et al. (2009), studiano un nuovo algoritmo per analizzare il problema del riciclaggio usando misure di distanza e similarità e algoritmi di “minimum spanning tree clustering”.
Model based approach • Mahesh Kharote et al (2014), analisi di flussi di transazioni e delle cara_erisDche
dei sogge6 per determinare un grado di rischio associato al singolo sogge_o.
• Manuel Meja Lavalle et al (2011), propongono un metodo per idenDficare le osservazioni anomale in un insieme di transazioni e a_raverso misure di distanza idenDficano transazioni inusuali.
• S. Larik et al. (2010), studiano algorDtmi di clustering per idenDficare comportamenD anomali dei sogge6 e tecniche staDsDche per determinare rispe_o al comportamento medio del cluster eventuali osservazioni anomale.
• World Bank sugerisce due approcci: il “First GeneraDon Tool” basato su metodi descri6vi (in collaborazione con Asia Pacific Group) e il “Second GeneraDon Tool” che sfru_a le Bayesian Network per idenDficare le fonD di rischio.
ll lavoro analizza i bonifici dall'Italia verso l'estero nel periodo 2007-‐2010.
Lo studio consente di individuare le osservazioni anomale. Correlazioni posiDve e significaDve emergono tra l'indice di anomalia dei flussi proposto dal lavoro e alcuni indicatori di criminalità nelle province di origine dei bonifici, nonché con misure di rischio e "opacità" dei paesi di desDnazione.
Il nostro contributo
• Studio di strumenD di “data science” per l’azione di prevenzione e contrasto del riciclaggio di denaro.
• Individuazione ed implementazione di una serie di algoritmi capaci di fare emergere il sistema di legami che interconne_ono la clientela di intermediari bancari consentendo di facilitare l’idenDficazione di eventuali sogge6 che si prestano a operaDvità illogiche o rischiose.
Metodologia
• Social Network Analysis
• Clustering
• Sequence rules analysis
Social Network Analysis
• Una rete sociale (social network) è formata da un insieme, o da più insiemi di a_ori e dalle relazioni che li legano.
• “La rete sociale risulta essere allora la stru_ura di relazioni le cui cara_erisDche possono essere usate per spiegare il comportamento delle persone che cosDtuiscono la rete”.
• ElemenD della rete sono i nodi (es. Individui) e i legami.
• I legami sono rappresentaD graficamente mediante linee, frecce o archi e possono essere di diverso Dpo.
Social Network Analysis
• ContribuD della scuola di Harvard (White) a_raverso lo studio della teoria dei grafi e dell’algebra delle matrici.
• Sviluppo delle interpretazioni algebriche dei network e ideazione di tecniche di MulDdimensional Scaling che sfru_ano i conce6 di spazio e distanza per raffigurare i daD relazionali e per mostrare graficamente le somiglianze e le differenze tra elemenD di un insieme.
• Le social network vengono rappresentate graficamente e sono corredate dalle staDsDche di rete (ad esempio, densità della rete, misure di centralità come degree, closeness e betweennes)
Sequence Rules Analysis
• Analisi dinamica delle sequenze di “allarme” rispe_o a comportamenD anomali (indicatori anomalia Banca d’Italia).
• Misure staDsDche elementari di support, confidence e liv.
• Misure avanzate per lo studio delle sequenze (hyperconfidence, hyperliv)
• Modelli grafici basaD sulla link analysis
Alcune definizioni • Il riciclaggio di denaro è l’attività che ha l’obiettivo di
ripulire i proventi illeciti al fine di separarli dalle attività criminose che li hanno generati rendendo complesso l’accertamento della loro origine.
• Operazione con la quale un flusso di potere d’acquisto potenziale viene trasformato in potere d’acquisto effettivo.
• Fonti normative che contengono una definizione di riciclaggio: – Art.648-bis Codice Penale – D.Lgs. 231/2007 art.2
16
Art. 648 bis codice penale • Fuori dei casi di concorso nel reato, chiunque sostituisce
o trasferisce denaro, beni o altre utilità provenienti da delitto non colposo, ovvero compie in relazione ad essi altre operazioni, in modo da ostacolare l'identificazione della loro provenienza delittuosa, è punito con la reclusione da quattro a dodici anni e con la multa da euro 1.032 a euro 15.493.
• La pena è aumentata quando il fatto è commesso nell'esercizio di un'attività professionale.
• La pena è diminuita se il denaro, i beni o le altre utilità provengono da delitto per il quale è stabilita la pena della reclusione inferiore nel massimo a cinque anni.
Art. 2 D.LGS. 231/2007 Ai soli fini del presente decreto le seguenti azioni, se commesse
intenzionalmente, costituiscono riciclaggio:
• la conversione o il trasferimento di beni, effettuati essendo a conoscenza che essi provengono da un'attivita' criminosa o da una partecipazione a tale attivita', allo scopo di occultare o dissimulare l'origine illecita dei beni medesimi o di aiutare chiunque sia coinvolto in tale attivita' a sottrarsi alle conseguenze giuridiche delle proprie azioni
• l'occultamento o la dissimulazione della reale natura, provenienza, ubicazione, disposizione, movimento, proprieta' dei beni o dei diritti sugli stessi, effettuati essendo a conoscenza che tali beni provengono da un'attivita' criminosa o da una partecipazione a tale attivita’
• l'acquisto, la detenzione o l'utilizzazione di beni essendo a conoscenza, al momento della loro ricezione, che tali beni provengono da un'attivita' criminosa o da una partecipazione a tale attivita';
• la partecipazione ad uno degli atti di cui alle lettere precedenti, l'associazione per commettere tale atto, il tentativo di perpetrarlo, il fatto di aiutare, istigare o consigliare qualcuno a commetterlo o il fatto di agevolarne l'esecuzione.
Il reato di riciclaggio si compone di due fasi:
• Commissione del reato presupposto • Intervento di un soggetto diverso dall’autore del
reato presupposto che si preoccupa di gestire i proventi illeciti
I comportamenti che possono dare origine ad atti di tipo riciclatorio sono:
• Conversione/Sostituzione • Trasferimento • Occultamento/Dissimulazione • Acquisto/Detenzione/Utilizzazione
20
Il fenomeno nel tempo • Analogia relativamente alle “tecniche” , evoluzione del
fenomeno rispetto a “meccanismi” e “schemi”.
• Riciclaggio monetario: anni ‘70 - movimentazione e uso massiccio di denaro contante
• Riciclaggio bancario: anni ’80 - strumenti e prodotti finanziari
• Riciclaggio finanziario: anni ’90 - società finanziarie
• Riciclaggio extra-finanziario: anni 2000 - professionisti e circuiti alternativi al sistema bancario
21
Il processo del riciclaggio
• Fase del collocamento (placement): dissimulazione dell’origine illecita del denaro al fine di distogliere l’attenzione degli organismi di controllo.
• Fase della stratificazione (layering): rimozione del collegamento tra i fondi e l’attività che li ha generati.
• Fase dell’integrazione ( integration): il denaro e le altre utilità vengono immesse nel mercato legale.
22
Antiriciclaggio Rappresenta l’azione di prevenzione e
contrasto del riciclaggio di denaro, beni o altre utilità, rivolgendo la sua attenzione alla ricostruzione delle vicende costitutive del flusso finanziario o della provenienza dei beni, alla identificazione dei soggetti operanti e alla effettuazione di controlli approfonditi al fine di verificare eventuali operazioni anomale.
23
Il D.Lgs. 231/2007 elenca i c.d. “presidi antiriciclaggio” come quegli strumenti utili a contrastare efficacemente il riciclaggio e il finanziamento del terrorismo.
Sono rappresentati da: • ADEGUATA VERIFICA DELLA CLIENTELA • ARCHIVIO UNICO INFORMATICO (AUI) • SEGNALAZIONE OPERAZIONI SOSPETTE
(SOS) • SEGNALAZIONI ANTIRICICLAGGIO
AGGREGATE (S.AR.A.) 24
Archivio Unico Informatico • Archivio nel quale sono conservati tutti i dati e le
informazioni acquisite nell’adempimento degli obblighi di identificazione e registrazione
Le informazioni contenute riguardano:
• OPERAZIONI • RAPPORTI • LEGAMI TRA SOGGETTI
• Sono registrate operazioni, anche frazionate, di movimentazione di denaro pari o superiori a 15.000€ e le informazioni riguardanti rapporti continuativi
25
StrumenD
• DaD: dataset ricavato da un flusso di daD desDnato a popolare l’A.U.I. fornito, per i fini della ricerca, da un intermediario finanziario.
• Numerosità campionaria: dbo.AUI_SOGGETTO n = 444.049 dbo.AUI_OPERAZIONE n = 264.452
Sovware uDlizzaD:
• Microsov SQL server express • RevoluDon R enterprise -‐ revoluDon analyDcs • UCINET 6 for windows
I passi dell’analisi
• Valorizzare la mole di daD e di informazioni contenute nell’Archivio Unico InformaDco.
• Profilare i sogge6, clienD dell’intermediario, e a_ribuire ad ogni cluster un diverso “grado di rischio”.
• Evidenziare i legami impliciD tra i sogge6 sulla base di operazioni bancarie.
ContenuD di A.U.I.
• TpInf 1 I daD relaDvi all’operazione
• TpInf 5 I daD relaDvi al sogge_o controparte dell’operazione
• TpInf 7 I daD relaDvi al sogge_o cliente dell’intermediario
• TpInf 8 I daD relaDvi al sogge_o esecutore
ContenuD di A.U.I. e data quality
• IdenDficaDvo Registrazione Rappresenta il codice idenDficaDvo dell’operazione inserita nel registro; è composto da una data corredata da un progressivo.
• IdTipoReg A_ributo di due cifre che idenDfica l’operazione specifica.
• Numero di Rapporto Codice idenDficaDvo del rapporto tra cliente ed intermediario.
Tipo Informazione 5 su Totale Operazione
Operazioni con TpInf 5 Operazioni senza TpInf 5
Tipo Informazione 5 senza Numero Rapporto su Totale operazioni con Tipo Informazione 5
TpInf5 senza Rapp TpInf5
Nell’ambito delle Operazioni la principale problema3ca è legata al Tipo Informazione 5:
• Nel primo grafico si evidenzia il peso del TpInf 5 sul totale delle Operazioni, pari al 40,79%.
• La totalità dei daD relaDvi al TpInf 5 è sprovvista dell’indicazione del Codice Fiscale.
• Nel secondo grafico si evidenzia come un ulteriore problema sia dato dalla mancata indicazione del Numero di Rapporto nel 4,92% dei casi sul totale delle registrazioni facenD riferimento al TpInf 5.
RapporD con cointestazione su totale rapporD
Rapp cointestaD Rapp non cointestaD
Tipo Informazione 8 su Totale Operazione
TpInf 8 Operazione senza TpInf 8
Un’ulteriore problema3ca è legata al Tipo Informazione 8 ed alla presenza di Rappor3 Cointesta3:
• Nel primo grafico si evidenzia il peso dei RapporD Co-‐IntestaD sul totale dei RapporD, pari al 18,79%.
• Nel secondo grafico il peso del TpInf 8 sul totale delle Operazioni.
Risoluzione ai problemi
• In relazione al TpInf 5 abbiamo assegnato un codice progressivo che idenDfichi i differenD sogge6 controparte dell’operazione.
• Applicazione di metodi staDsDci di “matching” per risolvere eventuali problemi di omonimia nell’a_ribuzione del codice progressivo.
• Necessità di indicazioni procedurali volte ad una migliore indicazione del Sogge_o Esecutore nel caso di rapporD di co-‐intestazione.
Cluster Analysis
• Tipologia daD input variabili dummy che a_ribuiscono valori 0 o 1 sulla base degli indicatori proposD da Banca d’Italia.
• Il campione uDlizzato nella prima fase (metodo gerarchico) è pari al 10% del dataset. Il campione è stato selezionato usando procedure capaci di mantenere la rappresentaDvità della popolazione.
• Il metodo aggregaDvo usato nella prima fase (metodo gerarchico) per o_enere g (numero di gruppi), è il metodo di Ward, il quale è dire_o alla minimizzazione della varianza interna ai gruppi.
• Al fine di o_enere la clusterizzazione dell’intera base daD è stato uDlizzato un algoritmo non gerarchico basato sul metodo delle k medie.
Cluster Analysis: RisultaD
Linea guida: ‘’Provvedimento recante gli indicatori di anomalia per gli intermediari’’
Social Network Analysis 1. Rilevazione dei legami espliciD traducendo le informazioni contenute nel database in matrici di adiacenza.
2. Rappresentazione grafica e analisi della rete o_enuta.
3. Applicazione proprietà algebriche ricavate dall’analisi del network e dal processo intuiDvo.
4. IdenDficazione e interpretazione dei legami nascosD in o6ca di anDriciclaggio.
5. Creazione delle matrici di adiacenza per la rappresentazione dei legami impliciD.
6. Analisi del network ricavato.
Social Network Analysis: risultato
Misure di centralità
Bonifici: RisultaD
Analisi deleghe: RisultaD
Link Analysis: risultaD per cluster
I CLUSTER II CLUSTER
III CLUSTER IV CLUSTER
Integrazione tra social network analysis e cluster: risultaD
Sviluppi in corso
• Evoluzione grafica della rete sociale sulla base dell’evoluzione dal tempo t al tempo t+1 dei rapporD e delle operaDvità tra i sogge6 Rete Dinamica.
• Introduzione di modelli di classificazione supervisionata alternaDvi alla cluster e di tecniche di “ensemble” per il miglioramento della capacità discriminatoria, predi6va e della stabilità dei risultaD.
Conclusioni • A_raverso la nostra proposta metodologica è possibile fare emergere importanD
informazioni e sopra_u_o relazioni non note a priori tra sogge6 e operazioni in o6ca di anDriciclaggio.
• Tali legami sono il fru_o di movimentazioni sospe_e di denaro tra più sogge6, che una semplice le_ura dell’AUI e modelli staDsDci tradizionali (ancora meno gli approcci basaD su criteri determinisDci) non avrebbero mai potuto mostrare.
• Appare necessario migliorare la qualità del dato alla fonte, integrandolo con informazioni aggiunDve che potrebbero perme_ere di fare emergere in modo più agevole dei legami mulDpli tra i sogge6 e ulteriori informazioni.
• Riteniamo che la nostra proposta metodologica possa essere di interesse per le IsDtuzioni per il contrasto al riciclaggio e a tale proposito auspichiamo chele potenzialità del nostro contributo vengano sperimentate per la lo_a al riciclaggio.
Data science and social network analysis for An3-‐Money Laundering
Silvia Figini
Collaboratori: Ma<a Andreosso, Umberto Gilardi, Nicolò Quilico
Università degli Studi di Pavia