27
Presentazione a cura del gruppo 7 : Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi LS a.a. 2005-06 di Zoltàn Gyöngyi Hector Garcia-Molina Stanford University Computer Science Department

Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Embed Size (px)

Citation preview

Page 1: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Presentazione a cura del gruppo 7:Cristian Caruso

Matteo Degli EspostiClaudia Fontan

Relatore: Claudia Fontan

Link Spam Alliances

Sistemi Informativi LSa.a. 2005-06

di Zoltàn GyöngyiHector Garcia-Molina

Stanford UniversityComputer Science Department

Page 2: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 2

Outline

Introduzione al web spam Formulazione del PageRank Studio delle Spam Farm:

Analisi di una singola Farm Alleanze tra due Farm Caso multi-Farm

Spam detection

“Conosci il tuo nemico; Conoscilo e l’avrai per metà vinto.”

(Confucio)

Page 3: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 3

Spam: perché? L’uso di motori di ricerca per rintracciare indirizzi Internet

è sempre più diffuso [FMN]

Assicurarsi un ranking alto coincide con l’aumentare le proprie entrate Nel periodo aprile-giugno 2005 negli USA le vendite tramite

eCommerce hanno rappresentato il 2.2% del totale (941.282 milioni di dollari) [USC]

…e se non si è ai primi postisi cerca di “plasmare” i risultati…

Page 4: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 4

Spam: definizione

Lo spamming è dannoso [NAJ]

Per gli utenti Rende più difficile trovare le informazioni desiderate Scoraggia l’utente

Per i motori di ricerca Spreca la banda del crawler Inquina la rete con pagine di spam Distorce il ranking reale dei risultati

Spamming: ingannare i motori di ricerca per ottenere un ranking più elevato di quanto ci si meriti in realtà

Page 5: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 5

Link SpamLink Spam: si costruiscono strutture di pagine interconnesse

per aumentare il PageRank di uno o più target

Page 6: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 6

cT’p (1 – c)p =

N+ 1N

Una pagina è importante se è puntata da tante altre pagine importanti

Essendo basato sulla struttura dei collegamenti, l’algoritmo del PageRank può essere vulnerabile al Link Spamming

PageRank

PageRank dipi che punta a p0

link uscenti da pi

random jump

PageRank della pagina p0:

dampingfactorGeneralizzando:

matrice ditransizione

p0 = cΣipi/|F(i)| + (1-c)

Page 7: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 7

Spam Farm: pagine

??

λ1

λ2

λk

λ0

pk

p2

p1

p0

Target page Ogni Farm ne ha una sola L’obiettivo dello spammer è

aumentare il suo ranking Boosting pages

Sono controllate dallo spammer Puntano al target per aumentare

il suo PageRank

Page 8: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 8

λ0

Spam Farm: link esterni

??

λ1

λ2

λkpk

p2

p1

p0

Leakage PageRank aggiunto al target da pagine

al di fuori della Farm (forum, blog, …) Lo spammer non ne ha il controllo λ = λ0 + … + λk

Page 9: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 9

Optimal Farm

pk

p2

p1

p0

λ

qk

q2

q1

q0

λ

Ottimale Il target punta alle boosting

pages

q0 = p0 / (1 – c2)

Intuitivo Ogni boosting page punta

unicamente al target

qk

q2

q1

q0

λ

(1 – c)(ck + 1)p0 =

cλN+

Intuitivamente:target e boosting pages

si rinforzanoa vicenda

Page 10: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 10

Alleanze tra due Farm Intuitivo

Ogni boosting page punta

ad entrambi i target

pkp2p1

p0

qmq2q1

q0

Economico Si interconnettono

unicamente i target

pkp2p1

p0

qmq2q1

q0

Redistribuzione del PageRank

conveniente per la Farm più piccola

q0 = p0 = d(k + m)/2

(k + m) nuovi link solo 2 nuovi link

[d = c/N(1 + c)]

Page 11: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 11

Incremento del PageRank

conveniente per entrambe le Farm

Alleanze tra due Farm Ottimo

Ogni target punta all’altro target I target non hanno link alle boosting pages

qm

q2

q1q0

pk

p2

p1p0

ck + c2mp0 = (1 + c)N

1N+

Intuitivamente:questo modello risulta vincente

perché concentra tutto il PageRanksui target minimizzando quello

delle boosting pages

Page 12: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 12

Web ring

Complete core

Alleanze multi-Farm

qm

q2

q1q0

pk

p2

p1p0

rnr2r1

r0

core

Due strutture fondamentali:

Page 13: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 13

Web ring Modalità di connessione più semplice ed intuitiva

qm

q2

q1q0

pk

p2

p1p0

rnr2r1

r0

ck + c2m + c3np0 = (1 + c + c2)N

1N+

la distanza influenza il contributo di ogni Farm al PageRank delle altre

Page 14: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 14

Complete core Il core è un sotto-grafo completamente connesso

qm

q2

q1q0

pk

p2

p1p0

rnr2r1

r0

2ck – c2k + c2m + c2np0 = (2 + c)N

1N+

il contributo di ogni Farm al PageRank delle altre è uniforme

Page 15: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 15

Riassumendo

0

1000

2000

3000

4000

5000

6000

1 2 3 4 5 6 7 8 9 10

Farm Number

Sca

led

Targ

et P

age

Ran

k

Single Farm

Web Ring

Complete Core

Farm non connesse:il PageRank del target è lineare nella dimensione della Farm (numero di boosting pages)

Complete core:aumentano tutti i PageRank, soprattutto quelli dei target delle Farm di minori dimensioni

Web ring:Il PageRank del target della Farm 10 diminuisce rispetto al caso di non connessione

Page 16: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 16

0

20

40

60

80

100

120

140

160

180

200

1 2 3 4 5 6 7 8 9 10

Farm Number

Pag

e R

ank

Co

ntr

ibu

tio

n

Complete Core

Web Ring

Riassumendo

Complete core:si conserva la maggiorparte del PageRank, agli altri target viene dato un identico contributo molto minore

Web ring:i valori dei contributi sono vicini tra loro e diminuiscono all’aumentare della distanza

Contributo della Farm 1 agli altri target

Page 17: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 17

Entrare in un’alleanza Web ring

Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Web ring è necessario rispettare le seguenti condizioni:

PR(alleanza p, q, r) > PR(alleanza p, q)

ck + c2m + c3n(1 + c + c2)N

ck + c2m(1 + c)N> n k + cm

(1 + c)>

Le dimensioni delle Farm già presenti determinano la dimensione minima che deve avere una Farm per essere accettata

La media pesata delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm

Es: k = 20; m = 10: Con FL a q n = 16

Il punto di inserimento della Farm entrante ne influenza la dimensione minima

Page 18: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 18

Entrare in un’alleanza Complete core

Perchè p0 accetti r0 in un’alleanza con q0 organizzata secondo la struttura del Complete core è necessario rispettare le seguenti condizioni:

PR(alleanza p, q, r) > PR(alleanza p, q)

La media aritmetica delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm

Es: k = 20; m = 10 n = 16 per m; n = 15 per k media aritmetica = 15 La terza Farm deve avere almeno 16 boosting pages

n arithmeticmean>

La dimensione minima che deve avere una Farm per essere accettata è determinata considerando la Farm più piccola già presente nell’alleanza:

n k + m – (1 – c)min{k, m}(1 + c)>

Page 19: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 19

Lasciare un’alleanza Prima abbiamo osservato che:

Intuizione: la Farm 10 contribuisce troppo al PageRank dei suoi alleati e riceve troppo poco in cambio

PR(10, non connessa) > PR(10, ring)

Nell’alleanza tra 10 Farm, risulta che il limite per la Farm 10 è 9091 avendo 10000 boosting pages, le conviene uscire dall’alleanza

Web ring La Farm p0 decide di lasciare l’alleanza se:

PR(non connessa) > PR(ring)

>ck + c2m + c3n(1 + c + c2)N

1N+(1 + c)N

ck + 1

>c - m(1 - c2) - cn(1 - c2)

(1 - c)k

Page 20: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 20

Lasciare un’alleanza Complete core

La Farm p0 decide di lasciare l’alleanza se:

PR(non connessa) > PR(complete core)

>2 + c + (1 + c)(k + m + n)

7c2k

>(1 + c)Nck + 1 2ck – c2k + c2m + c2n

(2 + c)N1N+

Nell’alleanza tra 10 Farm, risulta che nessuna raggiunge la dimensione limite a tutte conviene restare nell’alleanza

Contributi distribuiti in modo più uniforme rispetto al Web ring Piccole differenze tra i limiti di dimensione per le diverse Farm

Page 21: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 21

Spam detectionIdea di base: identificare strutture come quelle descritte in

precedenza

Obiettivo: determinate potenziali candidati per il link spamming

Zipfian distribution

Amplification factor

Spam mass

Page 22: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 22

Zipfian distribution

pk

p2

p1

p0

λ

Fetterly et al., 2004 Le Farm sono spesso generate automaticamente ed hanno

strutture molto regolari Si analizzano i gradi di entrata ed uscita delle pagine Molte pagine seguono la distribuzione di Zipfian

Agglomerati di pagine i cui gradi di ingresso ed uscita seguono questa distribuzione in modo esatto risultano spesso essere parte di una Farm

ZD(p) = |F(1)| = |F(2)| = … = |F(k)|

ZD(p) = |B(1)| = |B(2)| = … = |B(k)|

Page 23: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 23

colludingpages

Amplification factor Amp(H): in un gruppo di H pagine, è il rapporto tra il PageRank delle pagine nel gruppo ed il contributo di quelle esterne

Se Amp(H) è dell’ordine di 1/(1–c), le pagine del gruppo possono essere target di Farm connesse in un’alleanza

p0 + q0 = O1

1 - cΣi pi + Σj qj

Amplification factor Zhang et al., 2004

Una caratteristica comune delle Farm è la capacità dei target di catturare il PageRank proveniente dalle boosting pages

I target amplificano il contributo delle boosting pages

pk

p2

p1 p0

qm

q2

q1q0

Page 24: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 24

1-c

1-c

1-c

Relative spam mass Mass(i): relativo alla pagina i, è il rapporto tra PageRank totale e PageRank con apporto del random jump posto a 0:

Spam mass Zyöngyi et Garcia-Molina, 2005

I target aumentano il proprio PageRank soprattutto grazie alle boosting pages

Il PageRank delle boosting pages è dovuto al random jump

pk

p2

p1

p0

λ

pk

p2

p1

p’0

λ0

0

0

Per pagine che non hanno grandi benefici da boosting pages, Mass(i) tende a 0

Se Mass(i) è elevato, la pagina i è probabilmente un target all’interno di una Farm

p0 – p’0

p0

p0 = PageRank totalep’0 = PageRank parziale

Page 25: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 25

Conclusioni Le tecniche di Spam Detection presentate sono ancora

sperimentali Riescono spesso ad identificare solo il core di un’alleanza Possono risultare utili, ma presentano ancora problemi

La tecnica riguardante la distribuzione di Zipfian non identifica strutture non regolari

La tecnica dell’Amplification factor identifica come alleanze di Farm anche gruppi di pagine che non lo sono

La tecnica basata sulla Spam Mass non identifica target che aumentano il proprio PageRank soprattutto grazie al leakage

Il primo passo per combattere realmente il Link Spam è conoscere a fondo le strutture proprie di questa tecnica

Il percorso che porta ad individuare tecniche realmente efficaci per combattere il Link Spamming è comunque ancora molto lungo…

Page 26: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 26

Riferimenti[FMN] “Spam, Damn Spam, and Statistics”, Dennis Fetterly, Mark

Manasse, Mark Najork, 2004.research.microsoft.com/research/sv/PageTurner/webdb2004.pdf

[GGM] “Link spam alliances” Technical Report, Stanford University, 2005.infolab.stanford.edu/~zoltan/publications.html

[NAJ] “Heuristics for Detecting Spam Web Pages”, Mark Najork – Microsoft Research, Silicon Valley, 2005. www.cise.ufl.edu/~adobra/DaMn/talks/2005-10-26-Bertinoro.ppt

[USC] U.S. Census Bureau, E-Statswww.census.gov/eos/www/ebusiness614.htm

Page 27: Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi

Link Spam Alliances - gruppo 7 27

Demo

…and now…WE WANT YOU

see our