16
Graph-Based Sybil Detection Matteo D’Angelo Falsi Profili nei Social Network Sybil Detection Sybil Detection con Machine Learning Graph-Based Sybil Detection Random Walk Conduttanza Progettazione Grazie per l’Attenzione! Graph-Based Sybil Detection: a caccia di falsi profili nel grafo di un Social Network Candidato: Relatori: Matteo D’Angelo Prof. Marco Liverani Dott. Stefano Guarino UNIVERSITÀ DEGLI STUDI ROMA TRE Tesi di Laurea Magistrale in Matematica Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 1 / 13

Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Graph-Based Sybil Detection:a caccia di falsi profili nel grafo di un

Social Network

Candidato: Relatori:

Matteo D’Angelo Prof. Marco Liverani

Dott. Stefano Guarino

UNIVERSITÀ DEGLI STUDI

ROMATRE

Tesi di Laurea Magistrale in MatematicaUniversità degli Studi Roma Tre

Anno Accademico 2014/2015

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 1 / 13

Page 2: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Falsi profili nei Social Network

Nell’ambito dei Social Network, un profilo che non corrisponde allavera identità di una persona viene tipicamente denominato Sybil edi conseguenza un attacco basato su falsi profili viene chiamatoSybil Attack.

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 2 / 13

Page 3: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Perché sono pericolosi i falsi profili?

I falsi profili in un Social Network possono essere utilizzati perdifferenti motivi, tra cui:

Diffondere malware (i.e., programmi creati appositamente al fine di

arrecare danni ai sistemi nei quali riescono ad infiltrarsi)

Diffondere spam (i.e., messaggi più o meno diretti che includono link a

siti esterni, spesso contenenti malware o pubblicità non desiderata)

Manipolare votazioni on-line

Alterare campagne pubblicitarie

Accedere ad informazioni personali di altri profili

Danneggiare l’immagine di personaggi o marchi famosi

. . .

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 3 / 13

Page 4: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Sybil Detection

Le due principali categorie di schemi utilizzati per contrastare laproliferazione di falsi profili nei Social Network sono:

Classificatori basati su Machine Learning

Classificatori basati su Grafi

L’obiettivo comune di entrambi gli approcci è quello di attribuire unpunteggio ad ogni profilo che rappresenta la probabilità che essisiano onesti o Sybil.

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 4 / 13

Page 5: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Sybil Detection con Machine Learning

Numero di link per tweet

Numero di caratteri per tweet

Numero di hashtag per tweet

Presenza di un volto nella foto del profilo

Rapporto tra follower e following

. . .

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 5 / 13

Page 6: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Graph-Based Sybil Detection

Definizione

Possiamo definire un Social Network come un grafo G = (V ,E) in cuiogni vertice o nodo v ∈ V rappresenta un’identità “virtuale” e ognispigolo (u,v) ∈ E una ben definita relazione tra le due identità u e v .

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 6 / 13

Page 7: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Graph-Based Sybil Detection

Definizione

Possiamo definire un Social Network come un grafo G = (V ,E) in cuiogni vertice o nodo v ∈ V rappresenta un’identità “virtuale” e ognispigolo (u,v) ∈ E una ben definita relazione tra le due identità u e v .

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 6 / 13

Page 8: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Definizione

Una random walk o passeggiata aleatoria su un grafo G = (V ,E)(costituito da n vertici e m spigoli) è una catena di Markov W = {wt}t≥0

con spazio degli stati V = {v1,v2, . . . ,vn} e con matrice di transizione P icui elementi sono così definiti:

Pi,j =

{1

deg(vi )se (vi ,vj) ∈ E

0 altrimenti

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 7 / 13

Page 9: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Definizione

Una random walk o passeggiata aleatoria su un grafo G = (V ,E)(costituito da n vertici e m spigoli) è una catena di Markov W = {wt}t≥0

con spazio degli stati V = {v1,v2, . . . ,vn} e con matrice di transizione P icui elementi sono così definiti:

Pi,j =

{1

deg(vi )se (vi ,vj) ∈ E

0 altrimenti

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 7 / 13

Page 10: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Definizione

Una random walk o passeggiata aleatoria su un grafo G = (V ,E)(costituito da n vertici e m spigoli) è una catena di Markov W = {wt}t≥0

con spazio degli stati V = {v1,v2, . . . ,vn} e con matrice di transizione P icui elementi sono così definiti:

Pi,j =

{1

deg(vi )se (vi ,vj) ∈ E

0 altrimenti

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 7 / 13

Page 11: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Definizione

Definiamo la distribuzione di probabilità della passeggiata aleatoria altempo t come il vettore λ(t) = (λ

(t)1 , . . . ,λ

(t)n ) in cui l’i-esimo elemento(

λ(t)i

)descrive la probabilità che la passeggiata si trovi nel vertice vi al

tempo t .La distribuzione stazionaria di una tale passeggiata è definita nelseguente modo:

π =

(deg(v1)

2m, . . . ,

deg(vn)

2m

)

Definizione

Definiamo il tempo di mixing come il tempo necessario affinché lapasseggiata aleatoria raggiunga la distribuzione stazionaria.Formalmente

tmix = min{

t > 0 : d(

λ(t),π

)TV≤ c

n

}Diremo inoltre che la camminata è fast-mixing se tmix ∈ O(logn)

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 8 / 13

Page 12: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

La conduttanza di un grafo descrive la “compattezza” del grafo, ovverola probabilità che una passeggiata aleatoria su esso raggiunga le partipiù isolate. Formalmente, dato un grafo G = (V ,E) e S ⊆ V definiamo ilvolume di S come

vol(S) = ∑v∈S

deg(v)

mentre il taglio indotto da S come

cut(S) = { (u,v) ∈ E : u ∈ S e v ∈ (V rS)}

Allora la conduttanza indotta dal taglio S è definita come

ϕ(S) =|cut(S)|vol(S)

e descrive la “facilità” con cui una passeggiata aleatoria iniziata in Sriesca ad uscire da S.

Definizione

La conduttanza del grafo G è definita come la minima conduttanza sututti i possibili tagli:

ϕ(G) = minS⊆V

ϕ(S)

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 9 / 13

Page 13: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Proprietà topologicheLa regione onesta è ben connessa e fast-mixing

Il numero di attack edge è basso

È sempre possibile identificare uno o più nodi di “fiducia”,chiamati nodi trusted, che rompono la simmetria del grafo

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 10 / 13

Page 14: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

L’idea alla base di questi schemi è quella di attribuire un valore diranking ad ogni nodo attraverso le passeggiate aleatorie.L’identità di un nodo dipende dal punteggio ottenuto e vienestabilità in base al superamento di una certa soglia, scelta inmaniera tale da minimizzare la conduttanza del taglio indotto dalpartizionamento in regione onesta e Sybil.

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 11 / 13

Page 15: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

A causa delle smisurate dimensioni del grafo che rappresenta unSocial Network, non è possibile avere una visione d’insieme di esso equindi è necessario utilizzare le passeggiate aleatorie per esplorarlo.Tipicamente vengono realizzate un certo numero di passeggiate dilunghezza l ∈ O(logn) e ne vengono considerate le loro intersezioni.Viste le ipotesi sulla struttura del grafo, c’è un alta probabilità che i nodionesti ottengano un alto punteggio e quelli Sybil un basso punteggio.

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 12 / 13

Page 16: Università degli Studi Roma TreUNIVERSITË DEGLI STUDI ROMA TRTesi di Laurea Magistrale in MatematicaE Università degli Studi Roma Tre Anno Accademico 2014/2015 Matteo D’Angelo

Graph-BasedSybil Detection

MatteoD’Angelo

Falsi Profili neiSocial Network

Sybil Detection

Sybil Detectioncon MachineLearning

Graph-BasedSybil Detection

Random Walk

Conduttanza

Progettazione

Grazie perl’Attenzione!

Matteo D’Angelo (Roma Tre) Graph-Based Sybil Detection Anno Accademico 2014/2015 13 / 13