11
Análisis de estructuras de encubiertas Una aproximación desde la teoría de redes e investigación de operaciones. Sergio A. Angulo R. Autor Universidad de los Andes, (e-mail: [email protected]). Abstract Covert networks are those in which either nodes or arcs are meant to be kept secret for a given reason (e.g., swinger couples, doping in baseball, or terrorism). We are interested in studying the properties of these networks as some of them might be related to acts of crime and corruption. Specifically, we pose the following questions: are there topological properties that differentiate covert and non-covert networks? Are there topological properties that allow to identify members of a covert structure within a broader network? Are there topological metrics that can guide strategies to reduce covert patterns in a network? We use network science, as well as statistical and computational learning methods, to address the proposed questions, concluding that: the metrics of assortativity, density, and average clustering coefficient, are useful to classify networks as covert or non-covert with high accuracy; the metrics of weighted degree, pageranks and triangles can be used to identify covert-related individuals in a network but the accuracy is not as good, mostly for highly heterogeneous networks (i.e., those of interest, with covert and non-covert structures); the metrics of Katz centrality and Page-Rank can be used as a criteria to prioritize interventions (removing of nodes) that effectively reduce the covert characteristic of a network. Keywords: Covert Network, Classification Models, Assortativity, PageRank, Network Disintegration. 1. INTRODUCCIÓN Una red encubierta es una red social que tiene uno o varios elementos ocultos (Erickson, 1981). Los miembros de la red pueden tratar de mantener sus identidades anónimas (co- mo ocurre con las organizaciones criminales) y se forman alrededor de actividades que deben mantenerse en secreto por ser ilegales o peligrosas (como las redes de corrupción). Manifestaciones de redes encubiertas se pueden encontrar en escándalos de corrupción como el de Odebretch, el de Interbolsa, el de la FIFA, entre otros. De la misma forma, grupos armados al margen de la ley y carteles de tráfico de droga se enmarcan en esta misma categoría. Las redes encubiertas son objetos de estudio para inves- tigadores, políticos, y muchos otros grupos. Debido a que los políticos y las agencias de aplicación de la ley deben minimizar el riesgo para la población de los grupos crimi- nales y terroristas, gran parte del trabajo en el área ha sido sobre la estructura y la interrupción de este tipo de redes. La mayoría de los estudios teorizan sobre la necesidad de interrumpir las redes sin modelar el efecto o mostrar estu- dios de casos empíricos. Existen pocos estudios empíricos sobre la evolución o disolución de las redes secretas (Oliver, 2014). En esta investigación se recopila un conjunto de redes Análisis Exploratorio Base de Datos Redes Etiquetas Encubiertas No encubiertas Métricas Topológicas Principales Red Encubierta Modelo de Clasificación Red Mixta Etiquetas Encubiertas No encubiertas Análisis Exploratorio Desintegración de la red Figura 1. Metodología sociales encubiertas con el fin de construir una base de datos. Con la base de datos, se realiza un análisis es- tructural de las redes haciendo uso de Análisis de Redes Sociales y técnicas de Machine Learning para encontrar cuáles son las métricas topológicas que logran clasificar una red como encubierta. A partir de este análisis, se desarrolla un modelo que clasifica este tipo de redes y se obtiene un índice que mide la probabilidad de que la red sea clasificada como encubierta usando sus características estructurales. Finalmente, se propone una estrategia de desintegración de red que busca reducir el índice a partir de las medidas topológicas de la red.

Análisis de estructuras de encubiertas Una aproximación

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análisis de estructuras de encubiertas Una aproximación

Análisis de estructuras de encubiertasUna aproximación desde la teoría de redes e

investigación de operaciones.

Sergio A. Angulo R. Autor ∗

∗ Universidad de los Andes, (e-mail: [email protected]).

AbstractCovert networks are those in which either nodes or arcs are meant to be kept secret for a givenreason (e.g., swinger couples, doping in baseball, or terrorism). We are interested in studying theproperties of these networks as some of them might be related to acts of crime and corruption.Specifically, we pose the following questions: are there topological properties that differentiatecovert and non-covert networks? Are there topological properties that allow to identify membersof a covert structure within a broader network? Are there topological metrics that can guidestrategies to reduce covert patterns in a network? We use network science, as well as statisticaland computational learning methods, to address the proposed questions, concluding that: themetrics of assortativity, density, and average clustering coefficient, are useful to classify networksas covert or non-covert with high accuracy; the metrics of weighted degree, pageranks andtriangles can be used to identify covert-related individuals in a network but the accuracy isnot as good, mostly for highly heterogeneous networks (i.e., those of interest, with covert andnon-covert structures); the metrics of Katz centrality and Page-Rank can be used as a criteriato prioritize interventions (removing of nodes) that effectively reduce the covert characteristicof a network.

Keywords: Covert Network, Classification Models, Assortativity, PageRank, NetworkDisintegration.

1. INTRODUCCIÓN

Una red encubierta es una red social que tiene uno o varioselementos ocultos (Erickson, 1981). Los miembros de la redpueden tratar de mantener sus identidades anónimas (co-mo ocurre con las organizaciones criminales) y se formanalrededor de actividades que deben mantenerse en secretopor ser ilegales o peligrosas (como las redes de corrupción).Manifestaciones de redes encubiertas se pueden encontraren escándalos de corrupción como el de Odebretch, el deInterbolsa, el de la FIFA, entre otros. De la misma forma,grupos armados al margen de la ley y carteles de tráficode droga se enmarcan en esta misma categoría.

Las redes encubiertas son objetos de estudio para inves-tigadores, políticos, y muchos otros grupos. Debido a quelos políticos y las agencias de aplicación de la ley debenminimizar el riesgo para la población de los grupos crimi-nales y terroristas, gran parte del trabajo en el área hasido sobre la estructura y la interrupción de este tipo deredes.

La mayoría de los estudios teorizan sobre la necesidad deinterrumpir las redes sin modelar el efecto o mostrar estu-dios de casos empíricos. Existen pocos estudios empíricossobre la evolución o disolución de las redes secretas (Oliver,2014).

En esta investigación se recopila un conjunto de redes

Análisis Exploratorio

Base de DatosRedes

Etiquetas• Encubiertas• No encubiertas

Métricas TopológicasPrincipales

Red Encubierta Modelo de Clasificación

Red Mixta

Etiquetas• Encubiertas• No encubiertas

Análisis Exploratorio

Desintegraciónde la red

Figura 1. Metodología

sociales encubiertas con el fin de construir una base dedatos. Con la base de datos, se realiza un análisis es-tructural de las redes haciendo uso de Análisis de RedesSociales y técnicas de Machine Learning para encontrarcuáles son las métricas topológicas que logran clasificaruna red como encubierta. A partir de este análisis, sedesarrolla un modelo que clasifica este tipo de redes y seobtiene un índice que mide la probabilidad de que la redsea clasificada como encubierta usando sus característicasestructurales. Finalmente, se propone una estrategia dedesintegración de red que busca reducir el índice a partirde las medidas topológicas de la red.

Page 2: Análisis de estructuras de encubiertas Una aproximación

La primera parte de este documento contiene una revi-sión bibliográfica de las redes encubiertas. En la siguientesección se realiza una introducción al análisis de redessociales más conocido como SNA por sus siglas en inglés.A continuación, se exponen los modelos de clasificación deMachine Learning desarrollados y el porqué de su uso. Enla quinta parte del documento se plantean la metodología ylos resultados de la investigación. Por último, se presentanlas conclusiones y el trabajo futuro.

2. REVISIÓN DE LITERATURA

Ciertos sistemas y/o fenómenos sociales pueden ser consi-derados como una red compleja de relaciones interperso-nales. Como parte de un sistema social, una sociedad en-cubierta también tiene las propiedades generales de redes.El análisis de las redes encubiertas generalmente incluyecuatro partes: la primera es la descripción del problema, esdecir, hacer una explicación semántica del contexto paradefinir el entorno físico, los grupos incluidos, los miembrosy su relación dentro de la red encubierta. El segundo esla recopilación y compilación de datos, recopilar datosrelacionados con los individuos, incluidos datos asociados ydatos de atributos individuales; los datos asociados puedendar la información para la construcción del grafo de la redy los datos de atributos individuales pueden estar sujetosal análisis de descripción estadística tradicional. El terceroes la construcción y análisis del modelo de red encubierta,las herramientas de análisis de red se utilizan para medirlos indicadores a nivel individual y de red y analizar lasfunciones de la red y los roles de los personajes.El cuartoes determinar y explicar las conclusiones para obtenerlas referencias para las estrategias de colapso de la redy proponer estrategias para prevenir la red terrorista yevaluar el efecto de la estrategia según los resultados delanálisis (Sun et al., 2011).

La literatura de redes encubiertas se puede dividir en tresgrupos:

El primer grupo enfatiza su investigación en caracteristicasde la red como la centralización y la de descentralización,y con ello evaluar la vulnerabilidad de la red, su jerarquíay su resiliencia. Los autores de este grupo son Erickson(1981), Klerks (2003),Raab (2003), Bouchard (2007), En-ders y Su (2007), Kirby (2007), estos estudios no se aplicanempíricamente y las especulaciones entre los autores sonambiguas.

El siguiente grupo enfoca sus estudios en la comunicacióny analizan las configuraciones para centrarse en la compen-sación de seguridad y eficiencia, a nivel estructural estu-dian la estructura núcleo-periferia. Aunque no se tiene unaacuerdo común, en este grupo se encuentran los trabajosde Baker y Faulkner (1993),Natarajan (2000), Natarajan(2006), Koschade (2006), Morselli et al. (2007), Demiroz yKapucu (2012).

El ultimo grupo utilizan la co-ocurrencia como una rela-ción social, exploran la participación conjunta en eventos yla participación conjunta en grupos para explicar las ten-dencias de la red. A nivel estructural estudian la jerarquíay la vulnerabilidad de la red, así como su comportamiento

a través del tiempo. En este grupo se encuentran algunasde las pruebas empíricas de hipótesis en este tipo de redes,los autores en este grupo son Krebs (2002), Everton (2012),Crossley et al. (2012), Stevenson y Crossley (2014).

3. REDES

Las redes encubiertas requieren la participación de diver-sos agentes sociales que pueden ser públicos o secretos,legales o ilegales. Estos agentes y sus relaciones consti-tuyen una red social que puede analizarse en términosestructurales. Las redes están compuestas por una seriede nodos N que representan agentes sociales que puedenser individuos o grupos de individuos y unas relaciones Aentre ellos, denominadas relaciones sociales que representacualquier tipo de interacción social entre estos nodos. Porlo tanto un grafo G(N,A) representa una red de nodos Ny relaciones A.

El Análisis de Redes Sociales (ARS) o Social NetworkAnalysis (SNA) es un avance teórico y metodológico queinvestiga relaciones, enlaces, contactos, pautas relacionalesy estructuras de las redes, es decir, examina los patronesde relaciones o estructura social entre los actores dentro deun límite analítico definido. Su uso en este tipo de redes hadado resultados importantes como en el estudio realizadopor Garay-Salamanca y Salcedo-Albarán (2012) en el queayudan a identificar actores claves en las redes de narco-tráfico y corrupción, y cómo a partir de estas, se gestanprocesos de captura y cooptación del Estado; o como elestudio de Rodriguez en el que encuentra característicasparticulares en las redes de los atentados del 11M graciasal enfoque de SNA Rodríguez (2004). En pocas palabras,una red es un sistema de actores interconectados y, porlo tanto, el análisis de redes es un estudio estructuralfundamental.

Existen dos tipos de medidas de red utilizadas en este es-tudio, por un lado están las métricas de la red global, estasmedidas permitirán clasificar una red como encubierta ono, razón por la cual, para su análisis es importante elresumen de las métricas que se muestran a continuaciónen la tabla 1:

Métricas de RedMétrica Significado Conceptos

Comportamientos

Densidad de RedRelación del número devínculos reales al máximonúmero posible de vínculosen la red.

Conectividad, cohesión, eficacia,coordinación, intercambio deinformación, resiliencia.

Distribución de Grado Probabilidad de encontrarun nodo con un grado dado.

Redes libres de escala, hubs, eficienciade flujo de información, resiliencia

AsortatividadGrado en el que los nodoscon grados similares estánvinculados preferentemente

Estructura núcleo-periferia,alianza o rivalidad de actores poderosos.

Longitud de la ruta mediaNúmero promedio de arcosrecorridos en las rutas máscortas entre todos los paresde nodos.

Información o flujo de recursos,efectos de mundo pequeño.

Cuadro 1: Métricas Globales (Zech y Gabbay, 2016)Por otra parte están las medidas individuales dentro dela red, este tipo de medidas se usan en los modelos declasificación individual y en la heurística de desintegraciónde la red. En la tabla 2 se encuentra un resumen de lasprincipales métricas individuales dentro de la red.

Page 3: Análisis de estructuras de encubiertas Una aproximación

Métricas IndividualesMétrica Significado Conceptos

Comportamientos

Centralidad de GradoCómo está conectado un nodoen términos de su número devínculos.

Liderazgo, prominencia,influencia, poder.

IntermediaciónQué tan importante es un nodocomo puente para conectar otrosnodos.

Control de flujo deinformación, agujerosestructurales.

CercaníaQué tan cerca está un nodo enpromedio a través de las rutasmás cortas a los otros nodos

Posibilidad de enviar /recibir información a / desdeotros nodos.

TransitividadTendencia de nodos que estánvinculados a un otro comúnpara estar conectados.

Cierre de tríadas, clustering,cohesión, adopción de roles.

Cuadro 2: Métricas Individuales (Zech y Gabbay, 2016)

4. MODELOS DE CLASIFICACIÓN

Para responder a la pregunta de qué características to-pológicas particulares tiene una red encubierta se usantécnicas de Machine Learning, que son un método de aná-lisis de datos que automatiza la construcción de modelosanalíticos. Entre los modelos de aprendizaje se usan losmodelos supervisados, que son el conjunto de algoritmosque intentan aproximar una función f(x) que representala relación entre una variable dependiente Y (encubiertano encubierta) y un conjunto independiente de variablesX (medidas topológicas de la red). Esta característica haceque los algoritmos supervisados sean un tipo de modelospredictivos, de modo que, dado un conjunto de datos deX, se puede pronosticar la variable Y .

De acuerdo con el tipo de valores en Y , se pueden defi-nir dos tipos principales de problemas y algoritmos paraanalizar datos, los de clasificación y los de regresión. Enesta investigación se utilizan modelos de clasificación, yaque la variable Y define un grupo de categorías (no valoresordenados) como red encubierta y no encubierta, o buenoy malo. Las variables de salida a menudo se denominanetiquetas o categorías.

Para este caso los modelos de Machine Learning utili-zados son Random Forest para la selección de variablesimportantes al momento de clasificar una red, y un modeloBayesiano Ingenuo, que permite clasificar una red como encubierta o no.

Random Forest se encuentra entre los métodos de apren-dizaje automático más populares gracias a su precisión,robustez y facilidad de uso. También proporciona dosmétodos sencillos para la selección de características. Elmétodo usado para este caso es Incremento de la Purezade Nodos que cuantifica el incremento total en la purezade los nodos debido a divisiones en las que participa elpredictor (promedio de todos los árboles). La forma decalcularlo es la siguiente: en cada división de los árboles,se registra el descenso conseguido en la medida empleadacomo criterio de división (índice Gini, entropía o MSE).Para cada uno de los predictores, se calcula el descensomedio conseguido en el conjunto de árboles, cuanto mayorsea este valor medio, mayor la contribución del predictoren el modelo.

El paso previo para aplicar un método de clasificaciónes la partición del conjunto de datos en dos conjuntosque serán utilizados con los fines de entrenamiento y test.

El subconjunto de datos de entrenamiento es utilizadopara estimar los parámetros del modelo y el subconjuntode datos de test se emplea para comprobar el compor-tamiento del modelo estimado. Cada registro de la basede datos debe aparecer en uno de los dos subconjuntos ypara dividir el conjunto de datos en ambos subconjuntosse utiliza un procedimiento de muestreo que puede sermuestreo aleatorio simple o muestreo estratificado. Paraentrenar el modelo es ideal hacerlo con un conjunto dedatos independiente de los datos con los que se realiza eltest.

Como resultado de aplicar un método de clasificación secometerán dos errores. En el caso de una variable binariaque toma valores 0 y 1, habrá ceros que se clasifiquenincorrectamente como unos y unos que se clasifiquen inco-rrectamente como ceros.

La selección de modelos es un paso indispensable en el pro-ceso de desarrollar un modelo de predicción funcional o unmodelo para comprender el mecanismo de generación dedatos, en esta caso se utilizó la validación cruzada (Allen,1974; Stone, 1974; Geisser, 1975) que es uno de los métodosmás utilizados para evaluar el rendimiento predictivo deun modelo, que se proporciona a priori o se desarrollamediante un procedimiento de modelado. Básicamente, enfunción de la división de datos, una parte de los datos seutiliza para ajustar cada modelo de entrenamiento y elresto de los datos se utiliza para medir los rendimientospredictivos de los modelos mediante los errores de valida-ción, y se selecciona el modelo con el mejor rendimientogeneral. Por este motivo, la validación cruzada (CV) seha utilizado ampliamente en la minería de datos para laselección del modelo o la selección del procedimiento demodelado Lu (2010).

Para la clasificación de las redes se utilizó un clasificadorBayesiano ingenuo, que es un clasificador probabilísticofundamentado en el Teorema de Bayes y algunas hipótesissimplificadoras adicionales. En términos simples, un cla-sificador de Bayes ingenuo supone la independencia entrecaracterísticas. A pesar del hecho de que los clasificadorescon mayor alcance son a menudo inexactos, el clasificadorde Bayes ingenuo tiene varias propiedades que lo hacensorprendentemente útil en la práctica. En particular, eldesacoplamiento de la clase de distribuciones condicionalessignifica que cada distribución se puede estimar de formaindependiente como una distribución dimensional (Chanet al.).

El Clasificador bayesiano ingenuo (GNB), el cual usa lasiguiente regla de clasificación:

classify(f1, . . . , fn) = argmax p(C = c)

n∏i=1

p(Fi = fi|C = c)(1)

El GNB implementa el algoritmo Gaussian Naive Bayespara la clasificación. Se asumió que la probabilidad de lascaracterísticas tiene una distribución gaussiana:

P (xi | y) =1√2πσ2

y

exp

(− (xi − µy)

2

2σ2y

)(2)

Page 4: Análisis de estructuras de encubiertas Una aproximación

Los parámetros µ y σ se estiman utilizando la máximaverosimilitud. El aprendizaje basado en redes bayesianases especialmente adecuado en ciertas tareas de clasifica-ción, siendo incluso más eficiente que los otros métodos yareseñados, ofreciendo incluso una medida para el estudioy comprensión de estos últimos. Cada ejemplo observadomodifica la probabilidad de que la clasificación formuladasea correcta (aumentándola o disminuyéndola).

Para la clasificación de individuos clave dentro de una redse utilizó un modelo de regresión logística, ya que estetipo de modelo es útil para modelar la probabilidad deun evento ocurriendo como función de otros factores. Elanálisis de regresión logística se enmarca en el conjuntode Modelos Lineales Generalizados (GLM por sus siglasen inglés) que usa como función de enlace la función logit.Las probabilidades que describen el posible resultado deun único ensayo se modelan como una función de variablesexplicativas, utilizando una función logística.

5. METODOLOGÍA

La metodología propuesta se divide en tres etapas prin-cipales: inicialmente una recolección y procesamiento dedatos, en donde se construye la base de datos con lasmétricas de red a partir de las redes encontradas en dife-rentes repositorios; una vez construida la base de datos,la siguiente etapa consiste en elegir las característicasprincipales de la topología de una red para clasificarlacomo encubierta o no, utilizando la técnica de RandomForest; con estas caracteristicas se construyó un mode-lo de clasificación usando un Modelo Bayesiano Ingenuoque permite dar una probabilidad de ser clasificada comoencubierta a partir de las medidas estructurales elegidas;finalmente se aplica un algoritmo de desintegración dered que busca reducir la probabilidad de que una red seaclasificada como encubierta a partir de la eliminación denodos con diferentes criterios. Con este se busca evidenciarcuáles medidas individuales de red afectan más este índice.

5.1 Recolección y procesamiento

En primera instancia se recopilaron redes de distintosrepositorios, entre los cuales se encuentran The MitchellCentre for Social Network Analysis de la Universidad deManchester, Stanford Network Analysis Project de la Uni-versidad de Stanford, Pajek datasets de Vladimir Batageljy Andrej Mrvar. Dentro de las redes escogidas hay redesencubiertas, de casos como 9/11 Hijackers, Al Qaeda, Usode Esteroides en Beisbolistas, FIFA, entre otras; y redessociales no encubiertas.

Las redes obtenidas se dejaron libres de atributos debidoa que el objetivo de la investigación era un análisis dela topología de la red, razón por la cual las redes que seencontraban en diferentes formatos fueron anonimizadas yconvertidas en lista de adyacencia. El diagrama de la figura2 muestra cómo se realizó el procesamiento de datos.

5.2 Creación de Bases de Datos Redes

Con las redes en el mismo formato, se procedió a calcularmedidas estructurares globales de cada una de las redes

Figura 2. Diagrama Procesamiento de Datos

tales como el grado, intermediación, PageRank, Centrali-dad y agujeros estructurales, además de etiquetarlas comoencubierta o no encubierta a partir de su naturaleza. Unejemplo del tratamiento de las redes se puede evidenciaren la figura 10, donde se observa un ejemplo de una redencubierta y una red no encubierta.

(a) Red Encubierta (Mali)Nodos 54Arcos 226Componentes 1AvClustering 0.6062Asortatividad -0.0086Densidad 0.1579Triángulos 1140Curtosis 0.2209Encubierta 1

(b) Red no Encubierta (Facebook)Nodos 724Arcos 6460Componentes 2AvClustering 0.4901Asortatividad 0.3295Densidad 0.02468Triángulos 110502Curtosis 5.6258Encubierta 0

Figura 3. Redes y Métricas calculadas

Con la Base de Datos construida el siguiente paso consistióen el análisis exploratorio estadístico para comparar elcomportamiento de las diferentes métricas. A partir deeste procedimiento se determinaron los resultados para lasmedidas más significativas del modelo planteado.Las principales estadísticas de la base de datos son las quese observan en la tabla 3:

Media Desv. Est. Min MaxNodos 158.47 438.99 8.00 2367.00Arcos 395.42 1284.45 7.00 7186.00Componentes 6.09 18.09 1.00 103.00AvClustering 0.29 0.19 0.00 0.75Asortatividad -0.05 0.27 -0.83 0.50Densidad 0.12 0.10 0.00 0.43Triángulos 935.44 2904.30 0.00 16197.00Curtosis 14.20 50.20 -3 414.65

Cuadro 3: Estadísticas DescriptivasLas estadísticas principales por grupos son:

Page 5: Análisis de estructuras de encubiertas Una aproximación

Tipo No Encubiertas EncubiertasCount 50 40AvClustering media 0.159690 0.372632

std 0.211215 0.136669Density media 0.112957 0.085708

std 0.116533 0.073512Assortativity media -0.140459 0.045777

std 0.288423 0.212346

Cuadro 4: Estadísticas por TipoA continuación se presenta un análisis gráfico de las mé-tricas que al final resultaron más importantes, estas sonDensidad, Asortatividad y Coeficiente de Clustering Pro-medio.La Densidad de red describe las conexiones potenciales en

0.2 0.0 0.2 0.4 0.6Density

0

1

2

3

4

5

6

7

8

Dens

ity

Density01

(a) Densidad

0 1Type

0.0

0.1

0.2

0.3

0.4

Dens

ity

(b) Diagrama de Caja

Figura 4. Densidad

una red que realmente existen y se calcula como el númerode conexiones reales sobre el número de conexiones poten-ciales. En la figura 4 se puede observar la distribución dedensidad y el diagrama de caja para esta variable por cadatipo de red (encubierta y no encubierta). Como se puedeevidenciar en la concentración de los datos mostrados enla gráfica, aunque resulten similares, las redes encubiertastienen densidad media más baja y una menor varianza. Si

0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0Average Clustering

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Dens

ity

AvClustering01

(a) Densidad

0 1Type

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

AvCl

uste

ring

(b) Diagrama de Caja

Figura 5. Clustering Promedio

el nodo i está relacionado con los nodos j y k, el Coeficientede Clusteirng (Cli) mide la probabilidad de que j y kestén relacionados. El Coeficiente de Clustering Promedioes ClAvg

i =∑n

i=1 Cli/n. Para esta medida se observa enla figura 5 que la mediana para las redes encubiertas esmayor y tiende a tener más concentración que en las redesnormales.

Por otro lado, la tendencia de los nodos con alto grado aestar conectados con otros de alto grado se conoce comoAsortatividad Positiva. Esta medida toma valores entre -1 y 1, donde, si los valores están cercanos a 1 la red se

1.5 1.0 0.5 0.0 0.5 1.0Assortativity

0.00

0.25

0.50

0.75

1.00

1.25

1.50

1.75

Dens

ity

Assortativity01

(a) Densidad

0 1Type

0.8

0.6

0.4

0.2

0.0

0.2

0.4

Asso

rtativ

ity

(b) Diagrama de Caja

Figura 6. Asortatividad

denomina como asortativa, si los valores son cercanos acero es no asortativa y para los que se aproximan a -1,se clasifica la red como disortativa. Para esta métrica, lasredes encubiertas tienen una mediana cercana a cero y sedistribuye en valores cercanos a este, es decir, tienden a serno asortativas. Por otro lado, las redes sociales no encu-biertas tienen una mayor dispersión y se pueden clasificartambién como no asortativas aunque con una tendenciahacia las disortativas.Se realizó una gráfica de dispersión entre cada una delas métricas seleccionadas y se obtuvo el resultado de lafigura 20,en la que se puede observar la concentraciónexistente de los nodos no encubiertos. Al finalizar el

AvClustering

Density

0.0

0.2

0.4

0.6

AvClus

tering

Assortativity

0.0

0.1

0.2

0.3

0.4

Density

0.5

0.0

0.5

Assorta

tivity

Scatter-matrix para Variables Elegidas

Figura 7. Diagrama de DispersiónAmarillo: EncubiertoNegro: No encubierto

análisis exploratorio, se procedió a hacer una selección devariables utilizando la técnica Random Forest. Se utilizóla disminución media de la impureza (MDI), tambiénconocida como Importancia de Gini, la cual indica quea mayor medida hay mayor importancia de la variableen los modelos creados, ya que, en la medida en quelos valores sean próximos a 0 para el Índice de Gini,esta implica una menor contribución al predictor, por el

Page 6: Análisis de estructuras de encubiertas Una aproximación

contrario, para valores cercanos a 1 el implica una mayorcontribución. Si se computa una medida de decrecimientodel Índice de Gini, cuanto mayor sea esta medida, másvariabilidad aporta a la variable dependiente. Como sepuede corroborar en el cuadro 10, para este modelo declasificación, se obtuvo que las variables a utilizar segúnel Coeficiente de Gini son el Coeficiente de ClusteringPromedio, Densidad y Asortatividad.

Métrica Importancia GiniAvClustering 0.1916Densidad 0.1905Asortatividad 0.1361Nodes 0.1270Arcos 0.1226Triángulos 0.1225Componentes 0.0393

Cuadro 5: Importancia Gini

5.3 Modelo de Clasificación de Redes Encubiertas

La muestra se dividió dos partes: 60 % para el conjunto dedatos de entrenamiento y 40 % para el conjunto de datosde prueba. Se realizó la evaluación de diferentes modelosde Machine Learning obteniendo los siguientes resultados:

Modelo Accuracy Cross - ValidationRegresión Logística 0.58Árbol de decisión 0.68K-Vecinos 0.76LDA 0.74Clasificador bayesiano 0.78

Cuadro 6: Accuracy Cross ValidationLa selección del mejor modelo se desarrolló mediante cross-validation, obteniendo la mejor exactitud con el Clasifica-dor bayesiano ingenuo (GNB), en la tabla 11 se puedenobservar los resultados del modelo:

precision recall f1-score supportNo encubierta 0.89 0.73 0.80 22Encubierta 0.67 0.86 0.75 14avg / total 0.80 0.78 0.78 36

Cuadro 7: Resultados del modelo (source: Sklearn Python)La precisión es la medida de rendimiento más intuitiva yse define como la proporción de observación pronosticadacorrectamente con respecto al total de observaciones. Deacuerdo con esta definición se podría pensar que, si hayalta precisión, el modelo es el mejor. Pero dicha premisaes válida solo cuando se tienen conjuntos de datos simé-tricos donde los valores de falso positivo y falso negativoson casi iguales. Por lo tanto, es necesario observar otrosparámetros para evaluar el rendimiento del modelo. Con-cretamente en este modelo se logró una precisión promediode 0.80.La sensibilidad (recall) se define como la relación existenteentre las observaciones positivas pronosticadas correcta-mente y todas las observaciones en la clase real. La sen-

sibilidad obtenida fue de 0.78, siendo este un resultadoadecuado al estar por encima de 0.5.El puntaje F1 es el promedio ponderado de precisióny sensibilidad. Por lo tanto, esta puntuación tiene encuenta tanto los falsos positivos como los falsos negativos.Intuitivamente, no es de fácil comprensión la precisión,pero la F1 suele ser más útil que la precisión, especialmentesi tiene una distribución de clases desigual. La precisiónfunciona mejor si los falsos positivos y los falsos negativostienen un costo similar. Si el costo de los falsos positivos ylos falsos negativos es diferente, es mejor tener en cuentatanto la precisión como la sensibilidad. En este modelo elpuntaje de F1 es 0.78.

0 200 400 600 800 1000Iteración

0.55

0.60

0.65

0.70

0.75

0.80

0.85

0.90

Accu

racy

GNB Accuracy

(a) Acuracy

0.0 0.2 0.4 0.6 0.8 1.0False Positive Rate

0.0

0.2

0.4

0.6

0.8

1.0

True

Pos

itive

Rat

e

Curva Roc GNB

Gaussian Naive Bayes (area = 0.76)

(b) Curva ROC

Figura 8. Resultados del Modelo

Como se puede observar en la figura 20, la curva ROCmuestra el equilibrio entre la sensibilidad y la especifici-dad. Justo como ocurre en este modelo, los clasificadoresque dan curvas cercanas a la esquina superior izquierdaindican un mejor rendimiento. Como referencia, se esperaque un clasificador aleatorio proporcione puntos que seencuentran a lo largo de la diagonal, cuanto más se acerquela curva a la diagonal de 45 grados del espacio ROC, menosprecisa será la prueba.

Por otra parte, el AUC (Área Bajo la Curva) es laprobabilidad de que una red encubierta elegida al azartenga una clasificación más alta que una red no encubiertaelegida al azar. Para el modelo el AUC es de 0.76.

No encu

bierta

Encub

ierta

Predicted label

No encubierta

Encubierta

True

labe

l

0.81 0.19

0.30 0.70

Normalized confusion matrix

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Figura 9. Matriz de Confusión

De acuerdo con la información de la figura 9, la Matriz deconfusión informa la cantidad de falsos positivos, falsosnegativos, positivos verdaderos y negativos verdaderos.

Page 7: Análisis de estructuras de encubiertas Una aproximación

Dicha matriz permite un análisis más detallado que laproporción de precisión. Concretamente revisando estemodelo, se evidencia que, de las redes que realmente eranencubiertas, el 70 % se clasificaron como tal, mientras que,para las redes no encubiertas este porcentaje fue del 81 %.

5.4 Creación de Base de Datos Individuos

Con el fin de contestar a la segunda pregunta, se eligióuna red mixta que tuviera nodos clave y nodos normales.La red escogida fue la red del caso de corrupción de laFIFA, específicamente la red fue construida a partir de loscomités que se llevaron a cabo durante el año 2006, si dospersonas fueron al mismo comité se declara una relación,por lo tanto existe un peso en cada uno de los arcos quesignifica el número de reuniones que se llevaron a caboentre los dos nodos, con un total de 340 nodos, miembrosde la FIFA, existen un 19 nodos que fueron juzgados comocorruptos, el grafo de la red es el siguiente.

Nodes 340Edges 3668Components 3AvClustering 0.9377Assortativity 0.2419Density 0.0636NTriangles 6026Curtosis 8.539

Figura 10. FIFA 2006

En este caso, esta red de tipo mixta, contiene nodosetiquetados como corruptos y no corruptos, como par-te del análisis exploratorio se calcularon las medidasindividuales de red como, centralidad de grado, inter-mediación, numero de triángulos, cercanía y transiti-vidad entre otros obteniendo los siguientes resultados.

Media Desv. Est. Min MaxGrado 21.57 12.95 7.00 89.00Grado Ponderado 45.92 39.7 12.00 246.00Excentricidad 3.45 0.91 1.00 4.00Intermediación 0.0038 0.0152 0.00 0.11Pageranks 0.0022 0.0010 -0.83 0.0077Cercanía 0.92 0.16 0.25 1Triángulos 190.97 175.88 14 1108C. Valor Propio 0.16 0.19 0.0056 1

Cuadro 8: Estadísticas DescriptivasA continuación se presenta un análisis gráfico de las mé-tricas que al final resultaron mas importantes, estas son,Grado Ponderado, Pageranks y Triangulos.

El grado ponderado cuyo diagrama de caja se observa enla figura 11, es como el grado normal, pero se ponderapor el peso de las relaciones, para este caso en particularcada uno de los arcos o relaciones de la red tenían un peso,basado en el número de reuniones que tuvieron cada par demiembros de la red, para este caso en particular se observaque los nodos marcados como corruptos tienen una mayordispersión del grado ponderado y con unas medidas mas

0 1Corrupción

0

50

100

150

200

250

weig

hted

deg

ree

Figura 11. Grado Ponderado

altas, a pesar de que la media en los dos casos resulta sersimilar.

En cuanto al número de triángulos, en la figura 12, al

0 1Corrupción

0

200

400

600

800

1000

trian

gles

Figura 12. Triángulos

igual que con el grado ponderado, se muestra una mayordispersión en los nodos corruptos, y en este caso particularla media resulta ser mayor a la media en los nodos norma-les.

El Pagerank es un sistema de ranking desarrollado porGoogle para medir la importancia de un nodo, basándoseen la cantidad y calidad de los enlaces que apuntan haciael, de nuevo ocurre el mismo comportamiento de dispersiónde las dos otras medidas elegidas con una media tambiénmayor en los nodos etiquetados como corruptos.

Para un mejor análisis se realizo un diagrama de dispersiónentre las tres principales métricas obteniendo los resultadoque se observan en la figura 14.

Al finalizar el análisis exploratorio, se procedió a haceruna selección de variables utilizando la técnica RandomForest, para este modelo de clasificación, se obtuvo quelas variables a utilizar según el Coeficiente de Gini son

Page 8: Análisis de estructuras de encubiertas Una aproximación

0 1Corrupción

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

page

rank

s

Figura 13. Pagerank

50

100

150

200

250

weig

hted

deg

ree

0.001

0.002

0.003

0.004

0.005

0.006

0.007

page

rank

s

50 100

150

200

250

weighted degree

0

200

400

600

800

1000

trian

gles

0.00

2

0.00

4

0.00

6

pageranks

0

250

500

750

1000

triangles

Scatter-matrix para Variables Elegidas

Figura 14. Diagrama de DispersiónAmarillo: CorruptoNegro: No Corrupto

el Grado Ponderado, Número de Triángulos y Pagerank.Métrica Importancia GiniGrado Ponderado 0.1445Pagerank 0.1027Número de Triángulos 0.0940Grado 0.0833Intermediación 0.0770Clustering 0.07291Excentricidad 0.0043

Cuadro 9: Importancia Gini

5.5 Modelo de Clasificación de Individuos

Al igual que con el modelo para redes, en esta caso lamuestra se dividió dos partes: 60 % para el conjunto de

datos de entrenamiento y 40 % para el conjunto de datosde prueba. Se realizó la evaluación de diferentes modelosde machine learning obteniendo los siguientes resultados:

Modelo Accuracy Cross - ValidationRegresión Logística 0.94SVM 0.86Arboles de Clasificación 0.78LDA 0.93Clasificador bayesiano 0.91

Cuadro 10: Accuracy Cross ValidationLa selección del mejor modelo se desarrolló median-te crossvalidation, obteniendo la mejor exactitud conel modelo de Regresión Logística (Logit), en la ta-bla 11 se pueden observar los resultados del modelo:

precision recall f1-score supportNo encubierta 0.94 1.00 0.97 128Encubierta 0.00 0.00 0.00 8avg / total 0.89 0.94 0.91 136

Cuadro 11: Resultados del modelo (source: Sklearn Pyt-hon)A partir de estos resultados, se concluye que no se logró

0 200 400 600 800 1000Iteración

0.90

0.92

0.94

0.96

0.98

Accu

racy

LR Accuracy

(a) Acuracy

0.0 0.2 0.4 0.6 0.8 1.0False Positive Rate

0.0

0.2

0.4

0.6

0.8

1.0

True

Pos

itive

Rat

e

Curva Roc GNB

Logistic Regressiob (area = 0.50)

(b) Curva ROC

Figura 15. Resultados del Modelo

realizar una clasificación válida para los nodos claves den-tro de la red, ya que el modelo a pesar del buen puntajeusando validación cruzada no lograr clasificar los nodoscorruptos como tal, el alto puntaje en CV se da debido aldesbalanceo de la muestra, ya que son 19 nodos corruptosdel total de 340 nodos. El modelo no logra clasificar nin-guno de los nodos claves, por lo que resulta obsoleto, paraeste caso.

5.6 Desintegración de la Red

Para dar respuesta a la última pregunta de investigación,se planteó una heurística capaz de desintegrar las redes apartir de diferentes métricas como grado, intermediación,Page-Rank, Centralidad y agujeros estructurales. El fun-cionamiento de esta heurística puede evidenciarse en lafigura 16, la cual inicia calculando la probabilidad de queuna red sea clasificada como encubierta. Una vez se tienecalculado este primer valor, la red se desintegra tomandoel nodo con mayor índice para cada una de las medidasestructurales probadas.A continuación, se recalcula la probabilidad de ser clasi-ficada como encubierta. Este proceso se itera hasta quela red es desintegrada por completo o hasta que pierde

Page 9: Análisis de estructuras de encubiertas Una aproximación

Probabilidad de ser clasificada

como encubierta

Grado

Intermediación

PageRank

Centralidad

Centralidad

Eliminación de Nodos

Probabilidad de ser clasificada

como encubierta

Figura 16. Heurísticasentido el resultado del cálculo de cada una de las métricas.En la figura 17 se puede observar un ejemplo de cómose desintegra la red a partir de la métrica PageRank.Se generaron 6 iteraciones de la heurística en donde encada iteración retira el nodo con mayor PageRank y secalcula la probabilidad de ser clasificada como encubierta.Se realiza nuevamente el cálculo de las métricas de la redy se itera. Al final de este proceso se genera una base dedatos con el resultado de la probabilidad para cada una delas iteraciones.

(a) Prob=0.753 (b) Prob=0.753 (c) Prob=0.747

(d) Prob=0.743 (e) Prob=0.727 (f) Prob=0.657

Figura 17. Ejemplo de Desintegración(PageRank).

Tomando como base una red en particular, se muestranlos resultados de la heurística. La red seleccionada tienelas características de la tabla 18:

El resultado de aplicar la heurística a esta red se puede veren la figura 19. Se evidencia que las mejores métricas parareducir la probabilidad de que la red sea clasificada comoencubierta son Centralidad de Katz, Vote Rank, ClosenessCentrality, PageRank.La centralidad de Katz de un nodo es una medida decentralidad en una red y se usa para medir el grado relativode influencia de un actor (o nodo) dentro de una red social.A diferencia de las medidas de centralidad típicas queconsideran únicamente el camino más corto (la geodésica)entre un par de actores, la centralidad de Katz mide lainfluencia teniendo en cuenta el número total de caminatasentre un par de nodos (Katz, 1953).

De acuerdo con (Zhang et al., 2016), al definir el VoteRank

Métrica ResultadoNodes 43Edges 80Components 2AvClustering 0.4418Assortativity -0.2002Density 0.0885NTriangles 90Curtosis 4.7506

(a) Métricas(b) Gráfico de la Red

Figura 18. Red de Prueba

0 5 10 15 20 25 30 35Nodos Eliminados

0.0

0.2

0.4

0.6

0.8

Prob

. Enc

ubie

rta

Heurísticabetweennesspagerankdegreeeffetive_sizealeatoriokatzcloseness_centralityVote

Figura 19. Heurística

0 5 10 15 20 25 30 35Nodos Eliminados

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Prob

. Enc

ubie

rta

katz

(a) Katz

0 5 10 15 20 25 30 35Nodos Eliminados

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Prob

. Enc

ubie

rta

Vote

(b) Vote Rank

Figura 20. Desintegración por Métrica

en un contexto real, si una persona A ha apoyado a unapersona B, la fuerza de apoyo de A a otros se desvaneceráen general. Bajo esta perspectiva, el Voterank da un enfo-que basado en el voto para identificar a los propagadoresinfluyentes.La Closeness Centrality o centralidad de proximidad de unnodo es una medida de la centralidad en una red, calculadacomo el recíproco de la suma de la longitud de las rutasmás cortas entre el nodo y todos los demás nodos delgráfico. Por consiguiente, cuanto más central es un nodo,más cerca está de todos los demás nodos.Como se evidencia en la figura 21, al tomar las mejoresmétricas en conjunto, se puede para hacer una interpre-tación más acertada sobre los resultados obtenidos en laheurística, dentro de los cuales vale la pena resaltar:

Page 10: Análisis de estructuras de encubiertas Una aproximación

0 5 10 15 20 25 30Nodos Eliminados

0.0

0.2

0.4

0.6

0.8

Prob

. Enc

ubie

rta

Heurísticapagerankeffetive_sizealeatoriokatzcloseness_centralityVote

Figura 21. Heurística (Mejores Características)

i. Si la afectación de la red es aleatoria sin considerarestas métricas, la probabilidad en mención no sereduce en la misma medida en comparación con eluso de las métricas.

ii. La probabilidad de que una red sea clasificada comoencubierta se ve afectada por la eliminación de nodos.

iii. Dicha afectación debe realizarse de manera estratégi-ca y enfocada con base en las métricas mencionadascon anterioridad.

iv. Esta metodología tiene un funcionamiento adecuadoúnicamente con redes en la que todos sus arcos ynodos son encubiertos. Si se aplica con una red mixta,la cual no es en su totalidad encubierta (caso FIFA)no presenta un comportamiento de desintegraciónválido.

6. CONCLUSIÓN

Los resultados de la investigación se obtuvieron a partirde los 4 componentes desarrollados: recolección de redesy construcción de base de datos, el análisis descriptivo,el modelo de clasificación para la creación del índice quemide qué tan encubierta es una red según sus medidasestructurales, y por último, el desarrollo de la heurísticade desintegración que busca reducir dicho índice.

La Asortatividad, Clustering Promedio y Densidad de lared son medidas topológicas que, aunque por separado nomuestran resultados significativos acerca de la clasificaciónde una red como encubierta o no encubierta, en conjunto, apartir del modelo bayesiano, sí logran categorizar a la red;gracias a este resultado proponer un indice que calcula laprobabilidad de que una red sea clasificada como encu-bierta, el cual fue usado para definir cual de las métricasindividuales de una red, lograban de manera más efectivareducir esta probabilidad, con lo cual se pueden proponerestrategias de intervención dentro de una red encubierta,en el caso de que se quiera intervenir.

A pesar de que la heurística de desintegración logra encon-trar identificar algunas metricas importantes al momentode reducir el indice en el que la red sea clasificada comoencubierta o no, hace falta realizar un modelo para identi-ficar los nodos claves dentro de la red, estos modelos hansido trabajados por (Geetha y Veera, 2018), por lo que

vale la pena usar estos resultados en complemento paraelaborar las estrategias de desintegración de este tipo deredes.

La investigación se desarrolló a partir de ciertos supuestoso limitaciones que a futuro, deben ser consideradas paragenerar resultados que se acerquen más a la realidad. Enprimera instancia se deben tener en cuenta característicaso atributos de la red propios de su contexto (relacionesde las personas, posición geográfica, entre otros). Segundo,como se mencionó en la metodología, se utilizó el GNB queasume independencia entre las características de las redes,por lo que es necesario verificar si las redes sí cumplen conesta condición. Por último, es importante corroborar quépasa con la red una vez se lleva a cabo la heurística (si sepierde la conectividad, entre otros factores).

REFERENCIASBaker, W.E. y Faulkner, R.R. (1993). The Social Orga-

nization of Conspiracy: Illegal Networks in the HeavyElectrical Equipment Industry. American SociologicalReview. doi:10.2307/2095954.

Bouchard, M. (2007). On the resilience of illegal drug mar-kets. Global Crime. doi:10.1080/17440570701739702.

Chan, T.F., Golub, G.H., y Leveque, R.J. (????). Cs-Tr-79-773.

Crossley, N., Edwards, G., Harries, E., y Stevenson,R. (2012). Covert social movement networks andthe secrecy-efficiency trade off: The case of the UKsuffragettes (1906-1914). Social Networks. doi:10.1016/j.socnet.2012.07.004.

Demiroz, F. y Kapucu, N. (2012). Anatomy of a darknetwork: The case of the Turkish Ergenekon terro-rist organization. Trends in Organized Crime. doi:10.1007/s12117-012-9151-7.

Enders, W. y Su, X. (2007). Rational terrorists and opti-mal network structure. doi:10.1177/0022002706296155.

Erickson, B.H. (1981). Secret Societies and Social Struc-ture. Social Forces. doi:10.1093/sf/60.1.188.

Everton, S.F. (2012). Connections Network Topography ,Key Players and Terrorist Networks. Connections.

Garay-Salamanca, L.J. y Salcedo-Albarán, E. (2012). Ins-titutional impact of criminal networks in Colombiaand Mexico. Crime, Law and Social Change. doi:10.1007/s10611-011-9338-x.

Geetha, R. y Veera, K. (2018). Analysis of machinelearning algorithm for identifying key actors in covertnetworks. Disaster Advances, 11(2), 19–28.

Katz, L. (1953). A new status index derived from sociome-tric analysis. Psychometrika. doi:10.1007/BF02289026.

Kirby, A. (2007). The London bombers as ”self-starters”:A case study in indigenous radicalization and the emer-gence of autonomous cliques. Studies in Conflict andTerrorism. doi:10.1080/10576100701258619.

Klerks, P. (2003). The network paradigm applied to cri-minal organisations: Theoretical nitpicking or a relevantdoctrine for investigators? Recent developments in theNetherlands. In Transnational Organised Crime: Pers-pectives on Global Security. doi:10.4324/9780203633854.

Koschade, S. (2006). A social network analysis of JemaahIslamiyah: The applications to counterterrorism andintelligence. Studies in Conflict and Terrorism. doi:10.1080/10576100600798418.

Page 11: Análisis de estructuras de encubiertas Una aproximación

Krebs, V.E. (2002). Mapping Networks of Terrorist Cells.Connections. doi:10.1.1.16.2612.

Lu, Z.Q.J. (2010). The Elements of Statistical Learning:Data Mining, Inference, and Prediction. Journal of theRoyal Statistical Society: Series A (Statistics in Society).doi:10.1111/j.1467-985X.2010.006466.x.

Morselli, C., Giguère, C., y Petit, K. (2007). The efficiency/-security trade-off in criminal networks. Social Networks.doi:10.1016/j.socnet.2006.05.001.

Natarajan, M. (2000). Understanding the Structure of aDrug Trafficking Organization: a Conversational Analysis.Crime Prevention Studies. doi:10.1016/j.echo.2007.10.007[doi].

Natarajan, M. (2006). Understanding the structure of alarge heroin distribution network: A quantitative analysisof qualitative data. Journal of Quantitative Criminology.doi:10.1007/s10940-006-9007-x.

Oliver, K. (2014). Covert Networks: Structures, Processes,and Types. Mitchell Centre Working Paper, 188–210. URLhttp://hummedia.manchester.ac.uk/schools/soss/research/mitchell/covertnetworks/wp/working_paper1.pdf.

Raab, J. (2003). Dark Networks as Problems. Journalof Public Administration Research and Theory. doi:10.1093/jopart/mug029.

Rodríguez, J.A. (2004). La red terrorrista del 11M.Reis: Revista Española de Investigaciones Sociológicas,107, 155–179. doi:10.1080/13572339908420591. URLhttp://www.jstor.org/stable/40184642.

Stevenson, R. y Crossley, N. (2014). Change in Covert SocialMovement Networks: The ’Inner Circle’ of the ProvisionalIrish Republican Army. Social Movement Studies. doi:10.1080/14742837.2013.832622.

Sun, D.Y., Guo, S.Q., Zhang, H., y Li, B.X. (2011). Studyon covert networks of terroristic organizations based ontext analysis. Proceedings of 2011 IEEE InternationalConference on Intelligence and Security Informatics, ISI2011, (70973138), 373–378. doi:10.1109/ISI.2011.5984117.

Zech, S.T. y Gabbay, M. (2016). Social network analysis inthe study of terrorism and insurgency: From organizationto politics. International Studies Review, 18(2), 214–243.doi:10.1093/isr/viv011.

Zhang, J.X., Chen, D.B., Dong, Q., y Zhao, Z.D. (2016).Identifying a set of influential spreaders in complex net-works. Scientific Reports. doi:10.1038/srep27823.