Ic05complet

Franck GHITALLA / Septembre 2011 1

Réseaux, Graphes, Cartographie

IC05 – Semestre Printemps 2012

Université de Technologie de Compiègne L’enseignement est structuré autour de quatre parties : I) OBSERVER (Networks Analysis : Measures and Metrics), II) COMPRENDRE (Patterns and Canonical Models), III) VISUALISER CARTOGRAPHIER (information mapping), IV) AGIR (Network Services Design). Les parties I et IV peuvent être considérées seulement comme des modules complémentaires. L’enseignement étant destiné à des élèves ingénieurs, on peut supposer que les fondements en matière de théories des graphes sont acquis et que la question des métriques principales en analyse réseau sont maîtrisées. Cependant, cette partie mérite d’être traitée en début de semestre quand le public est composé d’élèves qui n’ont pas tous suivi des cours avancés d’informatique ou de mathématique (issus de départements Design, Procédés ou Chimie, Sciences Mécaniques et des Systèmes…). La partie IV, quant à elle, est composée d’une série de présentations de tous les domaines professionnels dans lesquels aujourd’hui, en France notamment, il est possible de développer une approche « réseaux » ou « cartographie des réseaux » (du moins, à ma connaissance). L’organisation et les finalités de cet enseignement sont en évolution constante, où se mêlent le français comme l’anglais. Seul son « cœur » demeure : l’articulation entre démarche de compréhension des patterns extractibles des données sur les réseaux et leur visualisation-spatialisation. C’est en développant cette approche croisée entre modèles de réseaux et leur exploration cartographique, autrement dit en croisant patterns statistiques et visuels, que se développent aujourd’hui de nombreuses pistes en termes d’innovation scientifique ou industrielle où les masses de données ont besoin d’être abordées d’un point de vue plus synthétique et opérationnel dans la conception de nouveaux services, le déploiement de nouveaux process, le développement de compétences humaines en adéquation avec l’âge des réseaux. Ainsi, l’essentiel des exemples abordés dans le document sont issus de projets auxquels j’ai directement participé avec les ingénieurs qui les ont portés, de Gephi à Linkfluence. Ces projets, comme ceux développés dans les travaux dirigés par les élèves, naissent d’une façon originale d’articuler données statistiques et spatialisation (sans hiérarchie), réinventant sans cesse les outils qui peuvent permettre de « mapper », analyser, « monitorer » (parfois en temps réel) ces données issues des réseaux qui deviennent alors en partie contrôlables et utiles pour accompagner la décision et construire la stratégie. C’est pourquoi, je rattache ouvertement cet enseignement aux Network Sciences (ou sciences des réseaux) qui émergent et s’inventent aujourd’hui, notamment aux Etats-Unis. C’est pourquoi, aussi, il n’est d’aucune importance que cet enseignement soit rattaché aux Sciences Humaines ou aux Sciences Informatiques, ou à un quelconque département ou structures de recherche. Seule compte sa démarche : indisciplinaire et tournée vers l’innovation.

L’Atelier de Cartographie http://ateliercartographie.wordpress.com Document accessible sur Slideshare


INTRODUCTION Networks L’émergence de la thématique des réseaux : les Technological networks Internet (dont on peut mesurer la structure, « TraceRoute », Routing Tables), les Telephone networks, les Power Grids, les Transportation networks , les Delivery and distribution networks…), les Information networks (WWW mais aussi les Citation networks, les Peer-to-Peer networks, les Recommanders networks ou les Keywords Indexes) ou les Social networks (Empirical studies of social networks : (avant) interviews and questionnaires, ego-centered networks, direct observation et aujourd’hui Exploiting data et l’avènement des Computational Social Sciences avec les affiliation networks…). Le cas des Information networks : la diversité des sources de documents numériques BDD scientifiques, Corpus de revues, Bases termes/concepts, Web (sites, blogs, informations dynamiques…), Bases brevets, Bases de connaissances personnelles ou collectives (bookmarks, documents numériques de travail, personnels, listes d’objets…), Traces d’usages (statistiques, logs, signatures…),Intranets et information administratives… L’importance actuelle des réseaux sociaux …la traçabilité du social, l’émergence des CSS (Computing social Sciences), l’idée de monitorer l’activité sociale (temps réel, modèle d’évolution, détection de signal faible…)

Quels modèles explicatifs, quels dispositifs d’obse rvation, quelles données ? Mais : comment expliquer des architectures massivem ent distribuées et dynamiques? (illus.) Quelle(s) science(s) ? Quelles données ? Quel(s) traitement(s) ? Quelles hypothèses pour quel horizon scientifique ? Doit-on faire appel aux mathématiques? Aux computer sciences? À la sociologie? Aux marketing? A l’ingénierie des réseaux et de leurs modèles formels? À la biologie, la physique, l’épidémiologie? Au design ou l’architecture? A l’histoire des systèmes techniques? Le décalage avec les architectures documentaires héritées depuis des siècles, et peut être même depuis la naissance de l’écriture


Retour des questions d’ingénierie (instruments) et des outils d’exploration du complexe / Quels outils logiques et graphiques pour un premier travail d’arpentage des données, connexions, traces…notamment dans l’observation et l’analyse des architectures documentaires (ou informationnelles) distribuées ? Avènement du cadre expérimental à partir duquel les hypothèses peuvent être produites Les NetWork Sciences : des auteurs, des chercheurs, des laboratoires, des étudiants, des entreprises…

exemple du NetSci (http://www.netsci2010.net/) Application(s) aux Information networks :

Principe des territoires numériques Vastes systèmes d’interconnexions de sources hétérogènes Aspects dynamiques et temporels Rôle majeur des structures logiques complexes (vs.arborescences, corpus fermés) Nouveaux services pour la veille, la documentation et les bibliothèques

La recherche des clefs de la maîtrise des Grandes M asses de Données numériques, distribuées et dynamiques / par réduction par recherche de patterns généraux (topologie), par Corrélation de dimensions des données (contenu/structure, corrélation de corpus hétérogènes, méta-données…) et par Synthèse matérielle, IHM, InfoViz, cartographies Trouver un cadre simple aux travaux sur les réseaux , une démarche globale d’ingénierie :

Observer : Networks Analysis Comprendre : Computing for Networks Cartographier : Information mapping Agir : Network Systems and Services Design

Le web, et tous les systèmes complexes d’information, représentent un défi pour l’étude des architectures documentaires : distribués, à grande échelle et dynamiques dans le temps, ils doivent être explorés comme des espaces inédits pour en comprendre la structure et les propriétés mais aussi pour en proposer des modèles exploitables aux usagers.


L’exploration scientifique et expérimentale des propriétés des masses de données distribuées, ou de tout système complexe, ouvre ainsi sur des pistes d’innovation technologique , des outils, des méthodes ou des services qui pourront accompagner demain les usagers, autant experts que publics, dans des tâches de management de l’information, de veille stratégique ou d’aide à la décision.

Des origines, des emprunts, des migrations depuis : Les Web Sciences (ingénierie, expérimentations), la Scientométrie et Bibliométrie (les premiers modèles dans les années soixante), la Sociologie (communautés, topologie du social, modes et marchés), la Physique (mathématiques), l’Economie (statistique, analyse multi-dimensionnelle) et la Neuro-psychologie (réseaux de neurones). Les années 96-99 et les Web Sciences Les Networks Sciences vs sciences du complexe Le point de vue de S.Strogatz / les « trois problématiques » typiques des « sciences du complexe » : la relativité du point de vue, les masses de données, « poésie » et « philosophie » des objets mathématiques complexes et/ou des systèmes (supposés) auto-constitués / Le défi des données réelles et des réseaux numériques La pratique de l’indiscipline Triple cloisonnement SHS/sciences dites « exactes », théorie et expérimentation, enseignement et recherche Un projet global d’infrastructure, de projets et d’acteurs (Linkfluence, GEPHI, Medialab…) Des terrains d’application… Les projets cartographiques

FOCUS : PPT « L’aventure WebAtlas »

« L’Aventure WebAtlas » : un réseau d’acteurs et de projets


I) OBSERVER (Networks Analysis : Measures and Metrics )

I-1) Networks and their representation (M.E.J. Newman, Networks – An introduction) / Principaux concepts Mesures et métriques pour qualifier les structures de réseaux dans l’objectif d’identifier des patterns (à la fois statistiques et visuels dans notre perspective) Précision : la visualisation de graphes n’est qu’un domaine périphérique dans le domaine de la théorie des graphes et dans l’analyse des systèmes complexes / Mais c’est une démarche centrale en Network Sciences

• Graph theory (backgrounds and history) Un réseau peut être modélisé/représenté sous d’un graphe avec des noeuds (nodes, vertices ou actors/ties en sociologue) relies entre par des liens ou des arcs (links, edges) /

Les types de distribution des liens entre les nœuds est une question centrale en théorie des graphes / Il existe trois types fondamentaux de distribution : les liens simples entre deux nœuds, les liens multiples entre deux nœuds et les liens « auto-distribué » sur un nœud (self-edges ou self-loops) / un graphe qui est du premier type est appelé « simple graph », les autres « multi-graph » /


• Adjency Matrix Un graph peut être décrit mathématiquement par une matrice d’adjacence / Dans un premier temps, il est possible de réduire un graph à une liste comprenant a) les nœuds (nodes list) b) leurs liens réciproques de type (1,2), (1,5), 2,3), (2,4)…(edges list) / C’est sur ce principe que sont construits les fichiers de type GEXF (dérivé du format XML) / Cependant, une meilleure représentation d’une structure de graphe peut s’effectuer via une matrice d’adjacence telle les nœuds sont croisés via un tableau dans lequel on indique la présence d’un nœud (1) ou son absence (0) pour chacune des paires de nœuds :

Les matrices de graphe peuvent inclure, aussi, les self-loops et les liens multiples entre les nœuds, tel que :

• Weighted Networks L’étude de certains réseaux réclame que soient attribués des points, des poids ou des forces aux liens / Généralement, il s’agit d’attribuer des nombres réels aux liens /

• Directed networks Un graphe orienté (directed graph) est un graphe dans lequel les liens (edges) sont orientés, par exemple de A vers B mais pas de B vers A / Dans ce cas, la matrice d’adjacence présente une asymétrie caractéristique : de chaque côté de la diagonale, les valeurs ne sont pas les mêmes / La plupart des graphes issus de données réelles sont orientés, comme le sont les plus classiques d’entre eux, les graphes du web (les liens représentant les liens hypertexte) /


• Bi and Tri-partite networks / Graph transformation Les graphes bi-partites permettent de traiter et de représenter deux types (voire plus) de nœuds / Il peut s’agir d’éléments issus de deux groupes différents (homme-femme, salarié-chômeur…) ou d’éléments et des groupes ou des familles respectives auxquels ils appartiennent / En théorie, ils peuvent être à deux, trois ou plus dimensions…En pratique, la plupart du temps, trois dimensions constituent un seuil / Les graphes bi-partites peuvent toujours être transformés en graphes simples : si un nœud A de la famille Ax est lié à deux nœuds B de la famille Bx, alors le nœud A peut être transformé en lien entre deux nœuds B / Ce type de transformation conduit souvent à pondérer les liens puisque l’on simplifie le graphe en diminuant le nombre de nœuds mais en augmentant le nombre de liens qui la plupart du temps ne sont pas distribués de façon équivalente /


• Acyclic directed networks Dans un graphe, un cycle est un circuit fermé de liens entre une série de nœuds / Un simple lien interne (self-loop) dans un graphe suffit en théorie à le définir comme cyclique / Des réseaux comme le web en comporte beaucoup mais d’autres n’en ont aucun : on les qualifie alors d’a-cycliques / Les mieux connus et les parmi les plus étudiés sont les graphes de citations et/ou de couplages bibliographiques (bibliographic coupling) dans lesquels les citations s’accumulent seulement au cours du temps (bien que l’on puisse y trouver aussi, dans certaines conditions, des loupes) /


FOCUS : Price, l’ISI et la scientométrie : Co-citat ion and bibliographic coupling / Les Cartes des Sciences

I-2) Degree, Paths and Distances (M.E.J. Newman, Networks – An introduction)

• Degree / Density

Le DEGREE d’un noeud est la somme des noeuds qui lui sont lies / La densité d’un graphe est le rapport entre le nombre possible de liens et le nombre réel de liens présents dans le graphe / Ce rapport varie de 0 à 1 (1 dénotant un graphe absolument dense dont la matrice est complète) / En particulier, la densité est d’autant plus grande que le nombre de liens devient plus grand quand on élargit le graphe (la densité peut être considérée comme une constant) /

• Dense/sparse networks

Les données accessibles montrent qu’une majorité de réseaux sont “sparse” : c’est le cas, en particulier, des graphes du web (pages et/ou sites), de l’Internet (par exemple la distribution des routers), les réseaux sociaux ou les graphes de co-publications en Information Scientifique et Techniques (publications des chercheurs indexes dans des bases mondiales) / Dans certains cas, cependant, le graphe peut être très dense (proche de 1) comme dans un réseau de citations entre des revues d’une même discipline scientifique (où non seulement toutes les cellules de la matrice sont pleines mais, en plus, comportent des poids) / Ce phénomène est du, dans le cas des graphes de citations (« citation flux »),


au fait que l’on agrège des niveaux de liens en diminuant et/ou en conservant un nombre réduit de nœuds /

• Regular networks On peut envisager, ou même rencontrer, des graphes réguliers (regular graphs) dans lesquels le nombre de liens par nœud est strictement égal pour tous les nœuds du réseau / C’est le cas des réseaux de type « grille » ou « square lattice » / La courbe de variation du nombre de liens par nœud est donc « plate » mais on peut considérer comme « regular graph » des graphes où la variation est faible par rapport à une moyenne /

• IN-Degree, OUT-Degree

Dans un graphe orienté, les noeuds du réseau ont deux DEGREE différents / Le IN-Degree est le nombre de liens entrants ou pointant vers le noeuds, le OUT-Degree est le nombre de liens sortants du noeud / Dans une matrice d’un graphe orienté dont on connaît toutes les propriétés des éléments, la somme des IN-Degree d’un côté et des OUT-Degree de l’autre est équivalente (ou encore le nombre de liens d’un graphe orienté est égal au nombre de liens entrants ou au nombre de liens sortants) / Au-delà de ces propriétés théoriques des graphes orientés, l’étude des réseaux distribués à grande échelle comme les URL du Web ou les acteurs d’une plate-forme comme FaceBook posent de remarquables problèmes, aussi bien méthodologiques que techniques / En effet, si pour chaque nœud (URL, acteur social) on peut déterminer le nombre de liens sortant (OUT-Degree), il n’en va pas de même pour les liens entrants (IN-Degree) dont le nombre dépendrait d’un graphe de la totalité du réseau, impossible à déterminer dans le cas du web par exemple / Ce « verrou » est le point de départ de nombreux et fascinants problèmes statistiques, méthodologiques et techniques en web-mining (ne serait-ce que parce que des algorithmes de ranking comme Eigenvector ou HITS sont basés sur la mesure des rapports entre IN- et OUT-Degree)

• Distribution of links / degree distribution and power-law

La question de la distribution des liens est peut être LA question centrale en matière de théorie des graphes et d’analyse des réseaux : elle est reliée à quasiment toutes les autres questions, qu’il s’agisse de métriques ou de mesures ou de technologies (algorithmes de traitement des données, interfaces usagers) / La question est centrale en matière de typologie des réseaux et ouvre sur des questions de modèles (topologie) des réseaux / La distribution se calcule ainsi : soit un réseau non-orienté dans le quel on définit p(k) comme étant la fraction de nœuds ayant le Degree (k) :


P(k) peut aussi être calculé comme une probabilité (probabilité qu’un nœud choisi au hasard dans le réseau ait un degré k) ou comme un filtre de sélection des nœuds (n, étant tous les nœuds ayant le degré k, noté np(k) ) / Dans tous les cas, p(k) renseigne sur le type de distribution des liens dans le graphe mais, à lui seul, ne permet pas définir sa forme ou sa topologie : dans l’exemple qui suit, le Degree est le même pour chacun des nœuds mais dans un cas, le graphe est disjoint / p(k) est donc une bonne mesure dans le cas où le réseau est constitué d’un seul composant (et c’est le cas la plupart du temps)

Un cas particulier de distribution, et très discuté depuis longtemps en théorie des graphes, est la distribution de Power-Law (ou « loi de puissance ») / Ce type de distribution peut concerner une grande partie des graphes produits avec des données réelles (ou du moins s’en approcher) et constitue un modèle pertinent pour étudier, notamment, les « lois » statistiques qui gouvernent la distribution des liens hypertextes entre URL sur le web / Dans de nombreux graphes, si on classe les nœuds selon leur degré de distribution p(k) on se rend compte que k diminue (ou augmente) selon des rapports de proportionalité de façon constante ou « loi de puissance » / Cette constante est appelée exponent de la power-law / Par exemple, les IN-Degree et les OUT-Degree identifiés sur le web pour des grands groupes d’URL, l’exponent est compris entre 2 et 3, autrement dit si dans un réseau de 100 nœuds il y a 1.000 liens et que la distribution suit une loi de puissance, alors on peut s’attendre à une distribution de ce type :


• Path length / shortest path length / Diameter Un chemin (path) dans un réseau est constitué, pour chaque paire de nœuds, par l’ensemble des séquences possibles de nœuds et de liens permettant de relier les deux éléments de la paire / Bien souvent, les chemins dan un graphe orienté sont plus longs, et même plus complexes, que dans un graphe non-orienté / La longueur d’un chemin dans un réseau est le nombre de liens par lesquels passe le chemin / nœuds et chemins peuvent être traversés plusieurs fois (c’est même une méthode de classement des nœuds en termes de centralité) / Le chemin le plus court (shortest path) entre deux nœuds peut aussi être calculé dans une structure de graphe / En théorie comme en pratique, deux nœuds d’un réseau peuvent très bien ne pas être reliés / Les chemins possibles ou existants entre deux nœuds dans un réseau sont souvent multiples, à condition qu’ils soient tous uniques /

Le diamètre d’un graphe est la longueur de plus grand chemin existant entre n’importe quelle paire de nœud dans le réseau / Comme pour la distribution des liens, ce type d’indicateur est d’une grande importance dans la description des réseaux /

FOCUS : les Ecological networks and Food Webs / la biodiversité et l’environnement comme système de connections / Buchanan – The Tangled Web

- Commercial fishing and Oceanic food web / milieu des années 80 et le déclin des stocks de pêches en Atlantique-Nord / recherche de facteurs explicatifs, comme le développement d’espèces protégées / Les gouvernements canadien et japonais en première ligne / pêcher un prédateur permet-il d’espérer une augmentation d’une espèce ? / après tout, si on étudie à un niveau micro avec 2 ou 3 espèces un food-web, les conséquences d’une augmentation ou d’une diminution des 2 autres est prévisible / En contexte réel, la complexité est toute autre /

- The stability of Complexity ? / Robert May, 1970’s et mise en evidence que plus les liens sont

nombreux et divers plus le network résiste aux perturbations (le problème des etudes limitées à une seule zone géographique, souvent isolée, et à quelques espèces) / Peter Yodzis : strong and weak acquaintances / abandonne le random modèle pour évaluer la « robustness » des food-webs à partir de la distribution des liens (non-aléatoire)

- The security of weak ties / Les travaux de K. McCann et al. : all interactions between species are not

alike : some are stronger than other / Perturbations in strong interactions could be compensated by weak ones / From their point of view, weak links between species play a special role in tying an ecological community together, wich sounds strangely reminiscent of Mark Granovetter’s point about the strength of weak ties in our social networks / L’idée s’impose des food-web comme small-worlds / So if ecosystems were small worlds of an aristocratic kind, they would naturally be dominated by the weak ties of the superconnected few /

- Two (or three) degrees of separation / Silwood Park, imperial College in southern England / Solé et Montoya, physiciens, ont analyse les données à partir de graphes / Diamètre du food-web de Silwood Park 2 ou 3 maximum sur 97 hectares et parmi plus de 150 espèces différentes / La topologie fonctionnelle de la bio-masse / des espèces super-connectors essentielles dans l’architecture du web of life / autre consequence : la moindre modification se répercute à l’ensemble du système de façon rapide / The preponderance of weak links in a eco-system emerges directly from its small-world architecture. By


itself this architecture provides biological pressure valves that help to redistribute stress ansd prevent one species from wiping out another by uncontrolled predation or competition /

- Keystones to collapse / Les millions d’hectares de forêts qui disparaissent chaque année et la disparition de certaines espèces / How dangerous is the loss of species diversity for the world as a whole? If healthy ecosystems are small worlds characterized by connectors, and weak links provide stability, then the global depletion of species numbers is a truly alarming prospect / en espérant que ne disparaissent pas les espèces clef / disparition des espèces = stronger links on particular species and/or invasion by foreign species / K. McCann “We should expect an increase in frequency of successful invaders as well as an increase in their impact as our ecosystems become simplified (or disconnected?) / The lessons for conservation are obvious: 1) if we wish to preserve an ecosystem and its component species then we are best to proceed as if each species is sacred 2) special removals (that is, extinction) or species addition (that is, invasion) can, and eventually will, invoke major shifts in community structure and dynamics” / Since no species is ever far from any other, it is unlikely that any species anywhere on the planet will long remain unaffected by human activity / The consequences of removing just one connector species can be especially dramatic, as a huge number of weak stabilizing links goes with / Ecologists have long talked about “keystone” species, crucial organisms the removal of which might bring the web of life trumbling down like a house of cards / From the small world perspective, the connectors look like keystones / Solé et Montoya have demonstrated just how crucial their preservation may be / Mais nous ne les connaissons pas toutes / Si les espèces disparaissant sous l’effet de l’activité humaine ne sont pas “clef” alors les ecosystems en souffrent mais ne disparaissent pas / But there is a deconcerting news : suppose species are not remove at random, but that the most highly connected species get knocked out first. In this case, as Solé and Montoya discovered, ecological disaster ensues quickly. Indeed, removing even 20% of the most highly connected species fragments the web almost entirely, splintering it into many tiny pieces / As the web falls apart, the disintegration triggers many “secondary extinctions” as well, as some some species lose all of their connections to others and become totally isolated / these keystones are the ecological control centers, so to speak, and clearly the most important targets for preservation. In the past, ecologists have suspected that the large predators would tend to be the keystones in an ecosystem, but this does not seem to be true. In their three ecosystems, Solé and Montoya found that the highly connected keystones were often inconspicuous organisms in the middle of the food chain or were sometimes basic plants at the very bottom of the web / identifying keystones means studying the network architecture and seeing which species are the connectors, the lynchpins of the living fabric.


Un Ecotron 1,2 se définit comme un dispositif expérimental et instrumenté en écologie qui permet simultanément de conditionner l’environnement d’écosystèmes naturels, simplifiés ou complètement artificiels et de mesurer des processus générés par les êtres vivants présents dans ces écosystèmes, notamment les flux de matière et d’énergie. Son principe est de confiner les écosystèmes dans des enceintes totalement ou partiellement étanches (i.e. étanche en matière mais pas en énergie) aptes à générer une gamme de conditions physiques et chimiques appliquées sur des écosystèmes terrestres ou aquatiques, continentaux ou marins. Le contrôle environnemental et les mesures en temps réel sont suffisamment précis pour permettre de tester des hypothèses ou des modèles de fonctionnement. A cet effet, les enceintes sont dotées d’un appareillage conséquent permettant de mesurer en continu des flux, des états ou des caractéristiques biologiques. D’autres mesures ponctuelles, in situ et ex situ, sur des échantillons prélevés complètent ces mesures en ligne. Un nombre suffisant d’enceintes de confinement, indépendantes, est nécessaire pour assurer l’étude de plusieurs facteurs en interaction, dans un cadre d’inférence statistique.

Selon les cas, on parle de macrocosme quand l'espace est assez grand pour étudier plusieurs m3 d'écosystème reconstitué durant un pas de temps se mesurant généralement en années (3-5 ans ou plus par exemple), de microcosme pour des volumes se mesurant en décimètres cubes (étude d'écosystèmes fongiques, bactériens, du sol, etc.) et de mésocosme pour les situations intermédiaires.


Les “familles” de graphes et/ou de structures

I-3) Components / Groups of nodes / Clustering (M.E.J. Newman, Networks – An introduction) / “The hard task” (cf. M.-J. Newman) / between tradition (sociology) and the new Computational Social Sciences (CSS)

I-3-a) Backgrounds • Connected/disconnected • Directed graph and weakly connected components / Giant component / Strongly connected

component • Sets, sub-sets, cut sets (Graph and sub-graphs)


Figure 2: Adjacency matrix and graph presentations of different undirected and directed graphs.

• Data aggregation

I-3-b) Structural properties / Connectedness • Degree centrality

Le concept de centralité / La question de savoir quels sont les noeuds les plus importants du réseau? / Différentes acceptions et méthodes de calcul de la « centralité / la mesure la plus simple DEGREE CENTRALITY ou mesure de la « visibilité » / réseaux orientés IN-Degree/OUT-Degree : une double mesure pour chaque nœud du réseau orienté.

• Eigenvector centrality

Une extension naturelle de la mesure de Degree : eigenvector centrality / donne un score pour chaque noeud proprotionnel à la somme des scores des voisins (n+1) / fonctionne très bien pour l’analyse en réseaux sociaux où ce qui compte c’est autant l’importance de ses connaissances sociales que leur nombre / Dans le cas d’un graphe orienté (où la matrice est asymétrique la plupart du temps de part et d’autre de la diagonale), notamment pour les données de type social, on choisira la partie droite de la diagonale de la matrice où se trouvent les liens entrants (autrement dit l’eigenvector des nœuds pointant vers vous) / Dans bien des cas, l’eigenvector fonctionne mieux pour les réseaux non-orientés et cycliques.

• PageRank


The centrality gained by virtue of receiving an adge from a prestigious vertex is diluted by being shared with so many others / Ex : being pointed by YAHOO! Is not a good indication of centrality / The centrality can be calculated as a proportion of neighbors centrality score divided by their Out-Degree / This methods permits to avoid to big and general Hubs like YAHOO! Or Google / This centrality measure is commonly known as PageRank , the trade name given by Google to their ranking technology / PageRank works well on the web because having links to your page from important page elsewhere is a good indication that your page may be important too but the added ingredient of dividing by their out-degree of pages insures that pages that simply point to an enormous number of others do not pass much centrality on to any of them…/ (to be continued : parameter 0.85 in calculations, probabilistic behaviour in navigation, …)

• Hubs and Authorities (HITS)

An “elegant construction” developed for directed networks / Accord a high centrality to nodes if it is pointed but also it points to others with high centrality / Authority score and Hub score for each node / HITS (Hyperlink-Induced Topic Search) qui ouvre sur les problématiques de topologie des agrégats (notamment la question du “noyau” dans un corpus donné) / “A nice feature of the hub and authority centralities is that they circumvent the problems that ordinary eigenvector centrality has with directed networks, that vertices outside of strongly connected components or their out-components always have centrality zero. In the hub and authority approach nodes not cited by any others still have authority centrality zero but they have non-zero hub centrality /

FOCUS : Modèle topologique de l’agrégat dans un set de données

I-3-c) Structural properties / Distances • Closeness centrality

Measures the mean distance from a node to others in the graph / On the contrary of others metrics, this one gives low scores for a high centrality in the graph (and high values for less central ones) / An another feature of this metric is that it gives a small-close spacing values between nodes / Exemple : movie database of actors (range between 2,4 for the most central actor to 8,6 for the last one over 500.000 actors) /

• Betweenness centrality

Measures the extend to wich a node lies on paths between others nodes / Mesure très attachée à la description des flux dans un réseau (« citation flux » dans les cartes des sciences, « disease propagation » en épidémiologie) / « Let us initially make the simple assumption that every pair of vertices in the network exchanges a message with equal probability per unit time (every pair actually connected by a path) and that messages always take the shortest path through the network, or one such a path, chosen at random, if they are several. The question is: If we wait a suitably long time until messages have passed between each pair of vertex en route to their destination? The answer is that, since messages are passing down each geodesic path at the same rate, the number passing through each vertex is simply proportional to the number of geodesic paths the vertex lies on”. / Bien souvent, il existe plusieurs chemins possibles (les plus courts) entre deux noeuds dans un réseau. Dans ce cas on calcule le degré de centralité en additionnant le poids de chacun des chemins possibles passant par ce noeuds (chaque chemin étant dote d’un poids inversement proprotionnel aux nombres possibles de chemins passant par le noeud) / Often, the vertices with highest betweenness are also the ones whose removal from the network will most disrupt communications between other vertices because they lie on the largest number of paths taken by messages / Mesurer la position de contrôle des noeuds avec de forts score de betweenness centrality : role important dans la topologie des réseaux sociaux par exemple et des graphes fortement fortement clusterisés / Cas de figure intéressant, notamment pour l’étude des réseaux sociaux : des nœuds peuvent avoir un heut degré de centralité et n’avoir que peu de liens (et vice-versa) : un cas de figure intéressant qui permet de distinguer clairement « visibilité » d’un nœud (en nombre de liens) et « centralité » (en termes de position) / Limitations théoriques : a) les messages dans un réseau ne passent pas toujours et nécessairement par les chemins les plus courts b) ce qui suppose que les nœuds et/ou les informations qui transitent par eux se basent sur une « connaissance » de la forme globale du réseau, ce qui se vérifie rarement /


I-3-d) Grouping nodes through linkage distribution

Figure 4. (a) A clique K4,3 in which four pages of fans (white nodes) point to the same set of three pages, the idols (in gray). (b) A community of nodes (in gray) weakly connected to other nodes (in black) of the network. The dashed edge denotes the “weak link” with the highest betweenness centrality value. In a community, each node has a higher density of edges within the set than with the rest of the network. Adopted from Kleinberg and Lawrence (2001).

• Groups, communities, cliques, clusters, k-plex • Triades and transitivity • Local clustering and redundancy • Reciprocity • Similarity, cosine similarity • Regular equivalence • Homophily and Assortative Mixing • Assortative mixing by enumerative characteristics

I-3-e) Dividing networks into clusters • Clustering coefficients • Graph partitioning / from existing categories / from statistical properties (hard task) • Community detection / algorithms • Hierarchical clustering

FOCUS : les Computational Social Sciences Social Data Mining and social engineering Community Detection (modularity methods, dynamic methods, edges weights, actors and e-cologic competition) Linkfluence


Metrics Cheat Sheet from GEPHI-Consortium

I-4) Dynamics, Evolution, Temporal Aspects (M.E.J. Newman, Networks – An introduction)

I-4-a) Backgrounds Networks formation / genèse des patterns

Information IN/ON the net Removal/addition of nodes/edges Propagation, diffusion, spreadings I-4-b) Spreadings Epidemics model(s) The S.I.R.S. model

Détection de signaux faibles / Les enjeux…

Figure 8. Schematic diagram of the SIS model for a homogenous networks and a scale free network. As can be seen, there exists no absorbing phase or healthy state for scale-free networks.

I-4-c) Evolution Preferential attachement / time and fitness (Price, Albert-Barabasi) Vertex copying model(s) (Kleinberg)

I-4-d) Structure Phase transition Percolation Thresholds transition phase and “cascades” / Equilibrium


Exemple : le cascade model de D.Watts / Notes et commentaires sur le Chapitre 8 de Six Degrees "Thresholds, Cascades and Predictibility"


II) COMPRENDRE (Patterns and Canonical Models )

La machinerie heuristique / rencontre d’une ingénierie et d’une série d’hypothèses sur l’organisation – la topologie – de l’univers / Théorie des graphes / visualisation de graphe / Cartographie Algorithms and calculus / temps machine / Exploration plus que temps réel Arbres, arborescences, listes : le temps des graphes / un « saut qualitatif » II-1) Small World Experiments Six degrees of separation M.Granovetter S.Milgram (chapitre 5, Six Degrees) (Barabasi, Linked) II-2) Le « tunner analytique » (Strogatz/Watts) / les modèles topologiques de réseaux classables selon le paramètre p de Strogatz et Watts (D. Watts, Six Degrees, chapitre 4, S.Strogatz, Synch., chapitre 9)

Networks, between order and randomness / Random graph-regular graphs / Clusters, proximity and long distances « Most of networks (not only social networks) display what we call clustering, which is really just to say that most people’s friends are also to some extent friends of each other »… » (D. Watts, p40, Six Degrees) Randomness, universality and complex « Some of the properties of extremely complicated systems can be understood without knowing anything about their detailed structure or governing rules… » (D. Watts, p65, Six Degrees)

Le nécessaire “tunner analytique” « On the one hand, the network should display a large culstering coefficient , meaning that on average a person’s friends are far more likely to know each other than two people chosen at random. On the other hand, it should be possible to connect two people chosen at random via a chain of only a few intermediaries .» (D. Watts, p77, Six Degrees) « All we needed to do was find a way to tune each network between complete order and complete disorder in a way that it traced through all the various intermediate stages » (D. Watts, p86, Six Degrees) « A space of possible worlds – the parameter we can tune from 0 to 1, from randomness to order – in wich, at one end of the spectrum individuals always make new friends through thier current friends and, at the other end, they never do. « …in the middle, there is a version of reality. » (D. Watts).


Parameter p (Strogatz-Watts), modèles alpha et beta. / The « Beta Model , the order-randomness-spectrum »(D. Watts, S. Strogatz)

Figure 5. Characteristic path length and clustering coefficient as a function of the rewiring probability p for the Watts-Strogatz model. The characteristic path length and clustering coefficient are normalized by the initial shortest path length o l (filled circles) and clustering coefficient o C (open squares) for the original regular lattice with p=0. Adopted from Watts and Strogatz (1998).

Synthèse / Clustering coefficient and diameter / Shortest path and the small-world effect


FOCUS : Les Cartes du Web / WebDatarium

II-3) Corrélation contenu/structure et modèle en ag régats II-3-a) Ingénierie de la découverte et de l’innovation / Principe du knowledge discovery dans l’exploration du web comme système d’information distribuée

Data exploration / crawl / points de départ et topologie supposée Extraction, trop souvent ramenée à de simples problèmes techniques d’optimisation Breadth-first search / (Chakrabarti, Mining the Web) Visualization/Interfaces/Cartes (IBM et le modèle en “noeud papillon”)

Figure 3. Component structure of directed networks such as the WWW. Adopted from Broder et al. (2000). The component structure of directed graphs has important consequences for the accessibility of information in networks such as the World-Wide Web (Broder, Kumar, Maghoul, Raghavan, Rajagopalan, Stata, et al., 2000; Chakrabarti, Dom, Gibson, Kleinberg, Kumar, Raghavan, et al., 1999).

Corrélation contenu/structure : Networks of content Data, Knowledge discovery, WWW and Hyperlinked worlds, Text as Data, Keywords and Citation networks, Topics Detection and Tracking (TDT), Focus-crawling


FOCUS : Des contenus, des liens et des acteurs : StarGIT et CpanExplorer

II-3-b) Principes du modèle en agrégats / Les Web Sciences et des modèles topologiques déterminants pour les Networks Sciences / Expansion / Attraction / Le modèle gravitationnel du web (Montgolfier et al.) / Couches (layers) et propriétés / Modèle en couches, topical localities, agrégats (Kleinberg) / modèles d’évolution du web et des autres types de réseaux

FOCUS : Illustrations du modèle


II-4) Other dimensions II-4-a) Scale-free Networks (Barabasi, Albert et al.) Beyond “power-law”… II-4-b) Robustness and Aschile’ Heel / structural holes II-4-c) La diversité des modèles topologiques mobilisés et l’imbrication des niveaux d’analyse

FOCUS : la Fabrique du vivant ( Biological Networks ) L’idée d’un Web of life Le principe des network layers

Development of System Dynamics and Ecological Models Les premiers pas : les neural networks puis les Computational models of infectious disease transmission (S.I.R. model, contact networks, spreading models) L’effort actuel : les Biochemical networks - Metabolic networks - Protein-Protein networks - Genetic regulatory networks

II-4-d) Synchronisation (Strogatz) : Harmonie et Ch aos

FOCUS : Synchronized Chaos and Small Worlds Network s (S.Strogatz, Synch, the emerging science of spontaneous order, chapitres 7, 8 et 9)


III) VISUALISER-CARTOGRAPHIER (information mapping)

Le web, et tous les systèmes complexes d’information, représentent un défi pour l’étude des architectures documentaires : distribués, à grande échelle et dynamiques dans le temps, ils doivent être explorés comme des espaces inédits pour en comprendre la structure et les propriétés mais aussi pour en proposer des modèles exploitables aux usagers. L’exploration scientifique et expérimentale des propriétés des masses de données distribuées, ou de tout système complexe, ouvre ainsi sur des pistes d’innovation technologique , des outils, des méthodes ou des services qui pourront accompagner demain les usagers, autant experts que publics, dans des tâches de management de l’information, de veille stratégique ou d’aide à la décision.

L’une des solutions prometteuse pour maîtriser les univers complexes consiste à développer une approche par les graphes et leur visualisation . Les graphes représentent des pivots entre, d’une part, les données accumulées sur le web, les intranets, les BDD…et, d’autre part, les interfaces graphiques de manipulation et d’exploration. Comme instrument d’exploration, les interfaces cartographiques à base de graphes ouvrent sur des dispositifs novateurs de visualisation et d’interaction avec les masses de données, et révèlent souvent des propriétés de corpus jusque-là inaperçues , implicites ou sous-jacentes . Le point de vue sur les visualisations de S.Strogatz (Sync.) et D. Watts (Six Degrees)

III-1) Interfaces, graphes et cartographies de l’in formation

• Visualisation de graphes / La visualisation de graphes : un domaine périphérique à la théorie des graphes / cependant, des vertus expérimentales : la visualisation de graphes relationnels et la manipulation de leurs dimensions permettent de produire des « vues » originales sur les données. En particulier, il s’agit d’identifier des patterns statistiques ou des saillances visuelles associées aux corpus explorés. C’est le principe d’une géographie de l’information nourrie de problématiques théoriques en Network Sciences et qu’il s’agit en même temps de rendre tangible à des usagers (knowledge mapping tools).

• Mapping knowledge tools / Synthèse et exploration


FOCUS : Infovis, exploration, cognition

• Les Cartographies de l’information : comment les définir ? Issues des graphes (outillage analytique d’un degré supérieur en abstraction, outil privilégié d’exploration/analyse de la complexité) Cartographies/espace de représentation (dimensions des données, réduction, projection/spatialisation) Elles éclairent la forme(s) des données présentes dans un système d’information, l’état d’un corpus , l’organisation sous-jacente d’une architecture documentaire / participent de la prospection, de l’évaluation et de la décision espace en évolution de solutions graphiques , lieu d'échanges et de mise au point d'un code commun

• Les cartographies de l’information : quels enjeux ?

Le dispositif sémiologique

écriture, espace de projection et vue sur les données, composition Carte des réseaux

Les localités thématiques Hybridation des espaces d'action La carte et le territoire

L'acte cartographique "Où suis-je?" Le sceau du pouvoir Cartes : collections et Atlas

III-2) GEPHI : la pierre angulaire Le format GEXF Trois espaces de travail Algorithmes d’analyse des réseaux Algorithmes de spatialisation / La famille des force-directed.

Ifan-Hu Fruchterman Rheingold ForceAtlas 1 ForceAtlas2


FOCUS : Anatomy of ForceAtlas2

III-3) Recherche de l’ordre, construction des vues

III-3-a) A différentes échelles (zoom, seuils statistiques…)

III-3-b) Selon différentes dimensions (une ou plusieurs dimensions, principes de corrélation…)


Géographie de la « coopération » scientifique : le rés eau des co-publications en Chimie (2006-2010)

Production d’un graphe bi-partite97.559 auteurs

85.381 mots-clefs1.990.981 liens

Visualisation des principales communautés de co-publication en Chimie (au moins 30

chercheurs et plus de 10 co-publications)

Identification des communautés par les mots-clefs et identification des mots-clefs

spécialisés par les communautés(chercheurs spécialisés

et vocabulaire expert)

III-3-c) Temporalité(s) / La question des interfaces pour quels modèles et systèmes de mesure du temps dans les réseaux…

III-3-d) Vues possibles intégrant à la fois variations d’échelles et de dimensions / la nécessaire scénarisation d’un jeu de cartographies multiples

Exploration de communautés de chercheurs : focus sémantique et social

Vocabulaire spécialisé Communauté active


III-4) Le projet cartographique Processing/Cycle de production / Les étapes préparatoires d’un projet cartographique

La production d’interfaces cartographiques relève d’un processus décomposable schématiquement en trois phases principales : l’extraction des données (BDD et fonds propres INIST, sources externes via des API, sources qualifiées manuellement, web crawling…issus de différents domaines comme les réseaux sociaux, les programmes informatiques, gènes, liens hypertextes, distributions statistiques sur des mots-clef, données d’usage…), phase de traitement et d’enrichissement des données et, enfin, la construction cartographique qui comprend à la fois la sélection de « vues » sur les données et le travail sémiologique de mise en forme.

Types de données Types de méthodes / Traitement, filtrage et enrichissement des données

- REDUIRE LES MASSES ET LES DIMENSIONS Produire des indicateurs de masses, de densité, de clustering, de voisinage et de centration Concevoir des filtres Décomposer les dimensions (topologie hypertexte, texte et contenu, indicateurs d’usage…) Modèle(s) de distribution des propriétés des corpus - FAIRE EMERGER DES PATTERNS Méthodes de projection spatiale, visualisation des données Identification de saillances logico-graphiques Capitaliser/archiver les phases de transformation des corpus Ingénierie de l’exploration des corpus par : Fusion des données de données hétérogènes Niveaux de navigation/zoom Réduction (algorithmes de hiérarchisation/clustering…) Projection (fonds géoréférencés, schémas fonctionnels, organigrammes…) - CONSTRUIRE DES FIGURES Principes d’agrégation Organisation, architecture et sous-ensembles Couches et profondeurs des corpus Temporalités et événements


Classes (techniques) de cartographies de l’information

FOCUS : Anatomie d’une Fondation (La F.R.B. - Fondation pour la Recherche sur la Biodiversité)


IV) AGIR (Network Services Design )

Computing for Networks - Data processing and Management (captation et indexation des données, curation, matrices de graphes et calculs associés, méta-données, interfaçage usagers) - GEPHI - Algorithm design - Social Engineering

FOCUS : les « plug-ins GEPHI » FOCUS : moteurs de recherches/Bases de connaissance s et A.P.I.

Indicateurs et aide à la décision Le projet cartographique et classes de cartographies de l’information Social and Geographical monitoring of complex and distributed organizations Indicateurs d’aide à la gouvernance, I.S.T. Bases de connaissances et analyse des savoirs et/ou de la production scientifique Veille territoriale

FOCUS : Le RADAR d’un pôle de compétitivité


Interfaces, services aux communautés d’usagers

FOCUS : INmaps

Veille, Valeur de l’information stratégique Fabrique de la valeur / propriété intellectuelle, nouvelles formes de valorisation, innovation Veille / IST / brevets / documentation Connaissances et opinions / le marché de l’influence, e-reputation and social management Stratégies et dispositifs d’observation des réseaux L’Agora numérique (courant politiques et éthiques, controverses, opinions et croyances…)

FOCUS : Opinions, diasporas, Controverses : un moteur web de recherche dédié à l’observation et à la cartographie des controverses sociétales est-il réalisable ?

Editer, Diffuser, Communiquer (l’hybridation des supports) Edition Scénographie – événementiels

FOCUS : Diseasome

Exploration, Science Data scientist, scientific applications, e-sciences, data and scientific networks

FOCUS : les Socio-economic networks (Boards, companies, markets, products)


Design, graphisme, esthétique

FOCUS : Data-Flights

Défense / Sécurité

rapport et décision associées qui officialise la naissance des « Network Sciences” par le COMMITTEE ON NETWORK SCIENCE FOR FUTURE ARMY APPLICATIONS (été 2006) 7 chantiers scientifiques : * Dynamics, spatial location, and information propagation in networks. Better understanding of the relationship between the architecture of a network and its function is needed. * Modeling and analysis of very large networks. Tools, abstractions, and approximations are needed that allow reasoning about large-scale networks, as well as techniques for modeling networks characterized by noisy and incomplete data. * Design and synthesis of networks. Techniques are needed to design or modify a network to obtain desired properties. * Increasing the level of rigor and mathematical structure. Many of the respondents to the questionnaire felt that the current state of the art in network science did not have an appropriately rigorous mathematical basis. * Abstracting common concepts across fields. The disparate disciplines need common concepts defined across network science. * Better experiments and measurements of network structure. Current data sets on large-scale networks tend to be sparse, and tools for investigating their structure and function are limited. Robustness and security of networks. Finally, there is a clear need to better understand and design networked systems that are both robust to variations in the components (including localized failures) and secure against hostile intent. “ Un seul objectif final “The ultimate value derived from these engineered networks depends on the effectiveness with which humans use them. These uses can be beneficial (e.g., better combat effectiveness) or detrimental (e.g., their exploitation by criminal and terrorist groups).


Therefore research into the interaction of social and engineered networks is also a national priority.”

Social Media-Content Analysis Multimedia and multimodal analysis (image, video, 3 D, text) processing and feature extraction Data Mining and Machine learning for large-scale social media GPU based processing, distributed and parallel architectures Online Social Interaction Modeling and Analysis Observing and modeling online communities Social network analysis and community detection User behaviour analysis, crowdsourcing and trust analysis Social Media Applications and Architecture Sensing and predicting social media topics and acti vities Social media and crowd sourcing search and personalization Massive Social Data & Knowledge Visualization and Exploration


REFERENCES

BIBLIOGRAPHIE (top 10) BARABASI A.-L., linked, the new science of network, Perseus Publishing, 2003. BORNER K., Atlas of Science: Visualizing What We Know, MIT Press, 2010. BUCHANAN M., Nexus, Small Worlds and the groundbreaking Theory of Networks 2003. CHAKRABARTI S., mining the web, 2002. DAVISON B.-D., « Unifying Text and Link Analysis », IBM, Palo-Alto, 2003. KLEINBERG J., LAWRENCE S., « The Structure Of The Web », Science, vol.294, 30, november, 2001. KLEINBERG J., “Authoritative Sources in a Hyperlinked Environment“, Proceedings of the ACM-SIAM Symposium on Discret Algorithms, ACM Press,1998. NEWMAN M., The structure and dynamics of networks, Princeton University Press, 2003. STROGATZ S. Sync: the emerging science of spontaneous order, MIT-Press2004. WATTS D. Six Degrees. The Sciences of a Connected Age, Duncan Watts, Eds.W.W.Norton, New-York-London, 2004. Sites web sur les Network Sciences Santa Fe institute (http://www.santafe.edu/) CSCS (Center for the Study of Complex Systems) (http://cscs.umich.edu/) UCLA-HCS Human Complex Systems (http://hcs.ucla.edu/) New England Complex Systems Institute (http://necsi.edu/) Center for Computational Analysis of Social and Organizational Systems (CASOS) (http://www.casos.cs.cmu.edu/) CNets Center for Complex Networks and Systems Research (http://cnets.indiana.edu/) Argonne National Laboratory (http://www.anl.gov/) Center for Social Complexity (Georges Mason University) (http://socialcomplexity.gmu.edu/) Center for Social Dynamics and Complexity (Arizona State university) (http://csdc.asu.edu/) NICO (Northwestern Institute on Complex Systems) (http://www.northwestern.edu/nico/) Park Center for Complex Systems (M.I.T.) (http://web.mit.edu/pccs/) Sites web de référence L’Atelier de Cartographie, http://ateliercartographie.wordpress.com/ Linkfluence, http://fr.linkfluence.net/ Le projet TicMigrations, http://ticmigrations.fr/ GEPHI, http://gephi.org/ Medialab Sciences-Po, http://www.medialab.sciences-po.fr/ Les chercheurs Victor-Laszlo Barabasi, Northeastern University, Center for Complex Network Research, http://www.barabasilab.com/ Cyberinfrastructure for Network Science, http://cns.iu.edu/ Duncan Watts, YAHOO ! Research, http://research.yahoo.com/Duncan_Watts Jon Kleinberg, Department of Computer Science Cornell University http://www.cs.cornell.edu/home/kleinber/ Marc E.-J. Newman, Department of Physics and Center for the Study of Complex Systems, University of Michiganhttp://www-personal.umich.edu/~mejn/ Places and Spaces, Mapping Science, http://scimaps.org/ Steven Strogatz, Cornell University, Theorical and Applied Mechanics, http://tam.cornell.edu/faculty-bio.cfm?NetID=shs7

Education

Ic05complet