37
Medidas y análisis del grafo de la Web Marcelo F. Durante Minería de la Web

Medidas y análisis del grafo de la Web - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase20-slides... · grafo de la Web Bibliografía ... (es decir, que apuntan

Embed Size (px)

Citation preview

Medidas y análisis delgrafo de la Web

Marcelo F. Durante

Minería de la Web

2Medidas y Análisis del grafo de la Web

Bibliografía

• “Graph Structure in the Web”, por Andrei Broder et al, año2000.

• “The Indexable Web is More than 11.5 Billion Pages”, porA. Gulli & A. Signorini, año 2005

3Medidas y Análisis del grafo de la Web

Graph Structure in the Web

4Medidas y Análisis del grafo de la Web

• El estudio de la Web como un grafo permite una nueva e interesante mirada a los algoritmos de crawling, búsqueda y recuperación de la información.

• En general es de gran ayuda a cualquier aplicación (académica o comercial) que desee realizar alguna acción sobre la web, al contar con una estructura de alto nivel.

• En este estudio se pusieron bajo la lupa diferentes propiedades del grafo, incluyendo diámetro, distribuciones de grados en los nodos (cantidad de enlaces entrantes y salientes), componentes conexos y estructura macroscópica y microscópica.

Introducción (1)

5Medidas y Análisis del grafo de la Web

• Considera a la Web como un grafo dirigido cuyos nodos corresponden a las páginas estáticas, y cuyos arcos son los enlaces entre ellas.

Introducción (2)

6Medidas y Análisis del grafo de la Web

• Diseñar estrategias de web crawling• Analizar el desempeño de los algoritmos que usan la información

de los enlaces.Por ejemplo: ¿cómo se comportaría PageRank sobre una estructura como el grafo de la Web?“la estructura del grafo pueden usarla los buscadores (como Google con su Page Rank) para jerarquizar sus resultados en base a las páginas más referenciadas o apuntadas, que son las páginas más populares.” (BAEZA-YATES)

• Predecir el surgimiento y la evolución de estructuras web, asícomo desarrollar mejores algoritmos para descubrirlas, yorganizarlas.

Propósito

7Medidas y Análisis del grafo de la Web

Definiciones y Terminología (1)

GRAFO DIRIGIDO:• Está formado por un conjunto de nodos y un conjunto de arcos.

Cada arco es un par ordenado de nodos (u,v) representando una conexión o enlace dirigido desde u hasta v.

• OUT-DEGREE: representa la cantidad de arcos de la forma(u, v1), .... , (u, vk); es decir, es el número de enlaces salientesde u (a cuantas páginas apunta).

• IN-DEGREE: representa la cantidad de arcos de la forma (v1, u), .... , (vk, u); es decir, el número de enlaces entrantes a u (por cuántas páginas es apuntado).

• CAMINO: es una sequencia de arcos desde el nodo u hasta v, de la forma (u, u1), (u1, u2), .... , (uk, v). Un camino de u a v noimplica un camino de v a u.

8Medidas y Análisis del grafo de la Web

• DISTANCIA: es la menor cantidad de arcos que representen un camino desde u a v; si no existe un camino de u a v, la distancia es infinito.

• COMPONENTE FUERTEMENTE CONEXO (SCC): dado un grafodirigido, un SCC se define como el subconjunto de nodos donde para cualquier par de nodos (u, v) existe un camino desde u hastav. Un grafo puede tener ninguno, uno o más de un SCC. Si existe más de uno, los SCC son disjuntos entre sí.

• COMPONENTE DÉBILMENTE CONEXO (WCC): es un componente de un grafo no dirigido obtenido en base acomponentes de un grafo dirigido, pero ignorando el sentido delos arcos.

Definiciones y Terminología (2)

9Medidas y Análisis del grafo de la Web

BÚSQUEDA PRIMERO EN AMPLITUD (BFS):• Una BFS en un grafo dirigido comienza e el nodo u, y procede a

construir el conjunto de nodos alcanzables desde u en una seriede capas.

• Así, la capa 1 contiene a los nodos que están apuntados por un sólo arco desde u. La capa k contiene a los nodos al que estáapuntando algún nodo en la capa k - 1, pero que no están enninguna capa anterior.

• Por definición, las capas son disjuntas.• La distancia de u a cualquier nodo se puede obtener de una BFS:

el camino más corto de u a v es el índice de la capa a la que pertence v, si existe tal capa

• Un nodo que no es alcanzable desde u no pertenece a ninguna capa, y así se define la distancia infinita.

• Una BFS sobre un grafo no dirigido se define en forma análoga.

Definiciones y Terminología (3)

10Medidas y Análisis del grafo de la Web

DISTRIBUCIÓN POWER LAWDefinición de Wikipedia (http://es.wikipedia.org/wiki/Power_law)Una relación power law entre dos escalares x e y se puede escribir como:

y = axk

donde a (la constante de proporcionalidad) y k (el exponentede la power law) son constantes.Su característica es que si se grafica con escala logarítmica, ladistribución se puede interpretar como una línea recta, puesto que la ecuación anterior se puede escribir como:

log(y) = k log(x) + log(a)que es la misma forma que la ecuación de una recta:

y = m x+c

Definiciones y Terminología (4)

11Medidas y Análisis del grafo de la Web

DISTRIBUCIÓN POWER LAWDefinción del paper:

Se enfoca en las distribuciones power law sobre los enteros positivos, definidas como la probabilidad de que un valor i sea proporcional a 1/ik , siendo k un número pequeño y positivo.

Definiciones y Terminología (5)

Similar a la ley de Zipf

12Medidas y Análisis del grafo de la Web

• Dos trabajos recientes (para la época de este paper) hechos aescalas completamente diferentes, sugieren que tanto el IN-DEGREE como el OUT-DEGREE de los nodos del grafo de la websiguen power laws.

web crawl del año 97 hecho por Alexa INC con 40 M nodos.sitio de la universidad de Notre Dame (*.nd.edu)

• Todo esto indica que la distribución power law se da tanto a nivel macroscópico en toda la web, como a nivel microscópico dentrode las páginas de una universidad.

Trabajos previos

13Medidas y Análisis del grafo de la Web

Información general (1)

• Se usaron 2 crawls de AltaVista (generados en Mayo y Octubrede 1999)– ~200 millones (M) páginas– ~1.5 billones (G) links

• en escala, 5 veces más grande que el mayor estudio anterior– Kumar, et. al. usó un data set de 1997 con ~40 M páginas

• The power law for IN-DEGREE: la probabilidad que un nodo tenga i enlaces entrantes (es decir, que sea apuntado por ipáginas) es proporcional a 1/ix, para x > 1

• Esta “ley” se verifica en los experimentos actuales (sobre crawlsconsiderablemente mayores), y se confirma como una propiedad básica de la web.

14Medidas y Análisis del grafo de la Web

Infraestructura (1)

• Software: Connectivity Server 2 (CS2)desarrollado por Compaq Systems Research Centertoma como entrada un Web crawlgenera como salida el grafo de la webrepresenta el grafo mediante una DB que contiene:

– URLs del crawl– in-links– out-links

diseñado para alta performance en el accesso a los datos (almacenar la base en memoria).La base de datos generada ocupa 9.5 GB de memoria

15Medidas y Análisis del grafo de la Web

Infraestructura (2)

• Datos: Altavista Crawlsbasado en un gran conjunto de puntos de inicio con las siguientes reglas:

– evitar sobrecarga en los servidores y robots traps– evitar/detectar spam, resolver time-outs, etc.– índice sin duplicados ni enlaces rotos, etc.

• Hardware: COMPAQ ALPHA SERVER 4100 de 465 Mhz con 12 GB de RAM

16Medidas y Análisis del grafo de la Web

• Se generaron las distribuciones de grado (IN-DEGREE y OUT-DEGREE) para verificar que se ajustan a distribuciones power law.

• Se hallaron los componentes fuertes y débiles de la Web, y seobservó que los tamaños de dichos componentes también seajustan a una distribución power law. (algoritmos SCC y WCC).

• Se realizaron 570 BFS, comenzando desde nodos elegidos en forma aleatoria (random-start BFS), tanto en forward como en backward. (algoritmo BFS).

Algoritmos y Experimentos

• El análisis de los resultados muestra una figura que representa laestructura de la web en forma macroscópica.

17Medidas y Análisis del grafo de la Web

Resultados (1)

18Medidas y Análisis del grafo de la Web

• Si los enlaces se consideran no dirigidos, el 90% de los nodos están conectados, es decir, forman un gran componente conexo(débil) de 186 M páginas.

• Si se tiene en cuenta la dirección de los enlaces, éste único gran componente conexo se divide en cuatro partes o áreas:

SCC: es el núcleo o centro, y es un componente fuertemente conexo, donde desde cualquier página se puede llegar acualquier otra.IN: está formado por las páginas que pueden llegar al SCC,pero no viceversaOUT: está formado por las páginas que son accesibles desde el núcleo, pero que no apuntan a él, por ejemplo sitios corporativos que no tienen enlaces externos.TENDRILS: está formado por páginas que no apuntan alnúcleo y que tampoco son apuntadas por éste.

Resultados (2)

19Medidas y Análisis del grafo de la Web

• El diámetro del SCC es al menos 28, y el diámetro del grafocompleto está por encima de 500, lo que contrasta con el modelode “small world”.

• Baeza-Yates: en el núcleo existe un camino para ir de una página cualquiera a otra, siendo el largo máximo (diámetro del núcleo) al menos 28. En otras palabras, el camino más corto entre dos páginas en el peor caso implica visitar 28 de ellas.

Resultados (3)

20Medidas y Análisis del grafo de la Web

• Se verifican observaciones anteriores• Los resultados de mayo y octubre son coherentes y coincidentes.

Exponente In-degree = 2.1Exponente Out-degree = 2.72

• El segmento inicial en Out-degree se desvía significatimavemte de la distribución, sugiriendo que las páginas con bajo Out-degree (es decir, que apuntan a pocos sitios) siguen una distribución diferente, talvez Poisson o una combinación entre power law y Poisson

Distribución de Grados (1)

21Medidas y Análisis del grafo de la Web

Distribución de Grados (2)

Distribuciones In-degree y Out-degree de Mayo and Octubre, 1999

22Medidas y Análisis del grafo de la Web

Distribuciones en SCC y WCC

• Muestra un gran SCC: cerca de 56 M páginas– Representa el 28% de todas las páginas del crawl, todos

los demás SCC son significativamente más chicos• la distribución en el tamaño del SCC también obedece a una

power law, con exponente 2.5. Ídem para el tamaño del WCC

23Medidas y Análisis del grafo de la Web

Random-Start BFS

• Realizados para estudiar aspectos de diámetro y distancia promedio

• El algoritmo se comportaba de dos maneras:

• “Die out” después de alcanzar un pequeño conjunto denodos (< 90 nodos)

• “Explode” hasta cubrir cerca de 100 M nodos• aunque nunca los 186 M del WCC• a veces ocurría tanto en forward como en backward

24Medidas y Análisis del grafo de la Web

Power Law vs. Zipf

La distribución In-degree se ajusta mejor a la ley de Zipf que a una power law.

25Medidas y Análisis del grafo de la Web

Tamaño de componentes (1)• Resultados de random-start BFS:

– 186 M nodos en un gran componente débil.– 56 M nodos en un componente fuerte.

• Éstos resultados se utilizan para estimar los tamaños de los restantes componentes:– IN, OUT, TENDRILS, y DISCONNECTED

26Medidas y Análisis del grafo de la Web

Tamaño de componentes (2)

• Sabiendo que existe un camino directo para cada nodo en IN a cualquier nodo en SCC.– Cada BFS con start node en SCC alcanza 100 M nodos,

siguiendo una expansión a través de in-links.

• Sabiendo que existe un camino directo para cada nodo en SCCcualquier nodo en OUT.– Cada nodo en SCC alcanza 100 M nodos, siguiendo una

expansión a través de out-links.

• SCC + IN = SCC + OUT = ~100 M– IN y OUT = 44 M nodos cada uno.

27Medidas y Análisis del grafo de la Web

• DISCONNECTED:– Total de nodos en el web crawl ≈ 203.5 M nodos– Total de nodos en el WCC ≈ 186.7 M nodos– DISCONNECTED = Total – WCC ≈ 16.8 M nodos

• TENDRILS– WCC – SCC – IN – OUT = Tendrils– ≈ 44 M nodes

Tamaño de componentes (3)

28Medidas y Análisis del grafo de la Web

Conclusiones

• Utilizando data sets (web crawls) más grandes, se obtienen resultados más exactos.

• El grafo no dirigido de la web (WCC) muestra mucha másconectividad que el grafo dirigido. Y aunque SCC + IN + OUTcomprenden el 70% del total, dadas dos páginas aleatorias,sólo se puede alcanzar una desde la otra un 25% de las veces.

• El efecto “small world” ya no es aplicable a ésta realidad,puesto que en algunos casos, para ir de una página a otra,sólo se puede hacer a través de cientos de páginas.

29Medidas y Análisis del grafo de la Web

The Indexable Web is more than 11.5 billion

pages

30Medidas y Análisis del grafo de la Web

Propósito y Utilidad

• Estimar el tamaño de la web indexable, en base a los buscadores más grandes.

• Estimar el solapamiento o intersección entre GOOGLE, MSN, ASK/TEOMA y YAHOO!

• Estimar el tamaño de la web es muy útil para aplicaciones que realizan compresión de contenidos web, ranking, crawling y minería de la web.

31Medidas y Análisis del grafo de la Web

Introducción

• Cuál es es tamaño actual de la web? Estimarlo es bastante difícil, por su naturaleza dinámica, sin embargo se puede estimar el tamaño de la web indexable.

• Qué es la a web indexable? se define como la porción de la web que indexan los buscadores más grandes.

• Por ejemplo, los utilizados en estos experimentos, son:– GOOGLE: 8 G páginas– MSN: 5 G páginas– ASK/TEOMA: 2 G páginas– YAHOO!: 4 G páginas

32Medidas y Análisis del grafo de la Web

Procedimientos (1)

• SAMPLING:elege páginas al azar de forma uniforme y del índice de un motor de búsqueda en particular.

• CHECKING: determina si una página en particular está indexada por un dado motor de búsqueda.

33Medidas y Análisis del grafo de la Web

Procedimientos (2)

• SAMPLING:basado en consultasse envía un grupo de consultas a un buscador seleccionado y se selecciona un URL al azar dentro de los 100 primeros resultados.para generar las consultas, utilizaron DMOZ (4 M páginas) para crear un diccionario de consultas-términos (2 M), los ordenaron por ocurrencia y los dividieron en bloques.de cada bloque se eligió un término y se envió a un buscador diferente. Luego, para cada consulta se seleccionó una de las primeras 100 respuestas.

34Medidas y Análisis del grafo de la Web

• CHECKINGbasado en consultascada buscador permite verficar si un dado URL se encuentra indexadoesto requiere una cuidadosa normalización de los URLs

Procedimientos (3)

• Tanto para el Sampling como el Checking se utilizó Helios (un metabuscador open source).

• Cada consulta de sampling se envió a Helios que la reenvió a los motores de búsqueda mencionados.

35Medidas y Análisis del grafo de la Web

Hardware

• Linux Cluster de 43 servidores• Ancho de banda 70 GB• Más de 3600 horas máquina

36Medidas y Análisis del grafo de la Web

Resultados

37Medidas y Análisis del grafo de la Web

Gracias!!

• Preguntas y/o sugerencias?

• VAMOS ARGENTINA!!!!