Upload
trinhminh
View
213
Download
0
Embed Size (px)
Citation preview
2Medidas y Análisis del grafo de la Web
Bibliografía
• “Graph Structure in the Web”, por Andrei Broder et al, año2000.
• “The Indexable Web is More than 11.5 Billion Pages”, porA. Gulli & A. Signorini, año 2005
4Medidas y Análisis del grafo de la Web
• El estudio de la Web como un grafo permite una nueva e interesante mirada a los algoritmos de crawling, búsqueda y recuperación de la información.
• En general es de gran ayuda a cualquier aplicación (académica o comercial) que desee realizar alguna acción sobre la web, al contar con una estructura de alto nivel.
• En este estudio se pusieron bajo la lupa diferentes propiedades del grafo, incluyendo diámetro, distribuciones de grados en los nodos (cantidad de enlaces entrantes y salientes), componentes conexos y estructura macroscópica y microscópica.
Introducción (1)
5Medidas y Análisis del grafo de la Web
• Considera a la Web como un grafo dirigido cuyos nodos corresponden a las páginas estáticas, y cuyos arcos son los enlaces entre ellas.
Introducción (2)
6Medidas y Análisis del grafo de la Web
• Diseñar estrategias de web crawling• Analizar el desempeño de los algoritmos que usan la información
de los enlaces.Por ejemplo: ¿cómo se comportaría PageRank sobre una estructura como el grafo de la Web?“la estructura del grafo pueden usarla los buscadores (como Google con su Page Rank) para jerarquizar sus resultados en base a las páginas más referenciadas o apuntadas, que son las páginas más populares.” (BAEZA-YATES)
• Predecir el surgimiento y la evolución de estructuras web, asícomo desarrollar mejores algoritmos para descubrirlas, yorganizarlas.
Propósito
7Medidas y Análisis del grafo de la Web
Definiciones y Terminología (1)
GRAFO DIRIGIDO:• Está formado por un conjunto de nodos y un conjunto de arcos.
Cada arco es un par ordenado de nodos (u,v) representando una conexión o enlace dirigido desde u hasta v.
• OUT-DEGREE: representa la cantidad de arcos de la forma(u, v1), .... , (u, vk); es decir, es el número de enlaces salientesde u (a cuantas páginas apunta).
• IN-DEGREE: representa la cantidad de arcos de la forma (v1, u), .... , (vk, u); es decir, el número de enlaces entrantes a u (por cuántas páginas es apuntado).
• CAMINO: es una sequencia de arcos desde el nodo u hasta v, de la forma (u, u1), (u1, u2), .... , (uk, v). Un camino de u a v noimplica un camino de v a u.
8Medidas y Análisis del grafo de la Web
• DISTANCIA: es la menor cantidad de arcos que representen un camino desde u a v; si no existe un camino de u a v, la distancia es infinito.
• COMPONENTE FUERTEMENTE CONEXO (SCC): dado un grafodirigido, un SCC se define como el subconjunto de nodos donde para cualquier par de nodos (u, v) existe un camino desde u hastav. Un grafo puede tener ninguno, uno o más de un SCC. Si existe más de uno, los SCC son disjuntos entre sí.
• COMPONENTE DÉBILMENTE CONEXO (WCC): es un componente de un grafo no dirigido obtenido en base acomponentes de un grafo dirigido, pero ignorando el sentido delos arcos.
Definiciones y Terminología (2)
9Medidas y Análisis del grafo de la Web
BÚSQUEDA PRIMERO EN AMPLITUD (BFS):• Una BFS en un grafo dirigido comienza e el nodo u, y procede a
construir el conjunto de nodos alcanzables desde u en una seriede capas.
• Así, la capa 1 contiene a los nodos que están apuntados por un sólo arco desde u. La capa k contiene a los nodos al que estáapuntando algún nodo en la capa k - 1, pero que no están enninguna capa anterior.
• Por definición, las capas son disjuntas.• La distancia de u a cualquier nodo se puede obtener de una BFS:
el camino más corto de u a v es el índice de la capa a la que pertence v, si existe tal capa
• Un nodo que no es alcanzable desde u no pertenece a ninguna capa, y así se define la distancia infinita.
• Una BFS sobre un grafo no dirigido se define en forma análoga.
Definiciones y Terminología (3)
10Medidas y Análisis del grafo de la Web
DISTRIBUCIÓN POWER LAWDefinición de Wikipedia (http://es.wikipedia.org/wiki/Power_law)Una relación power law entre dos escalares x e y se puede escribir como:
y = axk
donde a (la constante de proporcionalidad) y k (el exponentede la power law) son constantes.Su característica es que si se grafica con escala logarítmica, ladistribución se puede interpretar como una línea recta, puesto que la ecuación anterior se puede escribir como:
log(y) = k log(x) + log(a)que es la misma forma que la ecuación de una recta:
y = m x+c
Definiciones y Terminología (4)
11Medidas y Análisis del grafo de la Web
DISTRIBUCIÓN POWER LAWDefinción del paper:
Se enfoca en las distribuciones power law sobre los enteros positivos, definidas como la probabilidad de que un valor i sea proporcional a 1/ik , siendo k un número pequeño y positivo.
Definiciones y Terminología (5)
Similar a la ley de Zipf
12Medidas y Análisis del grafo de la Web
• Dos trabajos recientes (para la época de este paper) hechos aescalas completamente diferentes, sugieren que tanto el IN-DEGREE como el OUT-DEGREE de los nodos del grafo de la websiguen power laws.
web crawl del año 97 hecho por Alexa INC con 40 M nodos.sitio de la universidad de Notre Dame (*.nd.edu)
• Todo esto indica que la distribución power law se da tanto a nivel macroscópico en toda la web, como a nivel microscópico dentrode las páginas de una universidad.
Trabajos previos
13Medidas y Análisis del grafo de la Web
Información general (1)
• Se usaron 2 crawls de AltaVista (generados en Mayo y Octubrede 1999)– ~200 millones (M) páginas– ~1.5 billones (G) links
• en escala, 5 veces más grande que el mayor estudio anterior– Kumar, et. al. usó un data set de 1997 con ~40 M páginas
• The power law for IN-DEGREE: la probabilidad que un nodo tenga i enlaces entrantes (es decir, que sea apuntado por ipáginas) es proporcional a 1/ix, para x > 1
• Esta “ley” se verifica en los experimentos actuales (sobre crawlsconsiderablemente mayores), y se confirma como una propiedad básica de la web.
14Medidas y Análisis del grafo de la Web
Infraestructura (1)
• Software: Connectivity Server 2 (CS2)desarrollado por Compaq Systems Research Centertoma como entrada un Web crawlgenera como salida el grafo de la webrepresenta el grafo mediante una DB que contiene:
– URLs del crawl– in-links– out-links
diseñado para alta performance en el accesso a los datos (almacenar la base en memoria).La base de datos generada ocupa 9.5 GB de memoria
15Medidas y Análisis del grafo de la Web
Infraestructura (2)
• Datos: Altavista Crawlsbasado en un gran conjunto de puntos de inicio con las siguientes reglas:
– evitar sobrecarga en los servidores y robots traps– evitar/detectar spam, resolver time-outs, etc.– índice sin duplicados ni enlaces rotos, etc.
• Hardware: COMPAQ ALPHA SERVER 4100 de 465 Mhz con 12 GB de RAM
16Medidas y Análisis del grafo de la Web
• Se generaron las distribuciones de grado (IN-DEGREE y OUT-DEGREE) para verificar que se ajustan a distribuciones power law.
• Se hallaron los componentes fuertes y débiles de la Web, y seobservó que los tamaños de dichos componentes también seajustan a una distribución power law. (algoritmos SCC y WCC).
• Se realizaron 570 BFS, comenzando desde nodos elegidos en forma aleatoria (random-start BFS), tanto en forward como en backward. (algoritmo BFS).
Algoritmos y Experimentos
• El análisis de los resultados muestra una figura que representa laestructura de la web en forma macroscópica.
18Medidas y Análisis del grafo de la Web
• Si los enlaces se consideran no dirigidos, el 90% de los nodos están conectados, es decir, forman un gran componente conexo(débil) de 186 M páginas.
• Si se tiene en cuenta la dirección de los enlaces, éste único gran componente conexo se divide en cuatro partes o áreas:
SCC: es el núcleo o centro, y es un componente fuertemente conexo, donde desde cualquier página se puede llegar acualquier otra.IN: está formado por las páginas que pueden llegar al SCC,pero no viceversaOUT: está formado por las páginas que son accesibles desde el núcleo, pero que no apuntan a él, por ejemplo sitios corporativos que no tienen enlaces externos.TENDRILS: está formado por páginas que no apuntan alnúcleo y que tampoco son apuntadas por éste.
Resultados (2)
19Medidas y Análisis del grafo de la Web
• El diámetro del SCC es al menos 28, y el diámetro del grafocompleto está por encima de 500, lo que contrasta con el modelode “small world”.
• Baeza-Yates: en el núcleo existe un camino para ir de una página cualquiera a otra, siendo el largo máximo (diámetro del núcleo) al menos 28. En otras palabras, el camino más corto entre dos páginas en el peor caso implica visitar 28 de ellas.
Resultados (3)
20Medidas y Análisis del grafo de la Web
• Se verifican observaciones anteriores• Los resultados de mayo y octubre son coherentes y coincidentes.
Exponente In-degree = 2.1Exponente Out-degree = 2.72
• El segmento inicial en Out-degree se desvía significatimavemte de la distribución, sugiriendo que las páginas con bajo Out-degree (es decir, que apuntan a pocos sitios) siguen una distribución diferente, talvez Poisson o una combinación entre power law y Poisson
Distribución de Grados (1)
21Medidas y Análisis del grafo de la Web
Distribución de Grados (2)
Distribuciones In-degree y Out-degree de Mayo and Octubre, 1999
22Medidas y Análisis del grafo de la Web
Distribuciones en SCC y WCC
• Muestra un gran SCC: cerca de 56 M páginas– Representa el 28% de todas las páginas del crawl, todos
los demás SCC son significativamente más chicos• la distribución en el tamaño del SCC también obedece a una
power law, con exponente 2.5. Ídem para el tamaño del WCC
23Medidas y Análisis del grafo de la Web
Random-Start BFS
• Realizados para estudiar aspectos de diámetro y distancia promedio
• El algoritmo se comportaba de dos maneras:
• “Die out” después de alcanzar un pequeño conjunto denodos (< 90 nodos)
• “Explode” hasta cubrir cerca de 100 M nodos• aunque nunca los 186 M del WCC• a veces ocurría tanto en forward como en backward
24Medidas y Análisis del grafo de la Web
Power Law vs. Zipf
La distribución In-degree se ajusta mejor a la ley de Zipf que a una power law.
25Medidas y Análisis del grafo de la Web
Tamaño de componentes (1)• Resultados de random-start BFS:
– 186 M nodos en un gran componente débil.– 56 M nodos en un componente fuerte.
• Éstos resultados se utilizan para estimar los tamaños de los restantes componentes:– IN, OUT, TENDRILS, y DISCONNECTED
26Medidas y Análisis del grafo de la Web
Tamaño de componentes (2)
• Sabiendo que existe un camino directo para cada nodo en IN a cualquier nodo en SCC.– Cada BFS con start node en SCC alcanza 100 M nodos,
siguiendo una expansión a través de in-links.
• Sabiendo que existe un camino directo para cada nodo en SCCcualquier nodo en OUT.– Cada nodo en SCC alcanza 100 M nodos, siguiendo una
expansión a través de out-links.
• SCC + IN = SCC + OUT = ~100 M– IN y OUT = 44 M nodos cada uno.
27Medidas y Análisis del grafo de la Web
• DISCONNECTED:– Total de nodos en el web crawl ≈ 203.5 M nodos– Total de nodos en el WCC ≈ 186.7 M nodos– DISCONNECTED = Total – WCC ≈ 16.8 M nodos
• TENDRILS– WCC – SCC – IN – OUT = Tendrils– ≈ 44 M nodes
Tamaño de componentes (3)
28Medidas y Análisis del grafo de la Web
Conclusiones
• Utilizando data sets (web crawls) más grandes, se obtienen resultados más exactos.
• El grafo no dirigido de la web (WCC) muestra mucha másconectividad que el grafo dirigido. Y aunque SCC + IN + OUTcomprenden el 70% del total, dadas dos páginas aleatorias,sólo se puede alcanzar una desde la otra un 25% de las veces.
• El efecto “small world” ya no es aplicable a ésta realidad,puesto que en algunos casos, para ir de una página a otra,sólo se puede hacer a través de cientos de páginas.
30Medidas y Análisis del grafo de la Web
Propósito y Utilidad
• Estimar el tamaño de la web indexable, en base a los buscadores más grandes.
• Estimar el solapamiento o intersección entre GOOGLE, MSN, ASK/TEOMA y YAHOO!
• Estimar el tamaño de la web es muy útil para aplicaciones que realizan compresión de contenidos web, ranking, crawling y minería de la web.
31Medidas y Análisis del grafo de la Web
Introducción
• Cuál es es tamaño actual de la web? Estimarlo es bastante difícil, por su naturaleza dinámica, sin embargo se puede estimar el tamaño de la web indexable.
• Qué es la a web indexable? se define como la porción de la web que indexan los buscadores más grandes.
• Por ejemplo, los utilizados en estos experimentos, son:– GOOGLE: 8 G páginas– MSN: 5 G páginas– ASK/TEOMA: 2 G páginas– YAHOO!: 4 G páginas
32Medidas y Análisis del grafo de la Web
Procedimientos (1)
• SAMPLING:elege páginas al azar de forma uniforme y del índice de un motor de búsqueda en particular.
• CHECKING: determina si una página en particular está indexada por un dado motor de búsqueda.
33Medidas y Análisis del grafo de la Web
Procedimientos (2)
• SAMPLING:basado en consultasse envía un grupo de consultas a un buscador seleccionado y se selecciona un URL al azar dentro de los 100 primeros resultados.para generar las consultas, utilizaron DMOZ (4 M páginas) para crear un diccionario de consultas-términos (2 M), los ordenaron por ocurrencia y los dividieron en bloques.de cada bloque se eligió un término y se envió a un buscador diferente. Luego, para cada consulta se seleccionó una de las primeras 100 respuestas.
34Medidas y Análisis del grafo de la Web
• CHECKINGbasado en consultascada buscador permite verficar si un dado URL se encuentra indexadoesto requiere una cuidadosa normalización de los URLs
Procedimientos (3)
• Tanto para el Sampling como el Checking se utilizó Helios (un metabuscador open source).
• Cada consulta de sampling se envió a Helios que la reenvió a los motores de búsqueda mencionados.
35Medidas y Análisis del grafo de la Web
Hardware
• Linux Cluster de 43 servidores• Ancho de banda 70 GB• Más de 3600 horas máquina