Upload
internet
View
105
Download
0
Embed Size (px)
Citation preview
1
Monitoramento de Redes: Embasamento Analítico (2012.1)
Capítulo 3Crovella, M, Krishnamurthy, B. Internet Measurement: infrastructure, traffic & applications. John Wiley & Sons, 2006.
Embasamento Analítico
Monitoramento de Redes: Embasamento Analítico (2012.1)
2
Embasamento Analítico
Probabilidade (Jain Cap. 12 – parte 1) Estatística (Jain Cap. 12 – parte 2;
Cap. 13) Álgebra Linear Teoria dos Grafos Métricas Medição e Modelagem
3
Monitoramento de Redes: Embasamento Analítico (2012.1)
Álgebra Linear
Monitoramento de Redes: Embasamento Analítico (2012.1)
4
Álgebra Linear
Coleções de medições ou outros valores são frequentemente convenientemente expressos como vetores.
Um vetor é uma coleção nomeada e ordenada de valores, chamados de componentes.
Monitoramento de Redes: Embasamento Analítico (2012.1)
5
Operações com Vetores
Adição e subtração de vetores é realizada componente-a-componente: + Então: + para Para , e
A multiplicação de um vetor por um escalar também é realizado componente a componente:
Monitoramento de Redes: Embasamento Analítico (2012.1)
6
Vetores
A norma de um vetor é uma medida da sua magnitude.
Em geral usaremos a norma l2:
Se o vetor for interpretado como um ponto no espaço Euclideano n-dimensional, então: é a distância do ponto a partir da origem e é a distância Euclideana entre estes dois
pontos
Monitoramento de Redes: Embasamento Analítico (2012.1)
7
Ortogonalidade de Vetores
Dois vetores não nulos e são ortogonais se: =0
Se dois vetores forem ortogonais então eles podem ser pensados como perpendiculares: as linhas da origem a cada ponto são perpendiculares no espaço Euclidiano.
Monitoramento de Redes: Embasamento Analítico (2012.1)
8
Matrizes
Uma matriz A é um arranjo retangular de valores.
Denotamos por o valor da i-ésima linha e j-ésima coluna.
Cada matriz tem uma transposta, denotada por , que consiste na troca de linhas e colunas de ; ou seja,
Monitoramento de Redes: Embasamento Analítico (2012.1)
9
Funções Lineares e Matrizes
Uma função linear aplicada a um vetor pode ser expressa por uma multiplicação matriz-vetor:
Significando que é uma função linear de definida como: para Sendo e uma matriz
Monitoramento de Redes: Embasamento Analítico (2012.1)
10
Autovetores e Autovalores
Associado a qualquer matriz quadrada existe um conjunto de vetores conhecidos como autovetores (eigenvectors) e um conjunto de números conhecidos como autovalores (eigenvalues).
Dada uma matriz se houver um vetor (que não seja todo zeros) de modo que: λ para algum escalar Então é um autovetor de com o correspondente autovalor Isto significa que o efeito da multiplicação de por é o
mesmo de se multiplicar cada componente de por um único valor . Ou seja, o comprimento de foi modificado, mas não a sua direção.
Uma matriz pode ter até autovalores distintos e até autovetores ortogonais.
Monitoramento de Redes: Embasamento Analítico (2012.1)
11
Álgebras Alternativas
Podemos usar outras álgebras além da Álgebra :
para Álgebra :
para
12
Monitoramento de Redes: Embasamento Analítico (2012.1)
Probabilidade
Monitoramento de Redes: Embasamento Analítico (2012.1)
13
Distribuições comumente encontradas na modelagem da Internet
Monitoramento de Redes: Embasamento Analítico (2012.1)
14
Entropia
Dada uma v.a. discreta que assume valores de um conjunto de símbolos , a sua entropia é definida como:
A entropia pode ser considerada como o número médio de bits necessários para codificar uma realização de uma variável aleatória.
Isto é baseado na observação de que a codificação ótima do valor requer bits.
Monitoramento de Redes: Embasamento Analítico (2012.1)
15
Entropia Conjunta
A entropia conjunta de um par de v.a.s discretas com distribuição conjunta é:
Mais uma vez, ela pode ser considerada como o número médio de bits necessários para codificar um par de símbolos.
Se houver dependência entre e então <
Monitoramento de Redes: Embasamento Analítico (2012.1)
16
Entropia
Para um processo estocástico , a entropia por símbolo numa sequência de símbolos é definida como: .
A taxa de entropia do processo é definida como:
Este limite existe se o processo for estritamente estacionário e for finito.
Ela descreve a quantidade de informação necessária para prever o próximo símbolo numa sequência dado o conhecimento de todos os símbolos vistos até então.
Portanto, uma taxa de entropia menor do que a entropia de uma única v.a. indica uma dependência entre as v.a.s do processo estocástico.
Monitoramento de Redes: Embasamento Analítico (2012.1)
17
Questões especiais na Internet Processos estocásticos relevantes Caudas curtas (leves) e caudas longas
(pesadas)
Monitoramento de Redes: Embasamento Analítico (2012.1)
18
Processos estocásticos relevantes Tipos particulares de processos
estocásticos associados à modelagem de tráfego da rede e atividade do usuário.
Processos de chegada: v.a.s sucessivas correspondem aos instantes de tempo das chegadas:
Processo de intervalos entre chegadas: onde
Monitoramento de Redes: Embasamento Analítico (2012.1)
19
Processos estocásticos relevantes Série temporal de contagens: contagem de
chegadas dentro de um intervalo de tempo fixo onde O valor particular de escolhido é chamado de escala de
tempo da série temporal de contagens. Esta série de tempo contém menos informações do que
o processo de chegadas: não é possível reconstruir a sequência de chegadas a partir das contagens. Pode-se construir uma aproximação do processo de chegadas
fazendo hipóteses adicionais (ex. chegadas exponenciais dentro do intervalo de tempo).
Esta aproximação é útil se concordar com os dados ou se não afetar a resposta para o problema em questão.
Monitoramento de Redes: Embasamento Analítico (2012.1)
20
Caudas curtas e Caudas longas Uma parte particularmente importante de uma
distribuição é a sua cauda superior – a porção da distribuição que descreve a probabilidade de grandes valores.
No caso de medições de redes, grandes valores podem dominar o desempenho do sistema.
Portanto, presta-se uma atenção considerável ao formato da cauda superior da distribuição, significando a forma particular com que a cauda superior se aproxima do zero.
Monitoramento de Redes: Embasamento Analítico (2012.1)
21
Caudas curtas
Para uma v.a. com distribuição , estamos preocupados com a forma de para grandes valores de .
Dizemos que a cauda da distribuição decai exponencialmente se existir um tal que:
Onde significa que para alguma constante . Distribuições com esta propriedade são ditas de
cauda curta ou cauda leve. As distribuições Normal, exponencial e uniforme
decaem exponencialmente ou ainda mais rápido.
Monitoramento de Redes: Embasamento Analítico (2012.1)
22
Caudas longas
Distribuições que cujas caudas superiores decaem mais lentamente do que a exponencial são chamadas de distribuições subexponenciais.
Mais formalmente: quando para todo .
Diz-se que esta distribuição tem cauda longa. Estas distribuições têm variâncias elevadas ou
até infinita. O resultado prático é que exibem observações
extremamente altas com frequências não desprezíveis.
Monitoramento de Redes: Embasamento Analítico (2012.1)
23
Caudas pesadas
Caso especial das distribuições subexponenciais. Têm caudas que se aproximam assintoticamente
da forma hiperbólica (lei de potência). Formalmente, são distribuições para as quais:
Uma distribuição deste tipo também terá uma
PDF que seguirá a lei de potência:
Uma v.a. com esta distribuição exibirá uma variabilidade extremamente alta: variância infinita, e quando possui média infinita.
Monitoramento de Redes: Embasamento Analítico (2012.1)
24
Distribuições com Caudas Curtas e com Caudas Longas
CaudasCurtas
CaudasLongas
Monitoramento de Redes: Embasamento Analítico (2012.1)
25
Distribuições com Caudas Curtas e com Caudas Longas
26
Monitoramento de Redes: Embasamento Analítico (2012.1)
Estatística
Monitoramento de Redes: Embasamento Analítico (2012.1)
27
Questões especiais na Internet Alta variabilidade Lei de Zipf
Monitoramento de Redes: Embasamento Analítico (2012.1)
28
Alta Variabilidade
Os métodos estatísticos tradicionais focaram em situações nas quais os dados apresentam baixa ou moderada variabilidade. Ex.: assumem que os dados medidos seguem a
distribuição Normal. Esta hipótese é garantida pelo Teorema do Limite
Central que mostra que a soma de um número grande de fontes de variação apresentam uma distribuição Normal.
Quando os dados seguem a distribuição Normal praticamente todas as observações estarão dentro de três desvios padrão a partir do valor médio.
Monitoramento de Redes: Embasamento Analítico (2012.1)
29
Alta Variabilidade
Dados que apresentam alta variabilidade consistem de muitos pequenos valores misturados com poucos valores altos.
A distribuição dos dados é dita distorcida (skewed)
Apesar de muitos valores serem baixos, as poucas observações altas dominarão as estatísticas empíricas tais como a média e a variância que se tornam métricas não confiáveis.
Uma melhor abordagem seria focar em quantis ou na distribuição empírica completa.
Monitoramento de Redes: Embasamento Analítico (2012.1)
30
Lei de Zipf
Alta variabilidade é uma propriedade de dados numéricos. No entanto, distribuições de dados categóricos também podem ser distorcidas.
A forma mais comum de apresentar este tipo de dados é a Lei de Zipf: modelo para a forma da distribuição de variáveis categóricas quando os valores dos dados são ordenados com probabilidade empírica (frequência) decrescente.
Monitoramento de Redes: Embasamento Analítico (2012.1)
31
Lei de Zipf
Tome um conjunto de itens de dados categóricos (ex. nomes de servidores Web, ou URLs de páginas Web) aos quais são feitas referências repetidas.
Conte o número de referências feitas a cada item dentro de um dado intervalo de tempo, denotado por .
Agora ordene os itens em ordem decrescente do número de referências feitas e seja a ordem deste item.
Então, pela Lei de Zipf: para constantes positivas e . Na formulação original .
Monitoramento de Redes: Embasamento Analítico (2012.1)
32
Lei de Zipf
33
Monitoramento de Redes: Embasamento Analítico (2012.1)
Grafos
Monitoramento de Redes: Embasamento Analítico (2012.1)
34
Grafos
Um grafo é um par no qual é um conjunto de vértices (também chamados de nós) e é um conjunto de arestas (edges).
Uma aresta representa uma conexão entre dois vértices. É denotado por , onde .
Dois vértices conectados por uma aresta são ditos vizinhos.
Monitoramento de Redes: Embasamento Analítico (2012.1)
35
Grafos direcionados ou não direcionados
Monitoramento de Redes: Embasamento Analítico (2012.1)
36
Questões especiais na Internet Caminhos e Arestas Modelos de Grafos Comumente
Encontrados Grafos de Mundo Pequeno
Monitoramento de Redes: Embasamento Analítico (2012.1)
37
Caminhos e Arestas
Frequentemente estaremos trabalhando com um conjunto de caminhos definidos sobre um grafo.
Conjunto de caminhos entre todos os pares: define um único par, não necessariamente o mais curto, entre cada par de vértices.
Monitoramento de Redes: Embasamento Analítico (2012.1)
38
Matriz de roteamento
Dado um grafo com vértices e arestas, definimos a matriz de roteamento como segue: A matriz é As linhas de correspondem às arestas em , e As colunas de correspondem aos pares de
vértices em . Portanto, possui colunas O caminho entre um par de vértices
correspondente à coluna é especificado setando se a aresta fizer parte do caminho , e 0, caso contrário.
Monitoramento de Redes: Embasamento Analítico (2012.1)
39
Equação de Tomografia
A equação de Tomografia relaciona as medições correspondentes a caminhos a medições correspondentes a arestas.
Começamos com um vetor de medições de caminhos .
Então a equação de tomografia é , Resultando num conjunto de medições nas arestas
com . Esta equação se aplica sempre que a medição em
uma aresta corresponder à soma das medições de todos os caminhos que passam pela aresta (no caso, enlaces de comunicação).
Monitoramento de Redes: Embasamento Analítico (2012.1)
40
Medições de Arestas e Caminhos Trabalharemos também com a transposta da
matriz de roteamento . A matriz também é útil para relacionar as
medições de arestas e de caminhos. É usada com a seguinte equação , Neste caso, representa um conjunto de medições
de caminhos e, representa as medições sobre os enlaces correspondentes.
Esta equação se aplica sempre que a medição em um caminho corresponder à soma das medições em todas as arestas que compõem o caminho.
Monitoramento de Redes: Embasamento Analítico (2012.1)
41
Uso de Outras Álgebras
A equação pode ser usada com outras álgebras: Em medições de capacidade (largura de banda).
Neste caso, a capacidade de um caminho é igual à menor capacidade dos enlaces que compõem o caminho. Portanto, devemos usar a álgebra
Quando um link falha, todos os caminhos que contêm aquele link ficam indisponíveis. Se interpretarmos como indicando as falhas dos links (onde 1 indica um link com falha) então especifica o conjunto resultante de caminhos indisponíveis. Neste caso usamos a álgebra .
Monitoramento de Redes: Embasamento Analítico (2012.1)
42
Modelos de Grafos Comumente Encontrados
O grafo aleatório de Erdös-Rényi O grafo aleatório generalizado O grafo de conexões preferenciais
Monitoramento de Redes: Embasamento Analítico (2012.1)
43
O grafo aleatório de Erdös-Rényi
Este grafo denotado por é formado por vértices e cada uma das possíveis arestas estão presentes no grafo com probabilidade independentemente das demais arestas.
O número esperado de arestas neste grafo é dado por: .
Como cada aresta contribui para o grau de dois vértices, o grau esperado de um vértice é:
Portanto, para grandes grafos com pequenos graus médios, é um valor bem pequeno.
Monitoramento de Redes: Embasamento Analítico (2012.1)
44
Grafos de Mundo Pequeno
45
Monitoramento de Redes: Embasamento Analítico (2012.1)
Métricas
Monitoramento de Redes: Embasamento Analítico (2012.1)
46
Métricas
Uma métrica é uma quantidade que pode, em princípio, ser objetivamente medida.
É preciso também especificar precisamente como as medições são realizadas e reportadas.
Cada procedimento ou metodologia de se obter uma métrica é sujeita a erro. Ou seja, cada métrica reportada possui um nível associado de incerteza.
É preciso portanto: Minimizar os erros e as incertezas Compreender e documentar suas fontes Quantificar da forma possível a quantidade de incerteza
e de erro num conjunto de medições.
Monitoramento de Redes: Embasamento Analítico (2012.1)
47
Métricas: Amostragem
Processo de coletar um subconjunto das medições possíveis ou executar apenas um subconjunto das medições. Amostrar o grafo de roteamento através da coleta
de um conjunto de medições com o traceroute Captura de um pacote de cada conjunto de N
pacotes que passam pelo ponto de medição. É usada quando precisamos caracterizar
estatisticamente as medições mas não é necessária a medição de cada um dos pacotes. Ex.: caracterizar o comprimento médio do pacote.
Monitoramento de Redes: Embasamento Analítico (2012.1)
48
Métricas: Amostragem
Amostragem tendenciosa: Processo de amostragem compartilha
características comuns com as medições: Ex.: medições periódicas em intervalos fixos com a
mesma frequência. Intrínseca:
Um conjunto de medições com o traceroute de uma origem para diversos destinos, apresenta uma visão tendenciosa (em árvore) da topologia da rede.
Condições não representativas: Medições numa rede de borda não são representativas
quando se quer responder questões sobre a rede troncal.
Monitoramento de Redes: Embasamento Analítico (2012.1)
49
Métricas: Médias de Tempo e de Eventos
Médias de tempo: média num dado intervalo de tempo. Estimativa:
Médias de eventos: Medição em instantes de tempo particulares,
normalmente relacionados a mudanças no estado do sistema.
Amostragem aditiva aleatória: intervalo aleatório e independente entre amostragens (ex. Poisson).
0
0
)(1 t
tX dttX
},,,{ 10
)(1
1
ntttt
tXN
50
Monitoramento de Redes: Embasamento Analítico (2012.1)
Medições e Modelagem
Monitoramento de Redes: Embasamento Analítico (2012.1)
51
Modelos de Dados
Descritivos: Resumo compacto de um conjunto de medições. Representação idealizada: distribuição Normal.
Construtivos: Descrição sucinta de um processo que dá
origem a uma saída de interesse. “superposição de um conjunto de fluxos com
chegadas independentes, cada um consistindo de um número aleatório de pacotes”.
“Todos os modelos são errados, mas alguns modelos são úteis” [Box79]
Monitoramento de Redes: Embasamento Analítico (2012.1)
52
Construção de um Modelo de Dados
Inicia com uma coleção de dados reais e talvez a descrição do sistema
Escolha da idealização (problema da seleção do modelo)
Seleção de valores para os parâmetros do sistema (problema da estimativa dos parâmetros)
Validação do modelo: dados observados seriam provavelmente uma saída do modelo.
Monitoramento de Redes: Embasamento Analítico (2012.1)
53
Por que construir modelos?
Provê um resumo compacto para um conjunto de medições.
Expõe propriedades das medições que são importantes para problemas particulares de engenharia.
Uso em simulações para gerar dados aleatórios mas ‘realistas’.
Monitoramento de Redes: Embasamento Analítico (2012.1)
54
Uso de Modelos Probabilísticos As propriedades dos dados são por
definição quantidades observáveis. Mas, um modelo probabilístico pode conter
hipóteses que não podem ser testadas operacionalmente nem serem observadas diretamente e, portanto, não podemos dizer que se aplicam aos dados reais.
Um bom modelo deveria fornecer respostas úteis às questões para as quais é utilizado.