29
UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CI ˆ ENCIAS EXATAS PROGRAMA DE P ´ OS-GRADUA ¸ C ˜ AO EM ESTAT ´ ISTICA E EXPERIMENTA¸ C ˜ AO AGROPECU ´ ARIA INTRODU ¸ C ˜ AO ` A AN ´ ALISE DE CONFIGURA ¸ C ˜ OES ESPACIAIS DE PONTOS Nome: Rodrigo Ferreira de Abreu Professor: Jo˜ ao Domingos Scalon LAVRAS 2015/2 NOTAS DE AULA

Point Pattern Classes

  • Upload
    cila88

  • View
    224

  • Download
    0

Embed Size (px)

DESCRIPTION

Processos pontuais

Citation preview

Page 1: Point Pattern Classes

UNIVERSIDADE FEDERAL DE LAVRASDEPARTAMENTO DE CIENCIAS EXATAS

PROGRAMA DE POS-GRADUACAO EM ESTATISTICA E EXPERIMENTACAOAGROPECUARIA

INTRODUCAO A ANALISE DE CONFIGURACOES ESPACIAIS DE PONTOS

Nome: Rodrigo Ferreira de AbreuProfessor: Joao Domingos Scalon

LAVRAS2015/2

NOTAS DE AULA

Page 2: Point Pattern Classes

Sumario

1 Introducao 1

2 Tipologia dos dados espaciais 12.1 Dados de superfıcie contınua (geoestatıstica) . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Dados de areas (Lattice) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.3 Dados de Processos Pontuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.4 Resumo: Estatıstica espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Introducao a analise de configuracoes espaciais de pontos (eventos) 33.1 Configuracao pontual espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33.2 Questoes cientıficas tıpicas (Mapas) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4 Explorando a propriedade de primeira ordem (intensidade) 54.1 Intensidade homogenea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54.2 Intensidade nao homogenea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4.2.1 Contagem de quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.2.2 Estimador de intensidade kernel (nucleo) . . . . . . . . . . . . . . . . . . . . . . . . . 7

5 Processo de Poisson homogeneo e testes iniciais contra a hipotese nula de completaaleatoriedade espacial 115.1 Processo de Poisson Homogeneo (PPH) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.2 Testes contra a hipotese nula de completa aleatoriedade espacial . . . . . . . . . . . . . . . . 12

6 Explorando a dependencia (interacao) entre eventos 136.1 Metodos Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

6.1.1 Grafico de Morisita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136.1.2 Grafico de Fry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.2 Metodos baseados em distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166.2.1 Funcao G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166.2.2 Metodo de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.2.3 Funcao F (Ripley, 1977) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.2.4 Funcao J . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.2.5 Funcao K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.2.6 Funcao L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.3 Observacoes gerais sobre as funcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

7 Anexos 26

Page 3: Point Pattern Classes

1 INTRODUCAO 1

1 Introducao

Estatıstica espacial

Todos os dados sao coletados em alguma posicao no tempo e no espaco (coordenadas). Em alguns casosessa posicao e importante e pode ser incluıda explicitamente na analise. Pode-se estar interessado em apenasum dos aspectos dos dados (temporal ou espacial) do fenomeno ou em ambos simultaneamente (espaco-temporal).

A estatıstica classica assume que as observacoes sao independentes no tempo e no espaco. Esta suposicaoe violada em muitas situacoes o que faz a estatıstica classica apresentar resultados espurios.

A estatıstica e uma colecao de metodos e tecnicas para visualizacao, exploracao e analise aplicada adados que apresentam estrutura espacial e podem ser modelados como processos estocasticos. Por que aestatıstica espacial e importante?

• A estatıstica espacial pode remover a dependencia espacial para possibilitar o uso da estatıstica classica(filtragem espacial).

• A estatıstica espacial pode modelar explicitamente a dependencia espacial (estimacao espacial).

2 Tipologia dos dados espaciais

Tradicionalmente classificados de acordo com uma tipologia de tres categorias (Cressie, 1993). Estacategorizacao diz respeito a natureza estocastica da observacao.

• Dados de superfıcie contınua

• Dados de area (lattice)

• Dados de processos pontuais

Uma quarta categoria (nao definida por Cressie):

• Dados de interacao espacial

Como o que distingue essas categorias e o tipo de dado aleatorio, e natural que existam metodos diferentespara cada tipo de dado.

2.1 Dados de superfıcie contınua (geoestatıstica)

O fenomeno esta distribuıdo continuamente na superfıcie da regiao de estudo.

• Ex.: temperatura, altitude, teor de argila no solo, etc...

• Obj.: Recuperar a superfıcie a partir de alguns pontos de coleta

Page 4: Point Pattern Classes

2.2 Dados de areas (Lattice) 2

2.2 Dados de areas (Lattice)

Sao dados indexados a sub-regioes (polıgonos) que constituem uma particao de um domınio contınuo.

• Ex.: Dados agregados por municıpio, bairro, setor censitario, pixel, etc.

• Obj.: Suavizar o mapa, analise da auto-correlacao espacial, ajuste de modelos de regressao.

2.3 Dados de Processos Pontuais

A informacao e a propria posicao do evento que pode estar (ou nao) associada a alguma “marca”.

• Ex.: Localizacao de crimes, doencas, plantas, etc...

• Obj.: Descrever e modelar a intensidade e o padrao da configuracao pontual.

Page 5: Point Pattern Classes

2.4 Resumo: Estatıstica espacial 3

2.4 Resumo: Estatıstica espacial

Tipo de Analise Tipos de dados Exemplos Problemas Tıpicos

Padroes pontuais Eventos localizados Ocorrencias de doencas Determinacao de padroes

Superfıcies Amostras de campo Depositos mineais Interpolacao de superfıcies

Areas Contagens e entidades Dados censitarios Analise de vizinhanca e re-lacionamento das entida-des (Regressao)

3 Introducao a analise de configuracoes espaciais de pontos (even-tos)

Nesta secao sera abordada a analise de configuracoes espaciais de pontos de um modo mais teorico. Paraa parte das analise no R e necessario um conhecimento basico sobre alguns comandos do software, parainiciar as analises das configuracoes espaciais de pontos.

No Anexo I esta um roteiro para iniciar essas analises usando o pacote spatstat (Spatial Point PatternAnalysis).

3.1 Configuracao pontual espacial

Uma configuracao pontual e um conjunto contavel de localizacoes/coordenadas (eventos ou objetos oupontos) xi que estao associados (ou nao) a informacoes adicionais (marcas e/ou covariaveis) dentro de umaregiao (plana) de estudo W .

A configuracao pontual observada x e tratada como uma realizacao de um processo estocastico pontualX no espaco bidimensional. Em geral, considera-se que os processos sejam estacionarios e isotropicos.

Estacionariedade

Refere-se a alguma forma de invariancia de localizacao dos eventos, ou seja, as “propriedades estatısticas”do processo estocastico sao invariantes sob translacao. Ex.: a esperanca de um subconjunto de eventosindepende da localizacao desses eventos na regiao (fraca).

Isotropia (para processos com dimensao >1)

Page 6: Point Pattern Classes

3.2 Questoes cientıficas tıpicas (Mapas) 4

As “propriedades estatısticas” sao invariantes sob rotacao. Ex.: a covariancia entre dois eventos dependesomente da distancia entre os pontos e nao da direcao entre eles.

Tem-se como caracterısticas das configuracoes espaciais, que as localizacoes, em geral, nao estao associa-das a valores, mas apenas a ocorrencia dos eventos. Excecao: eventos com marcas. A dimensao dos eventose zero e a a rea dos eventos nao e uma medida valida apesar de em muitos casos ocuparem espaco.

Considerando a analise de configuracoes espaciais de pontos no plano, as localizacoes pontuais podemrepresentar:

–Um subconjunto (amostra) das localizacoes (eventos pontuais) na regiao – sampled (sparsely) point pat-tern – amostra.Objetivos: Estimar intensidade dos eventos na area e testar hipotese de configuracao aleatoria completa.

–Todas (mapa) as possıveis localizacoes (eventos pontuais) na regiao –mapped point pattern – mapa.Objetivos: Estimar a intensidade, Testar a hipotese de configuracao aleatoria e ajustar um modelo para aconfiguracao.

3.2 Questoes cientıficas tıpicas (Mapas)

Usualmente, o objetivo da analise esta em fazer inferencias sobre o processo estocastico X , ou seja,caracteriza-lo em termos de efeitos de primeira e segunda ordem.

1. Efeitos de Primeira OrdemSao considerados globais ou de grande escala.Correspondem a variacoes no valor medio do processo.Neste caso estamos interessados na intensidade do processo (Numero de Eventos / Unidade de Area)que mede a “abundancia” ou “frequencia” dos eventos, podendo ser constante (uniforme ou homogenea)ou variar de localizacao para localizacao (nao uniforme, nao homogenea).

2. Efeitos de Segunda OrdemDenominados locais ou de pequena escala, representam a dependencia estocastica entre os eventos doprocesso.

Na analise da interacao procura-se responder se os eventos estao mais proximos (ou mais distantes) doque seria esperado em uma configuracao aleatoria. Assim, configuracoes tıpicas de interacao entre oseventos sao: independencia, regular e agrupamentos.

3. Efeitos das covariaveis (quando disponıveis)- Investigar se a intensidade depende das covariaveis.- Adicionar o efeito das covariaveis antes de analisar a interacao.

4. Segregacao de pontos com diferentes marcas (quando disponıveis)- Investigar se pontos com diferentes marcas sao encontrados em diferentes regioes dentro da area deestudo.

5. Dependencia entre pontos com diferentes marcas (quando disponıveis)- Investigar se existe interacao (repulsao ou aproximacao) entre pontos com uma marca e pontos comoutro tipo de marca.- Investigar se existe dependencia entre os valores das marcas em duas localizacoes especıficas.

Page 7: Point Pattern Classes

4 EXPLORANDO A PROPRIEDADE DE PRIMEIRA ORDEM (INTENSIDADE) 5

4 Explorando a propriedade de primeira ordem (intensidade)

A intensidade e a densidade media dos pontos, ou seja, o numero esperado de pontos por unidade dearea. A intensidade de um processo pontual e analoga ao valor esperado de uma variavel aleatoria. Ela podeser constante (uniforme ou homogenea) ou pode variar de localizacao para localizacao (nao uniforme ou naohomogenea).

A intensidade e sempre dada em termos de numero por unidade de area (Ex.: Dois eventos por metroquadrado). A sua investigacao deve ser uma das primeiras etapas na analise configuracoes pontuais.

4.1 Intensidade homogenea

Se um processo pontual X e homogeneo, entao para qualquer sub-regiao B do espaco bidimensional, onumero esperado de pontos em B e proporcional a sua area:

E[N(X ∩B)] = λareaB (1)

em que λ e a constante de proporcionalidade (intensidade).

Um estimador nao tendencioso da verdadeira intensidade do processo pontual X e dado por:

λ =n(x)

area(W )(2)

em que n(x) e o numero de eventos dentro de W.

Usando o spatstat no RStudio TM

Intensidade homogenea no “spatstat”

Carregar os dados> data(img01ppp)> plot(img01ppp)

Utilize o comando abaixo para obter varias informacoes sobre os dados, inclusive a estimativa daintensidade.

> summary(img01ppp)

Utilize o comando abaixo para extrair o valor da estimativa da intensidade.

> summary(img01ppp)$intensity

Utilize outros dados para obter as estimativas de intensidade.

Page 8: Point Pattern Classes

4.2 Intensidade nao homogenea 6

Exemplo:

> dados01ppp = ppp(x=dados01\$x,y=dados01\$y,

z=dados01\$z,window = w, marks = dados01\$z,

check = TRUE)

> dados01ppp

Marked planar point pattern: 897 points

marks are numeric, of storage type ‘double’

window: rectangle = [0, 511] x [0, 767] units

> plot(dados01ppp,main="")

> summary(dados01ppp)

Marked planar point pattern: 897 points

Average intensity 0.002288633 points per square

unit

Coordinates are given to 2 decimal places

i.e. rounded to the nearest multiple of 0.01 units

marks are numeric, of type ‘double’

Summary:

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.380 1.780 2.820 3.397 4.180 16.140

Window: rectangle = [0, 511] x [0, 767] units

Window area = 391937 square units

> summary(dados01ppp)$intensity

[1] 0.002288633

4.2 Intensidade nao homogenea

Quando a intensidade do processo pontual varia de localizacao para localizacao, ela e denominada de naohomogenea.Assumindo que o numero esperado de pontos que estao dentro de uma pequena regiao du ao redor de umalocalizacao u e igual a λ(u)du. Entao λ(u) e a “funcao intensidade do processo pontual se satisfaz:

E[N(X ∩B)] =

∫B

λ(u)du (3)

A “medida de intensidade” Λ e definida como:

Λ(B) = E[N(X ∩B)] (4)

Se existe a suspeita que a intensidade possa ser nao homogenea, a funcao intensidade (ou medida deintensidade) pode ser estimada por: contagens por quadrados, metodos de alisamento nao parametricos(Kernel ) e metodos parametricos (ajustando modelos).

4.2.1 Contagem de quadrados

Neste metodo, a janela W e dividida em sub-regioes (quadrados) B1, B2, , Bm de areas iguais. Conta-seo numero de eventos dentro de cada sub-regiao, nj = n(x ∩Bj), para j = 1, ...,m.

Esses sao estimadores nao tendenciosos dos correspondentes valores da medida de intensidade Λ(Bj).

Obs.: Os valores da medida de intensidade sao influenciados pela quantidade e pelo tamanho das sub-regioes.

Page 9: Point Pattern Classes

4.2 Intensidade nao homogenea 7

Usando o spatstat no RStudio TM

Intensidade nao homogenea (contagens por quadrantes) no “spatstat”

Utilize os comandos abaixo para obter as contagens por quadrantes e o grafico.

> q=quadratcount(img01ppp, nx=5, ny=5)> q> mean(q)> plot(q, cex=2)> plot(dados01ppp, add=TRUE, cex=0.5)

Utilize outros dados para a mesma analise.

Exemplo:

> q=quadratcount(dados01ppp,nx=3,ny=3)

> q

x

y [0,170] (170,341] (341,511]

(511,767] 117 118 162

(256,511] 80 93 96

[0,256] 80 71 80

> mean(q)

[1] 99.66667

> plot(quadratcount(dados01ppp,nx=3,ny=3))

4.2.2 Estimador de intensidade kernel (nucleo)

Um estimador kernel usual da funcao intensidade e dado por:

λτ (u) =1

δτ (u)

n∑i=1

1

τ2k

(u− xiτ

)(5)

em que:

• u representa uma localizacao qualquer na area de estudo e xi sao as localizacoes dos eventos observados

• n representa o numero de eventos

• k(.) e a funcao kernel, ou seja, uma funcao densidade de probabilidade escolhida de forma adequadapara construir uma superfıcie contınua sobre os dados

• O parametro τ > 0 denominado “largura de faixa ou janela de suavizacao ou janela de alisamento ” econtrola o alisamento (amaciamento) da superfıcie gerada

• δτ (u) e um fator para corrigir o efeito de borda

Escolha dos pontos u para o estimador de intensidade kernel

Podem ser escolhidos a partir dos vertices de uma grade regular fina posicionada sobre a janela W. Quantomais fina a grade maior a “resolucao” da intensidade e, consequentemente, maior o trabalho computacional.

O R (spatstat) usa, como default, 128 x 128 pontos igualmente espacados.

Escolha da funcao kernel para o estimador de intensidade kernel

Page 10: Point Pattern Classes

4.2 Intensidade nao homogenea 8

A funcao kernel deve ser uma funcao densidade de probabilidade bivariada simetricamente radial.Existemdiversas funcoes candidatas: Gaussiana, Epanechnikov, triangular, uniforme, etc.

A maioria apresenta a propriedade de que quanto mais proximo do ponto u estiver o evento, maior serao seu peso na funcao intensidade. Uma funcao muito utilizada para k(.) e a quartica kernel dada por:

k(u) =3

π(1− utu)2, para utu ≤ 1 (6)

Obs.: Sabe-se que a funcao kernel exerce pouca influencia nas estimativas da intensidade.

Escolha do parametro de alisamento para o estimador de intensidade kernel

E o principal problema do estimador e deve ter um valor maior que zero. Se o parametro se aproximade zero, a intensidade e estimada como uma serie de picos sobre os eventos.

Se o parametro se afasta de zero, todos os detalhes sao ignorados. Existem varias propostas para a escolhadeste parametro. Diggle (1981) sugere τ = 0, 68n−0,2 para area unitarias, ja em 1985, Diggle sugere escolherum valor que minimiza a soma de quadrados do erro obtidos por validacao cruzada (“bw.diggle”). Loader(1999) sugere escolher um valor que minimiza a funcao de verossimilhanca do processo pontual obtidas porvalidacao cruzada (“bw.ppl”).

Existem outras propostas, porem nao existe consenso sobre qual o mais apropriado. Pode-se testar variosparametros e utilizar aquele que “melhor” representa a intensidade.

Efeito do parametro de alisamento

Correcao do efeito de borda no estimador de intensidade kernel

O estimador kernel pode ser influenciado pelo efeito de bordas. Este efeito pode ser minimizado atravesde varios procedimentos. Um desses metodos consiste em calcular

δτ (u) =

∫W

1

τ2k

(u− v)

τdv (7)

que e um fator que representa o volume percentual da kernel centrada em u que se encontra dentro deW .

Estimador de intensidade kernel

Page 11: Point Pattern Classes

4.2 Intensidade nao homogenea 9

Finalmente, o estimador de intensidade kernel com um fator para a correcao do efeito de borda e densidadekernel quartica (quarta ordem) pode ser expresso por:

λτ (u) =1

δτ (u)

∑hi≤τ

3

πτ2

(1− h2

i

τ2

)2

(8)

em que hi representa a distancia entre uma localizacao qualquer u e o evento observado xi.A Figura aseguir ilustra a ideia do estimador de intensidade definido abaixo, desconsiderando o efeito de borda.

λτ (s) =∑hi≤τ

3

πτ2

(1− h2

i

τ2

)2

(9)

Uma visao do estimador kernel:

Pode-se utilizar outras formas de superfıcie de saıda das estimativas de intensidade tais como o graficoem perspectiva ou o grafico de contornos (isolinhas).

Page 12: Point Pattern Classes

4.2 Intensidade nao homogenea 10

Usando o spatstat no RStudio TM

Usando o estimador kernel - spatstat

Usando a funcao “density.ppp” – kernel gaussiana

> help(density.ppp)> den=density(dados01ppp)> plot(density(dados01ppp))

Mudando o numero de pontos da malha:

> den=density(dados01ppp, dimyx=c(2,2))> plot(den)

Mudando o metodo para calcular a banda de largura

> den = density(dados01ppp, sigma =bw.diggle(dados01ppp))> plot(den)

Page 13: Point Pattern Classes

5 PROCESSO DE POISSON HOMOGENEO E TESTES INICIAIS CONTRA A HIPOTESE NULA DE COMPLETA ALEATORIEDADE

ESPACIAL11

Outras forma de graficos sao:

persp(den) contour(den)

points(dados01ppp)

Brinque com a funcao density.ppp considerando outras bases de dados e diferentes parametros.

5 Processo de Poisson homogeneo e testes iniciais contra a hipo-tese nula de completa aleatoriedade espacial

5.1 Processo de Poisson Homogeneo (PPH)

O processo de Poisson homogeneo (uniforme) bidimensional com intensidade λ e o modelo estocasticomais simples para representar uma configuracao de pontos no espaco e atua como uma fundacao em quemodelos mais complexos podem ser, subsequentemente, construıdos.

Este modelo e muitas vezes chamado de modelo da “Completa Aleatoriedade Espacial - CAE” ou “Alea-toriedade Espacial Completa - AEC” ou “Complete Spatial Randomness - CSR”.

Sob CSR, os pontos sao independentes entre si e tem a mesma propensao de serem encontrados em qual-quer lugar no plano bidimensional.

O processo de Poisson homogeneo com intensidade λ > 0 tem as seguintes propriedades:

PP1 – O numero N(X ∩B)de pontos dentro de qualquer regiao B e uma variavel aleatoria que segue adistribuicao de Poisson.

PP2 – O numero esperado de pontos dentro da regiao B e dado por E[N(X ∩B)] = λ× areaB.

PP3 – Se B1 e B2 sao conjuntos mutuamente excludentes, entao N(X ∩ B1) e N(X ∩ B2) sao variaveisaleatorias independentes.

Page 14: Point Pattern Classes

5.2 Testes contra a hipotese nula de completa aleatoriedade espacial 12

PP4 – Dado que N(X ∩B) = n, os n pontos sao independentes e uniformemente distribuıdos em B.

Explicitamente, a distribuicao de probabilidade da variavel aleatoria do numero de pontos dentro dequalquer regiao B, N(X ∩B) e:

pn(B) =1

n!e(−λ×areaB) × (λ× areaB)n n = 1, 2, ... (10)

Realizacoes do processo de Poisson homogeneo no plano podem ser simuladas facilmente utilizando aspropriedade PP1-PP4.

Usando o spatstat no RStudio TM

No spatstat utiliza-se as funcoes:rpoispp(lambda, win= win=owin(c(0,1),c(0,1)))ourunifpoint(n, win= win=owin(c(0,1),c(0,1)))

> rpoispp(1,win=owin(c(0,10),c(0,20)))

Planar point pattern: 195 points

window: rectangle = [0, 10] x [0, 20] units

plot(rpoispp((1),win=owin(c(0,10),c(0,20))))

> runifpoint(100,win=owin(c(0,10),c(0,20)))

Planar point pattern: 100 points

window: rectangle = [0, 10] x [0, 20] units

> plot(runifpoint(100,win=owin(c(0,10),c(0,20))))

5.2 Testes contra a hipotese nula de completa aleatoriedade espacial

Um processo pontual pode falhar para satisfazer a hipotese nula de completa aleatoriedade espacial por-que apresenta intensidade nao uniforme (violando a propriedade PP2) ou porque exibe dependencia entre ospontos (violando as propriedade PP3 e PP4).

Os testes de hipoteses contra a hipotese nula de completa aleatoriedade espacial que consideram o primeirocaso sao baseados nas estatısticas do qui-quadrado e de Kolmogorov-Smirnov.

Page 15: Point Pattern Classes

6 EXPLORANDO A DEPENDENCIA (INTERACAO) ENTRE EVENTOS 13

Usando o spatstat no RStudio TM

Testes contra a hipotese nula de completa aleatoriedade espacial

O teste do qui-quadrado pode ser conduzindo atraves da funcao quadrat.test(X, nx=2, ny=2), em queX e uma configuracao pontual no formato ppp e nx e ny determinam o numero de quadrados em quesao feitas as contagens dos eventos.

O teste de Kolmogorov-Smirnov pode ser conduzindo atraves da funcao kstest(X, “x”), em que X euma configuracao pontual no formato ppp e x e um dos vetores das coordenadas (x, y) dos eventos.Veja pgs. 89-92, Baddeley (2010)

6 Explorando a dependencia (interacao) entre eventos

Supondo que a intensidade do processo e constante, para verificar se a configuracao e uma realizacao deum Processo de Poisson Homogeneo, faz-se uma analise da interacao.

Tricotomia (Cressie, 1991)

i) Independencia: nao existe interacao entre os eventos ⇒ PPH

ii) Regularidade: existe uma tendencia de repulsao entre os eventos.

iii) Agrupamentos: Existe uma tendencia de atracao entre os eventos.

Observacao: Regularidade e agrupamentos nem sempre sao explıcitos, por isso necessita-se de metodosestatısticos para fazer essa caracterizacao.

Existem basicamente dois grupos de metodos para diagnostico de interacao.

• Metodos Graficos

- Grafico de Morishita- Grafico de Fry

• Metodos baseados em distancias

- Distancia entre um evento e o seu vizinho mais proximo (Funcao G)- Distancia entre um ponto aleatorio e o evento mais proximo (Funcao F)- Razao entre as funcoes F e G (Funcao J)- Distancia entre um evento e os demais (Funcao K)

6.1 Metodos Graficos

6.1.1 Grafico de Morisita

Passos para obter o grafico de Morisita:

1) O domınio espacial e subdividido em 2× 2 quadrantes iguais.

2) Calcula-se o ındice de Morisita. Existem varias formas, uma delas e:

Ig =

q

n∑i=1

qi(qi − 1)

qq(qq − 1)=

q

n∑i=1

qi(qi − 1)

n(n− 1)(11)

Em que:

Page 16: Point Pattern Classes

6.1 Metodos Graficos 14

• q: Numero de quadrantes;

• qi: Numero de eventos no i-esimo quadrante;

• n: O numero de eventos no domınio espacial;

• q: Numero medio de eventos por quadrante em cada subdivisao;

Se Ig = 1⇒ Independencia.

Se Ig > 1⇒ Agrupamentos.

Se Ig < 1⇒ Regularidade.

3) Divide-se o espaco amostral sucessivamente (3× 3, 4× 4, ...) calculando Ig para cada subdivisao.

4) o grafico de Morisita e o diagrama de dispersao (Ig× diagonal dos quadrados)

Interpretacao do grafico

O grafico de Morisita exibe um linha horizontal na altura (ındice) igual a 1, que representa a completaaleatoriedade espacial.

Se a dispersao dos pontos estiver abaixo da linha de completa aleatoriedade espacial, e um indicativo deque a configuracao possui regularidade. Se os pontos estiverem acima da linha, significa que ha agrupamen-tos. E se os pontos estiverem alternado entre acima e abaixo da linha significa que a configuracao dos pontose aleatoria. Vejamos para o caso dos conjuntos de pontos cells, redwood e japanesepines.

Usando o spatstat no RStudio TM

miplot(cells,xlab=”Diagonal do quadrante”, ylab =”ındice de Morisita”)

Como se pode ver no grafico, a dispersao dos da-dos esta abaixo da linha de c. a. e., o que indicaregularidade.

miplot(redwood,xlab=”Diagonal do quadrante”, ylab= ”ındice de Morisita”)

Para os dados redwood, podemos ver que a os pon-tos estao acima da linha indicando que ha agrupa-mentos.

Page 17: Point Pattern Classes

6.1 Metodos Graficos 15

miplot(japanesepines,xlab=”Diagonal do quadrante”,ylab = ”ındice de Morisita”)

Para os pinheiros japoneses, pode-se perceber quea dispersao dos dados oscila em torno do ındice 1indicando que o processo e aleatorio.

Obs.: Apenas para areas retangulares

6.1.2 Grafico de Fry

Foi proposto por Fry em 1979, a partir de uma proposta de Patterson (1934) trabalhando em mineralogia.As etapas de construcao do grafico sao:

1) Colocar no centro de um papel transparente uma marca.

2) Colocar a folha transparente sobre a configuracao pontual, fazendo que a marca fique sobre um doseventos.

3) Na folha transparente copia-se os pontos da configuracao pontual com excecao daquele que foi marcado.

4) Repetir as etapas 2 e 3 para todos os eventos.

5) No final sera obtido um diagrama de dispersao com x× (n− 1) pontos, que e denominado de Graficode Fry.

Interpretacao do grafico

Se o grafico apresentar uma falha no centro, existem indıcios de regularidade. Caso o grafico apresenteuma ou mais regioes com grande concentracao de pontos, existem indıcios de agrupamentos.

No R, usando o SpatStat o comando e:

fryplot(X, argumentos graficos)

Usando o conjunto de dados Cells, redwood e japanesepines do R:

Usando o spatstat no RStudio TM

fryplot(cells, cex=0.5)

Pode-se notar a partir do grafico uma grande falhano centro, indicando que ha regularidade no padraodos pontos para os dados das celulas.

Page 18: Point Pattern Classes

6.2 Metodos baseados em distancias 16

fryplot(redwood, cex=0.5)

Para os dados redwood, pode-se perceber que hatres regioes de concentracao de pontos, o que indicaque ha agrupamentos.

fryplot(japanesepines, cex=0.5)

No caso dos pinheiros japoneses, o grafico nao apre-senta falha no centro ou grandes regioes de concen-tracao de pontos, o que indica que o conjunto dedados e completamente aleatorio.

6.2 Metodos baseados em distancias

6.2.1 Funcao G

Esta funcao foi proposta por Ripley (1976,1977).

Seja yi a distancia entre o i-esimo evento e seu vizinho mais proximo dentro de uma regiao com area|A|. Assumindo que o processo pontual e estacionario, a funcao G e definida como sendo a probabilidade deencontrar um evento que tenha um vizinho com distancia menos ou igual a y. Assim:

G(y) = P (yi ≤ y) (12)

G(y) pode ser estimada pela funcao de distribuicao empırica das distancias observadas entre vizinhosmais proximos.

O estimador mais simples (nao corrige efeito de bordas) de G(y) e dado por:

G(y) =

n∑i=1

I(yi ≤ y)

n(13)

em que I(.) e uma funcao indicadora.

Se yi ≤ y ⇒ I(.) = 1 e 0 caso contrario.

Sob a hipotese de completa aleatoriedade espacial, o numero de eventos em qualquer regiao com area |A|segue uma distribuicao de Poisson com media µ = λarea|A|.

G(y) = F (yi ≤ y) =∑yi≤y

e−uuyi

yi= 1−

∑y1=0

e−uu0

0!= 1− e−u = 1− earea|A| = 1− e−λπy

2

(14)

Page 19: Point Pattern Classes

6.2 Metodos baseados em distancias 17

Na pratica λ nao e conhecido. Sob a suposicao de estacionariedade, λ pode ser estimado por:

λ =n

|A|(15)

Em que n e o numero de eventos e |A| e a area de estudo.

Interpretacao do Grafico

Sob a hipotese de completa aleatoriedade espacial (PPH) tem-se que G(y) = 1 − e−λπy2 . Cujo graficoesta a seguir:

O modo mais simples de interpretar a funcao G e atraves do grafico de G(y) e G(y) contra as distancias y.

i) Os graficos de G(y) e G(y) sao muito proximos, indicando que a configuracao e um PPH (ProcessoPontual Homogeneo).

ii) Se G(y) > G(y), indica um excesso de vizinhos mais proximos (distancias), do que o esperado peloPPH. Neste caso, isso implica a existencia de agrupamentos na configuracao.

iii) Se G(y) < G(y), as distancias entre vizinhos mais proximos sao menores do que esperado pelo PPH,o que indica regularidade na configuracao.

Page 20: Point Pattern Classes

6.2 Metodos baseados em distancias 18

O estimador G(y) dado pela equacao (13) e tendencioso tendo em vista o efeito de borda. Para minimi-zar esse efeito existem diversos estimadores propostos. Alguns sao: Kaplan-Meier e Hazard (propostos porBaddeley), e Amostra redutiva (proposto por Ripley, 1976).

O estimador da amostra redutiva e dado por:

G(y) =

n∑i=1

I(yi ≤ y, y ≤ di)

n∑i=1

I(y ≤ di)(16)

em que di e a distancia do i−esimo evento ate a borda mais proxima.

Usando o spatstat no RStudio TM

Ao aplicar o comando Gest sobre o conjunto de dados, o defaut do R faz os testes com os estimadorescom a correcao do efeito de borda. O grafico ira aparecer com as curvas da funcao teorica, a correcaodo efeito de borda de G (Kaplan-Meier),e o estimador de Hazard. Abaixo esta um exemplo com oconjunto de dados Cells.

> gteste=Gest(cells)

> gteste

Function value object (class ‘fv’)

for the function r -> G(r)

.....................................................................

Math.label Description

r r distance argument r

theo G[pois](r) theoretical Poisson G(r)

han hat(G)[han](r) Hanisch estimate of G(r)

rs hat(G)[bord](r) border corrected estimate of G(r)

km hat(G)[km](r) Kaplan-Meier estimate of G(r)

hazard hat(h)[km](r) Kaplan-Meier estimate of hazard function h(r)

theohaz h[pois](r) theoretical Poisson hazard function h(r)

.....................................................................

Vamos mostrar agora o resultado dos testes da funcao G, com os conjuntos de dados cells, redwood ejapanesepines.

Page 21: Point Pattern Classes

6.2 Metodos baseados em distancias 19

Usando o spatstat no RStudio TM

gteste=Gest(cells)plot(gteste,main=”Cells”)

Como se pode ver no grafico, a curva teorica estaacima da observada (com as correcoes), ou seja,G(y) < G(y), o que indica regularidade.

plot=Gest(redwood)

Para os dados redwood, pode-se perceber que acurva teorica esta abaixo das observadas (com cor-recao do efeito de borda).Indicando que ha agru-pamentos. Pode-se perceber tambem pelo grafico,que ate uma distancia 0,02 nao ha nenhuma arvoreproxima da outra.

plot(Gest(japanesepines)

No caso dos pinheiros japoneses, pode-se perceberque as curvas observadas e a curva teorica estaomuito proximas, o que indica que o conjunto dedados e aleatorio.

Mas o quao proximo ou distante devem estar as curvas para dizer que o processo e um PPH, ou possuiregularidade ou agrupamentos?

Para isso existe a funcao envelope, que realiza n simulacoes do processo determinadas pelo pesquisador.A funcao cria um intervalo de confianca para o qual, se a curva teorica estiver dentro do envelope indica queo processo e um PPH, se a curva teorica estiver acima do envelope indica regularidade e se estiver abaixoindica agrupamentos. Vejamos:

Usando o spatstat no RStudio TM

Ecells=envelope(cells,Gest,nsim = 99,rank=1)plot(Ecells)

Como se pode ver no grafico, a curva teorica estaacima do envelope, ou seja, G(y) < G(y), o queindica regularidade.

Eredwood=envelope(redwood,Gest,nsim=99,rank=1)plot(Eredwood)

Para os dados redwood, pode-se perceber que acurva teorica esta abaixo do envelope indicandoque ha agrupamentos.

Page 22: Point Pattern Classes

6.2 Metodos baseados em distancias 20

Ejapanese=envelope(japanesepines,Gest,nsim=99,rank=1)plot(Ejapanese)

Para os dados dos pinheiros japoneses, pode-se per-ceber que a curva teorica esta dentro do envelopeindicando que o processo e aleatorio.

6.2.2 Metodo de Monte Carlo

Metodo Monte Carlo e uma saıda para fazer inferencias quando nao se conhece a distribuicao do para-metro de interesse ou quando as suposicoes de um modelo sao violadas.

H0 : A configuracao observada e uma realizacao de um P.P.H. (C.A.E.)

H1 : A configuracao observada e uma realizacao de um processo indefinido (diferente do P.P.H.)

Etapas:

1) Obter G(y)

2) Obter Gi(y), com i = 1, ..., s a partir de realizacao de um P.P.H.

(grafico aqui)

3) Dos s Gi(s) determinar

U(y) = maxiGi(y) e L(y) = miniGi(y), com i = 1, ..., s.

Observe que,

P (G(y) > U(y) = P (G(y) > L(y) =1

s+ 1(17)

Um nıvel de significancia α para esse teste e exatamente igual a2

s+ 1. Pode-se utilizar qualquer ordem

(k) para obter α :

α =2k

s+ 1(18)

Interpretacao do Grafico

Fazer o grafico de G(y), U(y) e L(y) contra y.

i) Se G(y) > U(y) para algum y, rejeita-se H0 na direcao de agrupamentos.

ii) Se G(y) < L(y) para algum y, rejeita-se H0 na direcao de regularidade.

Observe que

P (G(y)) > U(y)

P (G(y)) < L(y)

6.2.3 Funcao F (Ripley, 1977)

Seja uma configuracao de eventos gerada por um processo estacionario em uma regiao plana de area |A|.

Page 23: Point Pattern Classes

6.2 Metodos baseados em distancias 21

Seja xi a distancia entre um ponto (nao e o evento) e o evento mais proximo (distancia ponto-evento).

A funcao F, ou funcao das distancias dos espacos vazios e a funcao distribuicao das distancias ponto-evento:

F (x) = P (xi 6 x) (19)

Um estimador da funcao F sem correcao do efeito de borda e dado por:

F (x) =

m∑i=1

I(xi 6 x)

m(20)

Em que m e o numero de pontos.

Para a escolha de m existem algumas propostas:

• m e uma grade regular com aproximadamente√n×√n, em que n e o numero de eventos (Diggle).

• m e relacionada com o tamanho de um pixel. No spatstat tem-se|A|100

(eps =1

100) (Baddeley).

Sob a hipotese de completa aleatoriedade espacial (PPH com intensidade λ), F (x) e dada por

F (x) = 1− e−λπx2

(21)

Na pratica utiliza-se λ no lugar de λ, em que λ =n

|A|. Para corrigir o efeito de borda de F (x) pode-se

utilizar:

• Kaplan-Meier (KM)

• Amostra reduzida (RS)

• Chiv-Stoyon (CS)

Interpretacao do Grafico

Usando o spatstat no RStudio TM

plot(envelope(cells,fun=Fest,nsim=99,nrank=1))

Como se pode ver no grafico, a funcao F estimadaesta acima do envelope, o que indica regularidade.

Page 24: Point Pattern Classes

6.2 Metodos baseados em distancias 22

plot(envelope(redwood,fun=Fest,nsim=99,nrank=1))

Para os dados redwood, pode-se perceber que afuncao F estimada esta abaixo do envelope indi-cando que ha agrupamentos.

plot(envelope(japanesepines,fun=Fest,nsim=99,nrank=1))

Para os dados dos pinheiros japoneses, pode-se per-ceber que a funcao F estimada esta dentro do en-velope indicando que o processo e aleatorio.

Obs.: Tendo como base dados simulados, pode-se dizer que a funcao F e melhor para detectar configu-racoes com agrupamentos, enquanto a funcao G e melhor para detectar configuracoes com regularidade.

6.2.4 Funcao J

As funcoes F e G descrevem a interacao existente na configuracao de maneiras “opostas”. Entretanto soba suposicao de completa aleatoriedade espacial (PPH), ambas sao iguais.

F (d) = G(d) = 1− e−λπd2

Observando este comportamento Van-Leishout e Baddeley (1996) propuseram a funcao J, definida por:

J(d) =1−G(d)

1− F (d), F (d) 6= 1

Sob a hipotese de completa aleatoriedade espacial, J(d) ≡ 1 se J(d) > 1 indica regularidade. No caso deJ(d) < 1, indica que ha agrupamentos.

Um estimador da funcao J e obtido a partir dos estimadores das funcoes F e G:

J(d) =1− G(d)

1− F (d)

A funcao J, em geral, apresenta o mesmo poder para detectar configuracoes com agrupamentos e regu-laridades. Entretanto, pode ter um poder menor que a funcao G para regularidade e que a funcao F paraagrupamentos.

Usando o spatstat no RStudio TM

plot(envelope(cells,funJFest,nsim=99))

Como se pode ver no grafico, a funcao J estimadaesta acima do envelope, o que indica regularidade.

Page 25: Point Pattern Classes

6.2 Metodos baseados em distancias 23

r=seq(0,0.115,length.out = 50)plot(envelope(redwood,r=r,Jest,nsim=99))

Para os dados redwood, pode-se perceber que afuncao J estimada esta abaixo do envelope indi-cando que ha agrupamentos.

plot(envelope(japanesepines,Jest,nsim=99))

Para os dados dos pinheiros japoneses, pode-se per-ceber que a funcao J estimada esta dentro do en-velope indicando que o processo e aleatorio.

Pode-se utilizar os mesmos estimadores para correcao do efeito de borda utilizados nas funcoes F e G.Entretanto os autores argumentam que na funcao J nao e necessario fazer correcao para o efeito de borda.

6.2.5 Funcao K

As funcoes F, G e J descrevem a configuracao pontual com base nas distancias entre vizinhos mais pro-ximos.

Para descrever a configuracao em diferentes escalas, Ripley (1976,1977) propos a funcao K, tambem co-nhecida como funcao do segundo momento reduzido.

A funcao K para um processo estocastico homogeneo (estacionario) e definida como:

λk(d) = E[numero de eventos dentro de uma distancia a partir de um evento arbitrario], ou seja:

K(d) =E[.]

λ

em que λ e a intensidade do processo.

Um estimador simples, sem correcao do efeito de borda, e obtido diretamente da definicao:

K(d) =

n∑i=1

n∑j 6=i

I(dij ≤ d)

λ(n− 1)

em que λ =n

|A|, n e o numero de eventos da configuracao em uma regiao plana de area |A|. I(.) = 1 se

dij ≤ d e 0 caso contrario. Um estimador para a funcao K e:

K(d) =

|A|n∑i=1

n∑j 6=i

I(dij ≤ d)

n(n− 1)

Teoricamente, a funcao K cresce indefinidamente com o aumento de d. Para obter o estimador K(d),Diggle recomenda d ≤ 0, 25|A|.

Sob a suposicao de completa aleatoriedade espacial (PPH), tem-se que:

E[.] = λπd2 ⇒ K(d) = πd2 (22)

Page 26: Point Pattern Classes

6.2 Metodos baseados em distancias 24

Interpretacao do grafico

Se K(d) > K(d), indica a existencia de agrupamentos.

Se K(d) < K(d), indica a existencia de regularidade.

Efeito de borda

K(d) pode ser influenciado por eventos proximos das bordas. Para tentar corrigir esta influencia existemvarios procedimentos.

- Amostragem reduzida (border). E mais rapido, serve para qualquer tipo de area, mas e menos eficiente.

- Estimador de Oscher (1983). Serve para qualquer tipo de area, e lento (se houver muitos pontos podeser muito trabalhoso) mas e muito eficiente.

- Estimador Isotropico (Ripley, 1977). E muito eficiente, e rapido mas se usa apensas para areas retan-gulares (no spatstat).

Para o estimador isotropico, considere uma circunferencia em torno do evento i passando no eventoj. wij e a proporcao da circunferencia dentro da area |A|.

(imagem k1)

K(d) =|A|

n(n− 1)

n∑i=1

n∑j=1

I(dij)

wij(23)

Deve-se observar que wij pode ser diferente de wji.

6.2.6 Funcao L

Existem varias transformacoes na funcao K para facilitar a interpretacao da mesma. Em geral, essastransformacoes sao utilizadas para linearizar e estabilizar a variancia da funcao K, e recebem o nome defuncao L. Sao elas:

L(d) =

√K(d) (24)

L(d) =

√K(d)

π(25)

L(d) =

√K(d)

π− d (26)

L(d) = K(d)2 − πd2 (27)

L(d) =K(d)2 − πd2

d(28)

L(d) =1

2log

[K(d)

π

]− log(d) (29)

Obs.: A funcao K (ou L) e aproximadamente nao tendenciosa para d fixo. O vies da funcao K aumentacom o aumento de d. Existem varias propostas para estabelecer o valor maximo de d.

Exemplo: 14 (menor lado de uma regiao retangular)

Page 27: Point Pattern Classes

6.3 Observacoes gerais sobre as funcoes 25

6.3 Observacoes gerais sobre as funcoes

1. As funcoes F, G, J, K e L sao desenvolvidas para processos estacionarios.

2. Se o processo nao for estacionario, essas funcoes podem detectar interacao quando na verdade, existeapenas efeitos de primeira ordem.

3. Mesmo usando varias funcoes, nao ha garantia de caracterizar completamente a configuracao.

4. Pode ocorrer que o mesmo processo apresente funcoes (Ex. K) diferentes.

Page 28: Point Pattern Classes

7 ANEXOS 26

7 Anexos

Anexo I

ROTEIRO PARA INICIAR ANALISE DE CONFIGURACOES DE PONTOS USANDOSPATSTAT

Dentro do RStudioTMcarregar o spatstat :

library(spatastat)

Usando help para conhecer os dados:

help(amacrine)

Usando demo para conhecer as configuracoes pontuais

demo(data)

Usando demo para conhecer o spatstat

demo(spatstat)

Entrando com os dados:

Entrando com os dados (*.txt) usando o comando ”read.table”

dados01 <- read.table(”C:/Users/DEX/Desktop/dados01.txt”, header=TRUE)summary(data)

Analogamente pode-se usar o comando ”tools”do Rstudio. Para importar dados do excel, primeiro, deve-se salvar excel em .txt e depois usar os comandos acima.

Criando objeto no formato point pattern ”ppp”

Primeiro passo: criar uma janela.

- Criando uma janela quadrada com lado igual a ”r”

ws=square(r=1)plot(ws, main=)

- Criando uma janela retangular usando o comando ”owin”e informacoes conhecidas (ex. do summary)

wr = owin(c(0, 100), c(0, 800))plot(wr, main=)

Criando uma janela poligonal qualquer

wp = owin(poly = list(x = c(0.5, 1, 0.5, 0),y=c(0, 0.5, 1, 0.5)))plot(wr, main=)Observe que o polıgono e construıdo na forma anti-horario.

wp = owin(poly = list(x = c(0.5, 0.95, 1, 0.5, 0),y=c(0, 0.25, 0.5, 1, 0.5)))plot(wp, main=)wp = owin(poly = list(x = c(0.5, 0.95, 1, 0.5, 0.15, 0),y=c(0, 0.25, 0.5, 1, 0.85, 0.5)))plot(wp, main=)

Criando uma janela a partir dos dados

Page 29: Point Pattern Classes

7 ANEXOS 27

x = dados01$xy = dados01$ywr = ripras(x,y)

Caso a sua janela seja esteja disponıvel em um formato ”shape”(bastante usual para dados obtidos porsatelite ou de municıpios, estados, etc.) a mesma pode ser importada e convertida no formato usado pelo”spatstat”. Veja pg. 49 da apostila do Baddeley.

Criando o objeto ”ppp”sem marcas com janela wr

help(ppp)dados01ppp=ppp(x, y, window=wr)plot(dados01ppp, main = )

Criando o objeto ”ppp”com marcas ”z”com janela wr

dados01pppm=ppp(x, y, window=wr, marks=dados01$z)dados01pppmplot(dados01pppm, main = )

Algumas operacoes:

Para selecionar apenas as dez primeiras coordenadas da configuracao pontos01ppp obter o grafico efetuam-se os seguintes comandos:

utt = dados01ppp[1:10, ]plot(wr, main=)points(dados01ppp)points(utt,pch=3, add=TRUE) # Marca no grafico os pontos selecionados.

As principais funcoes para extrair informacoes de um objeto da classe ppp (X) sao:

npoints(dados01ppp)# para extrair o numero de pontos existentes em X.coords(dados01ppp) # para extrair as coordenadas dos pontos existentes em X.as.owin(dados01ppp) # para extrair a janela de X.area.owin(dados01ppp) # para extrair areaperimeter(dados01ppp) # para extrair perımetro