28
S TATISTISK ANALYS AV KOMPLEXA DATA S PATIALA DATA Mattias Villani Statistik Institutionen för Datavetenskap Linköpings Universitet MATTIAS VILLANI (STATISTIK,LIU) SPATIALA DATA 1 / 28

MattiasVillani732G34/2012/Spatiala/ComplexDataSpatialL1v... · 3fh 2 1f3h3 o om 0 h 1/f 0 ... I fit.variogram(sampleVariogram, vgm(1, "Sph", 800, 1)) I Alternativt: eyeballstatistics

Embed Size (px)

Citation preview

STATISTISK ANALYS AV KOMPLEXA DATA

SPATIALA DATA

Mattias Villani

StatistikInstitutionen för Datavetenskap

Linköpings Universitet

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 1 / 28

MOMENTETS INNEHÅLL

I Introduktion till spatiala dataI Visualisering av spatiala dataI Geostatistiska data: Interpolation, Variogram och KrigingI Areal data: Spatiala autoregressionsmodeller.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 2 / 28

TRE TYPER AV SPATIALA DATA

I Spatiala data: position och avstånd har betydelse.I Tre typer av spatiala data:

I Geostatistiska data (Mätstationer)I Areal data (Bildpixlar)I Punktmönsterdata (Fågelskådning)

I Mer generellt: spatiala mätningar över tid: tempo-spatiala data. Ex:Meteorologiska mätningar.

I Inom delmomentet: Geostatistiska och lite areal data.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 3 / 28

GEOSTATISTISKA DATA

I Y (s) är en slumpmässig vektor observerad vid positionen s ∈ D.I Positionerna s1, s2, ..., sn är fixa.I Mätningarna vid positionerna Y (s1),Y (s2), ...,Y (sn) ärslumpmässiga.

I D är ofta en delmängd av R2. Longitud och latitud.I Exempel 1: Temperatur och nederbörd i min trädgård vid en given

tidpunkt.I Exempel 2: Mängd olja vid olika borrningsstationer.I Exempel 3: Huspriser.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 4 / 28

MEUSE RIVER DATA - ZINC CONCENTRATION

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 5 / 28

AREAL DATA

I D är fortfarande en fix delmängd, men partitionerad i arealenheter.En mätning i varje area.

I Exempel 1: Jordbruksexperiment.I Exempel 2: Bildanalys. Röntgen.I Exempel 3: Huspriser på kommunnivå.I Areal data kallas också lattice data.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 6 / 28

KOMMUNALSKATT 2012

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 7 / 28

FMRI BILDER AV HJÄRNAKTIVITET

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 8 / 28

PUNKTMÖNSTERDATA

I Positionerna s1, s2, ..., sn är slumpmässiga. Punktprocesser.I Y (s1),Y (s2), ...,Y (sn) är fixa som indikerar att en viss händelse

inträffat vid si .I Exempel 1: Positioner av viss trädsort.I Exempel 2: Sjukdomsutbrott.I Exempel 3: Brottsplatser.I Klustring ofta viktigt. Tenderar vissa djurarter att befinna sig inom

samma område? Olika områden (revir)? Attraction/repulsion.I Kovariatinformation vid de slumpmässiga positionerna: marked pointpattern. Ex: brottsstyp, fågelstorlek, trädomkrets.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 9 / 28

SPATIALA DATA I RI Paketet sp är baspaketet med spatiala datatyper.I Objekt för att rita upp spatiala data: punkt, linje, polygon, grid ochpixel.

I coordinates(dataMatris) <- dinaKoordinater[dinaKoordinater är en matris med två kolumner innehållandelongitud och latitud]

I dataMatris blir ett objekt av typen SpatialPointsDataFrame.I Alternativ: funktionen SpatialPointsDataFrame().I llCRS <- CRS("+proj=longlat +ellps=WGS84") definerar det

traditionella longitud-latitude koordinatsystemet.I library(maps); maps(“world”, “sweden”) ritar upp en

Sverigekarta.I gridObjekt <- as(SpatialDataMatris, "SpatialPixels") Gör

om matrisen SpatialDataMatris med punkter till en grid/pixlar.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 10 / 28

INTERPOLATION AV SPATIALA DATA

I Vi har observerat Z (s1),Z (s2), ...,Z (sn) vid n fixa positioner.I Vi vill beräkna anpassningen Z (s0) i en ny punkt s0.I Interpolation viktat med inversa avståndet:

Z (s0) =∑n

i=1 w(si , s0)Z (si )∑n

i=1 w(si , s0)

därw(si , s0) = ‖si − s0‖−p

I library(gstat); idwOut <- idw(zinc ~ 1, meuse,meuse.grid, idp = 2)

I image(idwOut) ritar upp den interpolerade ytan.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 11 / 28

INTERPOLATION MED INVERSA AVSTÅND - MEUSE

DATA

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 12 / 28

VARIOGRAMI Spatial utökning av tidsserieanalysens autokorrelationsfunktion.I Stationäritet.I Process

Z (s) = m + e(s)

där m är väntevärdet och e(s) är spatialt brus.I Alternativt

Z (s) = X β + e(s)I Semivariogram

γ(h) =12

E [Z (s)− Z (s+ h)]2

där h är en vektor.I Variogram = 2γ(h).I Relation till kovariansfunktionen C (h)=Cov[Y (s + h),Y (s)]:

γ(h)=2[C (0)− C (h)]

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 13 / 28

VARIOGRAM, FORTS

I Spatial korrelation beror endast på avståndsvektorn h = si − sj mellantvå punkter och inte på punkternas positioner.

I Isotropisk korrelation: vektorn h kan ersättas med dess längdh = ‖h‖.

I γ(−h) = γ(h) och γ(0) = 0.I Nugget: ofta antas att γ(0+) = limh→0+ γ(h) = τ2 > 0. Går dock

inte att skatta utan upprepade observationer vid samma position.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 14 / 28

SAMPELVARIOGRAMMET

I Problematiskt att skatta variogrammet eftersom vi kan ha inga eller fådatapunkter som just har avståndet h.

I Låt I1 = [0, h1), I2 = [h1, h2), ..., Im = [hm−1, hm) vara enpartitionering av intervallet [0, hm) där hm är en övre gräns.

I Momentskattning av variogrammet:

γ(Ij ) =1

2Nh

Nh

∑i=1

[Z (si )− Z (si + h)]

för alla h ∈ Ij .I library(gstat); plot(variogram(log(zinc) ~ 1, meuse))I library(gstat); plot(variogram(log(zinc) ~ sqrt(dist),

meuse))I library(gstat); plot(variogram(log(zinc) ~ 1, meuse,

alpha = c(0,45,90,135)))

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 15 / 28

MODELLER FÖR ISOTROPISKA VARIOGRAMI Linjär

γ(h; θ) =

{τ2 + σ2h om h > 0

0 om h = 0I Sfärisk

γ(h; θ) =

τ2 + σ2 om h ≥ 1/φ

τ2 + σ2{

3φh2 −

12φ3h3

}om 0 ≤ h ≤ 1/φ

0

I Powered exponential 0 < p ≤ 2 (Exponential p = 1, Gaussiskp = 2)

γ(h; θ) =

{τ2 + σ2 [1− exp(− |φh|p)] om h > 0

0 om h = 0I Matérn

γ(h; θ) =

{τ2 + σ2

[1− (2

√νhφ)ν

2ν−1Γ(ν) Kν(2√

νhφ)]

om h > 00 om h = 0

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 16 / 28

NUGGET, SILL OCH RANGE

I Exempel: sfäriskt variogram

γ(h; θ) =

τ2 + σ2 om h ≥ 1/φ

τ2 + σ2{

3φh2 −

12φ3h3

}om 0 ≤ h ≤ 1/φ

0

I Nugget: γ(0+) = limh→0+ γ(h) = τ2 > 0I Sill: limh→∞ γ(h) = τ2 + σ2

I Partial sill: Sill - Nugget =σ2

I Range: h-värdet där γ(h) först når sitt maximum: 1/φ.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 17 / 28

SKATTNING AV PARAMETRISKA VARIOGRAM

I Ickelinjär viktad minsta kvadrat (startvärden viktiga)p

∑j=1

wj [γ(h)− γ(h)]2

I Variogrammodeller i R: vgm(psill, model, range, nugget)I Exempel: vgm(1, “Sph”, 300, 1)I library(gstat); sampleVariogram <- variogram(log(zinc) ~

sqrt(dist), meuse)I fit.variogram(sampleVariogram, vgm(1, "Sph", 800, 1))I Alternativt: eyeball statistics. Prova olika parametervärdet tills dess

parametriskt variogram anpassar sampelvariogrammet.I library(geoR); varioEye <-

eyefit(variog(as.geodata(meuse["zinc"]), max.dist =1500)); varioFit <- as.vgm.variomodel(varioEye[[1]])

I Fungerar inte i RStudio. Kör “vanlig” R.MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 18 / 28

SPATIAL PREDIKTION - KRIGING

I Vi har observationer Z (s1), ...,Z (sn) och vill prediktera Z (s0),Z-värdet vid en ny position s0.

I Vi har kovariater vid varje position: X = (x(s1), ..., x(sn))′ och x(s0).I Rimlig prediktor: Z (s0) är ett viktat medelvärde av värdena vid

“närliggande” positioner.I Bästa linjära väntevärdesriktiga prediktorn

Z (s0) = x(s0)β + v ′V−1 (Z (s)− X β)

där Z (s) = (Z (s1), ...,Z (sn))′, V är kovariansmatrisen för Z (s) ochv är kovariansvektorn innehållande kovarianserna mellan Z (s0) ochZ (s), och

β =(X ′V−1X

)−1 X ′V−1Z (s)

är den vanliga GLS-skattningen.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 19 / 28

SPATIAL PREDIKTION - KRIGING, FORTS.

I Prediktionsvarians

Var(Z (s0)

)= Var (Z (s0))− v ′V−1v ′

+(x(s0)− v ′V−1X

) (X ′V−1X

)−1 (x(s0)− v ′V−1X)

I Universal kriging.I Ordinary kriging: endast intercept i regressionsytan.I krige(log(zinc) ~ sqrt(dist), meuse, meuse.grid,

fittedSphVariogram)

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 20 / 28

KRIGING - MEUSE DATA

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 21 / 28

AREAL DATA

I Datapunkter är definierade över arealenheter (kommuner, pixlar)I Arealernas närhet till varandra äv viktig. Motsvarar avstånd för

geostatistiska data.I Spatiala grannskap (neighbourhoods):

I Vilka regioner gränsar till region i?I Vilka länder handlar med varandra? Hur mycket?I Vilka delar av hjärnan är sammankopplade med fibrer?I Vem är du vän med på Facebook?

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 22 / 28

US CENSUS TRACT DATA - NEW YORK COUNTIES

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 23 / 28

US CENSUS TRACT DATA - NEW YORK COUNTIES

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 24 / 28

MORAN I

I Näthetsmatris W = (wij )[objekt av klassen nb i R]I Test för spatialt beroende, Moran I

I =n

∑ni=1 ∑n

i=1 wij

∑ni=1 ∑n

j=1 wij (yi − y)(yj − y)

∑ni=1(yi − y)2

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 25 / 28

SIMULTAN AUTOREGRESSIV MODELL (SAR)I Tidsserieanalys: regression med AR(1) feltermer

yt = β0 + β1xt + et

et = ρet−1 + εt

där εtiid∼ N(0, σ2).

I Simultan autoregressiv modell (SAR)

yi = β0 + β1xi + ei

ei =m

∑j=1

bijej + ε i

där ε iiid∼ N(0, σ2).

I bij representerar spatiala beroenden mellan regioner.I bii = 0 för alla i . Regionen beror inte på sig själv.

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 26 / 28

SIMULTAN AUTOREGRESSIV MODELL (SAR), FORTS

I Modellen kan skrivas som

E (y) = X β

Var(y) = (I − B)−1 Σε

(I − B ′

)−1

där B = (bij ) och Σε är en diagonal matris, ofta Σε = σ2I .I Vanligt val: B = λW . Spatial autokorrelationsparameter: λ.I R funktionen: nysar <- spautolm(Z ~ PEXPOSURE + PCTAGE65P

+ PCTOWNHOME, data = NY8, listw = NYlistw)

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 27 / 28

CONDITIONAL AUTOREGRESSIVE MODEL (CAR)

I Beroendet för residualerna modelleras betingat på omgivningen(neighbourhood)

ei |ej∼i ∼ N

(∑j∼i

cijej

∑j∼i cij,

σ2ei

∑j∼i cij

)

I R: nycar <- spautolm(Z ~ PEXPOSURE + PCTAGE65P +PCTOWNHOME, + data = NY8, family = "CAR", listw =NYlistw)

MATTIAS VILLANI (STATISTIK, LIU) SPATIALA DATA 28 / 28