Upload
others
View
19
Download
0
Embed Size (px)
Citation preview
Descriptive methods
for spatial statistics
Kirsi Virrantaus
GIS-E1060 Spatial Analytics
Department of Built Environment
Aalto University
27.10.2020
Kuvailevat tilastolliset
menetelmät
spatiaalianalyysissä
Kirsi Virrantaus
GIS-E1060 Spatial Analytics
Rakennetun ympäristön laitos
Aalto-yliopisto
27.10.2020
1. Descriptive spatial statistics
• Use of quantitative measures, simple summaries
• Apply them to sample data sets
• Utilization of visual methods
• Used also in so-called explorative analysis
• Difference to statistical inference – no hypothesis testing
• Examples of simple spatial measures:
1. Kuvaileva spatiotilastotiede
• Kvantitatiivisten tunnuslukujen käyttö
• Otosaineiston kuvaamiseen
• Visuaalisten menetelmien käyttö
• Käytetään ns. eksploratiivisessa/tutkivassa analyysissä
• Ero tilastolliseen päättelyyn, ei hypoteesin testausta
• Esimerkkejä spatiaalisista tunnusluvuista:
Simple indices of descriptive spatial
statistics
– frequency• amount of the objects in the study area
– intensity• amount of objects per unit area
– mean center • is the point whose coordinates are the mean of the
corresponding coordinates of all the events of the pattern; average x, average y;
– median center• is the location to which the sum of traveled distances from
points is shortest; shortest total distance to all other features in the study area
– distance• in larger scales, assumption that the world is flat: most often
Euclidian distance
– standard distance• shows how dispersed the points are around the mean center
Yksinkertaisia kuvailevan
spatiotilastotieteen tunnuslukuja
– frekvenssi (tilastotieteessä) (esiintymistiheys)
• (samanarvoisten) pisteiden määrä tutkimusalueella
– tiheys
• kohteiden lukumäärä alueyksikössä
– keskiarvopiste
• piste, jonka koordinaatit ovat pistejoukon vastaavien koordinaattien keskiarvot
– mediaanipiste
• piste, josta etäisyyksien summa toisiin pisteisiin tutkimusalueella on pienin
– etäisyys
• tavallisesti Euklidinen etäisyys (muitakin on)
– keskietäisyys
• kuvaa pisteiden hajontaa keskiarvopisteen ympärillä
2. Some descriptive spatio-statistical
methods
• Descriptive methods
– Kernel density estimation
• Density/intensity based
– G-, F-, K-function
• Use distances between points/objects
– can used for point sets, also for areas and lines
2. Spatiotilastollisia kuvailevia menetelmiä
• Kuvailevia menetelmiä– Kernel tiheysestimointi
• Perustuu pistetiheyteen
– G-, F- ja K-funktiot
– Perustuu pisteiden/kohteiden välisiin etäisyyksiin
– Voidaan käyttää pistejoukoille, alueille ja viivoille
Density estimation
Naive Kernel method
• basic idea is that the point pattern has intensity in each location, not only in the event point
• by the “naive method”
– in each location of the study region the intensity is calculated inside for example a circle
– the amount of points inside kernel gives the value at each point directly
– compare Focal mean (in Map Algebra) (comes later)
– compare the floating average quadrat method (comes later)
Tiheyden estimointi
yksinkertainen Kernel menetelmä
• perusajatus on että pistekuviolla on tiheys jokaisessasijainnissa tutkimusalueella, ei ainoastaantapahtumapisteissä
• yksinkertaisin menetelmä
– jokaisessa tason sijainnisssa (esim. gridinpisteessä) lasketaan ympyrän sisälle jäävienpisteiden määrästä tiheyttä kuvaava arvo, pikselille tulee suoraan tämä tiheysarvo
– vrt FocalMean (Kartta-algebrassa)
– vrt. liukuvan keskiarvon tutkimusalamenetelmä
Variations of Kernel estimation
• a mathematical function can be used for weightingaccording to the inverse distance
– a suitable bivariate function is selected (kernel), for weighting every known value location, max weight in thecenter, on the edge 0;
– every cell is then visited and the weighted values aresummed up to the location
– bandwidth defines the region for the function; suitablewidth is important, if b is too big the result is flat, it is istoo small too many details
– ”dark” areas when points are clustering
Kernel-tiheysestimointi
• käytetään matemaattista funktiota painotukseen
– valitaan k, 2-ulotteinen tiheysfunktio (kernel, ydin),
jonka avulla pisteet painotetaan, keskipisteessä
paino max, reunalla 0;
– kuljetaan jokaisen pisteen kautta ja summataan
pisteen arvoksi
– bandwidth (ytimen leveys) määrittää alueen, jolle
funktio ulottuu; haettava sopiva leveys, kun b kasvaa
tulos on ”litteä”, kun b on pieni paljon detaljeja
– syntyy ”tummia” alueita kun pisteet klusteroituu
Kernel-menetelmän käyttö (Krisp, 2006)
• Kernel menetelmä
• yksittäisistä
havainnoista
• tiheyspinnaksi
yksittäiset havainnot tiheyspinta
Valittava oikea pikselikoko
Selecting the pixel size
• Laskennansolukoonpäättäminen –pieni solukokovaatii paljonlaskentaa muttatulos on visuaalisestiparempi
• Decision on the pixel size – small pixels require a lot of computation but result is visually better
• (Krisp,2006)a. Solukoko 250 pikseliä b. Solukoko 25 pikseliä
Kernel-säteen valinta (Krisp)
• Mitä suurempi säde sitäyleistetympi esitys
• Pieni säde näyttää enemmänyksityiskohtia
• Kernel-mentelmä on yksinkertainen ja helppokäyttää, mutta oikea käyttövaatii menetelmänkäyttäytymisen ymmärtämistä
• The bigger the radius the moregeneralized the presentation is
• Small radius shows moredetails
• Method is easy to use butinterpretation needs expertice
Visualisointi: aikasarjat• Hirvitiheysaineistoja vuosilta 2001, 2002, 2003
kaksidimensioisina tiheyskarttoina• Väriskaala punaisesta (korkea tiheys), oranssi, keltainen,
vihreään (alhainen tiheys); hirvitiheys = hirveäneliökilometrille
• Tiheyskartat tuottanut Jukka Krisp (TKK) väitöskirjatutkimuksessaan
Moose per km2
Muita visualisointimahdollisuuksia
Korkeuskäyräesitys
TIN-mallin avulla tuotettu
3d-kuvaHirvitiheys
Mathematics behind
• Kernel density estimation is a smoothing method that is based on
a sample of data
• Mathematically Kernel density estimation is actually a non-
parametric method to estimate probability density based on a data
sample
• Kernel density method is a kind of generalization of histogram
• A histogram
– a graphical presentation of the distribution of the data, graph showing the
frequencies of the values at specified intervals
– a histogram can also be seen as a simple kernel density estimation of the
function behind the data
• The naive Kernel density method is based on the so-called naive
estimator based on histogram
• In the spatial case Kernel density estimation is applied in 2d form
• Softwares offer Kernel density estimation function for points and
lines; you can find Kernel in R and in ArcGIS
https://www.wikiwand.com/fi/Histogrammi
Kernel density estimation is non-parametric estimation
method of distribution. Kernel density estimation can be seen
as generalization of histogram.
Kernel menetelmän
matematiikka
• Kernel tiheysmenetelmä on pehmennysmenetelmä, joka
perustuu otokseen
• Voidaan verrata histogrammimenetelmään, jossa esitetään
graafisesti aineiston jakautuminen eri arvoalueille
• Histogrammia voidaan pitää yksinkertaisena Kernel
tiheysestimaattina datan edustamasta funktiosta
• Tämän naiivi estimaattori on myös käyttämämme Kernel
tiheysmenetelmän idea, joten matemaattisesti ajateltuna se on
ei-parametrinen tiheysfunktion estimointimenetelmä
• Spatiaalisissa sovelluksissa Kernel-menetelmää käytetään 2d
muodossa, pistemäisille ja viivamaisille kohteille
• Kernel menetelmä löytyy mm. R-ohjelmistosta ja ArcGIS –
ohjelmistosta
More descriptive spatial statistic tools
Cluster analysis by using distances
• Nearest neighbor
• Distance functions
– G-function
– F-function
– K-function
Muita kuvailevia spatiotilaston työkaluja
Etäisyyksiin perustuvat klusteroinnin
analyysimenetelmät
• Lähin naapuri
• Etäisyysfunktiot
– G-funktio
– F-funktio
– K-funktio
Clustering: nearest neighbours,
G-,F- and K-functions
• analysis of the phenomenon by the
– distances between events
– 1) w = distance between a datapoint and the nearest
neighbour (another datapoint) of it, cumulative, empirical
distribution function G(w), visual analysis and
interpretation
– distances between events and random locations
– 2) x = distance between a randomly selected location and
the nearest datapoint, distribution function F(x), visual
analysis and interpretation
Lähimmät naapurit, G-, F- ja K-
funktiot
• ilmiöiden tutkiminen
– datapisteiden keskinäisten etäisyyksien avulla
– 1) w = etäisyys datapisteen ja sen lähimmän naapurin välillä, lasketaan kumulatiivinen, empiirinen tiheysfunktio G(w), visuaalinen tarkastelu ja tulkinta
– satunnaisen sijainnin ja datapisteen etäisyyksien avulla
– 2) x = etäisyys satunnaisen pisteen ja sen lähimmän naapurin (datapisteen) välillä, tiheysfunktio F(x), visuaalinen tarkastelu ja tulkinta
• by describing the distribution functions in a suitableway clustering or regular/random distribution can beanalysed visually
• if the function climbs very steeply in the early partbefore flattening out; high probability to short nearestneighbour distances that would suggest clustering
• empiirisiä tiheysfunktioita havainnollistamalla sopivalla tavalla, voidaan tulkita klusteroitumista tai tasaista jakautumista
• jos funktio nousee hyvin jyrkkänä ja sitten tasoittuu on aineistossa paljon lyhyitä etäisyyksiä naapuriin => klusteroituminen
(O´Sullivan & Unwin)
Formulas from the text book
G-function
𝐺 𝑑 = 𝑛𝑜. (𝑑𝑚𝑖𝑛 𝑠𝑖 < 𝑑)/𝑛
-distance to the nearest neighbour
F-function
𝐹 𝑑 = 𝑛𝑜. (𝑑𝑚𝑖𝑛 𝒑𝑖 , 𝑆 </𝑚
-minimum distance to a randomly selected point p in
the study region to any event in the point pattern S
Comparing G-function and F-function
• In G-function the cumulative frequency graph is calculated by
making a graph based on the empirical data
• Distances to nearest neighbour are calculated from each point and
the function gets value per each shortest distance; the value tells
for each d what fraction of all nearest neighbour distances are less
than d (see the formula on page 89; O´Sullivan&Unwin)
• In F-function the principle is the same but the nearest neighbour
distances are calculated from random points in the study area (p.
91)
• G-function tells how close together points are
• F-function tells how far from arbitrary location points are
G-funktion ja F-funktion vertailua
• G-funktio kertoo kaikille etäisyyksille d, kuinka monta sellaista
lähintä pisteparia aineistossa on, joiden etäisyys on pienempi kuin
d; määrä ilmaistaan suhteessa koko pisteparimäärään (ks. Kaava
sivulla 89, O´Sullivan&Unwin)
• F-funktio toimii samalla tavalla, mutta etäisyydet lasketaan
jokaiseen pisteeseen satunnaisista pisteistä (s. 91)
• G-funktio kertoo kuinka lähellä toisiaan pisteet ovat
• F-funktio kertoo kuinka kaukana pisteet ovat satunnaisesta
sijainnista
K-function, so-called Ripley´s K-fuction
– In nearest neighbor methods only nearest are studied
– K-function analyses the distribution in bigger area
– Principle:
• Imagine that around each point circles are created at distance d
• Count the number of points in each d and then calculate the average
• Divide the empirical average by the density of points
– 𝐾 𝑑 = σ𝑖=1𝑛 𝑛𝑜. (𝑆 ∈ 𝐶(𝑠𝑖 , 𝑑))/𝑛𝜆
• C in the formula is the area at distance d from point s
• λ is the point density
– K value can be interpreted: clustered or not
– See Fig. O´Sullivan&Unwin, s. 94
– K-function is revisited in next lecture when we look at statistical inference and hypothesis testing in more detail
(O´Sullivan & Unwin)
K-funktio – lähimmän naapurin menetelmän ongelma – tutkitaan vain lähimpiä
– K-funktio ilmaisee spatiaalisen riippuvuuden laajemmalla alueella
– Periaate:
• Ajatellaan, että jokaisen pisteen ympärille on luotu ympyränkaariasäteellä d
• Lasketaan pisteiden lukumäärä jokaisella etäisyydellä ja lasketaansiitä keskiarvo
• Jaetaan keskiarvoluku koko tarkastelualueen pistetiheydellä
• Tämä tehdään jokaisella etäisyydellä
– 𝐾 𝑑 = σ𝑖=1𝑛 𝑛𝑜. (𝑆 ∈ 𝐶(𝑠𝑖 , 𝑑))/𝑛𝜆
• C on kaavassa d-etäisyydellä oleva ympyrä keskipisteenä s
• λ on pistetiheys koko alueella
– K:n arvo kertoo klusteroituneen tai säännöllisen tapauksen
– Ks. kuva O´Sullivan&Unwin, s. 94
Comparing the distribution of two phenomena
– two point patterns(O´Sullivan, Unwin, pp. 123…)
• for example pollution and diseases
• the distances of points in two point sets are analysed by using K-function
– randomness of the distances
• the simple test:
– calculate K-function for both point patterns and interpret theresult
Kahden ilmiön – kahden pistekuvion vertailu(O´Sullivan, Unwin, pp. 123…)
• esim. sairaustapaukset ja ympäristöhaitat
• tutkitaan kahden pistejoukon pisteiden välisiä etäisyyksiä K-funktion avulla
– tutkitaan ovatko etäisyydet satunnaisia
• yksinkertaisin testi:
– lasketaan K-funktio kummallekin aineistolle ja tulkitaan
Applying G-function for spatial
dependency of two datasets
• G-function can be applied for two datasets
• The distances are calculated from each point on layer 1 to the nearest
point on layer 2
• Otherwise the methods is used as for one data set
• Spatenkova used this in her doctoral thesis work
G-funktio kahden datasetin välisen
riippuvuuden tutkimiseen
• Lasketaan etäisyydet jokaisesta tason 1 pisteestä lähimpään
naapuriin tasolla 2
• Muutoin käytetään G-funktiota kuten yhdelle aineistolle
• Spatenkova käytti tätä väitöskirjatutkimuksessaan
Reading material
• O´Sullivan & Unwin: Geographic Information Analysis, Chapters:1, 4.1-4.4
– There are newer versions of the book but references made in the slides to the 2003 edition
• Very good reading material on spatial analysis for example in
https://mgimond.github.io/Spatial/point-pattern-analysis.html
What happens in tomorrow´s exercises• Using ArcGISPro software
• You may also use for example QGIS if you want, but guidelines are
only for ArcGISPro
• Because computer classes are not available, you have to use your
own computer (detailed guidelines in exercises)
– 1)download ArcGISPro to your own computer (Windows environment, VPN on)
– 2) use ArcGISPro by remote access
• 1. Use of Moran´s I for autocorrelation identification
• 2. Use of ANN (average nearest neighbour) for identification of
clustering
• 3. Use of (Ripley´s) K-function for identifying clustering
• Note: in this lecture G-, F-, and K-functions are used by utilizing cumulative
frequency graph and visual interpretation, these methods can be used in more
exact way by using hypothesis of CSR
Average nearest neighbour –
Nearest neighbour analysis
• Distances from each point to the nearest neighbour
point is calculated and the mean of them is calculated
• The expected mean distance – in the case of random
distribution of points – is calculated
– Based on the CSR (complete spatial randomness) assumptions
• The ratio between the empirical average mean and the
expected mean is calculated
– If the ratio is <1 then the patterns is towards clustering
– If the ratio is >1 then the pattern is towards dispersion
• See for example:
http://ceadserv1.nku.edu/longa//geomed/ppa/doc/NNA/NNA.htm
Average nearest neighbour –
Lähimmän naapurin analyysi
• Lasketaan etäisyys jokaisesta pisteestä sen lähimpään
naapuriin ja niistä keskiarvo
• Lasketaan lähimmän etäisyyden odotusarvojen
keskiarvo – täydellisen satunnaisuuden tapauksessa
– perustuu CSR (complete spatial randomness) oletukseen
– pisteiden määrä ja tarkasteltava alue tunnetaan
• Empiirisen keskiarvon ja oletuskeskiarvon suhde
– jos <1 pistekuvio klusteroituva
– jos >1 pistekuvio
• Katso esimerkiksi:
http://ceadserv1.nku.edu/longa//geomed/ppa/doc/NNA/NNA.htm
Ripley´s K-function
• K-function as presented in the lecture