22
1 Intro a Spatial Data Science con R Alí Santacruz amsantac.co JULIO 2016

Spatial Data Science con R

Embed Size (px)

Citation preview

Page 1: Spatial Data Science con R

1

Intro a Spatial Data Science con R

Alí Santacruzamsantac.co

JULIO 2016

Page 2: Spatial Data Science con R

2

Acerca de mí

• Geomático con background ambiental

• R geek

• Candidato a PhD en Geografía

• Interesado en Spatial Data Science

• Autor de paquetes de R (disponibles en CRAN)

Page 3: Spatial Data Science con R

3

Objetivo de esta charla

• Discutir qué es Spatial Data Science

• Presentar de manera introductoria cómo realizar Spatial Data Science con R

Page 4: Spatial Data Science con R

4

Qué es Spatial Data Science?

Spatial Data Scientist (n.):

Estadístico Experto SIG/RSDesarrollador SIG

Ingeniero de software

Spatial Data Scientist

Spatial Data Science

Data Science

Spatial

Persona que es mejor en análisis de datos espaciales que un desarrollador SIG y mejor en ingeniería de software que un experto SIG/RS

Page 5: Spatial Data Science con R

5

Spatial Data Science

Se combinan para el análisis de datos con el fin de …

Apoyar una mejor toma de decisiones

"The key word in data science is not data; it is science" Jeff Leek. Coursera.

Page 6: Spatial Data Science con R

6

Spatial Data

Scientist

Adaptado de gettingsmart.com

Page 7: Spatial Data Science con R

7

Habilidades computacionales

• Programación: Python y R (entre otros)

http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.html

Page 8: Spatial Data Science con R

8

Por qué usar R?

• Libre, de código abierto y gratuito

• Un conjunto de paquetes (> 8600) comprehensivo• Acceso a los datos

• Data cleaning

• Análisis

• Visualización y creación de reportes

• Excelentes ambientes de desarrollo – RStudio IDE

• Una comunidad activa y amigable de desarrolladores

• Una extensa comunidad de usuarios: > 2 millones

Page 9: Spatial Data Science con R

9

Por qué usar R para análisis espacial

• 160+ paquetes en CRAN Task View: Analysis of Spatial Data

• Clases para datos espaciales (y espacio-temporales)

• Importación y exportación de datos

• Análisis exploratorio de datos espaciales

• Soporte para operaciones en vector y raster

• Estadística espacial

• Visualización en gráficos estáticos o interactivos (web)

• Integración con software SIG

• Integración con técnicas de análisis de paquetes ‘no-espaciales’ usualmente sencilla

Page 10: Spatial Data Science con R

10

Clases de R para datos espaciales

• Antes de 2003:• Varios paquetes para datos espaciales con diferentes supuestos sobre cómo los

datos espaciales estaban organizados

• En 2003:• Paquete ‘sp’: extiende R con clases y métodos para datos espaciales (vector y

raster)

• En 2010:• Paquete ‘raster’: maneja datos raster almacenados en disco demasiado grandes

como para ser cargados en la memoria (RAM)

Page 11: Spatial Data Science con R

11

Clases de R para datos espaciales

SpatialPointsDataFrame SpatialLinesDataFrame SpatialPolygonsDataFrame

SpatialPixelsDataFrame

SpatialGridDataFrame

Paquete sp

RasterLayerRasterStackRasterBrick

Paquete raster (preferido)

Page 12: Spatial Data Science con R

12

The Data Science Process

Adaptado de science2knowledge

Rep

rod

uci

bilit

y

Page 13: Spatial Data Science con R

13MODELARlos datos

MODELARlos datos

EXPLORARlos datos

EXPLORARlos datos

PREPARAR los datos

PREPARAR los datos

• Es esto A o B o C? :: clasificación

• Es esto extraño? :: detección de anomalías

• Cuánto/qué tanto? :: regresión

• Cómo está organizado? :: clustering

• Cómo cambiará? :: predicción

"The key word in data science is not data; it is science" Jeff Leek. Coursera.

OBTENER los datosOBTENER los datos

Domain expertise

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultadosCOMUNICAR

resultados

Page 14: Spatial Data Science con R

14

• Importar capas vector: paquetes rgdal, raster

• Importar capas raster: paquete raster

• Obtener datos georreferenciados mediante APIs: paquete twitteR, ver ejemplo

• Descargar imágenes satelitales/información geográfica: paquete raster, modis, MODISTools

MODELARlos datos

MODELARlos datos

EXPLORARlos datos

EXPLORARlos datos

PREPARAR los datos

PREPARAR los datos

OBTENER los datos

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultadosCOMUNICAR

resultados

Para esta diapositiva y las siguientes ver el código y ejemplos en esta página

Page 15: Spatial Data Science con R

15

• Data cleaning, subset, etc.

• Manipular datos con “verbos” del paquete dplyr y otros del Hadley-verse

• Subset espacial (paquetes sp, raster)

• Operaciones en vector:

• Operaciones en tabla de atributos (paquete sp)

• Superposición: unión, intersección, clip, extracción de valores de raster en puntos (paquetes raster, rgeos)

• Dissolve (paquetes sp, rgeos), buffer (paquete rgeos)

• Rasterización (paquete raster)

• Operaciones en raster:

• Álgebra de mapas, filtros espaciales, remuestreo, … (paquete raster)

• Vectorización (paquetes rgdal, raster)

MODELARlos datos

MODELARlos datos

EXPLORARlos datos

EXPLORARlos datos

PREPARAR los datos

OBTENER los datosOBTENER los datos

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultadosCOMUNICAR

resultados

Para diapositivas 14 a 18 ver el código y ejemplos en esta página

Page 16: Spatial Data Science con R

16MODELARlos datos

MODELARlos datos

EXPLORARlos datos

PREPARAR los datos

PREPARAR los datos

OBTENER los datosOBTENER los datos

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultadosCOMUNICAR

resultados

Para diapositivas 14 a 18 ver el código y ejemplos en esta página

• Estadísticos descriptivos: medidas de tendencia central y de dispersión

• Gráficos exploratorios (2D y 3D): scatterplot, boxplot, histograma, …

• Autocorrelación espacial:

• Medidas globales de autocorrelación espacial: I de Moran, C de Geary, G(d) de Getis y Ord (paquete spdep)

• Medidas locales de autocorrelación espacial: estadístico local Ii de Moran, Gi y Gi*(d) de Getis y Ord (paquete spdep)

Page 17: Spatial Data Science con R

17MODELARlos datos

EXPLORARlos datos

EXPLORARlos datos

PREPARAR los datos

PREPARAR los datos

OBTENER los datosOBTENER los datos

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultadosCOMUNICAR

resultados

Para diapositivas 14 a 18 ver el código y ejemplos en esta página

• Regresión:

• Modelos espaciales autoregresivos (paquete spdep)

• Regresión ponderada geográficamente (paquete spgwr)

• Clasificación (Machine Learning):

• Supervisada: RandomForests, SVM, boosting, … (paquete caret)

• No supervisada: k-means clustering (paquete stats)

• Estadística espacial:

• Geoestadística (paquetes gstat, geoR, geospt, …)

• Patrones de puntos espaciales (paquete spatstat)

Page 18: Spatial Data Science con R

18MODELARlos datos

MODELARlos datos

EXPLORARlos datos

EXPLORARlos datos

PREPARAR los datos

PREPARAR los datos

OBTENER los datosOBTENER los datos

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

PLANTEAR la pregunta correcta

COMUNICARlos resultados

Para diapositivas 14 a 18 ver el código y ejemplos en esta página

• Mapas temáticos estáticos o interactivos: paquetes tmap, leaflet, mapview

• Gráficos interactivos, aplicaciones web y dashboards:

• paquetes plotly (ejemplo), rcharts, googleVis (ejemplo)

• paquete shiny, ver ejemplo

• paquete flexdashboard, ver ejemplo

Page 19: Spatial Data Science con R

19

No olvides: Reproducibilidad!

• El código de R y los resultados de ejemplos presentados (diapositivas 17-21) pueden ser reproducidos a partir de este documento .Rmd usando RMarkdown

• Mira este ejemplo sobre análisis espaciales reproducibles usando notebooks interactivos

• Conoce más sobre reproducibilidad en análisis geoespaciales

Page 20: Spatial Data Science con R

20

Integración de R con software SIG

• QGIS: ver ejemplo en este post

• ArcGIS: paquete arcgisbinding, ver ejemplo en este post

• GRASS GIS: versión 6, paquete spgrass6; versión 7, paquete rgrass7

• gvSIG: más info en este post

• SAGA: paquete RSAGA

• GME (Geospatial Modelling Environment): más info en esta página

Page 21: Spatial Data Science con R

21

Referencias / Dónde aprender más

• Bivand, R., Pebesma, E., Gómez-Rubio, V. 2013. Applied Spatial Data Analysis with R. New York: Springer. 2nd ed.

• R-SIG-Geo mailing list

• CRAN Task View: Analysis of Spatial Data

• Grupos en Facebook: GIS with R, R project en Español

• Grupos en G+: Statistics and R, R Programming for Data Analysis

• Mi blog: amsantac.co/es/blog.html

Page 22: Spatial Data Science con R

Si tienes alguna pregunta puedes contactarme en:

amsantac.co/es/contact.html

Gracias!