Gesestadistica aplicada

Using Spatial Statistics - Geostatistics. Practical Case: Determination of

the volume of a rock layer

Usando Estadística Espacial - Geostadística. Caso práctico:

Determinación del volumen de una capa rocosa

Juan-Carlos Soto-Orjuela 1

Especialización Sistemas de Información Geográfica.

Facultad de Ingeniería. Universidad Distrital Francisco José de Caldas.

Bogotá. Colombia

Abstract

In the study of the potential existence of resources or contaminants (water, minerals,

hydrocarbons, heavy elements etc.) within a rock layer, an important aspect is the

determination of the volume of resources or potential contaminants contained within it; that

is why it is necessary and helpful to know the volume of the stratum, which would facilitate

calculations define the volumes of the different elements or compounds present its interior.

Geostatistics, in its linear branch allows interpolation of data that help to generate surface

models (similar to the digital elevation model, DEM, for its acronym in English), which in

turn are able to define both the base surface, such as the top surface layer, which serves as

an indicator of a rocky strata; and with this information you can calculate the volume of the

space between the surfaces, representing the volume of the stratum in the study area. For

the development of the proposed methodology, the data associated with an area of

approximately 14 km2 located in the fictional country of Jurasicland were used. Software

development was done entirely using language R.

Key words: Spatial statistics, Geostatistics, DEM, ordinary kriging, geostatistics process

Resumen

En el estudio del potencial de existencia de recursos o contaminantes (agua, minerales,

hidrocarburos, elementos pesados como entre otros) dentro de un estrato rocoso, un aspecto

importante es la determinación del volumen de los posibles recursos contenidos al interior

del mismo; es por ello que se hace necesario y de gran ayuda el poder conocer el volumen

del estrato, lo cual facilitaría delimitar los cálculos de los volúmenes de los diferentes

elementos o compuestos presentes a su interior. La geostadística, en su rama lineal, permite

hacer interpolación de datos que ayudan a la generación de modelos de superficies

(similares a los modelos digitales de elevación, DEM, por sus siglas en ingles), los cuales a

1 Ingeniero de Sistemas y Geólogo Universidad Nacional de Colombia- Sede Bogotá. Colombia. Email:

[email protected]

su vez están en capacidad de definir tanto la superficie base, como la superficie tope del

estrato, lo cual sirve como delimitadores de un estrato rocoso; ya con esta información es

posible calcular el volumen del espacio entre las superficies, lo que representaría el

volumen del estrato en el área de estudio. Para el desarrollo de la metodología propuesta, se

usaron los datos asociados a un área de aproximadamente 14 km2 ubicados en el ficticio

país de Jurasicland. El desarrollo de software se hizo usando enteramente el lenguaje R.

Palabras claves: Estadística espacial, Geostadística, DEM, kriging ordinario, proceso

geostadístico

Introducción

A lo largo de los años se ha venido hablando de la estadística espacial (EE) para el análisis

de datos con componente espacial, es decir asociado a una ubicación en el espacio; dentro

de la EE se pueden distinguir el análisis de patrones puntuales, áreas y la geostadística

(Rivoirard, Jacques, 1995) con sus variantes geostadística lineal, no lineal, no estacionaria,

multivariada, etc. Cada una de las ramas antes mencionadas de la EE está desarrollada en

aras de ofrecer herramientas que permitan el análisis de las diferentes situaciones que se

puedan presentar con este tipo de datos. Para nuestro caso se hace uso de la llamada

geostadística lineal, que permite generar predicciones de valores en sitios no muestreados

siempre y cuando los datos asociados a la variable a medir presenten autocorrelación

espacial (Cely Pulido, John William, Siabato Vaca, Willington Libardo, Sanchez Ipia,

Alber Hamersson, & Rangel Sotter, Adriana Patricia, 2002), (Cressie, Noel, 1993), (Isaaks,

E. H. & Srivastava, R. M., 1989) y (Armstrong, Margaret, 1998)

La geostadística lineal tiene un gran campo de acción en áreas como la geología (área

donde se hicieron los primeros estudios, de ahí su prefijo GEO) (Davis, John C., 2002),

medio ambiente, ingeniería, ciencias sociales, agricultura de precisión, entre otras. En

aspectos como el análisis de contaminación de suelos, su uso ha sido muy intensivo, como

en los estudios realizados en la región del Jura suizo en la década de los 90’s según se

observa en (Atteia, Thelin, Pfeifer, Dubois, & Hunziker, 1995), (Atteia et al., 1995)(Atteia,

Dubois, & Webster, 1994) y (Webster, R., Atteia, O., & Dubois, J. P., 1994) y (Goovaerts,

Pierre, 1997), publicación que ha sido referente de cientos de artículos relacionados con la

geostadística lineal. En este tipo de geoestadistica, los algoritmos definidos para realizar la

predicción de valores trabajan de una manera más precisa cuanto más normalizados, en su

distribución, estén los datos origen, es decir si los datos origen no están normalizados se

debe procurar que lo estén, usando para ello técnicas probadas de transformación (Roberts,

Seth, 2008), se desarrolla el proceso y finalmente se reversa dicha transformación para

obtener los datos finales.

Con el presente trabajo se muestra el llamado Proceso Geoestadístico (PG), usando el

kriging como mecanismo de predicción y adicionalmente la estrategia usada para calcular

el volumen entre las dos superficies.

Métodos

El PG, mostrado de manera resumida en la Figura 1, empieza por la estandarización de los

datos con relación a su almacenamiento, sigue con el análisis exploratorio de datos, usando

para ello tanto la estadística clásica como la espacial, generando indicadores de factibilidad

de uso de la geostadística para analizar los datos origen, si se hace necesario los datos se

transforman para garantizar una distribución normal de los mismo. Si los de indicadores

muestran que si es posible el uso de la geostadística, se genera el variograma empírico o

experimental, a partir del cual se escoge una distancia o “lag” que muestre el

comportamiento “más estable” de los datos . A continuación se hace una comparación del

variograma empírico vs los variogramas teóricos para determinar cuál es la mejor o mejores

representaciones teóricas de los datos objeto de estudio; de los variogramas teóricos y sus

parámetros definidos, se escoge mediante un proceso de validación de los modelos el que

mejor represente los datos de entrada, aquel que presente el menor error en su

aproximación; con ese modelo teórico seleccionado y los parámetros que lo definen, se

procede a genera la predicción de valores usando para ello el kriging. Los valores obtenidos

se plasman en mapas de predicción, los cuales son objeto de análisis posterior.

Figura 1 Proceso Geostadístico (Resumen)

El desarrollo del software se realizado usando para ello el lenguaje R, ya que ofrece una

gran cantidad de librerías de fácil acceso y uso asociadas a la problemática que se pretendía

solucionar. El único inconveniente con el uso de este lenguaje, por la carencia de un buen

conjunto de herramientas que permitan desarrollar componentes GUI, es que exige de su

usuario un grado de conocimiento en áreas de la programación necesario para entender su

funcionamiento y lógica en el desarrollo de los algoritmos necesarios para dar respuesta a

los requerimientos planteados. Cabe notar que existen en la actualidad diferentes

mecanismos como librerías que permiten el uso del R desde ambientes Oracle y

PostGreSQL, incluyendo dentro de esos motores la posibilidad de usar código R como

parte de sus funciones básicas; permitiendo hacer uso del potencial proporcionado por

herramientas como php, java y python para el desarrollo de componentes GUI adecuados.

Los diferentes componentes del desarrollo planteado se muestran en la Figura 2.

Figura 2 Componentes del software desarrollado

En el desarrollo del método del cálculo del volumen entre las dos superficies se tomaron

como base ejemplos dados por la misma naturaleza. Como se parte del supuesto de que las

superficies no son homogéneas, ni tienen una forma estándar, se usó para ello la forma en

que la naturaleza ocupa espacios siguiendo dos ejemplos, las colmenas y los basaltos

columnares, representaciones del cómo se puede ocupar un espacio con estructuras estándar

y aprovechando al máximo el espacio, ejemplos se pueden observar en las Figuras 3, 4, 5 y

6.

Para hacer el cálculo del volumen de espacio entre las superficies, se parte de los siguientes

supuestos:

- Valores predecidos se hallan a intervalos regulares, lo que permite definir medidas

iguales para todos espacios entre puntos, valor que se usara como parámetro de

entrada

- La ubicación de los puntos en ambas superficies, espacialmente hablando es la

misma, lo que hace que los cálculos asociados al volumen a determinar, se hagan

sobre cuerpos rígidos rectos.

- A mayor cantidad de puntos generados por la predicción, mejor la exactitud

En el desarrollo del software, para reducir al máximo la interacción entre el usuario y la

aplicación, se recurrió a estudiar en detalle el manejo de estructuras de datos por parte del

Lenguaje R como se puede apreciar en (Ergul, Oxgur, 2013), (Jones, Owen, Maillardet,

Robert, & Robinson, Andrew, 2009), (Plant, Richard, 2012), (Sartore, Luca, 2013), (Bivan,

R. S., Pebesma, E. J., & Rubio, V. G., 2008), (Maindonald, John & Braun, W. John, 2010),

(Murrell, Paul, 2006), (Adler, Daniel & Murdoch,, Duncan, 2012) y así poder realizar la

tarea de la mejor forma. De esa manera se generan directamente desde el aplicativo

archivos con las gráficas, los datos, raster y demás información necesaria, al igual que

escogencia de modelos y paso de parámetros de acuerdo a los valores producidos,

limitando la interacción del usuario a la selección y adecuación de parámetros durante la

comparación de los variogramas teóricos con el variograma empírico obtenido a partir de

los datos de entrada.

Resultados

Revisando los datos usados para la simulación, se puede observar que son apropiados para

la aplicación del PG, distribución normal, autocorrelación positiva y la no existencia de

datos atipicos. Las gráficas asociadas a los datos básicos se pueden observar en la Figura 7.

Para la aplicación del kriging se usó un conjunto de 10000 puntos, lo que da un tamaño de

celda de 39.06578 metros por cada lado, dado lo regular de la distribución de los puntos.

Para decidir qué modelo de variograma se usaría en la realización de la predicción, se

decidió entre los seleccionados “a ojo” o “por sentimiento” mediante el uso de la

herramienta eyefit, provista por el lenguaje R, datos contenidos en las Tablas 1 y 3; más el

ajuste hecho por la herramienta variofit, que acomoda más apropiadamente los modelos

escogidos, modificando en algunos casos, los parámetros iniciales, datos contenidos en las

Tablas 2 y 4; en esas mismas tablas se muestra en un resaltado en amarillo el modelo con la

mejor aproximación al comportamiento de los datos originales, acorde al valor del error

asociado a cada modelo y método de ajuste.

Figura 3 Basaltos columnares (tomado de:

http://www.zmescience.com/other/great-pics/geopicture-

columnar-basalt-06112012)

Figura 4 Basaltos columnares (tomado de :

http://cdn.zmescience.com/wp-

content/uploads/2012/11/basalt6.jpg)

Figura 5 Colmena (tomado de :

http://www.neatorama.com/2013/05/15/The-Honeycomb-

Conjecture/)

Figura 6 Colmena (tomado de :

http://hdwallsource.com/cool-honeycomb-wallpaper-25833.html)

Los mapas de predicción generados, mostrados en las Figuras 14 y 15 para la base y el tope

respectivamente, muestran distribuciones semejantes, esto debido a que el espesor

promedio de la capa revisada es de 40 metros, casi constantes para el área de estudio de

13.21672 Km2.

La Figura 16 muestra las dos superficies generadas usando la metodología propuesta. Para

efecto de visualizar mejor las superficies, los valores del relieve se exageraron.

El volumen del espacio entre las dos superficies obtenido es de 528’932.948 m3

Figura 7 Datos básicos para Tope y Base

Tabla 1 Tope: Variogramas teóricos seleccionados "a ojo"

Tipo de

variograma Meseta

Rango Pepita

spherical 983.53 2.73 1815.75

exponential 1361.81 0.73 1513.13

cov.model

sigmasq phi tausq

Tabla 2 Tope: Variogramas teóricos ajustados

vModelo vMetodo vPeso vPepita vMeseta vRango vBeta vError

exponential OLS equal 1726.65394 1029.10363 0.66668262 NA 0.069011992

exponential WLS npairs 1753.50138 995.353082 0.67472222 NA 0.059745276

exponential WLS cressie 1710.49129 1031.20586 0.62977402 NA 0.070964593

exponential ML NA 1981.68835 655.348612 0.87453097 192.953514 0.004989219

exponential RML NA 2034.80184 901.494634 1.82094276 193.467286 0.005150728

spherical OLS equal 1762.45711 917.627129 1.30939022 NA 0.082681483

spherical WLS npairs 1720.00541 947.463119 1.2391548 NA 0.097887565

spherical WLS cressie 1733.75455 937.164722 1.25597801 NA 0.092200761

spherical ML NA 2073.08843 712.828466 3.11167923 193.385382 0.012250075

spherical RML NA 2079.88231 1150.0879 5.26897183 194.609765 0.006803781

Tabla 3 Base: Variogramas teóricos seleccionados "a ojo"

Tipo de

variograma Meseta Rango Pepita

spherical 756.56 1.17 1891.41

exponential 1210.5 0.9615 1664.44

cov.model sigmasq phi tausq

Tabla 4 Base: Variogramas teóricos ajustados

vModelo vMetodo vPeso vPepita vMeseta vRango vBeta vError

exponential OLS equal 1726.65366 1029.10396 0.66668256 NA 0.069012094

exponential WLS npairs 1753.50295 995.351766 0.67472343 NA 0.059744786

exponential WLS cressie 1710.4914 1031.20568 0.62977399 NA 0.070964549

exponential ML NA 1981.69258 655.345064 0.87454859 152.953535 0.004989183

exponential RML NA 2034.83207 901.575867 1.82150245 153.467583 0.005147656

spherical OLS equal 1762.45577 917.628598 1.30938796 NA 0.082681851

spherical WLS npairs 1722.73396 944.704599 1.24079244 NA 0.096720265

spherical WLS cressie 1733.75427 937.164606 1.25597662 NA 0.092200846

spherical ML NA 2073.0857 712.842403 3.11168521 153.385368 0.012248876

spherical RML NA 2062.21978 808.173339 3.16543291 153.27998 0.005164695

Figura 8 Tope: Variograma experimental a diferentes "lags"

Figura 9 Base: Variograma experimental a diferentes "lags"

Figura 10 Tope: Ajuste modelo teórico por error mínimo

Figura 11 Tope: Ajuste modelo teórico "por sentimiento"

Figura 12 Base: Ajuste modelo teórico por error

mínimo

Figura 13 Base: Ajuste modelo teórico "por

sentimiento"

La Tabla 6, muestra un resumen de datos usados y obtenidos por la aplicación desarrollada,

mediante el uso del PG y el cálculo del volumen entre las superficies producidas.

El código fuente de la aplicación desarrollada, puede ser obtenido via GitHub (jcsotoo)

PENDIENTE

Figura 14 Predicción de valores para la Base

Figura 15 Predicción de valores para el

Tope

Figura 16 Superficies generadas vistas desde diferente ángulo.

Tabla 5 Variogramas ajustados, por error mínimo y "por sentimiento"

Variable Método de

ajuste vModelo vPepita vMeseta vRango

Tope Error minimo exponential 1981.68835 655.348612 0.87453097

Por Sentimiento exponential 1740.1 983.53 0.47

Base Error minimo exponential 1981.69258 655.345064 0.87454859

Por sentimiento exponential 1740.1 983.53 0.55

Tabla 6 Resumen de datos de entrada y datos obtenidos

Descripción Valor

Número de puntos muestra original 359

Número de puntos para la predicción 10000

Vecindad (“lag”) usada (Km) 3

Método de ajuste de variograma teórico Error Mínimo Tamaño de la celda producida (metros) por lado 39.06578

Área de estudio (Km2) 13.21672 Volumen resultante (m3) 528932948

Discusión o conclusiones

- El cálculo de superficies y por ende de volúmenes entre ellas, es una herramienta que

permite a la geostadística lineal ser partícipe de los proyectos donde este tipo de

información es necesaria, por ejemplo en el cálculo de reservas de minerales como

oro, plata, hidrocarburos, acuíferos y contaminación de suelos, material para

construcción, entre otros.

- La calidad de los valores predichos están en relación directa con el número de puntos

usados para su generación, es decir a mayor cantidad de puntos de muestreo, mejor

calidad en las predicciones obtenidas. Esta premisa hace que se pretenda tener un

número elevado de muestras, pero no siempre se tiene esa posibilidad por los costos

de obtener dicha información, por eso se hace necesario el uso de técnicas alternas

combinación de ellas,(Pyrcz, Michael J. & Deutsch, Clayton V., 2014).

- La geostadística lineal es una herramienta a tener presente para la generación de

DEM, a partir de un conjunto de puntos de muestreo.

- En la geostadística lineal, si bien es cierto que la selección del modelo teórico y su

ajuste se hace mediante el cálculo del mínimo error de ajuste, una selección “por

sentimiento” o “a ojo” puede ser válida, las Figuras 10 y 11 muestran los modelos

obtenidos tanto por el error mínimo como por sentimiento para la variable Tope y las

Figuras 12 y 13 para la variable Base; igualmente la Tabla 5, muestra los valores

ajustados asociados a cada variable.

- La existencia de software libre, como el lenguaje R, permite disponer de

herramientas rápidas, confiables para hacer uso de herramientas como la

geostadística lineal.

- El lenguaje R es una herramienta con un crecimiento notable en los últimos años, asi

como la tendencia de ese crecimiento ha provocado que ya existan en el medio

manejadores de bases de datos, como Oracle que ofrezcan a sus clientes versiones

con R incluido, Oracle-R Enterprise o postgreSQL, para el cual se disponen de

librerías para usar R dentro de los desarrollos, como funciones básicas del lenguaje

de programación procedimental del que dispone postgreSQL.

Bibliografía

Adler, Daniel, & Murdoch,, Duncan. (2012). rgl: 3D visualization device system

(OpenGL). Retrieved from http://CRAN.R-project.org/package=rgl

Armstrong, Margaret. (1998). Basic Linear Geostatistics. Springer.

Atteia, O., Dubois, J. P., & Webster, R. (1994). Geostatistical analysis of soil

contamination in the Swiss Jura. Environment Pollution, 86, 315–327.

Atteia, O., Thelin, P., Pfeifer, H. R., Dubois, J. P., & Hunziker, J. C. (1995). A search for

the origin of cadmium in the soil of the Swiss Jura. Geoderma, 68(3), 149–172.

Bivan, R. S., Pebesma, E. J., & Rubio, V. G. (2008). Applied spatial data: analysis with R.

Springer.

Cely Pulido, John William, Siabato Vaca, Willington Libardo, Sanchez Ipia, Alber

Hamersson, & Rangel Sotter, Adriana Patricia. (2002). Geoestadistica aplicada a

estudios de contaminacion ambiental. Ingenieria. Facultad de Ingenieria

Universidad Distrital Francisco Jose de Caldas, Vol7, Num 2, 31–38.

Cressie, Noel. (1993). Statistics for Spatial Data. John Wiley & Sons, INC.

Davis, John C. (2002). Statistics and data analysis in Geology (3rd ed.). John Wiley &

Sons, Inc.

Goovaerts, Pierre. (1997). Geostatistics for Natural Resources Evaluation. Oxford Univ.

Press, New-York.

Isaaks, E. H., & Srivastava, R. M. (1989). Applied geostatistics. Oxford University Press.

Jones, Owen, Maillardet, Robert, & Robinson, Andrew. (2009). Introduction to Scientific

Programming and Simulation using R. CRC Press. Taylor & Francis Group.

Maindonald, John, & Braun, W. John. (2010). Data analysis and Graphics using R (3rd

ed.). Cambridge. University Press.

Murrell, Paul. (2006). R Graphics. Chapman & Hall/CRC.

Plant, Richard. (2012). Spatial data analysis in ecology and agriculture using R. CRC

Press. Taylor & Francis Group.

Pyrcz, Michael J., & Deutsch, Clayton V. (2014). Geostatistical Reservoir Modeling (2nd

ed.). Oxford University Press.

Rivoirard, Jacques. (1995). Concepts and Methods of Geostatistics. C-158. Centre de

G´eostatistique, Ecole des Mines de Paris.

Roberts, Seth. (2008). Transform your data. Nutrition, 24, 492–494.

Sartore, Luca. (2013). spMC:Modelling Spatial Random Fields with continuous lag

Markov chains. The R Journal, 5/2, 16–28.

Webster, R., Atteia, O., & Dubois, J. P. (1994). Coregionalization of trace metals in the soil

in the Swiss Jura. European Journal of Soil Science, 45, 205–218.

Documents

Gesestadistica aplicada