Upload
juan-carlos-soto-orjuela
View
26
Download
3
Tags:
Embed Size (px)
DESCRIPTION
Ejemplo del uso de la geoestadistica en la geologia
Citation preview
Using Spatial Statistics - Geostatistics. Practical Case: Determination of
the volume of a rock layer
Usando Estadística Espacial - Geostadística. Caso práctico:
Determinación del volumen de una capa rocosa
Juan-Carlos Soto-Orjuela 1
Especialización Sistemas de Información Geográfica.
Facultad de Ingeniería. Universidad Distrital Francisco José de Caldas.
Bogotá. Colombia
Abstract
In the study of the potential existence of resources or contaminants (water, minerals,
hydrocarbons, heavy elements etc.) within a rock layer, an important aspect is the
determination of the volume of resources or potential contaminants contained within it; that
is why it is necessary and helpful to know the volume of the stratum, which would facilitate
calculations define the volumes of the different elements or compounds present its interior.
Geostatistics, in its linear branch allows interpolation of data that help to generate surface
models (similar to the digital elevation model, DEM, for its acronym in English), which in
turn are able to define both the base surface, such as the top surface layer, which serves as
an indicator of a rocky strata; and with this information you can calculate the volume of the
space between the surfaces, representing the volume of the stratum in the study area. For
the development of the proposed methodology, the data associated with an area of
approximately 14 km2 located in the fictional country of Jurasicland were used. Software
development was done entirely using language R.
Key words: Spatial statistics, Geostatistics, DEM, ordinary kriging, geostatistics process
Resumen
En el estudio del potencial de existencia de recursos o contaminantes (agua, minerales,
hidrocarburos, elementos pesados como entre otros) dentro de un estrato rocoso, un aspecto
importante es la determinación del volumen de los posibles recursos contenidos al interior
del mismo; es por ello que se hace necesario y de gran ayuda el poder conocer el volumen
del estrato, lo cual facilitaría delimitar los cálculos de los volúmenes de los diferentes
elementos o compuestos presentes a su interior. La geostadística, en su rama lineal, permite
hacer interpolación de datos que ayudan a la generación de modelos de superficies
(similares a los modelos digitales de elevación, DEM, por sus siglas en ingles), los cuales a
1 Ingeniero de Sistemas y Geólogo Universidad Nacional de Colombia- Sede Bogotá. Colombia. Email:
su vez están en capacidad de definir tanto la superficie base, como la superficie tope del
estrato, lo cual sirve como delimitadores de un estrato rocoso; ya con esta información es
posible calcular el volumen del espacio entre las superficies, lo que representaría el
volumen del estrato en el área de estudio. Para el desarrollo de la metodología propuesta, se
usaron los datos asociados a un área de aproximadamente 14 km2 ubicados en el ficticio
país de Jurasicland. El desarrollo de software se hizo usando enteramente el lenguaje R.
Palabras claves: Estadística espacial, Geostadística, DEM, kriging ordinario, proceso
geostadístico
Introducción
A lo largo de los años se ha venido hablando de la estadística espacial (EE) para el análisis
de datos con componente espacial, es decir asociado a una ubicación en el espacio; dentro
de la EE se pueden distinguir el análisis de patrones puntuales, áreas y la geostadística
(Rivoirard, Jacques, 1995) con sus variantes geostadística lineal, no lineal, no estacionaria,
multivariada, etc. Cada una de las ramas antes mencionadas de la EE está desarrollada en
aras de ofrecer herramientas que permitan el análisis de las diferentes situaciones que se
puedan presentar con este tipo de datos. Para nuestro caso se hace uso de la llamada
geostadística lineal, que permite generar predicciones de valores en sitios no muestreados
siempre y cuando los datos asociados a la variable a medir presenten autocorrelación
espacial (Cely Pulido, John William, Siabato Vaca, Willington Libardo, Sanchez Ipia,
Alber Hamersson, & Rangel Sotter, Adriana Patricia, 2002), (Cressie, Noel, 1993), (Isaaks,
E. H. & Srivastava, R. M., 1989) y (Armstrong, Margaret, 1998)
La geostadística lineal tiene un gran campo de acción en áreas como la geología (área
donde se hicieron los primeros estudios, de ahí su prefijo GEO) (Davis, John C., 2002),
medio ambiente, ingeniería, ciencias sociales, agricultura de precisión, entre otras. En
aspectos como el análisis de contaminación de suelos, su uso ha sido muy intensivo, como
en los estudios realizados en la región del Jura suizo en la década de los 90’s según se
observa en (Atteia, Thelin, Pfeifer, Dubois, & Hunziker, 1995), (Atteia et al., 1995)(Atteia,
Dubois, & Webster, 1994) y (Webster, R., Atteia, O., & Dubois, J. P., 1994) y (Goovaerts,
Pierre, 1997), publicación que ha sido referente de cientos de artículos relacionados con la
geostadística lineal. En este tipo de geoestadistica, los algoritmos definidos para realizar la
predicción de valores trabajan de una manera más precisa cuanto más normalizados, en su
distribución, estén los datos origen, es decir si los datos origen no están normalizados se
debe procurar que lo estén, usando para ello técnicas probadas de transformación (Roberts,
Seth, 2008), se desarrolla el proceso y finalmente se reversa dicha transformación para
obtener los datos finales.
Con el presente trabajo se muestra el llamado Proceso Geoestadístico (PG), usando el
kriging como mecanismo de predicción y adicionalmente la estrategia usada para calcular
el volumen entre las dos superficies.
Métodos
El PG, mostrado de manera resumida en la Figura 1, empieza por la estandarización de los
datos con relación a su almacenamiento, sigue con el análisis exploratorio de datos, usando
para ello tanto la estadística clásica como la espacial, generando indicadores de factibilidad
de uso de la geostadística para analizar los datos origen, si se hace necesario los datos se
transforman para garantizar una distribución normal de los mismo. Si los de indicadores
muestran que si es posible el uso de la geostadística, se genera el variograma empírico o
experimental, a partir del cual se escoge una distancia o “lag” que muestre el
comportamiento “más estable” de los datos . A continuación se hace una comparación del
variograma empírico vs los variogramas teóricos para determinar cuál es la mejor o mejores
representaciones teóricas de los datos objeto de estudio; de los variogramas teóricos y sus
parámetros definidos, se escoge mediante un proceso de validación de los modelos el que
mejor represente los datos de entrada, aquel que presente el menor error en su
aproximación; con ese modelo teórico seleccionado y los parámetros que lo definen, se
procede a genera la predicción de valores usando para ello el kriging. Los valores obtenidos
se plasman en mapas de predicción, los cuales son objeto de análisis posterior.
Figura 1 Proceso Geostadístico (Resumen)
El desarrollo del software se realizado usando para ello el lenguaje R, ya que ofrece una
gran cantidad de librerías de fácil acceso y uso asociadas a la problemática que se pretendía
solucionar. El único inconveniente con el uso de este lenguaje, por la carencia de un buen
conjunto de herramientas que permitan desarrollar componentes GUI, es que exige de su
usuario un grado de conocimiento en áreas de la programación necesario para entender su
funcionamiento y lógica en el desarrollo de los algoritmos necesarios para dar respuesta a
los requerimientos planteados. Cabe notar que existen en la actualidad diferentes
mecanismos como librerías que permiten el uso del R desde ambientes Oracle y
PostGreSQL, incluyendo dentro de esos motores la posibilidad de usar código R como
parte de sus funciones básicas; permitiendo hacer uso del potencial proporcionado por
herramientas como php, java y python para el desarrollo de componentes GUI adecuados.
Los diferentes componentes del desarrollo planteado se muestran en la Figura 2.
Figura 2 Componentes del software desarrollado
En el desarrollo del método del cálculo del volumen entre las dos superficies se tomaron
como base ejemplos dados por la misma naturaleza. Como se parte del supuesto de que las
superficies no son homogéneas, ni tienen una forma estándar, se usó para ello la forma en
que la naturaleza ocupa espacios siguiendo dos ejemplos, las colmenas y los basaltos
columnares, representaciones del cómo se puede ocupar un espacio con estructuras estándar
y aprovechando al máximo el espacio, ejemplos se pueden observar en las Figuras 3, 4, 5 y
6.
Para hacer el cálculo del volumen de espacio entre las superficies, se parte de los siguientes
supuestos:
- Valores predecidos se hallan a intervalos regulares, lo que permite definir medidas
iguales para todos espacios entre puntos, valor que se usara como parámetro de
entrada
- La ubicación de los puntos en ambas superficies, espacialmente hablando es la
misma, lo que hace que los cálculos asociados al volumen a determinar, se hagan
sobre cuerpos rígidos rectos.
- A mayor cantidad de puntos generados por la predicción, mejor la exactitud
En el desarrollo del software, para reducir al máximo la interacción entre el usuario y la
aplicación, se recurrió a estudiar en detalle el manejo de estructuras de datos por parte del
Lenguaje R como se puede apreciar en (Ergul, Oxgur, 2013), (Jones, Owen, Maillardet,
Robert, & Robinson, Andrew, 2009), (Plant, Richard, 2012), (Sartore, Luca, 2013), (Bivan,
R. S., Pebesma, E. J., & Rubio, V. G., 2008), (Maindonald, John & Braun, W. John, 2010),
(Murrell, Paul, 2006), (Adler, Daniel & Murdoch,, Duncan, 2012) y así poder realizar la
tarea de la mejor forma. De esa manera se generan directamente desde el aplicativo
archivos con las gráficas, los datos, raster y demás información necesaria, al igual que
escogencia de modelos y paso de parámetros de acuerdo a los valores producidos,
limitando la interacción del usuario a la selección y adecuación de parámetros durante la
comparación de los variogramas teóricos con el variograma empírico obtenido a partir de
los datos de entrada.
Resultados
Revisando los datos usados para la simulación, se puede observar que son apropiados para
la aplicación del PG, distribución normal, autocorrelación positiva y la no existencia de
datos atipicos. Las gráficas asociadas a los datos básicos se pueden observar en la Figura 7.
Para la aplicación del kriging se usó un conjunto de 10000 puntos, lo que da un tamaño de
celda de 39.06578 metros por cada lado, dado lo regular de la distribución de los puntos.
Para decidir qué modelo de variograma se usaría en la realización de la predicción, se
decidió entre los seleccionados “a ojo” o “por sentimiento” mediante el uso de la
herramienta eyefit, provista por el lenguaje R, datos contenidos en las Tablas 1 y 3; más el
ajuste hecho por la herramienta variofit, que acomoda más apropiadamente los modelos
escogidos, modificando en algunos casos, los parámetros iniciales, datos contenidos en las
Tablas 2 y 4; en esas mismas tablas se muestra en un resaltado en amarillo el modelo con la
mejor aproximación al comportamiento de los datos originales, acorde al valor del error
asociado a cada modelo y método de ajuste.
Figura 3 Basaltos columnares (tomado de:
http://www.zmescience.com/other/great-pics/geopicture-
columnar-basalt-06112012)
Figura 4 Basaltos columnares (tomado de :
http://cdn.zmescience.com/wp-
content/uploads/2012/11/basalt6.jpg)
Figura 5 Colmena (tomado de :
http://www.neatorama.com/2013/05/15/The-Honeycomb-
Conjecture/)
Figura 6 Colmena (tomado de :
http://hdwallsource.com/cool-honeycomb-wallpaper-25833.html)
Los mapas de predicción generados, mostrados en las Figuras 14 y 15 para la base y el tope
respectivamente, muestran distribuciones semejantes, esto debido a que el espesor
promedio de la capa revisada es de 40 metros, casi constantes para el área de estudio de
13.21672 Km2.
La Figura 16 muestra las dos superficies generadas usando la metodología propuesta. Para
efecto de visualizar mejor las superficies, los valores del relieve se exageraron.
El volumen del espacio entre las dos superficies obtenido es de 528’932.948 m3
Tabla 1 Tope: Variogramas teóricos seleccionados "a ojo"
Tipo de
variograma Meseta
Rango Pepita
spherical 983.53 2.73 1815.75
exponential 1361.81 0.73 1513.13
cov.model
sigmasq phi tausq
Tabla 2 Tope: Variogramas teóricos ajustados
vModelo vMetodo vPeso vPepita vMeseta vRango vBeta vError
exponential OLS equal 1726.65394 1029.10363 0.66668262 NA 0.069011992
exponential WLS npairs 1753.50138 995.353082 0.67472222 NA 0.059745276
exponential WLS cressie 1710.49129 1031.20586 0.62977402 NA 0.070964593
exponential ML NA 1981.68835 655.348612 0.87453097 192.953514 0.004989219
exponential RML NA 2034.80184 901.494634 1.82094276 193.467286 0.005150728
spherical OLS equal 1762.45711 917.627129 1.30939022 NA 0.082681483
spherical WLS npairs 1720.00541 947.463119 1.2391548 NA 0.097887565
spherical WLS cressie 1733.75455 937.164722 1.25597801 NA 0.092200761
spherical ML NA 2073.08843 712.828466 3.11167923 193.385382 0.012250075
spherical RML NA 2079.88231 1150.0879 5.26897183 194.609765 0.006803781
Tabla 3 Base: Variogramas teóricos seleccionados "a ojo"
Tipo de
variograma Meseta Rango Pepita
spherical 756.56 1.17 1891.41
exponential 1210.5 0.9615 1664.44
cov.model sigmasq phi tausq
Tabla 4 Base: Variogramas teóricos ajustados
vModelo vMetodo vPeso vPepita vMeseta vRango vBeta vError
exponential OLS equal 1726.65366 1029.10396 0.66668256 NA 0.069012094
exponential WLS npairs 1753.50295 995.351766 0.67472343 NA 0.059744786
exponential WLS cressie 1710.4914 1031.20568 0.62977399 NA 0.070964549
exponential ML NA 1981.69258 655.345064 0.87454859 152.953535 0.004989183
exponential RML NA 2034.83207 901.575867 1.82150245 153.467583 0.005147656
spherical OLS equal 1762.45577 917.628598 1.30938796 NA 0.082681851
spherical WLS npairs 1722.73396 944.704599 1.24079244 NA 0.096720265
spherical WLS cressie 1733.75427 937.164606 1.25597662 NA 0.092200846
spherical ML NA 2073.0857 712.842403 3.11168521 153.385368 0.012248876
spherical RML NA 2062.21978 808.173339 3.16543291 153.27998 0.005164695
Figura 8 Tope: Variograma experimental a diferentes "lags"
Figura 9 Base: Variograma experimental a diferentes "lags"
Figura 10 Tope: Ajuste modelo teórico por error mínimo
Figura 11 Tope: Ajuste modelo teórico "por sentimiento"
Figura 12 Base: Ajuste modelo teórico por error
mínimo
Figura 13 Base: Ajuste modelo teórico "por
sentimiento"
La Tabla 6, muestra un resumen de datos usados y obtenidos por la aplicación desarrollada,
mediante el uso del PG y el cálculo del volumen entre las superficies producidas.
El código fuente de la aplicación desarrollada, puede ser obtenido via GitHub (jcsotoo)
PENDIENTE
Figura 14 Predicción de valores para la Base
Figura 15 Predicción de valores para el
Tope
Figura 16 Superficies generadas vistas desde diferente ángulo.
Tabla 5 Variogramas ajustados, por error mínimo y "por sentimiento"
Variable Método de
ajuste vModelo vPepita vMeseta vRango
Tope Error minimo exponential 1981.68835 655.348612 0.87453097
Por Sentimiento exponential 1740.1 983.53 0.47
Base Error minimo exponential 1981.69258 655.345064 0.87454859
Por sentimiento exponential 1740.1 983.53 0.55
Tabla 6 Resumen de datos de entrada y datos obtenidos
Descripción Valor
Número de puntos muestra original 359
Número de puntos para la predicción 10000
Vecindad (“lag”) usada (Km) 3
Método de ajuste de variograma teórico Error Mínimo Tamaño de la celda producida (metros) por lado 39.06578
Área de estudio (Km2) 13.21672 Volumen resultante (m3) 528932948
Discusión o conclusiones
- El cálculo de superficies y por ende de volúmenes entre ellas, es una herramienta que
permite a la geostadística lineal ser partícipe de los proyectos donde este tipo de
información es necesaria, por ejemplo en el cálculo de reservas de minerales como
oro, plata, hidrocarburos, acuíferos y contaminación de suelos, material para
construcción, entre otros.
- La calidad de los valores predichos están en relación directa con el número de puntos
usados para su generación, es decir a mayor cantidad de puntos de muestreo, mejor
calidad en las predicciones obtenidas. Esta premisa hace que se pretenda tener un
número elevado de muestras, pero no siempre se tiene esa posibilidad por los costos
de obtener dicha información, por eso se hace necesario el uso de técnicas alternas
combinación de ellas,(Pyrcz, Michael J. & Deutsch, Clayton V., 2014).
- La geostadística lineal es una herramienta a tener presente para la generación de
DEM, a partir de un conjunto de puntos de muestreo.
- En la geostadística lineal, si bien es cierto que la selección del modelo teórico y su
ajuste se hace mediante el cálculo del mínimo error de ajuste, una selección “por
sentimiento” o “a ojo” puede ser válida, las Figuras 10 y 11 muestran los modelos
obtenidos tanto por el error mínimo como por sentimiento para la variable Tope y las
Figuras 12 y 13 para la variable Base; igualmente la Tabla 5, muestra los valores
ajustados asociados a cada variable.
- La existencia de software libre, como el lenguaje R, permite disponer de
herramientas rápidas, confiables para hacer uso de herramientas como la
geostadística lineal.
- El lenguaje R es una herramienta con un crecimiento notable en los últimos años, asi
como la tendencia de ese crecimiento ha provocado que ya existan en el medio
manejadores de bases de datos, como Oracle que ofrezcan a sus clientes versiones
con R incluido, Oracle-R Enterprise o postgreSQL, para el cual se disponen de
librerías para usar R dentro de los desarrollos, como funciones básicas del lenguaje
de programación procedimental del que dispone postgreSQL.
Bibliografía
Adler, Daniel, & Murdoch,, Duncan. (2012). rgl: 3D visualization device system
(OpenGL). Retrieved from http://CRAN.R-project.org/package=rgl
Armstrong, Margaret. (1998). Basic Linear Geostatistics. Springer.
Atteia, O., Dubois, J. P., & Webster, R. (1994). Geostatistical analysis of soil
contamination in the Swiss Jura. Environment Pollution, 86, 315–327.
Atteia, O., Thelin, P., Pfeifer, H. R., Dubois, J. P., & Hunziker, J. C. (1995). A search for
the origin of cadmium in the soil of the Swiss Jura. Geoderma, 68(3), 149–172.
Bivan, R. S., Pebesma, E. J., & Rubio, V. G. (2008). Applied spatial data: analysis with R.
Springer.
Cely Pulido, John William, Siabato Vaca, Willington Libardo, Sanchez Ipia, Alber
Hamersson, & Rangel Sotter, Adriana Patricia. (2002). Geoestadistica aplicada a
estudios de contaminacion ambiental. Ingenieria. Facultad de Ingenieria
Universidad Distrital Francisco Jose de Caldas, Vol7, Num 2, 31–38.
Cressie, Noel. (1993). Statistics for Spatial Data. John Wiley & Sons, INC.
Davis, John C. (2002). Statistics and data analysis in Geology (3rd ed.). John Wiley &
Sons, Inc.
Goovaerts, Pierre. (1997). Geostatistics for Natural Resources Evaluation. Oxford Univ.
Press, New-York.
Isaaks, E. H., & Srivastava, R. M. (1989). Applied geostatistics. Oxford University Press.
Jones, Owen, Maillardet, Robert, & Robinson, Andrew. (2009). Introduction to Scientific
Programming and Simulation using R. CRC Press. Taylor & Francis Group.
Maindonald, John, & Braun, W. John. (2010). Data analysis and Graphics using R (3rd
ed.). Cambridge. University Press.
Murrell, Paul. (2006). R Graphics. Chapman & Hall/CRC.
Plant, Richard. (2012). Spatial data analysis in ecology and agriculture using R. CRC
Press. Taylor & Francis Group.
Pyrcz, Michael J., & Deutsch, Clayton V. (2014). Geostatistical Reservoir Modeling (2nd
ed.). Oxford University Press.
Rivoirard, Jacques. (1995). Concepts and Methods of Geostatistics. C-158. Centre de
G´eostatistique, Ecole des Mines de Paris.
Roberts, Seth. (2008). Transform your data. Nutrition, 24, 492–494.
Sartore, Luca. (2013). spMC:Modelling Spatial Random Fields with continuous lag
Markov chains. The R Journal, 5/2, 16–28.
Webster, R., Atteia, O., & Dubois, J. P. (1994). Coregionalization of trace metals in the soil
in the Swiss Jura. European Journal of Soil Science, 45, 205–218.