159
Guatemala, 19 de Noviembre 2012 Guatemala, 19 de Noviembre 2012 DR. MARIO MELGAR DR. MARIO MELGAR Tendencias del Tendencias del Análisis de Datos a Análisis de Datos a Nivel Mundial” Nivel Mundial” Conferencia presentada en el Curso de: Conferencia presentada en el Curso de: Métodos de Investigación Cuantitativa Métodos de Investigación Cuantitativa Doctorado en Ciencias Agrícolas y Doctorado en Ciencias Agrícolas y Ambientales Facultad de Agronomía Ambientales Facultad de Agronomía Universidad de San Carlos de Guatemal Universidad de San Carlos de Guatemal

Data analysis worldwide trends

Embed Size (px)

Citation preview

Page 1: Data analysis worldwide trends

Guatemala, 19 de Noviembre 2012Guatemala, 19 de Noviembre 2012

DR. MARIO MELGARDR. MARIO MELGAR

““Tendencias del Análisis Tendencias del Análisis de Datos a Nivel de Datos a Nivel

Mundial”Mundial”

Conferencia presentada en el Curso de:Conferencia presentada en el Curso de: Métodos de Investigación Cuantitativa Métodos de Investigación Cuantitativa Doctorado en Ciencias Agrícolas y Doctorado en Ciencias Agrícolas y Ambientales Facultad de AgronomíaAmbientales Facultad de Agronomía Universidad de San Carlos de GuatemalaUniversidad de San Carlos de Guatemala

Conferencia presentada en el Curso de:Conferencia presentada en el Curso de: Métodos de Investigación Cuantitativa Métodos de Investigación Cuantitativa Doctorado en Ciencias Agrícolas y Doctorado en Ciencias Agrícolas y Ambientales Facultad de AgronomíaAmbientales Facultad de Agronomía Universidad de San Carlos de GuatemalaUniversidad de San Carlos de Guatemala

Page 2: Data analysis worldwide trends

ContenidoContenido

BIG DATA ENFOQUES DATA SCIENCE MINERÍA DE DATOS VISUALIZACIÓN

BIG DATA ENFOQUES DATA SCIENCE MINERÍA DE DATOS VISUALIZACIÓN

Page 3: Data analysis worldwide trends
Page 4: Data analysis worldwide trends

The next five years will produce more research data than has been produced in all of previous human history, presenting researchers with daunting discovery challenges.The data deluge was highlighted and deepened by monumental big bang and astronomy projects such as the Large Hadron Collider and the planned Square Kilometre Array, said Ross Wilkinson, executive director of the Monash University-based Australian National Data Service.

The European Union's collider would produce a petabyte of data each month, while the data generation of the SKA was so mind-boggling that the term exobyte had been coined to describe its data output.

"An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes and a gigabyte is 1000 megabytes," Dr. Wilkinson said."You can read about 2GB of text, or about as much text that can fit on two CDs, in a lifetime, so it's really scary numbers."

SOURCE: THE AUSTRALIAN, APRIL 29, 2009

Page 5: Data analysis worldwide trends
Page 6: Data analysis worldwide trends

NOMBRE TAMAÑO

BYTE 1

KBYTE 1000

MEGABYTE 1 000 000

GYGABYTE 1 000 000 000

TERABYTE 1 000 000 000 000

PETABYTE 1 000 000 000 000 000

EXABYTE 1 000 000 000 000 000 000

ZETTABYTE 1 000 000000000000000000

Page 7: Data analysis worldwide trends

UNIDAD VALOR/EJEMPLO

Byte Es la unidad elemental de información que puede guardar un carácter: letra, número o signo

2 kilobytes Una página

5 megabytes Obras completas de Shakespare; 30 segundos de video.

100 megabytes Radiografia Digital.

500 megabytes CD

Page 8: Data analysis worldwide trends

1 gigabyte (GB) Sinfonía en sonido de alta fidelidad.

2 gigabytes 20 metros de estantería de libros, lo que una persona puede leer en toda su vida

20 gigabytes Archivos de audio de la obra de Beethoven

Terabyte (TB) 1000 GB

1 terabyte Todas las películas radiográficas de un hospital de alta tecnología.50000 árboles transformados en papel e impresos.

10 terabytes Colección impresa de la biblioteca del Congreso de EE.UU.

Petabytes (PB) 1000 TB

2 petabytes Todas las bibliotecas de investigación académica de EE.UU.

Exabyte (EB) 10000 PB

5 exabytes Todas las palabras dichas alguna vez por los seres humanos.

ZettabyteFuente: Ambrosi, H. 2008. La Verdad de las Estadisticas. Ediciones Lumiere.

1000 Exabytes

Page 9: Data analysis worldwide trends
Page 10: Data analysis worldwide trends
Page 11: Data analysis worldwide trends
Page 12: Data analysis worldwide trends
Page 13: Data analysis worldwide trends
Page 14: Data analysis worldwide trends
Page 15: Data analysis worldwide trends
Page 16: Data analysis worldwide trends

1. Internet2. Celulares3. NASA4. Astronomía5. Universo6. Genómica7. Física8. Imágenes Médicas9. AT&T, WALMART, etc.

Page 17: Data analysis worldwide trends
Page 18: Data analysis worldwide trends

The Conversation Prism Infographichttp://jess3.com/the-conversation-prism-v3/

Page 19: Data analysis worldwide trends
Page 20: Data analysis worldwide trends

2008 MySQL Conference & Expo Jacek Becla, SLAC

Page 21: Data analysis worldwide trends

212008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

4 PB in 2005 (images)

NASA: Earth Observing System

Page 22: Data analysis worldwide trends

222008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

Huge telescopes Multi-gigapixel cameras Getting ready for…

– Trillions of observations– 50+ PB of images– 20+ PB database

Astronomy

Page 23: Data analysis worldwide trends

232008 MySQL Conference & Expo Jacek Becla, SLAC

Untangling the Universe

Overlapping Moving Disappearing Highly correlated

Astronomy: It’s All About “Astronomical Objects”

Needle in haystack Spatial correlations Time series

Needle in haystack Spatial correlations Time series

Needle in haystack Spatial correlations Time series

Page 24: Data analysis worldwide trends

242008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

Trying to put together database of all known DNA sequences

Multi-petabytes

Genomics

Page 25: Data analysis worldwide trends

25

How does the human genome stack up?

Organism Genome Size (Bases) Estimated Genes

Amoeba dubia (ameba) 670 billion ?

Porocentrum micans (protista) 245 billion 92,000

Pez leopardo (Propterus aethiopicus) 130 billion ?

Caña de azúcar (S. officinarum) 7.4 billion 35,000

Human (Homo sapiens) 3 billion 25,000

Laboratory mouse (M. musculus) 2.6 billion 30,000

Mustard weed (A. thaliana) 100 million 25,000

Roundworm (C. elegans) 97 million 19,000

Fruit fly (D. melanogaster) 137 million 13,000

Yeast (S. cerevisiae) 12.1 million 6,000

Bacterium (E. coli) 4.6 million 3,200

Human immunodeficiency virus (HIV) 9700 9

Page 26: Data analysis worldwide trends

26

Examples of Large Data Sets:Genomics

• 25,000 genes in human genome

• 3 billion bases

• 3 Gigabytes of genetic data

Page 27: Data analysis worldwide trends

272008 MySQL Conference & Expo Jacek Becla, SLAC

Understanding Dynamics of Biological Processes

Needle in haystack Correlations Time series

Page 28: Data analysis worldwide trends
Page 29: Data analysis worldwide trends

29

Page 30: Data analysis worldwide trends

30

Page 31: Data analysis worldwide trends

31

Page 32: Data analysis worldwide trends

32

Page 33: Data analysis worldwide trends

33

Page 34: Data analysis worldwide trends

34

Page 35: Data analysis worldwide trends

35

Page 36: Data analysis worldwide trends

36

Page 37: Data analysis worldwide trends

37

Page 38: Data analysis worldwide trends

38

Page 39: Data analysis worldwide trends

39

Page 40: Data analysis worldwide trends

40

Page 41: Data analysis worldwide trends

41

Page 42: Data analysis worldwide trends

422008 MySQL Conference & Expo Jacek Becla, SLAC

Science & Petabytes

½ PB/sec– Small fraction saved

Trillions of collisions 15 PB/year

– Starting later this year

High Energy Physics: LHC

Page 43: Data analysis worldwide trends

43

Page 44: Data analysis worldwide trends

44

Examples of Large Data Sets:Credit card transactions

• 142 billion transactions in 2004 in US alone

• 115 Terabytes of data transmitted to processing center in 2004

Page 45: Data analysis worldwide trends

45

Examples of Large Data Sets:Phone call billing records

• 250M calls/day

• 60G calls/year

• 40 bytes/call

• 2.5 Terabytes/year

Page 46: Data analysis worldwide trends

462008 MySQL Conference & Expo Jacek Becla, SLAC

0

50

100

150

2000 2005 2010 2015 2020 2025

year

PB

Science, Industry & Petabytes

?GoogleYahoo!

Microsoft

AT&TWalmart

EBayFacebookfew others

Page 47: Data analysis worldwide trends
Page 48: Data analysis worldwide trends

Enfoques

Page 49: Data analysis worldwide trends

Competitive Edger or Colossal Migraine?

Page 50: Data analysis worldwide trends
Page 51: Data analysis worldwide trends

InfoVis 51

Big Challenge

• How do we make sense of it?• How do we harness this data in

decision-making processes?

Page 52: Data analysis worldwide trends
Page 53: Data analysis worldwide trends

Enfoques para el Manejo de los Datos

53

1. Empresas Especializadas en Gerencia de Datos

2. Data Science3. Minería de Datos4. Visualización

Page 54: Data analysis worldwide trends

Grandes Empresas

IBMMicrosoftOracleSAPIMBSASEtc. …Están surgiendo cientos…

Page 55: Data analysis worldwide trends
Page 56: Data analysis worldwide trends
Page 57: Data analysis worldwide trends
Page 58: Data analysis worldwide trends
Page 59: Data analysis worldwide trends
Page 60: Data analysis worldwide trends
Page 61: Data analysis worldwide trends
Page 62: Data analysis worldwide trends
Page 63: Data analysis worldwide trends
Page 64: Data analysis worldwide trends
Page 65: Data analysis worldwide trends
Page 66: Data analysis worldwide trends
Page 67: Data analysis worldwide trends
Page 68: Data analysis worldwide trends
Page 69: Data analysis worldwide trends
Page 70: Data analysis worldwide trends
Page 71: Data analysis worldwide trends
Page 72: Data analysis worldwide trends
Page 73: Data analysis worldwide trends
Page 74: Data analysis worldwide trends
Page 75: Data analysis worldwide trends
Page 76: Data analysis worldwide trends
Page 77: Data analysis worldwide trends
Page 78: Data analysis worldwide trends
Page 79: Data analysis worldwide trends
Page 80: Data analysis worldwide trends

Enfoques para el Manejo de los Datos

81

1. Empresas Especializadas en Gerencia de Datos

2. Data Science3. Minería de Datos4. Visualización

Page 81: Data analysis worldwide trends

Data Science: An Introduction/A History of Data Science

Chapter SummaryData Science is a composite of a number of pre-existing disciplines. It is a young professional and academic discipline. The term was first coined in 2001. Its popularity has exploded since 2010, pushed by the need for teams of people to analyze the big data that corporations and governments are collecting. The Google search engine is a classic example of the power of data science.

DiscussionData science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.

OriginsThe term "Data Science" was coined at the beginning of the 21st Century. It is attributed to William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics."[2] About a year later, the International Council for Science: Committee on Data for Science and Technology[3] started publishing the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January of 2003, Columbia University began publishing The Journal of Data Science .

Page 82: Data analysis worldwide trends
Page 83: Data analysis worldwide trends

El “Ecosistema” de los datosKNOWLEDGE

WHAT WHYHOW

DATA COLLECTOR

DATA CUSTODIAN

DATA CONSUMER

ROLE 1 ROLE 2 ROLE 3

DATA COLLECTION

DATA STORAGE AND

MAINTENANCE

DATA UTILIZATION

PROCESS 1 PROCESS 2 PROCESS 3

DATA QUALITY DIMENSIONS

FIDELITYCOMPLETENESS

COMPLETENESSACCESIBILITYTEMPORALITY

RELEVANCE

KNOWLEDGE

Page 84: Data analysis worldwide trends
Page 85: Data analysis worldwide trends
Page 86: Data analysis worldwide trends
Page 87: Data analysis worldwide trends
Page 88: Data analysis worldwide trends
Page 89: Data analysis worldwide trends

Data Mining: Confluence of Multiple Disciplines

Page 90: Data analysis worldwide trends

ANÁLISIS UNIVARIADO ASOCIACIÓN ENTRE VARIABLES

Análisis multivariado

Variables Cualitativas

Variables Cuantitativas

Cualitativas con

cualitativas

Cualitativas con cuantitativas

Cuantitativas con cuantitativas

FrecuenciasProporciones Gráficas de barrasGráficas de pastelPictogramasGráficas de puntosPirámides

Distr. De frecuenciasHistogramasGráficas de tallos y hojasGráficas de cajasGráficas de normalidadMedidas de: - Tendencias central - Dispersión - Percentiles

Tablas de ContingenciaGráficas de barras

Tablas de clasificaciónGráficas de medias

Diagrama de dispersión3 D

Gráficas de HistogramasCaras de ChernoffEstrellasFlechasGlifosMatriz de correlaciones

Page 91: Data analysis worldwide trends

Temas tratados en el libro digital. http://www.statsoft.com/textbook

Page 92: Data analysis worldwide trends

Temas tratados en el libro digital. http://www.statsoft.com/textbook

Page 93: Data analysis worldwide trends

VARIABLES CUANTITATIVAS VARIABLES CUALITATIVAS

POBLACIONES Contínuas Discretas Binominal Multinomial

Una t Wilcoxon Binomial, Z X²

Dos independientes

t Mann-Whitney Irwin-FisherExacta FisherX², Z

Dos dependientes t Wilcoxon McNemar Stuart

Tres o más independientes

F ANDEVA D.C.A.Una vía

Contrastes

Kruskal-Wallis

Contrastes

X²Contrastes

X²Contrastes

Tres o más dependientes

F ANDEVAD.C.A.Dos vías

Contrastes

Friedman

Contrastes

Cochran

Contrastes

Friedman (Ordinal)

Dependencia

Relación

Regresión

Pearson

Wilcoxon

SpearmanHipergeométrica0

Page 94: Data analysis worldwide trends

Análisis Multivariado• Conjunto de técnicas para el análisis estadístico de datos,

obtenidas a través de la medición de varias variables sobre cada individuo o unidad estudiada.

• Esas variables están correlacionadas.

UNIDAD Variables a explicar o dependientes

Variables Explicativas o independientes

Y1, Y2, . . . . . . . . . . . .Yɋ X1, X2, . . . . . .. . . . .Xƿ

U1

U2

.

.

.Un

ESTRUCTURA DE LOS DATOS PROVENIENTES DE UN

ESTUDIO

Page 95: Data analysis worldwide trends

Variables dependientes

Variables independientesCualitativa Cuantitativa

1 variable >1 variable 1 variable >1 variable

Ninguna Binomial Chi-cuadradoMedidas de asociación

T Matriz de correlacionesComponentesPrincipalesAnálisis de factoresAnálisis Cluster

Cualitativa1

>1

Chi-cuadradoExactaFischer

Log-LinearModelos

Log-LinearModelosRegresiónLogística

Log-Linearmodelos

RegresiónLogística

Análisis discriminante

RegresiónLogística

Análisis discriminante

Cuantitativa1

>1

TAnálisis de varianza

T² HotellingAnálisis de varianzaMultivariado

Análisis de varianza

Análisis de varianzaMultivariado

Regresión linealRegresión no linealCorrelación

Regresión multivariadaCorrelación canónica

Regresión múltiple

Regresión multivariadaCorrelación canónicaPath Analysisestructurales

Page 96: Data analysis worldwide trends
Page 97: Data analysis worldwide trends
Page 98: Data analysis worldwide trends
Page 99: Data analysis worldwide trends
Page 100: Data analysis worldwide trends
Page 101: Data analysis worldwide trends

SAS

SQL

XL Miner

Page 102: Data analysis worldwide trends
Page 103: Data analysis worldwide trends
Page 104: Data analysis worldwide trends
Page 105: Data analysis worldwide trends
Page 106: Data analysis worldwide trends

Visualización

Page 107: Data analysis worldwide trends
Page 108: Data analysis worldwide trends
Page 109: Data analysis worldwide trends
Page 110: Data analysis worldwide trends
Page 111: Data analysis worldwide trends
Page 112: Data analysis worldwide trends
Page 113: Data analysis worldwide trends
Page 114: Data analysis worldwide trends
Page 115: Data analysis worldwide trends
Page 116: Data analysis worldwide trends
Page 117: Data analysis worldwide trends

InfoVis 119

Example

Example courtesyof Chris North

Which state has the highest income?Is there a relationship between income and education?Are there any outliers?

Questions:

Page 118: Data analysis worldwide trends

InfoVis 120

Visualize the Data

Per Capita Income

Colle

ge D

eg

ree %

Page 119: Data analysis worldwide trends

InfoVis 121

Atlanta Flight Traffic

AJC

Page 120: Data analysis worldwide trends

InfoVis 122

London Subway

Page 121: Data analysis worldwide trends
Page 122: Data analysis worldwide trends

• Tabla periodica

Page 123: Data analysis worldwide trends

1252008 MySQL Conference & Expo Jacek Becla, SLAC

Summary Data avalanche Need scalable,

sophisticated tools

You are facing it too

Credit: ncids.org

Page 124: Data analysis worldwide trends

HANS

Page 125: Data analysis worldwide trends

BienvenidosBienvenidosCENGICAÑACENGICAÑA

Visión:Ser líderes en generar cambios tecnológicos para

incrementar la competitividad de la Agroindustria Azucarera en la región.

Visión:Ser líderes en generar cambios tecnológicos para

incrementar la competitividad de la Agroindustria Azucarera en la región.

02/03/2012

Dr. Mario MelgarDr. Mario Melgar

Page 126: Data analysis worldwide trends

Evolución de la Evolución de la productividad Guatemalaproductividad Guatemala

60 65 70 75 80 85 90 95 00 05 100

1

2

3

4

5

6

7

8

9

10

11

TAH

Año

Quinquenio TCH % Sac TAH

1959/60* 53 9.70 5.20

1960/65 57 9.34 5.34

1965/70 62 9.24 5.76

1970/75 74 8.83 6.58

1975/80 77 8.49 6.54

1980/85 76 9.10 6.58

1985/90 71 9.66 6.90

1990/95 82 10.10 8.32

1995/00 85 10.42 8.87

2000/05 90 11.33 10.17

2005/10 94 10.75 10.05

Rendimiento de Azúcar/TAH 1960-2010

Page 127: Data analysis worldwide trends

Evolución de análisis Evolución de análisis de productividad de de productividad de

la Agroindustria la Agroindustria Azucarera Azucarera

GuatemaltecaGuatemalteca

Page 128: Data analysis worldwide trends
Page 129: Data analysis worldwide trends
Page 130: Data analysis worldwide trends
Page 131: Data analysis worldwide trends
Page 132: Data analysis worldwide trends

Factores relacionados con el Factores relacionados con el rendimiento de un cultivorendimiento de un cultivo

y = f (A, G, M)y = f (A, G, M)

Y = RendimientoY = RendimientoA = AmbienteA = AmbienteG = GenéticaG = GenéticaM = ManejoM = Manejo

Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.

Page 133: Data analysis worldwide trends

TCHTCHTAHTAH$/H$/H

AmbientaleAmbientaless

GenéticosGenéticos

ManejoManejo

Zona agroecológica (1-44)Zona agroecológica (1-44)Finca (1 – nFinca (1 – n11))Lote (1 – nLote (1 – n22) (total 14,000)) (total 14,000)

Variedad (67)Variedad (67)No. de corteNo. de corteMes de cosechaMes de cosecha

Ingenio (1-8)Ingenio (1-8)

FertilizaciónFertilización

Riegos (1-4)Riegos (1-4)

Madurantes (1-6)Madurantes (1-6)

Edad de cosechaEdad de cosecha

Balance Balance hídricohídricoGrupos de Grupos de suelosuelo

N (1-N (1-7)7)P (1-4)P (1-4)K (1-4)K (1-4)S (1-3)S (1-3)

VARIABLVARIABLES ES

RESPUESRESPUESTATA

FACTORESFACTORES

Page 134: Data analysis worldwide trends

AnálisiAnálisiss

Sistemas Sistemas de de InformacióInformación n GeográficaGeográfica

Bases de Bases de datosdatos

Análisis Análisis detalladdetallado de o de variedadvariedadeses

MapasMapas

Estadística Estadística descriptiva descriptiva (Gráficos, cuadros)(Gráficos, cuadros)

Estadística Estadística inferencialinferencialMinería de datosMinería de datos

ZAE, finca, lote, ZAE, finca, lote, Mes de cosechaMes de cosechaFactores de Factores de manejomanejo

Page 135: Data analysis worldwide trends
Page 136: Data analysis worldwide trends
Page 137: Data analysis worldwide trends
Page 138: Data analysis worldwide trends
Page 139: Data analysis worldwide trends
Page 140: Data analysis worldwide trends

BASE DE DATOS DE EXCEL PARA COMPARTIR

Menú Principal Formularios de Comparación

Menú Principal Gráficos

Productividad

Page 141: Data analysis worldwide trends

Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008

Indicadores de Competitividad

Al 02/05/2010

USA

Thailand

swazilandia

Sudan

Sudáfrica

México

India

Guatemala

Colombia

China

Brasil (N.E.)

Brasil (C.S.)

Australia

6

11

16

21

26

31

36

6 7 8 9 10 11 12 13 14 15 16

Rendimiento azúcar (TAH)

Azú

car

prod

ucid

a po

r to

nela

da d

e ca

paci

tdad

de

mol

iend

a (ti

b az

úcar

/ton

ca

paci

dad)

11.5

9.4

6.5

9.5

14.6

12.2

7.9

9.3

6.6

10.8

13.9

7.3

9.1

13.15

Page 142: Data analysis worldwide trends

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 19881988

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 9.80 12.60 352,023.00Brasil (C.S.) 8.60 15.00 2,585,063.00Brasil (N.E.) 5.80 15.40 1,287,453.00China 4.80 9.40 881,000.00Colombia 11.10 24.40 140,297.00Guatemala 6.99 8.80 84,333.00India 7.10 12.50 3,072,052.00México 8.00 10.00 535,884.00South Africa 5.70 19.90 408,743.00Swaziland 23.90 36,014.00Thailand 5.30 7.80 559,638.00USA 9.30 10.60 344,436.00

Page 143: Data analysis worldwide trends

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 19981998

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 11.60 17.40 420,572.00Brasil (C.S.) 9.90 18.30 3,250,190.00Brasil (N.E.) 6.30 12.00 1,105,856.00China 6.80 9.50 915,878.00Colombia 12.50 27.90 178,687.00Guatemala 10.30 12.50 151,540.00India 8.00 13.60 3,836,021.00México 9.10 12.70 570,322.00South Africa 4.90 15.70 397,026.00Swaziland 13.60 22.00 38,182.00Thailand 6.40 8.40 963,256.00USA 8.80 10.60 391,873.00

Page 144: Data analysis worldwide trends

Gráficos por países, períodos por quinquénios: Gráficos por países, períodos por quinquénios: 20082008

País TAH

Utilización de la

Capacidad

Área Sembrada

Australia 11.50 16.70 453,316.00Brasil (C.S.) 10.40 22.70 5,035,284.00Brasil (N.E.) 7.40 17.00 1,120,375.00China 9.50 13.20 1,128,841.00Colombia 14.60 31.80 199,910.00Guatemala 12.20 15.90 197,600.00India 7.90 12.20 4,294,400.00México 9.30 14.80 686,855.00South Africa 6.60 23.50 426,738.00Swaziland 13.90 24.30 50,720.00Thailand 7.30 8.60 1,070,630.00USA 9.10 11.40 393,744.00

Page 145: Data analysis worldwide trends
Page 146: Data analysis worldwide trends
Page 147: Data analysis worldwide trends
Page 148: Data analysis worldwide trends
Page 149: Data analysis worldwide trends
Page 150: Data analysis worldwide trends
Page 151: Data analysis worldwide trends
Page 152: Data analysis worldwide trends
Page 153: Data analysis worldwide trends
Page 154: Data analysis worldwide trends
Page 155: Data analysis worldwide trends
Page 156: Data analysis worldwide trends

CONCLUSIONES1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a

nivel social (redes sociales, comunicación digital, etc.), a nivel comercial (internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física, genómica, medicina, etc.). A este fenómeno se le a denominado “BIG DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta zettabytes.

2. Se están desarrollando constantemente tecnologías para la recolección (sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc), análisis y visualización de los datos. Los datos deben convertirse en información y estos en conocimiento.

3. Todos los países, sectores, empresas o personas, que quieran obtener un valor agregado de este diluvio de datos, deben de prepararse para utilizar la tecnologías apropiadas.

Page 157: Data analysis worldwide trends

4. El Big Data Análisis que es la aplicación de técnicas avanzadas de análisis para conjuntos de grandes volúmenes de datos, esta generando el surgimiento de cientos de empresas asociadas: Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL, Hadoop, Cassandra, Data Miner , Cubenube, etc.

5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los Datos”, que reúne disciplinas como: Ingeniería de datos, método científico, matemáticas, estadística, computación avanzada, visualización y experiencia en áreas especificas para resolver problemas de análisis de datos. Data Science requiere trabajo multidisciplinario.

Page 158: Data analysis worldwide trends

CONCLUSIONES ESPECIFICASDE LA AGROINDUSTRIA AZUCARERA

GUATEMALTECA

1. En cada uno de los eslabones de la cadena de valor de la agroindustria (campo, fabrica, transporte y comercialización) esta creciendo el volumen de datos que se generan, algunos ingenios han contratado empresas especificas para el manejo de los datos: Automatización, manejo integral de toda la información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc.

2. Para el manejo de información tecnológica de las áreas de trabajo de CENGICAÑA, se esta desarrollando la base de datos institucional con aportes principalmente del área de análisis de productividad, sistemas de información para agricultura de precisión (SIAP), Sistema de información meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos institucional cada área deberá aportar la información respectiva y actualizarse en el uso de las tecnologías de información.

Page 159: Data analysis worldwide trends

Muchas graciasMuchas gracias

Foto: Paulo StupielloFoto: Paulo Stupiello