59
Visualización de Data Probabilidad y Estadística

Visualización de Data

Embed Size (px)

Citation preview

Page 1: Visualización de Data

Visualización de Data

Probabilidad y Estadística

Page 2: Visualización de Data

Visualización de Data

• Histogramas y Distribuciones de Frecuencia• Gráficas Comunes y “Data Plots”• “Box and Whisker Plots”

Page 3: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• La siguiente data muestra el número de botellas plásticas que utilizan diferentes estudiantes durante una semana:6, 4, 7, 7, 8, 5, 3, 6, 8, 6, 5, 7, 7, 5, 2, 6, 1, 3, 5, 4, 7, 4, 6, 7, 6, 6, 7, 5, 4, 6, 5, 3

• 1

Número de botellas plásticas por semana

Frecuencia

Page 4: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• La siguiente tabla muestra los países que consumen la mayor cantidad de agua por persona.

Page 5: Visualización de Data

Histogramas y Distribuciones de Frecuencia

Litros por Persona Frecuencia

[80 -90) 4

[90 – 100) 3

[100 – 110) 1

[110 – 120) 0

[120 – 130) 1

[130 – 140) 1

[140 – 150) 2

[150 – 160) 0

[160 – 170) 2

[170 – 180) 0

[180 – 190) 1

Page 6: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Histogramas

Page 7: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Histogramas en la Calculadora Gráfica

Page 8: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Un histograma de frecuencia realativa es un histograma que en lugar de colocar en el eje de x las frecuencias utilizamos el porciento total de la data presente en ese “bin”

Page 9: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Un polígono de frecuencia es similar a un histograma, pero en lugar de utilizar “bins”, un polígono es creado dibujando las frecuencias y conectando esos puntos con segmentos.

• Para poder crear un polígono de frecuencia primero debemos encontrar los puntos medios de cada clasificación.

Page 10: Visualización de Data

Histogramas y Distribuciones de Frecuencia

Page 11: Visualización de Data

Histogramas y Distribuciones de Frecuencia

Page 12: Visualización de Data

Histogramas y Distribuciones de Frecuencia

Page 13: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Los tres aspectos más importantes al comenzar a describir data son Forma, Centro y Esparcimiento.

• Regresemos al ejemplo de las botellas plásticas, podemos notar lo siguiente:– La data está esparcida desde 0 hasta 9 (rango)– Hay una gran concentración de estudiantes en las

regiones 5, 6 y 7 (el centro se encuentra en esa área)

Page 14: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• En muchos conjuntos de data podremos encontrar que tiene una gran concentración de data que parece como una montaña.

• La data que tiene esta forma se le denomina típicamente como forma de campana.

Page 15: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• La forma de campana usualmente se parece a una de las siguientes tres imágenes.

• En estadísticas, se refiere a estas gráficas como curvas de densidad.

Page 16: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• La característica más importante de esta curva de densidad es la simetría.

• Esta gráfica es simétrica y en forma de campana.

Page 17: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Esta gráfica tiene forma de campana, pero el centro de la data está concentrado en el lado izquierdo de la distribución.

• El lado derecho de la data esta esparcida en un área más ancha.

• Esta gráfica es torcida a la derecha (“skewed right”)

Page 18: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Esta gráfica es torcida a la izquierda (“skewed left”)

Page 19: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Frecuencia Acumulativa– Esto es cuantos datos están en todas las clases antes

e incluyendo una clase.Número de botellas

plásticas por semanaFrecuencia Frecuencia

Acumulativa

1 1

2 1

3 3

4 4

5 6

6 8

7 7

8 2

Page 20: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Histograma de Frecuencias Acumulativas

Page 21: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Un histograma de frecuencias relativas, sería la misma gráfica, solamente utilizando las frecuencias relativas.

Número de botellas plásticas

por semana

Frecuencia Frecuencia Acumulativa

Frecuencia Acumulativa Relativa (%)

1 1 1

2 1 2

3 3 5

4 4 9

5 6 15

6 8 23

7 7 30

8 2 32

Page 22: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Histograma de Frecuencia Relativa

Page 23: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Polígono de Frecuencia Acumulativa– Se grafica similar al polígono de frecuencia, con la diferencia

de que los puntos se colocan en el lado derecho de cada “bin” .

Page 24: Visualización de Data

Histogramas y Distribuciones de Frecuencia

• Polígono de Frecuencia Acumulativa

A este tipo de gráfica se lo conoce como Gráfica de Ojiva

Page 25: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Variables Categóricas: Gráficas de Barra y Gráficas Circulares

Page 26: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Gráfica de Barra– No es un histograma.– Las barras están

separadas.– La data es categórica.– Se pueden cambiar de

lugar las barras y la información sigue siendo la misma.

Page 27: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Gráficas Circulares

Equipo Electrónico Miles de Toneladas Descartadas Porcentaje Total Medida del Ángulo

del Sector Circular

Cathode Ray Tube (CRT) TV`s 7591.1

CRT Monitors 389.8

Printers, Keyboards, Mice 324.9

Desktop Computers 259.5

Laptop Computers 30.8

Projection TV´s 132.8

Cell Phones 11.7

LCD Monitors 4.9

Page 28: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Gráficas Circulares

Page 29: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Variables Numéricas: Diagrama de Puntos– Se utiliza para representar variable numérica.– Múltiples puntos con el mismo valor son

colocados unos encima de los otros utilizando espacios iguales.

Page 30: Visualización de Data

Gráficas Comunes y Diagramas de Data

Country % of Paper Packaging Recycled

Estonia 34

New Zeland 40

Poland 40

Cyprus 42

Portugal 56

United States 59

Italy 62

Spain 63

Australia 66

Greece 70

Finland 70

Ireland 70

Netherlands 70

Sweeden 70

France 76

Germany 83

Austria 83

Belgium 83

Japan 98

Page 31: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 32: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Variables Numéricas: Diagramas de Tallo y Hoja– En un diagrama de tallo y hoja, cada valor de la

data es representados por dos dígitos: el tallo y la hoja.

3

4

5

6

7

8

9

Page 33: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Variables Numéricas: Diagramas de Tallo y Hoja– En un diagrama de tallo y hoja, cada valor de la

data es representados por dos dígitos: el tallo y la hoja.

3 4

4 0 0 2

5 6 9

6 2 3 6

7 0 0 0 0 0 6

8 3 3 3

9 8

Page 34: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Diagramas de Tallo “Back-to-Back”– Este tipo de diagrama es útil para comparar dos

distribuciones.

Country % of Glass Packaging Recycled

Cyprus 4

United States 21

Polans 27

Greece 34

Portugal 39

Spain 41

Australia 44

Ireland 55

Italy 56

Finland 56

France 59

Estonia 64

New Zeland 72

Netherlands 76

Germany 81

Austria 86

Japan 96

Belgium 98

Sweden 100

Page 35: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Diagramas de Tallo “Back-to-Back”0

Glass 1 Paper

2

3

4

5

6

7

8

9

10

Page 36: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Diagramas de Tallo “Back-to-Back”4 0

Glass 1 Paper

7 1 2

9 4 3 4

4 4 0 0 2

9 6 6 5 5 6 9

4 6 2 3 6

6 2 7 0 0 0 0 0 6

6 1 8 3 3 3

8 6 9 8

0 10

Page 37: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Data Bivariada: “Scatterplots” y Diagramas de Línea– Bivariada significa dos variables.– El propósito de examinar data bivariada es

usualmente mostrar algún tipo de relación o asociación entre dos variables.

Page 38: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 39: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Colocaremos está data de la siguiente forma:– Los % de papel reciclado en el eje horizontal y los

% de vidrio en el eje vertical.– Luego graficamos un punto que represente el % de

reciclaje de cada país para los dos materiales.– Esta serie de puntos se le conoce como un

scatterplot.

Page 40: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 41: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 42: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 43: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 44: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Diagramas de Línea– Explanatory Variable• La variable independiente

– Response Variable• La variable dependiente

– Un diagrama de línea es un “scatterplot” en el cual conectamos observaciones cronológicas sucesivas con segmentos para darnos más información sobre como cambia la data en un periodo de tiempo.

Page 45: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 46: Visualización de Data

Gráficas Comunes y Diagramas de Data

Page 47: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Scatterplots y Diagrama de Línea en la Calculadora Gráfica

Page 48: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Scatterplots y Diagrama de Línea en la Calculadora Gráfica

Page 49: Visualización de Data

Gráficas Comunes y Diagramas de Data

• Scatterplots y Diagrama de Línea en la Calculadora Gráfica

Page 50: Visualización de Data

Box-and-Whisker Plots

• El resumen de los cinco números– Es una descripción numérica del conjunto de data

que comprende las siguientes medidas ( en orden): • Valor mínimo• Cuartillo inferior• Mediana• Cuartillo superior• Valor máximo

Page 51: Visualización de Data

Box-and-Whisker Plots

• La siguiente tabla muestra la capacidad de reserva de los mayores recursos de agua en Arizona (1998).

Lago/Reserva % de Capacidad

Salt River System 59

Lake Pleasant 49

Verde River System 33

San Carlos 9

Lyman Reservoir 3

Show Low Lake 51

Lake Havasu 98

Lake Mohave 85

Lake Mead 95

Lake Powell 89

Determina el resumen de los cinco números.

{3, 33, 55, 89, 98}

Page 52: Visualización de Data

Box-and-Whisker Plots

Page 53: Visualización de Data

Box-and-Whisker Plots

• Outliers en Box-and-Whisker Plots– Los siguientes datos son los porcientos para los

lagos y reservas de California (se han omitido los nombres de las mismas)80, 83, 77, 95, 85, 74, 34, 68, 90, 82, 75

– Crea un box plot en tu calculadora gráfica.

Page 54: Visualización de Data

Box-and-Whisker Plots

Page 55: Visualización de Data

Box-and-Whisker Plots

Page 56: Visualización de Data

Box-and-Whisker Plots

Page 57: Visualización de Data

Box-and-Whisker Plots

• Una manera de definir un outlier en un box plot es cualquier punto que está a más de 1.5 veces el rango intercuartil.

Page 58: Visualización de Data

Box-and-Whisker Plots

Page 59: Visualización de Data

Box-and-Whisker Plots