Upload
angel-carreras
View
799
Download
1
Tags:
Embed Size (px)
Citation preview
Visualización de Data
Probabilidad y Estadística
Visualización de Data
• Histogramas y Distribuciones de Frecuencia• Gráficas Comunes y “Data Plots”• “Box and Whisker Plots”
Histogramas y Distribuciones de Frecuencia
• La siguiente data muestra el número de botellas plásticas que utilizan diferentes estudiantes durante una semana:6, 4, 7, 7, 8, 5, 3, 6, 8, 6, 5, 7, 7, 5, 2, 6, 1, 3, 5, 4, 7, 4, 6, 7, 6, 6, 7, 5, 4, 6, 5, 3
• 1
Número de botellas plásticas por semana
Frecuencia
Histogramas y Distribuciones de Frecuencia
• La siguiente tabla muestra los países que consumen la mayor cantidad de agua por persona.
Histogramas y Distribuciones de Frecuencia
Litros por Persona Frecuencia
[80 -90) 4
[90 – 100) 3
[100 – 110) 1
[110 – 120) 0
[120 – 130) 1
[130 – 140) 1
[140 – 150) 2
[150 – 160) 0
[160 – 170) 2
[170 – 180) 0
[180 – 190) 1
Histogramas y Distribuciones de Frecuencia
• Histogramas
Histogramas y Distribuciones de Frecuencia
• Histogramas en la Calculadora Gráfica
Histogramas y Distribuciones de Frecuencia
• Un histograma de frecuencia realativa es un histograma que en lugar de colocar en el eje de x las frecuencias utilizamos el porciento total de la data presente en ese “bin”
Histogramas y Distribuciones de Frecuencia
• Un polígono de frecuencia es similar a un histograma, pero en lugar de utilizar “bins”, un polígono es creado dibujando las frecuencias y conectando esos puntos con segmentos.
• Para poder crear un polígono de frecuencia primero debemos encontrar los puntos medios de cada clasificación.
Histogramas y Distribuciones de Frecuencia
Histogramas y Distribuciones de Frecuencia
Histogramas y Distribuciones de Frecuencia
Histogramas y Distribuciones de Frecuencia
• Los tres aspectos más importantes al comenzar a describir data son Forma, Centro y Esparcimiento.
• Regresemos al ejemplo de las botellas plásticas, podemos notar lo siguiente:– La data está esparcida desde 0 hasta 9 (rango)– Hay una gran concentración de estudiantes en las
regiones 5, 6 y 7 (el centro se encuentra en esa área)
Histogramas y Distribuciones de Frecuencia
• En muchos conjuntos de data podremos encontrar que tiene una gran concentración de data que parece como una montaña.
• La data que tiene esta forma se le denomina típicamente como forma de campana.
Histogramas y Distribuciones de Frecuencia
• La forma de campana usualmente se parece a una de las siguientes tres imágenes.
• En estadísticas, se refiere a estas gráficas como curvas de densidad.
Histogramas y Distribuciones de Frecuencia
• La característica más importante de esta curva de densidad es la simetría.
• Esta gráfica es simétrica y en forma de campana.
Histogramas y Distribuciones de Frecuencia
• Esta gráfica tiene forma de campana, pero el centro de la data está concentrado en el lado izquierdo de la distribución.
• El lado derecho de la data esta esparcida en un área más ancha.
• Esta gráfica es torcida a la derecha (“skewed right”)
Histogramas y Distribuciones de Frecuencia
• Esta gráfica es torcida a la izquierda (“skewed left”)
Histogramas y Distribuciones de Frecuencia
• Frecuencia Acumulativa– Esto es cuantos datos están en todas las clases antes
e incluyendo una clase.Número de botellas
plásticas por semanaFrecuencia Frecuencia
Acumulativa
1 1
2 1
3 3
4 4
5 6
6 8
7 7
8 2
Histogramas y Distribuciones de Frecuencia
• Histograma de Frecuencias Acumulativas
Histogramas y Distribuciones de Frecuencia
• Un histograma de frecuencias relativas, sería la misma gráfica, solamente utilizando las frecuencias relativas.
Número de botellas plásticas
por semana
Frecuencia Frecuencia Acumulativa
Frecuencia Acumulativa Relativa (%)
1 1 1
2 1 2
3 3 5
4 4 9
5 6 15
6 8 23
7 7 30
8 2 32
Histogramas y Distribuciones de Frecuencia
• Histograma de Frecuencia Relativa
Histogramas y Distribuciones de Frecuencia
• Polígono de Frecuencia Acumulativa– Se grafica similar al polígono de frecuencia, con la diferencia
de que los puntos se colocan en el lado derecho de cada “bin” .
Histogramas y Distribuciones de Frecuencia
• Polígono de Frecuencia Acumulativa
A este tipo de gráfica se lo conoce como Gráfica de Ojiva
Gráficas Comunes y Diagramas de Data
• Variables Categóricas: Gráficas de Barra y Gráficas Circulares
Gráficas Comunes y Diagramas de Data
• Gráfica de Barra– No es un histograma.– Las barras están
separadas.– La data es categórica.– Se pueden cambiar de
lugar las barras y la información sigue siendo la misma.
Gráficas Comunes y Diagramas de Data
• Gráficas Circulares
Equipo Electrónico Miles de Toneladas Descartadas Porcentaje Total Medida del Ángulo
del Sector Circular
Cathode Ray Tube (CRT) TV`s 7591.1
CRT Monitors 389.8
Printers, Keyboards, Mice 324.9
Desktop Computers 259.5
Laptop Computers 30.8
Projection TV´s 132.8
Cell Phones 11.7
LCD Monitors 4.9
Gráficas Comunes y Diagramas de Data
• Gráficas Circulares
Gráficas Comunes y Diagramas de Data
• Variables Numéricas: Diagrama de Puntos– Se utiliza para representar variable numérica.– Múltiples puntos con el mismo valor son
colocados unos encima de los otros utilizando espacios iguales.
Gráficas Comunes y Diagramas de Data
Country % of Paper Packaging Recycled
Estonia 34
New Zeland 40
Poland 40
Cyprus 42
Portugal 56
United States 59
Italy 62
Spain 63
Australia 66
Greece 70
Finland 70
Ireland 70
Netherlands 70
Sweeden 70
France 76
Germany 83
Austria 83
Belgium 83
Japan 98
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
• Variables Numéricas: Diagramas de Tallo y Hoja– En un diagrama de tallo y hoja, cada valor de la
data es representados por dos dígitos: el tallo y la hoja.
3
4
5
6
7
8
9
Gráficas Comunes y Diagramas de Data
• Variables Numéricas: Diagramas de Tallo y Hoja– En un diagrama de tallo y hoja, cada valor de la
data es representados por dos dígitos: el tallo y la hoja.
3 4
4 0 0 2
5 6 9
6 2 3 6
7 0 0 0 0 0 6
8 3 3 3
9 8
Gráficas Comunes y Diagramas de Data
• Diagramas de Tallo “Back-to-Back”– Este tipo de diagrama es útil para comparar dos
distribuciones.
Country % of Glass Packaging Recycled
Cyprus 4
United States 21
Polans 27
Greece 34
Portugal 39
Spain 41
Australia 44
Ireland 55
Italy 56
Finland 56
France 59
Estonia 64
New Zeland 72
Netherlands 76
Germany 81
Austria 86
Japan 96
Belgium 98
Sweden 100
Gráficas Comunes y Diagramas de Data
• Diagramas de Tallo “Back-to-Back”0
Glass 1 Paper
2
3
4
5
6
7
8
9
10
Gráficas Comunes y Diagramas de Data
• Diagramas de Tallo “Back-to-Back”4 0
Glass 1 Paper
7 1 2
9 4 3 4
4 4 0 0 2
9 6 6 5 5 6 9
4 6 2 3 6
6 2 7 0 0 0 0 0 6
6 1 8 3 3 3
8 6 9 8
0 10
Gráficas Comunes y Diagramas de Data
• Data Bivariada: “Scatterplots” y Diagramas de Línea– Bivariada significa dos variables.– El propósito de examinar data bivariada es
usualmente mostrar algún tipo de relación o asociación entre dos variables.
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
• Colocaremos está data de la siguiente forma:– Los % de papel reciclado en el eje horizontal y los
% de vidrio en el eje vertical.– Luego graficamos un punto que represente el % de
reciclaje de cada país para los dos materiales.– Esta serie de puntos se le conoce como un
scatterplot.
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
• Diagramas de Línea– Explanatory Variable• La variable independiente
– Response Variable• La variable dependiente
– Un diagrama de línea es un “scatterplot” en el cual conectamos observaciones cronológicas sucesivas con segmentos para darnos más información sobre como cambia la data en un periodo de tiempo.
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
Gráficas Comunes y Diagramas de Data
• Scatterplots y Diagrama de Línea en la Calculadora Gráfica
Gráficas Comunes y Diagramas de Data
• Scatterplots y Diagrama de Línea en la Calculadora Gráfica
Gráficas Comunes y Diagramas de Data
• Scatterplots y Diagrama de Línea en la Calculadora Gráfica
Box-and-Whisker Plots
• El resumen de los cinco números– Es una descripción numérica del conjunto de data
que comprende las siguientes medidas ( en orden): • Valor mínimo• Cuartillo inferior• Mediana• Cuartillo superior• Valor máximo
Box-and-Whisker Plots
• La siguiente tabla muestra la capacidad de reserva de los mayores recursos de agua en Arizona (1998).
Lago/Reserva % de Capacidad
Salt River System 59
Lake Pleasant 49
Verde River System 33
San Carlos 9
Lyman Reservoir 3
Show Low Lake 51
Lake Havasu 98
Lake Mohave 85
Lake Mead 95
Lake Powell 89
Determina el resumen de los cinco números.
{3, 33, 55, 89, 98}
Box-and-Whisker Plots
Box-and-Whisker Plots
• Outliers en Box-and-Whisker Plots– Los siguientes datos son los porcientos para los
lagos y reservas de California (se han omitido los nombres de las mismas)80, 83, 77, 95, 85, 74, 34, 68, 90, 82, 75
– Crea un box plot en tu calculadora gráfica.
Box-and-Whisker Plots
Box-and-Whisker Plots
Box-and-Whisker Plots
Box-and-Whisker Plots
• Una manera de definir un outlier en un box plot es cualquier punto que está a más de 1.5 veces el rango intercuartil.
Box-and-Whisker Plots
Box-and-Whisker Plots