Upload
gerad-cookie-ortega
View
213
Download
0
Embed Size (px)
Citation preview
7/27/2019 temesd02.pdf
1/26
Estadstica DescriptivaDiplomatura de EstadsticaFacultad de Matematicas y Estadstica
Universidad de Sevilla
Tema 2Resumenes numericos y graficosVersion 2005-2006-
Jose A. Mayor Gallego
Departamento de Estadstica e Investigacion Operativa
Universidad de Sevilla
7/27/2019 temesd02.pdf
2/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 1
1. Introduccion
Usualmente, la investigacion de un colectivo, ya se trate de una poblacion completao de una muestra o parte extrada de la misma, proporciona como resultado inmediatoun conjunto mas o menos extenso, de datos numericos o de otro tipo, que pretendemosestudiar con la finalidad de abarcar la naturaleza de dicho colectivo, en relacion a lascaractersticas que nos interesan.
De esta forma, nos enfrentamos a una masa de informacion, usualmente exten-sa, grande, lo que obliga a realizar sobre la misma diversas transformaciones, detipo reductivo, que permitan captar estructuras y patrones latentes, que de otraforma permanecen ocultos a nuestra percepcion. Dichas transformaciones producencomo resultados final una serie de objetos, de interpretacion mas inmediata, y que
clasificaremos de la siguiente forma,
Resumenes numericos.
Resumenes graficos.
2. Resumenes numericos
El primer paso en el estudio estadstico descriptivo de un conjunto de datos sera la
construccion de tablas u otros tipos de esquemas que permitan resumiry ordenarla estructura de dichos datos, facilitando as la posterior extraccion de conclusiones.
2.1. Tablas de frecuencias
Se dispone de una variable estadstica,X, constituida pornvalores,X1, X2, . . . , X n,procedentes de la observacion de un determinado caracter sobre n individuos. Estavariable puede ser tanto cualitativa como cuantitativa, y supondremos que presentakmodalidades que denotamosx1, x2, . . . , xk. Notese que los valores originales de cada
elemento se denota por Xi
, y las modalidades por xi
.El numero de individuos que presentan la modalidad xi de denomina frecuen-
cia absoluta de dicha modalidad, y se denota ni. Obviamente
ini = n. Dichasfrecuencias se disponen en forma de tabla, con la siguiente estructura,
Modalidades Frecuencias absolutasx1 n1x2 n2...
...xk nk
Usualmente, si las modalidades estan medidas en alguna escala de tipo ordinal
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
3/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 2
o superior, dichas modalidades se disponen ordenadas. En caso contrario, es decir,cuando la escala es nominal, se disponen arbitrariamente.
Tambien podemos asociar a cada modalidad su frecuencia relativa, fi =ni/n,suporcentaje,pi = 100 fi, sufrecuencia absoluta acumulada,Ni= n1+ n2+ +ni, y su frecuencia relativa acumulada,Fi= Ni/n. Veamos un ejemplo conuna variable cuantitativa discreta.
EJEMPLO 1 Supongamos que se han estudiado 150 familias con hijos observando paracada una el numero de los mismos, habiendose obtenido los siguientes datos,
0 0 0 1 1 6 5 1 0 0 50 0 0 0 0 1 1 1 1 1 15 4 4 4 3 3 4 4 0 0 03 0 1 2 2 2 2 2 2 2 32 2 2 2 2 3 2 3 3 2 12 2 2 2 2 3 3 2 3 2 30 0 0 0 1 1 1 2 1 1 10 0 2 2 2 2 3 2 1 1 22 2 2 2 2 3 2 2 2 2 21 1 1 1 2 2 2 2 2 2 13 3 3 3 3 3 3 3 3 3 32 2 2 2 2 2 2 2 2 2 21 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2
que, una vez clasificados, originan la siguiente tabla,
xi ni fi Ni Fi0 20 20/150 20 20/1501 35 35/150 55 55/1502 62 62/150 117 117/1503 24 24/150 141 141/1504 5 5/150 146 146/1505 3 3/150 149 149/150
6 1 1/150 150 1150 1
Cuando la variable es de tipo cuantitativo continuo y/o presenta una gran cantidadvalores distintos, dichos valores se agrupan en intervalos, usualmente de la forma (a, b],que son entonces considerados como las modalidades. Notaremos (ei1, ei] al intervaloque representa la modalidadi-esima. En este caso, se asocia a cada modalidad un valorrepresentativo de la misma, denominado marca de clase, que se denota xi, y queusualmente es el punto medio del intervalo, es decir,
xi =ei1+ei
2
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
4/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 3
Veamos a continuacion un ejemplo de ello.
EJEMPLO 2 Vamos a considerar los siguientes valores, procedentes de una prueba deevaluacion realizada sobre 175 estudiantes, y cuyo rango teorico de valores es el intervalo
[0, 100],76 66 77 50 81 69 75 73 84 62 6571 93 54 70 55 86 63 84 76 80 8878 69 77 75 52 60 68 71 84 70 8978 87 98 80 76 55 65 77 64 82 7075 73 82 72 84 75 85 78 83 74 8168 76 77 61 66 85 58 92 96 51 8778 77 90 75 62 81 63 72 68 76 72
86 80 92 79 84 70 50 70 71 77 6975 91 80 87 83 64 85 61 77 65 6774 90 78 82 73 88 85 89 65 75 7684 55 81 75 77 69 83 70 86 69 9679 98 51 97 63 90 54 74 71 89 7682 71 83 77 84 78 90 53 98 75 6964 70 81 77 67 83 79 85 76 72 5776 65 71 74 94 75 66 95 80 91 8056 83 82 60 74 81 79 80 61 79
Como puede verse, estos datos presentan una gran cantidad de valores distintos. Por
ello, debido a su elevada diversidad, la tabla de frecuencias se realizara agrupando losdatos en intervalos, obteniendose por ejemplo,
(ei1, ei] xi ni Ni fi Fi(465, 555] 51 11 11 11/175 11/175(555, 645] 60 16 27 16/175 27/175(645, 735] 69 39 66 39/175 66/175(735, 825] 78 63 129 63/175 129/175(825, 915] 87 35 164 35/175 164/175
(915, 1005] 96 11 175 11/175 175/175
175 1
2.1.1. Construccion de intervalos. Regla del logaritmo
Realmente, no existe ninguna regla fija para decidir el numero de intervalos y suamplitud. Hay varias ideadas por distintos autores. A continuacion vamos exponeruna de ellas con objeto de fijar las ideas sobre esta cuestion. La denominaremosRegladel Logaritmo.
La idea general de esta regla es que los intervalos tengan la mismaamplitud, y que dichas amplitudes sean, o bien potencias de 10, es decir,
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
5/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 4
10 o 100 o 0,1 o 0,01 etc., o bien mitades de potencias de 10, es decir, 5o 50 o 0,5 o 0,05, etc., o bien quintos de potencias de 10, es decir, 2 o 20
o 200 o 0,2 o 0,02, etc.
En primer lugar decidiremos el numero maximo de intervalos, L, mediante laformula,
L= [10 log10
n]
donde [] indica en este caso redondeo al entero mas proximo. Recuerdese que log10
nes el exponente al que hay que elevar 10 para obtener n. Por ejemplo, 102 = 100 por loque log
10100 = 2. De la misma forma, log
1010.000 = 4, etc. Cuandon no es potencia
de 10, se buscara su logaritmo empleando una calculadora.
Seguidamente, denotando por XMAX y XMIN son los valores maximo y mnimo
de X respectivamente, calcularemos la cantidad,
A=XMAXXMIN
L
Finalmente buscaremos, o bien la potencia de diez, o bien la mitad de potenciade diez, o bien la quinta parte de potencia de 10, mas proxima a A por exceso, esdecir, por arriba. Dicha cantidad sera la amplitud comun de los intervalos. Veamosuna aplicacion de esta regla, empleando un nuevo conjunto de datos.
EJEMPLO 3 Vamos a considerar los siguientes valores, procedentes de la prueba de
evaluacion mencionada en el Ejemplo 2, pero realizada sobre otro grupo de 120estudiantes.El rango teorico de valores es el intervalo [0, 100],
41 46 54 60 54 61 50 50 53 5551 58 61 48 51 60 43 53 62 5556 62 45 49 55 59 56 53 59 5358 55 50 48 61 62 57 58 58 5361 50 62 49 53 60 54 34 49 5860 53 56 53 59 52 61 53 56 6039 54 50 60 57 52 55 59 53 5554 59 54 60 57 50 45 57 60 55
55 59 55 54 49 58 52 53 60 5451 56 58 53 54 49 61 50 60 5358 55 51 56 62 54 58 50 53 5561 60 54 51 53 54 55 48 58 62
Apliquemos la regla del logaritmo para construir intervalos. Tenemos n = 120, siendopues L= [10 log
10120] = 21. Se tiene XMIN= 34 yXMAX= 62, por consiguiente,
A=62 34
21 = 13333..
La potencia de 10, mitad de potencia de 10 o quinta parte de potencia de 10 mas proxi-ma por exceso a 1333.. es 2, luego esa sera la amplitud de los intervalos. Si empezamos
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
6/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 5
en 33, lo que es bastante logico, los intervalos seran,
(33, 35] (35, 37] (37, 39] (39, 41] (41, 43] (43, 45] (45, 47]....(61, 63]
es decir, 15 intervalos.
Esta quizas no sea la mejor regla para todos los casos que se nos puedan presentar,pero es una posibilidad que emplearemos con cierta frecuencia. Cuando no se indiquenada en contra, se usara en problemas y ejercicios.
2.2. Diagramas de tronco y hojas o tallo y hojas o Stemand Leaf [Trabajo personal del alumno]
Son una variacion de las tablas de frecuencia, conservando los datos originales yanadiendo alguna informacion adicional.
Realmente, este diagrama tiene una gran similitud con los histogramas pero repre-senta directamente los dgitos de los valores observados en vez de barras o rectangulos.De esta forma, su construccion es mucho mas sencilla y se conserva mucha mas in-formacion. La observacion de un diagrama de tronco y hoja revela propiedades ycaractersticas tales como,
Rango de valores de los datos, as como concentracion y simetra de los mismos.
Valores que se separan marcadamente del resto, y valores poco observados olagunas.
Para construirlo seguiremos los siguientes pasos,
1. Examinar los datos para decidir cuantos dgitos se van a conservar, truncandoa partir del ultimo dgito retenido. Todos los dgitos, salvo el ultimo, forman el
tronco de la observacion, el ultimo dgito es la hoja. El lugar de truncamiento,que podemos hacer con o sin redondeo, dependera del tipo de datos.
2. Escribir la lista de posibles troncos desde el menor al mayor y cada hoja ala derecha del tronco al que pertenece. Adicionalmente, se pueden ordenar lashojas sobre cada tronco en orden ascendente.
3. Anadir una serie de anotaciones indicando de que forma se pueden leer los da-tos a partir del diagrama y el numero de datos. Ademas, si hay valores que seseparan en exceso del resto, se anotan aparte indicando el sentido de distancia-miento. De esta forma, se obtiene un diagrama mas compacto.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
7/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 6
A veces, cuando los dgitos correspondientes a las hojas son unidades, se originandiagramas con pocos troncos pero si se toman decimas, aparecen demasiados. En estos
casos, se puede dividir un tronco en dos partes, diferenciando cada parte con un *para las hojas de 0 a 4, y con un . para las de 5 a 9. Tambien es posible diferenciarcinco partes distintas empleando *, T, F, S y . para hojas de 0 a 1, 2 a3, 4 a 5, 6 a 7, y 8 a 9 respectivamente. Observese la similitud de estas clases conlas diferentes amplitudes de intervalos empleadas en la regla de construcci on de losmismos que hemos utilizado en la seccion anterior.
Con objeto de constatar las diferencias que se pueden detectar entre dos grupos dedatos empleando los diagramas de tronco y hoja, vamos a considerar dicho diagramapara los conjuntos de datos de los Ejemplos 2. y 3. Dichos diagramas se muestran acontinuacion.
unidad = 1 1|2 representa 12
5*|00112344
5.|555678
6*|0011122333444
6.|5555566677888999999
7*|0000000111111222233344444
7.|5555555555666666666777777777788888899999
8*|0000000111111222223333334444444
8.|55555666777889999*|0000112234
9.|5667888
Figura 1. Diagrama de tronco y hoja. Datos del Ejemplo 2.
unidad = 1 1|2 representa 12
INF|34,39,41
4T|3
4F|55
4S|6
4.|88899999
5*|0000000011111
5T|222333333333333333
5F|444444444444555555555555
5S|6666667777
5.|8888888888999999
6*|000000000001111111
6T|222222
Figura 2. Diagrama de tronco y hoja. Datos del Ejemplo 3.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
8/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 7
En la primera fila, se da informacion sobre la unidad utilizada y como estanrepresentados los valores sobre el diagrama. Si hay valores extremos, se representan
en la fila siguiente, indicando si son superiores o inferiores. Por ejemplo, en la Figura2., hay tres valores extremos inferiores. La deteccion de estos valores se ha hechoempleando el metodo basado en los cuartiles. Este metodo se expone y estudia en elTema 4.
Para los datos del Ejemplo 2., se observa, como ya sabamos, una gran simetra, elintervalo intercuartlico, que contiene el 50 % de las observaciones, y la inexistencia devalores extranos. Para los del Ejemplo 3., el diagrama muestra asimetray presenciade valores extranos, raros o anomalos.
Los conceptos mencionados anteriormente, es decir, cuartiles, intervalo intercuartli-co, vallas interiores y exteriores y mediana, se veran en el Tema 3. El concepto devalores extremos o extranos se estudiara en el Tema 4.
3. Resumenes graficos
Las representaciones graficas permiten captar rapidamente y sin gran esfuerzo lasprincipales caractersticas de un conjunto o distribucion de frecuencias. Son un mediocomplementario aunque muy importante pare realizar un analisis estadstico de losdatos.
Las representaciones graficas basicas estan asociadas a los resumenes numericos otablas de frecuencias y son,
Diagramas de barras e histogramas: Representan fundamentalmente fre-cuencias, ya sean absolutas o relativas. Los diagramas de barras se empleanbasicamente para variables discretas, mientras que los histogramas se asocian avariables de tipo continuo, agrupadas en intervalos.
Polgonos de frecuencia acumulada: Representan frecuencias acumuladas.
Otras representaciones son los diagramas de rectangulos, los diagramas desectores, lospictogramasy los perfiles ortogonales
A continuacion vamos a exponer los diferentes tipos de representaciones graficas,clasificandolas segun el tipo de datos a los que se aplican.
3.1. Resumenes graficos para variables cualitativas
3.1.1. Diagramas de rectangulos
Para variables cualitativas, podemos emplear los diagramas de rectangulos. Segun
que estos se representen en horizontal o vertical, se denominan diagramas de barraso diagramas de columnas.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
9/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 8
Veamos los primeros. Basicamente consisten en representar las frecuencias median-te barras o rectangulos horizontales de longitudes proporcionales a las mismas. Por
ejemplo, si una modalidad presenta una frecuencia doble que otra, su correspondientebarra tendra tambien una longitud doble a la de la otra. Vease la Figura 3.
fi
xi
Figura 3. Diagrama de barras. En vertical aparecen las modalidades, xi. Las longitudesde las barras de cada modalidad son proporcionales a sus frecuencias.
En principio, es indiferente emplear frecuencias absolutas o relativas, pues unas
y otras son proporcionales entre si, pero si se compara una variable para diferentesconjuntos de elementos, hay que tener precaucion pues el numero total de elementos decada conjunto puede influir indirectamente en las longitudes de las barras, falseandoen cierta medida la interpretacion. Por este motivo, en tales caso hay que emplearfrecuencias relativas.
El siguiente ejemplo se empleara, al igual que los datos de los ejemplos 1., 2. y 3.,a lo largo de todo el tema, y se refiere a las preferencias de un conjunto de personaspor diferentes tipos de espectaculos, diferenciadas por sexo.
EJEMPLO 4 Se ha preguntado a un grupo de 100 varones, y a un grupo de 143
mujeres, sobre sus preferencias de ocio, siendo las modalidades los siguientes espectaculos:CINE, TEATRO, MUSICA y FUTBOL.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
10/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 9
Una vez recogidos los datos se han contado, clasificado y tabulado, obteniendose los
siguientes resumenes, diferenciados por sexo,
PREFERENCIAS DE OCIO. VARONES
ESPECTACULOS ni fiCINE 48 048
TEATRO 12 012
MUSICA 10 010
FUTBOL 30 030
100
PREFERENCIAS DE OCIO. MUJERES
ESPECTACULOS ni fiCINE 60 0419580420
TEATRO 17 0118881119
MUSICA 23 0160839161
FUTBOL 43 0300699301
143
A continuacion vamos a construir un diagrama de barras para los datos corres-pondientes a las preferencias sobre diversos espectaculos que ha mostrado un grupode 100 varones, y que aparecen en el Ejemplo 4. Lo haremos con el programa EXCEL,para lo cual pulsaremos el icono correspondiente a graficos, y una vez que aparezcala galera de posibilidades, optaremos por el diagrama de barras horizontales massimple.
En la lista es el primero, y como no vamos a realizar comparaciones, podemosemplear frecuencias absolutas. En el asistente para graficos que se nos muestra en lapantalla escogeremos la pestana serie, e introduciremos en el lugar adecuado el rangode celdas que contenga las frecuencias absolutas.
Tambien introduciremos los ttulos y rotulos adecuados para una presentacionfinal lo mas informativa posible. En la Figura 4. exponemos el resultado obtenido.
Con pequenas variaciones se pueden obtener diagramas de columnas, as comorealizar representaciones de este tipo para varias series de datos, lo que permite inte-resantes comparaciones.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
11/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 10
Figura 4. Diagrama de barras para los datos del Ejemplo 4. Preferencias del grupo de
varones. Realizado con EXCEL.
Volvemos a insistir en el cuidado que se debe tener al realizar estas comparacionescuando las series que se comparan se refieren a grupos o conjuntos de elementos dediferentes tamanos. Por ejemplo, si queremos comparar, en terminos generales, laspreferencias entre varones y mujeres, mediante diagramas de este tipo, por ejemplocon barras apiladas, tendramos que emplear las frecuencias relativas, pues hay 143mujeres y 100 hombres, y esta diferencia podra producir una falsa impresion si usamosfrecuencias absolutas, pero queremos realizar un estudio en terminos relativos.
En la Figura 5. exponemos un diagrama de barras apiladas para preferencias devarones y mujeres, realizado con EXCEL, la forma de proceder es similar a la deldiagrama anterior, pero introduciendo las dos series de datos, para varones y paramujeres, que aparecen en el Ejemplo 4., y anadiendo los rotulos adecuados. Como seaprecia en el grafico, se han empleado las frecuencias relativas para poder apreciarlas diferencias genericas entre las preferencias de varones y mujeres.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
12/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 11
Figura 5. Diagrama de barras apiladas para los datos del Ejemplo 3. Preferencias de
varones y mujeres. Realizado con EXCEL.
3.1.2. Diagramas de sectores
Sobre un crculo, se dibujan, para cada modalidad, sectores circulares de amplitudproporcional a las frecuencias. Ahora es indiferente emplear frecuencias absolutas orelativas.
Supongamos que a la modalidad xi
le corresponde una amplitud de i
grados. Setiene i=cfi, siendo c la constante de proporcionalidad, por lo que,
360o =i
i = ci
fi = 1
por consiguiente i = fi 360o. Y de esta forma se calculan las correspondientes
amplitudes de cada modalidad, en grados sexagesimales.
Por ejemplo, para los datos correspondientes a los varones del Ejemplo 4, lasamplitudes correspondientes aparecen en la tabla que se expone a continuacion.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
13/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 12
PREFERENCIAS DE OCIO. VARONES
ESPECTACULOS ni fi i= fi 360o
CINE 48 048 17280TEATRO 12 012 4320
MUSICA 10 010 3600
FUTBOL 30 030 10800100
As, para construir el diagrama de sectores, habra que tomar un crculo y dividirloen sectores con las respectivas amplitudes angulares anteriores. Para ello se necesitaalgun instrumento para poder medir angulos.
El programa EXCEL nos evita este proceso. En efecto, siguiendo un metodo analo-go al empleado para los diagramas de barras, hemos obtenido los siguientes diagramascon preferencias de varones y mujeres.
Figura 6. Diagramas de sectores para los datos del Ejemplo 4. Preferencias de varones y
mujeres. Realizado con EXCEL.
Finalmente, para terminar este apartado, diremos que aunque los diagramas derectangulos y sectores son especficos para variables de tipo cualitativo, es posible
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
14/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 13
por supuesto aplicarlos a variables cuantitativas, incluso continuas. Por ejemplo, re-cordemos que los datos del Ejemplo 2., relativos a los 175 estudiantes se resumen
numericamente en la siguiente tabla,
(ei1, ei] xi ni Ni fi Fi(465, 555] 51 11 11 11/175 11/175(555, 645] 60 16 27 16/175 27/175(645, 735] 69 39 66 39/175 66/175(735, 825] 78 63 129 63/175 129/175(825, 915] 87 35 164 35/175 164/175
(915, 1005] 96 11 175 11/175 175/175175 1
Aunque para este tipo de datos no sea lo mas apropiado, pues ya existen resumenesgraficos especficos para ellos como el histograma, no hay ningun inconveniente enconstruir un diagrama de barras como el que aparece en la Figura 6., realizado conel programa EXCEL.
Figura 7. Diagrama de barras para los datos del Ejemplo 2., agrupados en intervalos.
Realizado con EXCEL.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
15/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 14
3.2. Resumenes graficos para variables cuantitativas
Las variables de tipo intrnsecamente cuantitativo, como numero de hijos, puntua-ciones en un examen o tallas y pesos tienen tipos de graficos especficos, adaptados asus particularidades. Recordemos que las variables de este tipo pueden ser discretaso continuas, pero esta distincion es mas bien teorica, y en la practica distinguiremosfundamentalmente si la variable esta agrupada en intervalos o no. As, en los ejemplosbasicos que estamos manejando continuamente en el Tema 2., la variable NUMERODE HIJOS no se agrupa en intervalos, pues sus valores presentan poca variedad, perolas PUNTUACIONES de los 175 estudiantes s se agrupan ya que presentan numero-sos valores distintos, aunque desde un punto de vista practico tenga un caracter discre-to pues ningun profesor califica por ejemplo con 743337664553443656664. As pues,
distinguiremos basicamente que esten o no agrupadas, y consideraremos como ejem-plos paradigmaticos los ya mencionados, es decir, el NUMERO DE HIJOS de las 150familias [Ejemplo 1.] y las PUNTUACIONES de los 175 estudiantes [Ejemplo 2.].Vease inicio del Tema 2.
3.2.1. Diagramas de barras
Son especficos para las variables no agrupadas. En el eje de abscisas, es decir,el horizontal, se colocan los distintos valores de la variable, en su sitio segun su valor yla escala que se considere. Sobre cada uno de ellos, se levanta una lnea perpendicular
al eje. Las longitudes pueden ser las frecuencias absolutas, las relativas o magnitudesproporcionales a las mismas. Realmente lo que importa es la relacion entre las barras,y el tomar una u otra opcion solo hace variar la escala del grafico. Vease Figura 8.
x1 x2 xk
Figura 8. Diagrama de barras para una variable cuantitativa. En la horizontal aparecen
las modalidades,xi. Las longitudes de las barras de cada modalidad son lascorrespondientes frecuencias o cantidades proporcionales.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
16/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 15
Sobre este esquema basico existen numerosas variaciones. Por ejemplo, se puedenconsiderar lneas o barras finas de diferentes colores. Tambien se pueden comparar
diferentes conjuntos de datos, de forma similar a como se haca con variables cuali-tativas, mediante diagramas de columnas adheridas o apiladas. Recuerdese que paraeste tipo de comparaciones, y segun el objetivo que se quiera conseguir, las frecuen-cias absolutas pueden no resultar apropiadas. Vease lo dicho para los diagramas derectangulos.
En la Figura 9. se expone un diagrama de barras realizado con EXCEL para losdatos del numero de hijos de 150 familias [Ejemplo 1.]. Observese que en este grafico,las alturas de las barras coinciden con las frecuenciasni
Figura 9. Diagrama de barras para el numero de hijos de 150 familias. Realizado con
EXCEL.
3.2.2. Histogramas
Son especficos de variables agrupadas en intervalos. En el eje de abscisas secolocan los intervalos, y sobre cada uno de ellos se levanta un rectangulo de area igual,o proporcional, a la frecuencia del mismo, que en principio puede ser tanto absolutacomo relativa. Vease Figura 10.
Si por ejemplo queremos que las areas de los rectangulos coincidan con las frecuen-cias absolutas, la altura, hi, del rectangulo sobre el intervalo (ei1, ei] de amplitud ai
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
17/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 16
sera tal que ni = aihi y por consiguiente,
hi=ni/ai i= 1, 2, . . . , k
que nos permite calcular las alturas de los rectangulos.
Observemos que para una misma frecuencia, cuanto mayor es la amplitud delintervalo menor es la altura del rectangulo, pues el elemento representativo del histo-grama es la superficie. Observemos tambien que si todos los intervalos son de igualamplitud, se pueden tomar las alturas directamente iguales a las frecuencias.
e0 e1 e2 ek
Figura 10. Histograma para una variable cuantitativa agrupada.
A veces, la aplicacion rigurosa de la regla anterior, bajo una determinada escala,da lugar a graficos poco esteticos, por ejemplo muy aplastados o muy estirados envertical, pudiendose entonces introducir un factor de proporcionalidad que produzcauna grafica mas proporcionada. Esto equivale simplemente a un cambio de escala, yno distorsiona en absoluto la finalidad del histograma.
En la Figura 11. se expone un histograma realizado con EXCEL para los datos delEjemplo 2., es decir, las puntuaciones de 175 estudiantes, agrupadas en intervalos. Eneste caso, todos los intervalos tienen la misma amplitud, y en la grafica, la altura delos rectangulos construidos sobre cada intervalo se ha hecho coincidir con la frecuenciaabsoluta,ni. De esta forma se consigue que las superficies de los diferentes rectangulo
guarden una relacion de proporcionalidad con las frecuencias de cada uno, que comoya hemos mencionado, es la idea fundamental de este tipo de grafico.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
18/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 17
Figura 11. Histograma para los datos del Ejemplo 2, puntuaciones de 175 estudiantes,agrupados en intervalos. Realizado con EXCEL.
3.2.3. Polgono de frecuencias
Este grafico se puede construir tanto para variables no agrupadas como agrupadasen intervalos, y tanto con frecuencias absolutas como relativas. Nosotros lo veremoscon frecuencias absolutas.
3.2.3.1. Variables no agrupadas en intervalos
Consiste en construir, a partir de un diagrama de barras, existente o hipotetico,segmentos rectilneos que unan los extremos de las barras, formando as una lneapoligonal que une los puntos (x1, n1), (x2, n2),...,(xk, nk). Usualmente, este graficose proporciona en combinacion con el diagrama de barras, pero no es estrictamentenecesario. En la Figura 12. aparece esquematicamente un diagrama de este tipo,construido a partir del diagrama de barras.
En la Figura 13. podemos ver un polgono de frecuencias, obtenido con el programaEXCEL, para los datos del numero de hijos de 150 familias, ya conocidos. Como puedeverse, la evolucion del polgono permite captar rapidamente el fenomeno es estudio.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
19/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 18
x1 x2 xkxi
Figura 12. Polgono de frecuencias para una variable cuantitativa no agrupada en
intervalos.
Figura 13. Polgono de frecuencias para el numero de hijos de 150 familias. Realizadocon EXCEL.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
20/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 19
3.2.3.2. Variables agrupadas en intervalos
Consiste en construir, a partir de un histograma, existente o hipotetico, segmentosrectilneos que unan los puntos medios de las bases superiores de cada rectangulo,formando as una lnea poligonal.
Sixison las marcas de clases de los intervalos, y hison las alturas de los rectangulosconstruidos sobre los intervalos, dicha lnea poligonal es la que une los puntos (x1, h1),(x2, h2),...,(xk, hk).
Usualmente, este grafico se proporciona en combinacion con el histograma, pero noes estrictamente necesario. En la Figura 14. aparece esquematicamente un diagramade este tipo, construido a partir del histograma.
En la Figura 15. podemos ver un polgono de frecuencias, obtenido con el programa
EXCEL, para los datos de las puntuaciones de 175 estudiantes, ya conocidos. Comopuede verse, la evolucion del polgono permite captar rapidamente el fenomeno esestudio.
e0 e1 e2 ek
Figura 14. Polgono de frecuencias para una variable cuantitativa agrupada en intervalos.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
21/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 20
Figura 15. Polgono de frecuencias para las puntuaciones de 175 estudiantes. Realizadocon EXCEL.
3.2.4. Curva acumulativa
Este grafico pretende plasmar visualmente la acumulacion de la frecuencia, alaumentar los valores de la variable. Usualmente emplea frecuencias relativas acu-muladas y se puede realizar tanto para variables no agrupadas como agrupadas enintervalos. Para este tipo de grafico es indispensable que los valores de la variable secoloquen ordenados de menor a mayor.
3.2.4.1. Variables no agrupadas en intervalos
Para este tipo de datos, la curva acumulativa es la representacion grafica de lasiguiente funcion,
F(x) =
0 si x < x1F1 si x1 x < x2F2 si x2 x < x3
Fk1 si xk1 x < xk1 si xk x
La grafica es una lnea constante a trozos, nunca decreciente, y con saltos enlos puntos x1, x2,...,xk, correspondientes a las discontinuidades de la funcion F(x).
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
22/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 21
Observemos que el crecimiento de esta lnea indica la forma en que se distribuyen lasobservaciones en los diferentes valores de la variable. Realmente, para un valorx IR,
F(x) es la frecuencia relativa o proporcion de individuos cuyo valor de la variable enestudio es menor o igual que x.
Por ejemplo, para el conocido ejemplo del numero de hijos de 150 familias, F(3)es la frecuencia relativa o proporcion de familias que tienen 3 hijos o menos, es decir0 o 1 o 2 o 3 hijos, y as se comprende el hecho de que la grafica presente saltos enlos valores xi.
La funcionF(x) se denominafuncion de distribucionde la variable estadsticaque se estudia. No hay que confundir esta funcion con la funcion de distribucionasociada a una variable aleatoria, que se estudia en Calculo de Probabilidades. Soncosas distintas.
x1 x2 x3 xk
F1
F2
1
)
[ )
[ )[ )
F(x)
[
Figura 16. Curva acumulativa para una variable cuantitativa no agrupada en intervalos.
Es la grafica de la funcionF(x).
En la Figura 16. aparece esquematicamente un grafico de este tipo. Observese quela notacion ) y [ indica que extremo de los segmento es abierto o cerrado respectiva-mente.
3.2.4.2. Variables agrupadas en intervalos
La idea es la misma que para datos no agrupados, pero ahora, se aplica la hip otesisteorica de que las observaciones se distribuyen uniformemente en los intervalos, con
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
23/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 22
lo cual la acumulacion se supone exenta de discontinuidades. Concretamente, estagrafica se obtiene uniendo por segmentos rectilneos los puntos,
(, 0), (e0, 0), (e1, F1), (e2, F2), , (ek1, Fk1), (ek, 1), (+, 1)
formando as una lnea poligonal continua y creciente que indica la forma en que sedistribuyen las observaciones en los diferentes valores de la variable. Esta lnea es larepresentacion de una funcion que denotamos, con en el caso anterior, F(x).
Realmente, para un valor x IR, F(x) es la frecuencia relativa o proporcion deindividuos cuyo valor de la variable en estudio es menor o igual que x. Por ejemplo,para el conocido ejemplo de las puntuaciones de 175 estudiantes, F(675) es la fre-cuencia relativa o proporcion de estudiantes que han obtenido 675 o menos, es decir
una nota en el intervalo [0, 67
5].Tambien como en el caso anterior, la funcionF(x) se denomina funcion de distri-
bucion de la variable estadstica que se estudia. No hay que confundir esta funcioncon la funcion de distribucion asociada a una variable aleatoria, que se estudia enCalculo de Probabilidades. Son cosas distintas.
En la Figura 17. aparece esquematicamente un grafico de este tipo. Observese lacontinuidad y su caracter creciente.
e0 e1 e2 ek
1
F1
F2
F3
F(x)
Figura 17. Curva acumulativa para una variable cuantitativa agrupada en intervalos.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
24/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 23
3.3. Otros tipos de graficos
3.3.1. Pictogramas
Estos graficos utilizan figuras relacionadas con el fenomeno que se estudia de formaque su tamano o cantidad indique la frecuencia de cada modalidad.
Supongamos que se ha estudiado la produccion lactea media diaria de tres granjasde ganado vacuno, denominadas GRANJA A, GRANJA B y GRANJA C, siendo lasproducciones en litros,
GRANJA PRODUCCION LACTEAGRANJA A 495
GRANJA B 2456GRANJA C 1567
En la Figura 18. se expone un pictograma que pretende representar las diferenciasde produccion mediante el tamano de la figura.
Figura 18. Pictograma para la produccion lactea de las granjas A, B y C
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
25/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 24
3.3.2. Cartogramas
Sobre un mapa se indica, para cada region geografica, la frecuencia o intensidadde la caracterstica en estudio. Para hacerlo se pueden emplear diferentes colores otramas, o tambien cantidades numericas.
A modo de ejemplo, se expone en la Figura 19. un cartograma en el que se quiererepresentar las diferencias de porcentaje de aulas de ensenanza concertada sobre eltotal de la ensenanza privada, en diferentes comunidades. Este cartograma se haextrado de un Boletn Informativo elaborado por el Instituto Nacional de Estadsticaen Junio de 2002, sobre la ensenanza privada en Espana.
Figura 19. Cartograma representativo de los porcentajes de aulas de ense nanza privada
concertada sobre el total de la ensenanza privada. Fuente: I.N.E., Junio de 2002.
Como es facil de comprender, ni los pictogramas ni los cartogramas pueden con-siderarse graficas muy representativa ni exactas. Este problema puede eliminarse enparte acompanando el grafico de las cantidades numericas, como en el caso del anteriorcartograma.
Jose A. Mayor Gallego. Universidad de Sevilla
7/27/2019 temesd02.pdf
26/26
F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 25
3.3.3. Perfil ortogonal
Se emplea para representar diferentes caractersticas de un mismo individuo. Estarepresentacion tiene gran interes en estudios psicologicos o pedagogicos. Consisteen representar, para cada individuo, representar en un eje horizontal las distintascaractersticas en estudio, y en el eje vertical los valores de cada una.
Por ejemplo, supongamos que un alumno de Primero de Estadstica presenta lassiguientes calificaciones,
Asignatura CalificacionEstadstica Descriptiva 8Analisis Matematico 5
Algebra 6Calculo de Probabilidades 4Informatica 5Teora de la Probabilidad 2Investigacion Operativa 6
que representadas graficamente dan lugar al siguiente perfil ortogonal que aparece enla Figura 20.,
Figura 20. Perfil ortogonal para las calificaciones obtenidas por un alumno de Primero deEstadstica. Realizado con EXCEL.