56
HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant Systems, Inc. All rights reserved.

HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

Embed Size (px)

Citation preview

Page 1: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describiendo series datos de una variable

Capítulo 4

Copyright © 2010 by Hawkes Learning

Systems/Quant Systems, Inc.

All rights reserved.

Page 2: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Ch 4. Describing Data From One Variable

4.1 Measures of Location

Describing Data from One Variable

Sections 4.1-4.3a Measures of Location

Objetivos:

• Calcular la media, mediana y moda• Determinar la medida de centralidad más apropiada

Page 3: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Medidas de Tendencia Central:

• Si consideramos una serie de datos como un grupo de valores que se agrupan alrededor de un valor central, entonces el valor central representa un punto focal para la serie,

• Desafortunadamente, la noción de valor central es un concepto vago, que ha sido definido tanto por la manera como es calculado como por la noción en sí misma.

• Existen varias medidas estadísticas que se utilizan para definir la noción del centro: la media aritmética, la media truncada (trimmed mean), la mediana y la moda

Describing Data from One Variable

Section 4.1 Measures of Location

Page 4: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

La media aritmética:

• Supongan que existen n observaciones en una serie de datos, que consisten en las observaciones ; la media aritmética es

• La media es lo que generalmente llamamos el “promedio” de una serie de datos.

• Para calcular la media, simplemente suma todos los valores y divide por el numero total de valores en la serie de datos.

• La media sólo debe ser utilizada para datos cuantitativos.

• Los datos extremos (outliers) tienen un fuerte efecto en la media.

Describing Data from One Variable

Section 4.1 Measures of Location

1 2

1... .nx x x

n

1 2, ,..., nx x x

Page 5: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

La media aritmética:

• Si utilizamos notación matemática, la fórmula puede ser simplificada a

donde es el i-ésimo valor de una serie de datos y sigma es la función sumatoria.

• Existen dos símbolos asociados con la media.

• Aquí se refiere al tamaño de la muestra y se refiere al

tamaño de la población. En todo caso, los cálculos se hacen de la misma manera.

ix

nix

1 2

1... nx x x x

n the , andsample mean

1 2

1... nx x x

N the .population mean

n N

Describing Data from One Variable

Section 4.1 Measures of Location

Page 6: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Ejemplo:

Calcula la media de las siguientes alturas:63, 68, 71, 67, 63, 72, 66, 67, 70

Solución:

Al calcular la media, redondea a una décima más de lo que digan los datos.

607

9

Describing Data from One Variable

Section 4.1 Measures of Location

Page 7: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Desviación:

• Dado un punto A y un punto x, entonces x – A representa qué tanto x se desvía de A. Esta diferencia se llama desviación.

• La tabla de abajo muestra las desviaciones de la media del siguiente conjunto de valores: 4, 10, 7, 15. La media de la serie de datos es 9.

Nota que la suma de las desviaciones es cero. Esto demuestra por qué la media es una medida de tendencia central. Si calculamos las desviaciones con respecto a cualquier otro valor, su suma no será cero.

1x = 4+10+7+15 = 9.

4

Valoresxi

Desviaciones de la media(xi – 9)

4   – 5 10  17  – 2

15  6

i 9 = 0x

Describing Data from One Variable

Section 4.1 Measures of Location

Page 8: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

La mediana:

• La mediana de una serie de datos es el valor mediano en un conjunto ordenado. Es decir, el mismo número de valores se encuentra en cada lado del valor mediano.

Ordena los datos en

orden ascendente

Cuenta el número de valores en los datos

La mediana es la suma de los dos valores

medianos dividido entre dos.

La mediana es el valor que se situa enmedio de

los datos.

El número de

valores es par

El número de

valores es non

Describing Data from One Variable

Section 4.1 Measures of Location

Page 9: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

a. 15 16 11 22 19 10 17 22

Calcula la mediana de los siguientes sets de datos

Solución:

10 11 15 16 17 19 22 22

b. 2.6 3.3 5.0 1.8 0.7 2.2 4.1 6.1 6.7

Solución:

0.7 1.8 2.2 2.6 3.3 4.1 5.0 6.1 6.7

16+17=

216.5

Ejemplo:

Describing Data from One Variable

Section 4.1 Measures of Location

Page 10: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

La media ajustada:

• The media ajustada ignora un porcentaje igual de los valores más altos y más bajos al calcular la media.

Para calcular una media 10%

ajustada, ordena los datos en

orden ascendente.

Borra 10% de los

valores más bajos

Borra 10% de los

valores más altos

Calcula la media aritmética de los

valores restantes (80%)

Describing Data from One Variable

Section 4.1 Measures of Location

Page 11: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Considera los siguientes datos

16 18 20 21 23 23 24 32 36 42

media = 25.5 mediana = 23Encuentra la media truncada al 10%

Debido a que tenemos 10 observaciones, remover los 10% de los mayores y menores valores significa remover sólamente la observación más alta y la más baja.

18+20+21+23+23+24+32+3610% trimmed mean = 8

=24.625

Ejemplo:

Describing Data from One Variable

Section 4.1 Measures of Location

Solución:

Page 12: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Medidas resistentes:

• Las medidas estadísticas que no son afectadas por los outliers se dice que son resistentes.

• La media no es una medida resistente. • La media ajustada sí es una medida resistente

Describing Data from One Variable

Section 4.1 Measures of Location

Page 13: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

La moda:

• La moda de un data set es el valor que ocurre de manera más frecuente.

• La moda es la única medida de centralidad que puede ser utilizada para datos nominales. nominal data.

• Cuando una serie de datos tiene dos modas se dice que es bimodal.

• Cuando una serie de datos tiene más de dos modas se dice que es multimodal.

Describing Data from One Variable

Section 4.1 Measures of Location

Page 14: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

a. 63 68 71 67 63 72 66 67 70

Calcula la moda de cada set de datos.

b. 51 77 54 51 68 70 54 65 51

c. 1 5 7 3 2 0 4 6

Ejemplo:

Solución:

Existen dos modas: 63 y 67. El set de datos es bimodal.

Solución:

51 ocurre tres veces, 51 es la moda.

Solución:

Cada valor aparecer solamente una vez, no hay moda.

Describing Data from One Variable

Section 4.1 Measures of Location

Page 15: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• La distribución de los datos determina cómo se relacionan la media, la mediana y la moda.

• Para una distribución en forma de campana, la media, la mediana y la moda son idénticas.

Describing Data from One Variable

Section 4.1 Measures of Location

La relación entre la media y la mediana:

Page 16: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• No todos los datos producen distribuciones normales o en forma de campana.

• Si la distribución de datos tiene una larga cola hacia la derecha, se dice que está sesgada a la derecha o positivamente.

• Al contrario, si la distribución tiene una cola larga hacia la izquierda, se dice que está sesgada a la izquierda o negativamente.

Si los datos están positívamente sesgados, la mediana será menos que la media.

Si los datos están negativamente sesgados, la mediana será mayor a la media.

Describing Data from One Variable

Section 4.1 Measures of Location

Distribuciones sesgadas:

Page 17: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Escogiendo una medida de tendencia:

• El objetivo de usar estadística descriptiva es proveer medidas que ofrezcan información resumida útil sobre los datos.

• Al seleccionar un estadístico para representar el valor central del data set, el primer paso consiste en definir qué tipo de datos se están analizando.

• La media aritmética es frecuentemente, aunque no siempre, la medida más razonable de centralidad.

Page 18: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Medida de

ubicación

No sensible

Muy sensible

Media

Mediana

Moda

t-mean

Medida de ubicación

Nivel de medición aplicable

Cualitativo Cuantitativo

nominal ordinal intervalo ratio

Media

Mediana

Moda

t-mean

A la derecha se muestra una tabla que define los niveles de medición aplicables para cada medida de ubicación.

A la izquierda se muestra una tabla que define la sensibilidad ante los outliers para cada medida de ubicación.

Seleccionando una medida de ubicación:

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Page 19: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Seleccionando una medida de tendencia central:

• La media y la mediana tienen el mismo valor cuando los datos son simétricos.

• Cuando los datos son nominales u ordinales, no se debe calcular la media.

• Cuando los datos tienen al menos un intervalo y no hay outliers, la media es una opción razonable.

• Cuando los datos se presentan de manera ordinal, la mejor opción es calcular la mediana.

• La mediana es una buena medida de tendencia central debido a que no es sensible a outliers.

• La mediana puede ser utilizada en todos los niveles de medición excepto el nominal.

• La moda puede ser utilizada en todos los niveles de medición, pero no es util para datos cuantitativos.

• Si los datos son nominales sólo hay una opción: la moda.

Page 20: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Series de tiempo y medidas de centralidad

• La gráfica de abajo muestra los precios promedio de gasolina en una serie de años. En esta serie de tiempo no estacionaria, el valor central está aumentando

• Una manera de capturar este movimiento es con una media móvil

Page 21: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Media móvil:

• El promedio o media móvil (moving average) se obtiene al sumar observaciones consecutivas para un número de periodos y dividiendo el resultado entre el número de periodos incluídos en el promedio.

• La tabla muestra el precio promedio de gasolina en EEUU de 1991 a 2002 así como los promedios móviles de 2 y 3 periodos.

YearAverage US Gas Price

2 Period Moving Average

3 Period Moving Average

YearAverage US Gas Price

2 Period Moving Average

3 Period Moving Average

1991 1.09 1997 1.18 1.195 1.167

1992 1.10 1.095 1998 1.01 1.095 1.333

1993 1.07 1.085 1.087 1999 1.14 1.075 1.110

1994 1.08 1.075 1.083 2000 1.49 1.315 1.213

1995 1.11 1.095 1.087 2001 1.38 1.435 1.337

1996 1.21 1.160 1.133 2002 1.34 1.360 1.403

• La media móvil de 2 períodos para 1992:

1.09+1.10=1.095.2

Page 22: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.2 Selecting a Measure of Location

Moving Average:

• The chart below displays the time series and the two and three-period moving averages.

• Noten que ambos promedios siguen la serie de tiempo de manera bastante cercana

Page 23: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

Ch 4. Describing Data From One Variable

4.1 Measures of Location

Describing Data from One Variable

Sections 4.1-4.3b Measures of Dispersion

Objetivo:

• Calcular el rango, varianza y desviación estandar.

Page 24: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Midiendo la variación:

• Varias de las medidas de variación utilizan el concepto de desviación de la media.

• Si la media es un punto focal (focal point) o base, úsala como una base común desde la cual calcular la variación.

• La distancia que existe entre un punto y la media se llama desviación de la media.

• La suma de las desviaciones positivas es igual a la suma de los valores absolutos de las desviaciones negativas.

• Las desviaciones siempre sumarán cero.

• Muchas de las medidas de variación promedian las desviaciones de alguna manera.

Page 25: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Data set: 3, 12, 20, 15, 0Media = 10

ValoresDesviaciones de la media

valor – media = desviación

3 3 – 10 =

12 12 – 10 =

20 20 – 10 =

15 15 – 10 =

0 0 – 10 =

– 7

2

10

5– 10

Ejemplo:

Las desviaciones de la media de un conjunto de datos se calculan en la tabla de abajo. Nota que la suma de las desviaciones es cero.

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Page 26: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Desviación absoluta de la media:

• La desviación media absoluta de la muestra (MAD) es

• Calcula la distancia promedio desde la media de un conjunto de datos.

• Si un conjunto de datos A tiene una desviación mayor a B, entonces es razonable creer que el conjunto de datos A tiene más variabilidad que el conjunto de datos B.

• Es una medida intuitiva de varianza. • Su desarollo teórico se ha dificultado debido a la dificultad que los

valores absolutos imponen al cálculo.• Es sensible a los outliers y no es una variable resistente.

. i -MAD =x x

n

Page 27: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Supongan que seis personas participan en una carrera de 1000 metros. Sus tiempos, medidos en minutos, se muestran abajo. El tiempo medio es de 8.333 minutos. Calcula la desviación absoluta a la media

Time in min.

DeviationAbsoluteDeviation

% oftotal

4

10

9

11

9

7

Total

11.334Mean Absolute Deviation = =1.889 minutes.6

4 – 8.333 = – 4.33310 – 8.333 = 1.667 9 – 8.333 = 0.66711 – 8.333 = 2.667

9 – 8.333 = 0.6677 – 8.333 = – 1.333

4.3331.6670.6672.667

0.6671.333

11.334

38.2314.715.88

23.53

5.8811.77

100.00

4.333 100=38.2311.334

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Ejemplo:

Page 28: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Varianza y desviación estándar:

• La desviación estándar y la varianza son las medidas de variabilidad más comunes.

• La desviación estándar y la varianza también proveen medidas numéricas de cómo los datos varían alrededor de la media.

• Si los valores se encuentran comprimidos alrededor de la media, la desviación estándar y la varianza serán relativamente pequeñas.

• Si los valores se encuentran ampliamente dispersos alrededor de la media, la desviación estándar y la varianza serán relativamente altas.

Page 29: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Varianza:

• La varianza de un conjunto de datos que contiene el conjunto completo de la población se describe por:

Esto se llama la varianza de la población.

• La varianza de un conjunto de datos que contiene datos de la muestra se describe por:

Esto se conoce como varianza muestral

22 ( )

ix

N

22 ( )

1

ix x

sn

Page 30: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Dados los siguientes tiempos en minutos de 6 personas en una carrera de 1000 metros, calcula la varianza muestral. La media muestral es 8.333

4, 10, 9, 11, 9, 7Data Desviaciones Squared

Deviations % of total

4

10

9

11

9

7

4 – 8.333 = – 4.333

10 – 8.333 = 1.667

9 – 8.333 = 0.667

11 – 8.333 = 2.667

9 – 8.333 = 0.667

7 – 8.333 = – 1.333

18.7749

2.7789

0.4449

7.1129

0.4449

1.7769

31.33

59.93

8.87

1.42

22.70

1.42

5.67

100.00Total

2 31.33= = =6.266 squared minutes.51

ix xs

n

Ejemplo:

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Page 31: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Desviaciones estándar:

• La desviación estándar es la raíz cuadrada de la varianza.

• Existen dos medidas de varianza, así que hay dos desviaciones estándar..

• La desviación estándar muestral

• La desviación estándar poblacional

• Es importante recordar los símbolos anteriores eabido a que la desviación estándar es un concepto estadístico fundamental.

2=s s

2

Page 32: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Desviación Estándar:

• La desviación estándar es la raíz cuadrada del promedio de la desviación cuadrada.

• También puede ser usada para medir qué tan lejanos están los valores con respecto a la media.

• Relativamente pocos valores estarán situados a más de dos unidades de desviación de la media.

• Como la varianza, la desviación estándar es sensible a los outliers.

• La presencia de outliers contamina la interpretación de la desviación estandar como una desviación típica.

Page 33: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.3 Measures of Dispersion

Rango:

• El rango es la diferencia entre el mayor y el menor valor de una serie de datos

Ejemplo:

Calcula el rango de la siguiente serie de datos:

4, 6, 16, 9, 24, 8, 0, 12, 1

Solución:

El valor más alto es 24 y el más bajo es 0Rango = 24 – 0 = 24.

Page 34: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Objetivos:

• Determinar los percentiles y la ubicación de datos específicos.

• Encontrar los cuartiles de datos.

• Determinar el valor-z como una medida de posición relativa.

Page 35: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Percentil Pth:

• Dada una serie de datos x1, x2,…,xn, el percentil Pth es un valor X, tal que al menos el P por ciento de los datos es menor o igual a X y al menos (100-P) por ciento de los datos es mayor o igual a X.

• La medida más utilizada de posición relativa es el percentil.

Page 36: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Percentil Pth:

Para determinar el percentil Pth:• Ordena los datos del menor al menor. • Para encontrar la ubicación del percentil TPth en el conjunto

ordenado calcula

donde n es el número de observaciones de los valores ordenados.

• Si no es un número entero, redondea al siguiente mayor entero.

• SI es un entero, promedia el valor en la ubicación con los valores en la ubicación

• Recuerda, no es el percentil, es la ubicación del percentil en el conjunto ordenado.

100

P

n

1

Page 37: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Ordena los datos en

orden ascendente.

Para encontrar el percentil Pth, calcula,

Donde n es el número de observaciones en los datos ordenados.

¿Es entero?

Redondea al siguiente

entero

Promedia el valor en la ubicación

Con el valor en la ubicación

Encuentra el valor en la ubicación

1

th

100

Pn

No

Determinando el percentil Pth :

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Page 38: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Encuentra el percentil 50th de la siguiente serie de datos.3, 5, 0, 1, 9, 2, 7

Solución:

Debido a que la ubicación no es un entero, el valor se redondea a 4.

50

7 = 3.5100

0, 1, 2, 3, 5, 7, 9

Por tanto, la cuarta observación en el conjunto ordenado sería la media

El valor medio (que corresponde el percentil 50th) es 3.

Page 39: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Encuentra el 50th percentil para la siguiente serie de datos.3, 5, 0, 1, 9, 2, 7, 6

Solución:

Debido a que la ubicación es un entero, promediamos el 4to y el 5to valor del conjunto ordenado.

El 50th percentil de esta serie de datos es 4

50

8 = 4100

0, 1, 2, 3, 5,6, 7, 9

3+5 8= =42 2

Page 40: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Percentil:

• El percentil de un valor x está dado por:

100 xx number of data values percentile oftotal number of data values

Page 41: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Encuentra el percentil de 45 para la siguiente serie de datos.

67, 45, 63, 58, 35, 54, 27, 66, 21, 48

Los valores menores o iguales a 45 son:

21, 27, 35, 45, 48, 54, 58, 63, 66, 67

El número de valores menores o iguales a 45 es 4.

4

percentile of 45 = 100 = 4 10 = 40.10

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Solución

Page 42: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Cuartiles:

• Los percentiles 25th, 50th y 75th se conocen como cuartiles y se nombran Q1, Q2, y Q3.

• Los cuartiles sirven como marcadores para dividir los datos.

• Q1 separa al 25% más bajo

• Q2 representa la mediana (percentil 50th).

• Q3 marca el principio del 25% más alto

• Como los cuartiles no son más que percentiles, los construimos de la misma manera que éstos.

Page 43: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Encuentra Q1, Q2, and Q3 para la siguiente serie de datos:

50, 50, 62, 75, 77, 82, 86, 87, 88, 88

25

10 = 2.5100

Q1th rd = 25 percentile = 3 data value = 62.

= = = Q2th 77+82

250 percentile 79.5.

= = = Q3th th75 percentile 8 data value 87.

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Solución:

50

10 = 5100

75

10 = 7.5100

Page 44: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Rango intercuartil:

• El rango intercuartil (interquartile range), que describe el rango del 50% mediano de los datos, es dado por:

Rango intercuartil = Q3 – Q1.

• Para el ejemplo anterior el rango intercuartil es 87 – 62 = 25.

• Un valor es considerado un outlier si es 1.5 veces mayor que el rango intercuartil arria del percentil 75th o 1.5 veces mayor que el rango intercuartil más bajo que el percentil 25th.

Page 45: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

0 10 20 30 40 50 60 70 80 90 100 110 120 130

• Un uso importante de los cuartiles es la construcción de box plots.• Los box plots son resúmenes gráficos de datos que parecen cajas.• Provee un método alternativo al histograma para mostrar datos.• Un box plot es un resúmen gráfico de tendencia central, la

distribución, el sesgo y la existencia potencial de outliers en los datos. • Abajo se presenta una box plot de la serie de datos anterior:

• El cuadro se construye a partir de 5 medidas: • el valor mayr• el valor menor• el percentil 25th

• el percentil 75th • la mediana

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Box Plots:

Page 46: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

12, 50, 62, 75, 77, 82, 86, 87, 88, 126

Q1 = 62, Q2 = 79.5, Q3 = 87, rango intercuartil = 25

Mayor que el 75th percentil + 1.5 veces el rango intercuartil= 124.5

62 1.5 25 = 24.5

Menor que el 25th percentil – 1.5 veces el rango intercuartil = 24.5

87+1.5 25 =124.5

Encuentra los outliers en esta serie de datos.

Los outliers de esta serie de datos son 12 y 126.

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Solución:

Page 47: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• El z-score transforma un valor en el número de desviaciones estándar que lo separan de la media

xz

• Describir el número de desviaciones estándar es un concepto fundamental en estadística.

• Se utiliza como una técnica de estandarización. • Si el z-score es negativo, el valor es menor a la media • Si el z-score es positivo, el valor es mayor a la media.• El z-score es una unidad de medida de libre.

mean

standard deviation

Remember:

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Valores-Z:

Page 48: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Curso Media

Desviación Estandar

Biology 74 10

Psychology 82 11

Supongan que obtienen un 86 en su examen de biología y un 94 en su examen de psicología. La media y la desviación estándar de los dos examenes se muestran a la derecha.

¿Cuáles son los z-scores de los dos exámenes? ¿En cuál fue mejor el resultado?

El z-score para el ex. de biología es:

El z-score para el ex. de psicología es:

z

86 74= =1.2.

10

z

94 82= =1.09.

11

Aunque el resultado bruto en el examen de psicología es mayor que el de biología, el desempeño en el examen de biología fue ligeramente menor

Describing Data from One Variable

Section 4.4 Measures of Relative Position

Ejemplo:

Solución:

Page 49: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

HAWKES LEARNING SYSTEMS

math courseware specialists

• Calcular el coeficiente de variación y usarlo para comparar la variación de diferentes series de datos• Calcular la media, varianza y desviación estandar de datos agrupados. • Utilizar la regla empírica y el Teorema de Chebyshev para describir la variabilidad de los datos.

Describing Data from One Variable

Sections 4.5-4.10 Applying the Standard Deviation

Objectivo:

Page 50: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Regla de una sigma: aproximadamente 68% de los datos deben caer dentro de una desviación estándar de la media.Una desviación de más de una sigma se debe esperar una vez cada tres observaciones.

Si la distribución tiene forma de campana:

Regla de dos sigmas: aproximadamente 95% de los datos deben caer dentro de dos desviaciones de la media. Una desviación de más de dos sigmas se espera una vez cada veinte observaciones.

Regla de tres sigmas: aproximadamente 99.7% de los datos deben caer dentro de tres desviaciones estándar de la media. Una desviación de más de tres sigmas se espera aprox. una vez cada 333 observaciones, un poco menos que 0.3% de las veces.

Describing Data from One Variable

Section 4.5 Using the Standard Deviation

Regla Empírica:

Page 51: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• La proporción de cualquier serie de datos que caiga dentro de desviaciones estándar de la media es al menos:

2 .k

k

11 , for 1

k

• = 2: Al menos (o 75%) de los valores caen dentro de 2 desviaciones estándar de la media para cualquier serie de datos.

k 2

1 31 =

2 4

• = 3: Al menos (o 88.9%) de los valores caen dentro de 3 desviaciones estándar de la media, para cualquier serie de datos.

Describing Data from One Variable

Section 4.5 Using the Standard Deviation

Teorema de Chebyshev:

k 2

1 81 =

3 9

Page 52: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• El coeficiente de variación compara la variación en las series de datos • Para datos muestrales:

• Para una población:

• El coeficiente de variación estandariza la medida de variación.

Describing Data from One Variable

Section 4.8 The Coefficient of Variation

Coeficiente de variación:

% s

CVx

100

%

CV 100

Page 53: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• Encontrar la media de datos agrupados implica encontrar el punto medio de cada una de las clases en la distribución de frecuencia y ponderar cada uno de estos puntos medios por el número de observaciones en la clase.

• Para una población, la media de datos agrupados se da por:

• Si los datos agrupados representan observaciones muestrales la media se da por:

Describing Data from One Variable

Section 4.9 Analyzing Grouped Data

Encontrando la media de datos agrupados:

.i if M

N

.i if Mx

n

i

i

i

f

N N f

M

n

i

i

th

th

number of observations in the group,

the total number of observations in all classes, ,

midpoint of the class, and

the number of observations in the sample.

Page 54: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• La varianza de población para datos agrupados se representa de la siguiente manera:

• La varianza muestral por:

Describing Data from One Variable

Section 4.9 Analyzing Grouped Data

Encontrando la varianza de datos agrupados:

i

i

i

f

N N f

M

n

i

i

th

th

number of observations in the group,

the total number of observations in all classes, ,

midpoint of the class, and

the number of observations in the sample.

2

2 222 .

i i

i ii i i i

f Mf M f M f MN

N N N

2

2

2 .1

i i

i i

f Mf M

nsn

Page 55: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

• Una proporción mide la fraccion de un grupo que posee cierta característica

• Para calcular una proporción, simplemente cuenta el número del grupo que posee dicha característica y divide entre el número en el grupo.

ˆ

X

N

n

Xp

NX

pn

number that possess the characteristic

number in the population

number in the sample, then

the population proportion, and

the sample proportion.

Describing Data from One Variable

Section 4.10 Proportions

Proporciones:

• El símbolo se le llama p-hat o “p gorro”.

Page 56: HAWKES LEARNING SYSTEMS math courseware specialists Describiendo series datos de una variable Capítulo 4 Copyright © 2010 by Hawkes Learning Systems/Quant

HAWKES LEARNING SYSTEMS

math courseware specialists

Supongan que su clase de estadística se compone de 48 estudiantes de los cuales 4 son zurdos. ¿Qué proporción de la clase es zurda? ¿Qué proporción es diestra?

=X

pN

4

.08348

.083 es la proporción de personas en la clase que es zurda

Xp

N

44.917

48

.917 es la proporción de personas en la clase que es diestra.

Ejemplo:

Describing Data from One Variable

Section 4.10 Proportions

Solución: