View
4
Download
1
Category
Preview:
Citation preview
1 1 Slide
Slide
Slides Prepared bySlides Prepared byJOHN S. LOUCKSJOHN S. LOUCKS
St. Edward’s UniversitySt. Edward’s University
© 2002 South-Western /Thomson Learning© 2002 South-Western /Thomson Learning
2 2 Slide
Slide
Capítulo 3 Capítulo 3 Estadística descriptiva II: Métodos Estadística descriptiva II: Métodos
numéricosnuméricos(Pág. 62)(Pág. 62)
Medidas de localización (ó de tendencia centra Medidas de localización (ó de tendencia centra l)l)
Medidas de variabilidadMedidas de variabilidad Medidas de localización relativa y detección Medidas de localización relativa y detección
valores atípicosvalores atípicos Análisis exploratorio de datosAnálisis exploratorio de datos Medidas de asociación entre dos variables Medidas de asociación entre dos variables Media ponderada y manejo de datos Media ponderada y manejo de datos
agrupadosagrupados
xx
%%
3 3 Slide
Slide
3.1. Medidas de localización (ó de tendencia 3.1. Medidas de localización (ó de tendencia central)central)
(Pág. 65)(Pág. 65) MediaMedia MedianaMediana ModaModa PercentilesPercentiles CuartilesCuartiles
4 4 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Abajo encontrara una muestra de los valores de Abajo encontrara una muestra de los valores de renta mensuales para un departamento de una renta mensuales para un departamento de una recamara. Los datos son una muestra de 70 recamara. Los datos son una muestra de 70 apartamentos en una ciudad de los Estados apartamentos en una ciudad de los Estados Unidos. Los datos se presentan en orden Unidos. Los datos se presentan en orden ascendente.ascendente.425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
5 5 Slide
Slide
Media (Pág. 65)Media (Pág. 65)
La La MediaMedia de un conjunto de datos es el de un conjunto de datos es el promedio de todos los valores de los datos.promedio de todos los valores de los datos.
Si los datos son de una muestra el promedio Si los datos son de una muestra el promedio se denota por .se denota por .
Si los datos provienen de una población, el Si los datos provienen de una población, el promedio se denota por promedio se denota por (mu).(mu).
xxnixxni
xNi x
Ni
xx
6 6 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
PromedioPromedio
xxni
34 35670
490 80,
.xxni
34 35670
490 80,
.
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
7 7 Slide
Slide
Mediana (Pág. 66)Mediana (Pág. 66)
La La medianamediana es la medida de es la medida de localización mas usada para ingresos localización mas usada para ingresos anuales y datos de valores de anuales y datos de valores de propiedad.propiedad.
Unas pocas valores de ingresos o Unas pocas valores de ingresos o valores de propiedad, extremadamente valores de propiedad, extremadamente grandes, pueden inflar el promedio.grandes, pueden inflar el promedio.
8 8 Slide
Slide
Mediana (Pág. 67)Mediana (Pág. 67)
La La medianamediana de un conjunto de datos es de un conjunto de datos es el valor en la mitad cuando los el valor en la mitad cuando los elementos de los datos están en orden elementos de los datos están en orden ascendente. ascendente.
Para un numero impar de Para un numero impar de observaciones, la mediana es el valor observaciones, la mediana es el valor de en medio (central)de en medio (central)
Para un numero para de observaciones, Para un numero para de observaciones, la mediana es el promedio de los dos la mediana es el promedio de los dos valores centrales.valores centrales.
9 9 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
MedianaMediana
Mediana = percentil 50Mediana = percentil 50
i i = (= (pp/100)/100)nn = (50/100)70 = 35.5 = (50/100)70 = 35.5 Promediando los valores de los Promediando los valores de los
datos 35to y 36to:datos 35to y 36to:
Mediana = (475 + 475)/2 = 475Mediana = (475 + 475)/2 = 475425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
10 10 Slide
Slide
Moda (Pág. 68)Moda (Pág. 68)
La La modamoda de u conjunto de datos es el de u conjunto de datos es el valor que ocurre con mayor frecuencia.valor que ocurre con mayor frecuencia.
La mayor frecuencia puede ocurrir a dos La mayor frecuencia puede ocurrir a dos o mas valores diferenteso mas valores diferentes
Si los datos tiene exactamente dos Si los datos tiene exactamente dos modas, el conjunto de datos es modas, el conjunto de datos es bimodalbimodal..
Si los datos tienen mas de dos modas, Si los datos tienen mas de dos modas, los datso son los datso son multimodalesmultimodales..
11 11 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
ModaModa
450 ocurre más frecuentemente (7 450 ocurre más frecuentemente (7 times)times)
Moda = 450Moda = 450425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
12 12 Slide
Slide
Percentiles (Pág. 68)Percentiles (Pág. 68)
Un percentil provee información de Un percentil provee información de cómo los datos están dispersos sobre cómo los datos están dispersos sobre un intervalo desde el valor mas un intervalo desde el valor mas pequeño hasta el valor mas grande.pequeño hasta el valor mas grande.
Los exámenes de admisión para las Los exámenes de admisión para las universidades (en USA) es frecuente universidades (en USA) es frecuente que se reporten en términos de que se reporten en términos de percentiles.percentiles.
13 13 Slide
Slide
El El p-èsimo percentil p-èsimo percentil de un conjunto de datos es un de un conjunto de datos es un valor tal que al menos valor tal que al menos pp por ciento de los elementos por ciento de los elementos toma este valor o menor y al menos (100 - toma este valor o menor y al menos (100 - pp) por ) por ciento de los elementos toman este valor o mas.ciento de los elementos toman este valor o mas.
• Acomode los datos en orden ascendente.Acomode los datos en orden ascendente.
• Calcule el índice Calcule el índice ii, la posición de el percentil , la posición de el percentil p-p-esimo.esimo.
ii = ( = (pp/100)/100)nn
• Si Si ii no es entero, redondee hacia arriba. El no es entero, redondee hacia arriba. El percentil percentil p-esimop-esimo es el valor en laes el valor en la posición posición ii ..
• Si Si i i es un entero, el percentil p-esimo es el es un entero, el percentil p-esimo es el promedio de los valores en las posicionespromedio de los valores en las posiciones ii e e ii+1+1
Percentiles (Pág. 69)Percentiles (Pág. 69)
14 14 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Percentil de 90Percentil de 90
ii = ( = (pp/100)/100)nn = (90/100)70 = 63 = (90/100)70 = 63
Promediando los valores de los datos 63ro y Promediando los valores de los datos 63ro y 64to :64to :
Percentil de 90 = (580 + 590)/2 = 585Percentil de 90 = (580 + 590)/2 = 585425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
15 15 Slide
Slide
Cuartiles (Pág. 70)Cuartiles (Pág. 70)
Los Los CuartilesCuartiles son percentiles son percentiles específicosespecíficos
Primer Cuartil = Percentil de 25Primer Cuartil = Percentil de 25 Segundo Cuartil = Percentil de 50 = Segundo Cuartil = Percentil de 50 =
MedianaMediana Tercer Cuartil = Percentil de 75Tercer Cuartil = Percentil de 75
16 16 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Tercer CuartilTercer Cuartil
Tercer cuartil = Percentil de 75Tercer cuartil = Percentil de 75
i i = (= (pp/100)/100)nn = (75/100)70 = 52.5 = = (75/100)70 = 52.5 = 5353
Tercer cuartil = 525Tercer cuartil = 525425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
17 17 Slide
Slide
3.2. Medidas de variabilidad (Pág. 74)3.2. Medidas de variabilidad (Pág. 74)
A menudo es deseable considera A menudo es deseable considera medidas de variabilidad (dispersión), asì medidas de variabilidad (dispersión), asì como medidas de localización.como medidas de localización.
Por ejemplo, al escoger a al proveedor A Por ejemplo, al escoger a al proveedor A o proveedor B debemos considerar no o proveedor B debemos considerar no solo el promedio del tiempo de entrega solo el promedio del tiempo de entrega para cada uno, sino también la para cada uno, sino también la variabilidad en los tiempos de entrega variabilidad en los tiempos de entrega para cada unopara cada uno
18 18 Slide
Slide
3.2. Medidas de variabilidad (Pág. 74)3.2. Medidas de variabilidad (Pág. 74)
RangoRango Rango IntercuartilRango Intercuartil VarianzaVarianza Desviación EstándarDesviación Estándar Coeficiente de VariaciónCoeficiente de Variación
19 19 Slide
Slide
Rango (Pág. 74)Rango (Pág. 74)
El El rangorango de un conjunto de datos es la diferencia de un conjunto de datos es la diferencia entre los valores más grande y más pequeño entre los valores más grande y más pequeño
Es la Es la medida mas simplemedida mas simple de variabilidad de variabilidad Es Es muy sensitivomuy sensitivo a los valores muy pequeños o a los valores muy pequeños o
muy grandesmuy grandes
20 20 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
RangoRango
Rango = valor mayor – valor menorRango = valor mayor – valor menor
Rango = 615 - 425 = 190Rango = 615 - 425 = 190
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
21 21 Slide
Slide
Rango Intercuartil (Pág. 74)Rango Intercuartil (Pág. 74)
El El rango intercuartilrango intercuartil de un conjunto de de un conjunto de datos es la diferencia entre el tercer datos es la diferencia entre el tercer cuartil y el primer cuartil.cuartil y el primer cuartil.
Es el rango donde se encuentra el 50% Es el rango donde se encuentra el 50% central de los datos.central de los datos.
Elimina la sensibilidad de los valores de Elimina la sensibilidad de los valores de datos extremos.datos extremos.
22 22 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Rango intercuartil Rango intercuartil
3er. Cuartil (3er. Cuartil (QQ3) = 5253) = 525
1er. Cuartil (1er. Cuartil (QQ1) = 4451) = 445
Rango intercuartil = Rango intercuartil = QQ3 - 3 - QQ1 = 525 - 445 = 1 = 525 - 445 = 8080
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
23 23 Slide
Slide
Varianza (Pág. 75)Varianza (Pág. 75)
La La varianzavarianza es una medida de es una medida de variabilidad que utiliza todos los datos.variabilidad que utiliza todos los datos.
Esta basada en la diferencia entre los Esta basada en la diferencia entre los valores de cada observación (valores de cada observación (xxii) y la ) y la media. (media. (xx para una muestra, para una muestra, para una para una población).población).
24 24 Slide
Slide
Varianza (Pág. 76)Varianza (Pág. 76)
La varianza es el La varianza es el promedio de las diferencias promedio de las diferencias al cuadradoal cuadrado entre cada valor de dato y la entre cada valor de dato y la media.media.
Si el conjunto de datos es una muestra, la Si el conjunto de datos es una muestra, la varianza se denota por varianza se denota por ss22. .
Si el conjunto de datos es una población, la Si el conjunto de datos es una población, la varianza se denota por varianza se denota por 22..
sxi x
n2
2
1
( )s
xi x
n2
2
1
( )
22
( )xNi 2
2
( )xNi
25 25 Slide
Slide
Desviación Estándar (Pág. 78)Desviación Estándar (Pág. 78)
La La desviación estándardesviación estándar de un conjunto de datos de un conjunto de datos es la raíz cuadrada positiva de la varianza.es la raíz cuadrada positiva de la varianza.
Se mide en las mismas unidades que los datos, Se mide en las mismas unidades que los datos, haciéndola mas comparable, que la variancia, a haciéndola mas comparable, que la variancia, a la media.la media.
Si el conjunto de datos es una muestra, la Si el conjunto de datos es una muestra, la desviación estándar se denota por desviación estándar se denota por ss..
Si el conjunto de datos es una muestra, la Si el conjunto de datos es una muestra, la desviación estándar se denota por desviación estándar se denota por (sigma). (sigma).
s s 2s s 2
2 2
26 26 Slide
Slide
Coeficiente de Variación (Pág. 78)Coeficiente de Variación (Pág. 78)
El El coeficiente de variacióncoeficiente de variación indica que tan indica que tan grande es la desviación estándar rn relación al grande es la desviación estándar rn relación al promedio.promedio.
Si un conjunto de datos es una muestra, el Si un conjunto de datos es una muestra, el coeficiente de variación se calcula como sigue:coeficiente de variación se calcula como sigue:
Si un conjunto de datos es una población, el Si un conjunto de datos es una población, el coeficiente de variación se calcula como sigue:coeficiente de variación se calcula como sigue:
sx
( )100sx
( )100
( )100
( )100
27 27 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
VarianzaVarianza
Desviación estándarDesviación estándar
Coeficiente de VariaciónCoeficiente de Variación
sxi x
n2
2
12 996 16
( ), .s
xi x
n2
2
12 996 16
( ), .
s s 2 2996 47 54 74. .s s 2 2996 47 54 74. .
sx
10054 74490 80
100 11 15..
.sx
10054 74490 80
100 11 15..
.
28 28 Slide
Slide
3.3. Medidas de localización relativa y 3.3. Medidas de localización relativa y detección de valores atípicos (Pág. 81)detección de valores atípicos (Pág. 81)
Valores zValores z Teorema de ChebyshevTeorema de Chebyshev La Regla Empírica La Regla Empírica Detección de Valores AtípicosDetección de Valores Atípicos
29 29 Slide
Slide
Valores z (Pág. 81)Valores z (Pág. 81)
El valor z es frecuentemente llamado el valor El valor z es frecuentemente llamado el valor estandarizadoestandarizado
Denota el numero de desviaciones estándar Denota el numero de desviaciones estándar que el valor de un dato que el valor de un dato xxi i está de la media. está de la media.
Un dato con valor menor que la media de la Un dato con valor menor que la media de la muestra tendrá un valor de z menor que cero.muestra tendrá un valor de z menor que cero.
Un dato con valor mayor que el promedio de la Un dato con valor mayor que el promedio de la muestra tendrá un valor de z mayor que ceromuestra tendrá un valor de z mayor que cero
Un dato con valor igual que el promedio de la Un dato con valor igual que el promedio de la muestra tendrá un valor de z igual a ceromuestra tendrá un valor de z igual a cero
zx xsii
zx xsii
30 30 Slide
Slide
Valro z del menor valor (425)Valro z del menor valor (425)
Valores estandarizados para Apartamentos en Valores estandarizados para Apartamentos en rentarenta
zx xsi
425 490 80
54 741 20
..
.zx xsi
425 490 80
54 741 20
..
.
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.350.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.451.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.350.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.451.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
31 31 Slide
Slide
Teorema de Chebyshev (Pág. 82)Teorema de Chebyshev (Pág. 82)
Al menos (1 - 1/Al menos (1 - 1/kk22) de los elementos en un conjunto de ) de los elementos en un conjunto de datos estará dentro de las datos estará dentro de las k k desviaciones estándar desviaciones estándar del promedio donde k es cualquier valor mayor que del promedio donde k es cualquier valor mayor que 1.1.
• Al menos Al menos 75%75% de los elementos deben estar entre de los elementos deben estar entre k k = 2 desviaciones estándar= 2 desviaciones estándar de la media. de la media.
• Al menos Al menos 89%89% de los elementos deben estar entre de los elementos deben estar entre
kk = 3 desviaciones estándar = 3 desviaciones estándar de la media. de la media.
Al menos Al menos 94%94% de los elementos deben estar entre de los elementos deben estar entre
kk = 4 desviaciones estándar = 4 desviaciones estándar de la media. de la media.
Al menos (1 - 1/Al menos (1 - 1/kk22) de los elementos en un conjunto de ) de los elementos en un conjunto de datos estará dentro de las datos estará dentro de las k k desviaciones estándar desviaciones estándar del promedio donde k es cualquier valor mayor que del promedio donde k es cualquier valor mayor que 1.1.
• Al menos Al menos 75%75% de los elementos deben estar entre de los elementos deben estar entre k k = 2 desviaciones estándar= 2 desviaciones estándar de la media. de la media.
• Al menos Al menos 89%89% de los elementos deben estar entre de los elementos deben estar entre
kk = 3 desviaciones estándar = 3 desviaciones estándar de la media. de la media.
Al menos Al menos 94%94% de los elementos deben estar entre de los elementos deben estar entre
kk = 4 desviaciones estándar = 4 desviaciones estándar de la media. de la media.
32 32 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Teorema de Chebyshev’s TheoremTeorema de Chebyshev’s Theorem
Sea Sea kk = 1.5 con = 490.80 y = 1.5 con = 490.80 y ss = = 54.7454.74
al menos (1 - 1/(1.5)al menos (1 - 1/(1.5)22) = 1 - 0.44 = 0.56 o ) = 1 - 0.44 = 0.56 o 56% 56%
de los costos de renta deben estar de los costos de renta deben estar entreentre
- - kk((ss) = 490.80 - 1.5(54.74) = 409) = 490.80 - 1.5(54.74) = 409
yy
+ + kk((ss) = 490.80 + 1.5(54.74) = ) = 490.80 + 1.5(54.74) = 573573
xx
xx
xx
33 33 Slide
Slide
Teorema de Chebyshev (continúa)Teorema de Chebyshev (continúa)
realmente, 86% de los costos de realmente, 86% de los costos de rentarenta
están entre 409 y 573. están entre 409 y 573. 425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
34 34 Slide
Slide
La Regla Empírica (Pág. 83)La Regla Empírica (Pág. 83)
Para los datos que tienen una distribución Para los datos que tienen una distribución tipo campana:tipo campana:
• Aproximadamente Aproximadamente 68%68% de los valores de los de los valores de los datos estarán entre datos estarán entre una desviación una desviación estándar estándar de la mediade la media
35 35 Slide
Slide
La Regla Empírica (Pág. 83)La Regla Empírica (Pág. 83)
Para los datos que tienen una Para los datos que tienen una distribución tipo campana:distribución tipo campana:
Aproximadamente Aproximadamente 95%95% de los valores de los de los valores de los datos estarán entre datos estarán entre dos desviaciones estándar dos desviaciones estándar
de la mediade la media
36 36 Slide
Slide
La Regla Empírica (Pág. 84)La Regla Empírica (Pág. 84)
Para los datos que tienen una Para los datos que tienen una distribución tipo campana:distribución tipo campana:
• Casi todosCasi todos (99.7%) los elementos estarán (99.7%) los elementos estarán entre entre tres desviaciones estándar tres desviaciones estándar de la de la mediamedia
37 37 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Regla empíricaRegla empírica
IntervalIntervaloo % in % in IntervaloIntervalo
Entre +/- 1Entre +/- 1ss 434366.06 to 545.54.06 to 545.54 48/70 = 48/70 = 69%69%
Entre +/- 2Entre +/- 2ss 381.32 to 600.28381.32 to 600.28 68/70 = 68/70 = 97%97%
Entre +/- 3Entre +/- 3ss 326.58 to 655.02326.58 to 655.02 70/70 = 70/70 = 100%100%
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
38 38 Slide
Slide
Detección de Valores Atípicos (Pág. 84)Detección de Valores Atípicos (Pág. 84)
Un valor atípico es un valor inusualmente muy Un valor atípico es un valor inusualmente muy pequeño o muy grande para el conjunto de datos.pequeño o muy grande para el conjunto de datos.
Un dato con valor de z menor que -3 o mas Un dato con valor de z menor que -3 o mas grande que +3 puede ser considerado como un grande que +3 puede ser considerado como un valor atípico.valor atípico.
Puede ser un valor de dato registrado Puede ser un valor de dato registrado incorrectamente.incorrectamente.
Puede ser un datoPuede ser un dato Puede ser un valor de dato que fue Puede ser un valor de dato que fue
incorrectamente incluido en el conjunto de datos.incorrectamente incluido en el conjunto de datos. Puede ser un valor de dato correctamente Puede ser un valor de dato correctamente
registrado y que pertenece al conjunto de datos!!!registrado y que pertenece al conjunto de datos!!!
39 39 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Detectando valores atípicosDetectando valores atípicos
Los valores extremos más atípicos son -1.20 y Los valores extremos más atípicos son -1.20 y 2.27.2.27.Usando |Usando |zz| | >> 3 como el criterio para un dato 3 como el criterio para un dato atípico, no hay valores atípicos en este atípico, no hay valores atípicos en este conjunto de datosconjunto de datos
Valores estandarizados para Apartamentos en Valores estandarizados para Apartamentos en RentaRenta
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.350.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.451.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.350.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.451.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
40 40 Slide
Slide
3.4. Análisis exploratorio de datos (Pág. 3.4. Análisis exploratorio de datos (Pág. 86)86)
Resumen de cinco datosResumen de cinco datos Diagrama de cajaDiagrama de caja
41 41 Slide
Slide
Resumen de cinco datos (Pág. 87)Resumen de cinco datos (Pág. 87)
Valor mínimoValor mínimo Primer cuartil (QPrimer cuartil (Q11))
Mediana (QMediana (Q22))
Tercer cuartil (QTercer cuartil (Q33)) Valor máximoValor máximo
42 42 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Resumen de cinco datosResumen de cinco datos
Valor mínimo = 425Valor mínimo = 425 Primer cuartil Primer cuartil (Q(Q11) = 450) = 450
Mediana (QMediana (Q22) = 475) = 475
Tercer cuartil (QTercer cuartil (Q33) = 525 Valor ) = 525 Valor máximo = 615máximo = 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
43 43 Slide
Slide
Diagrama de caja (Pág. 87)Diagrama de caja (Pág. 87)
Una caja se dibuja con sus extremos localizados Una caja se dibuja con sus extremos localizados en el primer y tercer cuartil.en el primer y tercer cuartil.
Una línea es dibujada en la caja en la Una línea es dibujada en la caja en la localización de la mediana.localización de la mediana.
Los límites son localizados (no dibujados) Los límites son localizados (no dibujados) usando el rango intercuartil (RIC)usando el rango intercuartil (RIC)
• El límite menor se localiza a 1.5(RIC) abajo de El límite menor se localiza a 1.5(RIC) abajo de QQ1.1.
• El límite mayor se localiza 1.5(RIC) arriba de El límite mayor se localiza 1.5(RIC) arriba de QQ3.3.
• Los datos fuera de estos límites son Los datos fuera de estos límites son considerados atípicosconsiderados atípicos
… … continúacontinúa
44 44 Slide
Slide
Diagrama de caja (Pág. 87) (Continúa)Diagrama de caja (Pág. 87) (Continúa)
Bigotes (líneas punteadas) se dibujan desde Bigotes (líneas punteadas) se dibujan desde los extremos de la caja a los valores de los los extremos de la caja a los valores de los datos menor y mas grandes dentro de los datos menor y mas grandes dentro de los limites.limites.
La localización de cada valor atípico es La localización de cada valor atípico es mostrada con el símbolo *.mostrada con el símbolo *.
45 45 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Diagrama de cajaDiagrama de caja
Limite menor: Q1 - 1.5(IQR) = 450 - 1.5(75) Limite menor: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5 = 337.5
Limite mayor: Q3 + 1.5(IQR) = 525 + 1.5(75) Limite mayor: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5= 637.5
No hay valores atípicos.No hay valores atípicos.
375375
400400
425425
450450
475475
500500
525525
550550 575575 600600 625625
46 46 Slide
Slide
3.5. Medidas de Asociación Entre Dos 3.5. Medidas de Asociación Entre Dos variables (Pág. 91)variables (Pág. 91)
CovarianzaCovarianza Coeficiente de CorrelaciónCoeficiente de Correlación
47 47 Slide
Slide
Covarianza (Pág. 91)Covarianza (Pág. 91)
La covarianza es una medida de la asociación La covarianza es una medida de la asociación lineal entre dos variables.lineal entre dos variables.
Valores positivos indican una relación positiva.Valores positivos indican una relación positiva. Valores negativos indican una relación Valores negativos indican una relación
negativanegativa
48 48 Slide
Slide
Si el conjunto de datos es una muestra, la Si el conjunto de datos es una muestra, la covarianza se denota por covarianza se denota por ssxyxy..
Si el conjunto de datos es una población, la Si el conjunto de datos es una población, la covarianza se denota por .covarianza se denota por .
Covarianza (Pág. 91)Covarianza (Pág. 91)
sx x y ynxy
i i
( )( )
1s
x x y ynxy
i i
( )( )
1
xyi x i yx y
N
( )( )
xy
i x i yx y
N
( )( )
xyxy
49 49 Slide
Slide
Coeficiente de correlación (Pág. 95)Coeficiente de correlación (Pág. 95)
El coeficiente puede tomar valores entre -1 y +1.El coeficiente puede tomar valores entre -1 y +1. Valores cercanos a -1 indican un Valores cercanos a -1 indican un relación lineal negativa relación lineal negativa
fuertefuerte.. Valores cercanos a +1 indican un Valores cercanos a +1 indican un relación lineal positiva relación lineal positiva
fuertefuerte.. Si el conjunto de datos es una muestra, el coeficiente es Si el conjunto de datos es una muestra, el coeficiente es
rrxyxy..
Si el conjunto de datos es una población, el coeficiente Si el conjunto de datos es una población, el coeficiente es .es .
rs
s sxyxy
x yrs
s sxyxy
x y
xyxy
x y
xyxy
x y
xyxy
50 50 Slide
Slide
3.6. Media ponderada y manejo de datos 3.6. Media ponderada y manejo de datos agrupados (Pág. 100)agrupados (Pág. 100)
Media ponderadaMedia ponderada Media para datos agrupadosMedia para datos agrupados Varianza para datos agrupadosVarianza para datos agrupados Desviación estándar para datos agrupadosDesviación estándar para datos agrupados
51 51 Slide
Slide
Media ponderada (Pág. 101)Media ponderada (Pág. 101)
Cuando la media es calculada dándole a cada Cuando la media es calculada dándole a cada valor de dato un peso que refleja su valor de dato un peso que refleja su importancia, es referido como una importancia, es referido como una media media ponderadaponderada..
En el calculo de promedio de calificaciones En el calculo de promedio de calificaciones (tipo USA), el peso es el numero de créditos (tipo USA), el peso es el numero de créditos obtenidos para cada grado.obtenidos para cada grado.
Cuando los valores de los datos varían en Cuando los valores de los datos varían en importancia, el analista debe escoger el peso importancia, el analista debe escoger el peso que refleje la importancia de cada valor.que refleje la importancia de cada valor.
52 52 Slide
Slide
Media ponderada (Pág. 101)Media ponderada (Pág. 101)
xx = = wwi i xxii
wwii
donde:donde:
xxii = valor de observación = valor de observación ii
wwi i = peso de observaciòn = peso de observaciòn ii
53 53 Slide
Slide
Datos agrupados (Pág. 102)Datos agrupados (Pág. 102)
El calculo de la media pondera puede ser El calculo de la media pondera puede ser usado para obtener aproximaciones al usado para obtener aproximaciones al promedio, varianza, y desviación estándar de promedio, varianza, y desviación estándar de datos agrupados.datos agrupados.
Para calcular la media ponderada, tratamos el Para calcular la media ponderada, tratamos el punto medio de cada clasepunto medio de cada clase como si fuera la como si fuera la media de todos los elementos en la clase.media de todos los elementos en la clase.
Calculamos una media ponderada de los Calculamos una media ponderada de los puntos medios utilizando las puntos medios utilizando las frecuencias de la frecuencias de la claseclase como pesos. como pesos.
Similarmente, al calcular la varianza y Similarmente, al calcular la varianza y desviación estándar las frecuencias de las desviación estándar las frecuencias de las clases son utilizadas como pesos.clases son utilizadas como pesos.
54 54 Slide
Slide
MuestraMuestra
PoblaciónPoblación
donde: donde:
ffi i = Frecuencia de la clase = Frecuencia de la clase ii
MMi i = punto medio de la clase = punto medio de la clase ii
Media para datos agrupados (Pág. 102)Media para datos agrupados (Pág. 102)
i
ii
f
Mfx
i
ii
f
Mfx
N
Mf iiN
Mf ii
55 55 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Abajo está la muestra de las rentas mensuales Abajo está la muestra de las rentas mensuales para departamentos de una recamara para departamentos de una recamara presentados aquí como datos agrupados en la presentados aquí como datos agrupados en la forma de distribucion de frecuenciasforma de distribucion de frecuencias
Renta ($) Frecuencia420-439 8440-459 17460-479 12480-499 8500-519 7520-539 4540-559 2560-579 4580-599 2600-619 6
56 56 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Media para datos agrupadosMedia para datos agrupados
Esta Esta aproximaciónaproximación
difiere en $2.41 de ladifiere en $2.41 de la
media real de la media real de la muestra de $490.80.muestra de $490.80.
x 34 525
70493 21
,.x
34 52570
493 21,
.
Renta ($) f i Mi f iMi
420-439 8 429.5 3436.0440-459 17 449.5 7641.5460-479 12 469.5 5634.0480-499 8 489.5 3916.0500-519 7 509.5 3566.5520-539 4 529.5 2118.0540-559 2 549.5 1099.0560-579 4 569.5 2278.0580-599 2 589.5 1179.0600-619 6 609.5 3657.0
Total 70 34525.0
57 57 Slide
Slide
Varianza para datos agrupados (Pág. 103)Varianza para datos agrupados (Pág. 103)
MuestraMuestra
PoblaciónPoblación
sf M xn
i i22
1
( )s
f M xn
i i22
1
( )
22
f M
Ni i( ) 2
2
f M
Ni i( )
58 58 Slide
Slide
Ejemplo: Apartamentos en rentaEjemplo: Apartamentos en renta
Varianza para datos agrupadosVarianza para datos agrupados
Desviación Estándar Desviación Estándar para datos agrupadospara datos agrupados
Esta aproximación difiere en solo $.20 Esta aproximación difiere en solo $.20
de la desviación estándar de $54.74. de la desviación estándar de $54.74.
s2 3 017 89 , .s2 3 017 89 , .
s 3 017 89 54 94, . .s 3 017 89 54 94, . .
Recommended