Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Curs Academic 2018-19
MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND LOGISTICS
Anàlisi de Dades de Transport i Logística (240ST014)
NOTES DE CLASSE: Block 6 –Introducció al Mostreig PROFESSOR: Lídia Montero Setembre 2018 – Versió 1.6
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 2 Curs 2. 01 8- 2. 01 9
TABLA DE CONTENIDOS
6-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO __________________________________________________________________________________ 4
6-1.1 CONCEPTOS BÁSICOS: NOTACIÓN, PARÁMETROS Y ESTIMADORES ________________________________________________________________________ 4 6-1.2 EJEMPLO: ELECCIONES GENERALES (ERIK COBO –DEIO-UPC) _________________________________________________________________________ 6 6-1.3 EJERCICIOS CONCEPTUALES _____________________________________________________________________________________________________ 15
6-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR __________________________________________________________________________ 19
6-2.1 MUESTREO ALEATORIO SIMPLE SIN REPOSICIÓN (ASSR) _____________________________________________________________________________ 19 6-2.2 MUESTREO ALEATORIO SIMPLE CON REPOSICIÓN (ASCR) ____________________________________________________________________________ 22
6-2.3 MUESTREO ALEATORIO SIMPLE (ASSR): INTÉRVALOS DE CONFIANZA )%1(100 α− _________________________________________________ 23
6-2.4 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR ABSOLUTO AL )%1(100 α− ______________________________________________________ 25
6-2.5 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR RELATIVO AL )%1(100 α− _______________________________________________________ 30 6-2.6 MUESTREO ALEATORIO SIMPLE (ASSR): APLICACIÓN CELDAS DE MATRIZ OD ____________________________________________________________ 34 6-2.7 MUESTREO ALEATORIO SIMPLE (ASSR): EJERCICIOS ________________________________________________________________________________ 36 6-2.7.1 CUOTA DE MERCADO DE UNA LINEA DE TRANSPORTE PÚBLICO __________________________________________________________________________ 36 6-2.7.2 RENDIMENTO DE UNA ENCUESTA DE MOVILIDAD DOMICILIARIA POR BUZONEO ______________________________________________________________ 37 6-2.7.3 SONDEO DE OPINIÓN PRE-ELECTORAL ______________________________________________________________________________________________ 38 6-2.7.4 UNO MÁS DIFÍCIL DE MUESTREO ALEATORIO SIMPLE _________________________________________________________________________________ 39
6-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO ______________________________________________________________ 43
6-3.1 ESTIMACIÓN DEL TOTAL Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO _______________________________________________________ 44 6-3.2 ESTIMACIÓN DE LA MEDIA DE Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO ___________________________________________________ 45 6-3.3 MUESTREO ESTRATIFICADO PROPORCIONAL ________________________________________________________________________________________ 45 6-3.4 ESTRATIFICACIÓN ÓPTIMA DE NEYMAN ____________________________________________________________________________________________ 47 6-3.5 ESTRATIFICACIÓN ÓPTIMA SEGÚN COSTE FIJADO TOTAL (VARIABLE POR ESTRATO) ________________________________________________________ 49 6-3.6 BÚSQUEDA DE PRECISIÓN A NIVEL DE CADA ESTRATO _________________________________________________________________________________ 50 6-3.7 BÚSQUEDA TRADE-OFF: COSTE VARIABLE-DISPERSIÓN CON N FIJO ______________________________________________________________________ 50 6-3.8 VALORACIÓN DEL MUESTREO ESTRATIFICADO Y RELACIÓN CON ASSR __________________________________________________________________ 51
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 3 Curs 2. 01 8- 2. 01 9
TABLA DE CONTENIDOS 6-3.9 LA ESTRATIFICACIÓN EN LAS ENCUESTAS DE MOVILIDAD A RESIDENTES SEGÚN SMITH 79 ___________________________________________________ 53 6-3.10 EJERCICIOS DE DIMENSIONAMIENTO ______________________________________________________________________________________________ 56 6-3.10.1 CASO DE ESTUDIO 1: TASA DE RESIDUOS DIARIOS POR HABITANTE ______________________________________________________________________ 57 6-3.10.2 CASO DE ESTUDIO 2: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CIUDAD MEDIANA ___________________________________________________ 58 6-3.10.3 CASO DE ESTUDIO 3: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CAPITAL LATINOAMERICANA __________________________________________ 67
6-4. INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS __________________________________________________________________________ 76
6-4.1 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES IGUALES (DOS NIVELES) __________________________________________________ 78 6-4.1.1 ESTIMACIÓN DE LA VARIANZA DEL ESTIMADOR DEL TOTAL DE Y _________________________________________________________________________ 78 6-4.1.2 CASO PARTICULAR : SONDEO AUTOPONDERADO ______________________________________________________________________________________ 79 6-4.2 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES DESIGUALES (EXTRACCIÓN A DOS NIVELES) _________________________________ 80 6-4.2.1 MUESTREO AUTOPONDERADO ____________________________________________________________________________________________________ 81 6-4.3 SONDEO EN CONGLOMERADOS ____________________________________________________________________________________________________ 82 6-4.3.1 ESTIMACIÓN DE UN TOTAL EN EL CASO DE EXTRACCIÓN DE CONGLOMERADOS CON PROBABILIDADES IGUALES ____________________________________ 83 6-4.3.2 ESTIMACIÓN DE UN TOTAL EN UNA EXTRACCIÓN DE LOS CONGLOMERADOS CON PROBABILIDADES DESIGUALES ___________________________________ 84 6-4.4 ASSR FRENTE A MUESTREO POR CONGLOMERADOS __________________________________________________________________________________ 84 6-4.5 PLANES DE MUESTREO MÁS COMPLEJOS ____________________________________________________________________________________________ 86
6-5. INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES _______________________________________________________________________ 87
6-5.1 ESTRATIFICACIÓN A POSTERIORI __________________________________________________________________________________________________ 88 6-5.1.1 EL MÉTODO DEL RAKING-RATIO ___________________________________________________________________________________________________ 90 6-5.2 ESTIMACIÓN POR COCIENTE ______________________________________________________________________________________________________ 90 6-5.3 EL ESTIMADOR POR REGRESIÓN ___________________________________________________________________________________________________ 92
6-6. Tª DEL MUESTREO: EJEMPLO SUBE/BAJA ______________________________________________________________________________________ 93
6-6.1 ENCUESTA SUBE/BAJA SOBRE UNA RED URBANA DE AUTOBUSES _________________________________________________________________________ 93 6-6.1.1 MUESTREO A 2 NIVELES UTILIZADO ________________________________________________________________________________________________ 96
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 4 Curs 2. 01 8- 2. 01 9
6-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO
6-1.1 Conceptos básicos: notación, parámetros y estimadores La población objeto de estudio mediante una encuesta (target population, en inglés) o universo del estudio es el grupo completo de elementos (individuos) sobre los que se desea recoger información. Los elementos de la población pueden ser directamente unidades de muestreo, pero en general, las unidades de muestreo suelen ser grupos de elementos de la población y por tanto, las unidades de muestreo están constituidas por uno o más individuos.
El marco de muestreo (sampling frame) es la lista base que identifica cada unidad de muestreo del universo de muestreo. Por ejemplo, para una escuesta de movilidad de un ámbito, la lista de números telefónicos no se corresponde forzosamente con el universo de muestreo: individuos sin teléfono, números de empresa, etc. Tarea clave donde normalmente se detectan:
• Imprecisiones. Listas de censo no actualizadas donde hay cambios de domicilio, apellidos incorrectos, etc.
• Universo incompleto: listas del censo donde hay hogares con más/menos individuos.
• Duplicaciones: Listas de personas vinculadas a una universidad, posiblemente el personal de administración que estudia alguna titulación puede aparecer como trabajador y como estudiante.
• Marco muestral inadecuado: listados telefónicos de un ámbito.
• Marco muestral no actualizado: muy frecuentes en encuestas CATI donde se tiene integrada una base de datos con el marco muestral de un ámbito en el formato conveniente; las BBDD son de pago y se solicitan y actualizan con poca frecuencia.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 5 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
El objeto del plan de muestreo reside en diseñar la selección de una muestra del universo de estudio representativa del universo: unidades de muestreo, tamaño de la muestra, etc según restricciones de presupuesto, tiempo de ejecución y precisión de los estimadores obtenidos.
Finalidad: Obtener buenas estimaciones sobre parámetros de la población a partir de muestras pequeñas.
Las cualidades estadísticas de los estimadores de los parámetros son totalmente dependientes del plan de muestreo. Las cualidades estadísticos básicas son: ausencia de sesgo (accuracy), precisión (precision) a un nivel de confianza fijado.
Según estemos en una muestra o en una población, los valores que utilizamos para describir los datos reciben un nombre diferente y tienen su propio símbolo. Para una característica X:
Parámetro ( ) Estadístico ( ) (Población) (Muestra)
Media mu x barra ó m
Desviación típica sigma s
Probabilidad/Proporción pi (probabilidad) P (proporción)
Cuando un estadístico se usa para conocer el valor de un parámetro recibe el nombre de estimador.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 6 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
6-1.2 Ejemplo: Elecciones generales (Erik Cobo –DEIO-UPC) - Muestras (estimadores): sondeos electorales de 2 periódicos - Población (parámetros): resultados reales de las elecciones
La interpretación de la “precisión” es: según “PERIÓDICO X” la auténtica proporción del PSOE se situará en el intervalo 40’5%±1% → [39’5%,41’5%] ¿Aciertan?
PERIÓDICO X n=9.524 +2.000
PERIÓDICO Y n=3.262
RESULTADOS ELECTORALES
PSOE PP
CIU IU
CDS
40’5% 19’1% 4’9% 10’3% 8’5%
41’5% 25’0% 4’5% 7’5% 6’5%
39’55% 25’83% 5’04% 9’05% 7’91%
Precisión ± 1% ± 2% Las “fichas técnicas” de ambos estudios figuran en el cuadro siguiente.¿qué explicaciones encuentran al resultado anterior?
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 7 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
PERIÓDICO X PERIÓDICO Y Dirección y realización: ICP/Research. Universo: electorado español. Ámbito: todo el territorio español. Tipo de entrevista: personal. Puntos de muestreo: 705. Selección de los entrevistados: Al azar; selección aleatoria de personas mediante cuotas de sexo y edad dentro de cada punto de muestreo. Diseño de la muestra: Distribución no proporcional con muestras óptimas para cada una de las circunscripciones. En los datos globales se han aplicado los coeficientes de ponderación adecuados para reconvertir la muestra a su dimensión real. Tamaño de la muestra: 9.524 entrevistas, con una ampliación en Catalunya hasta 2.000 más. Margen de error: En cada circunscripción el error oscila entre ± 3’2% y ±10% según el número de entrevistas realizadas. En datos globales ponderados el error es del ±1% con un nivel de significación del 95’5% de probabilidades. Tratamiento de la información: Programa de tabulación cruzado simple y desarrollo específico de la Ley D/Hondt. El voto ponderado final se estima teniendo en cuenta, además del voto directo, los índices de confianza y simpatía.
La encuesta telefónica ha sido realizada por el instituto OPINA,
S.A., durante 3 días en el conjunto del estado español.
El universo de análisis lo han
compuesto una muestra de 3.262 personas seleccionadas
aleatoriamente según cuotas de: sexo, edad, profesión y tamaño del
hábitat.
El error muestral es de un ± 2 por ciento para un margen de confianza del 95 por ciento y bajo el supuesto
de máxima indeterminación (p=q=50%).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 8 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
La inferencia estadística se basa en la obtención de muestras por procedimientos aleatorios, que garantizan que la muestra representa a la población: la media muestral es una buena estimación del valor poblacional de la característica.
Pero diferentes hechos hacen imposible la muestra aleatoria: Los individuos tienen derecho a rechazar su participación en un estudio,
a abandonarlo en cualquier momento. No se dispone de definiciones operativas de todas poblaciones O bien, no hay respuesta en preguntas delicadas.
Todos estos fenómenos -no aleatorios- pueden provocar distorsiones no aleatorias: sesgos. En resumen, la inferencia,
en su paso de la muestra a la población, está sujeta a dos posibles fuentes de errores: Aleatorios: Errores de muestreo (por estar trabajando con muestras)
No aleatorios o Sesgos: Sesgo del muestreo.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 9 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Según la referencia: Survey Methods for Transport Planning, Eucalyptus Press de A. J. Richarson, E.S.Ampt, A.H. Meyburg pp 97 (http://www.transportsurveymethods.com.au/downloadBook.html)
Error de muestreo Error de muestreo
Sesgo
Error de muestreo
En general, el error de muestreo puede reducirse aumentando el
tamaño muestral y si esto resulta muy caro quizás el Plan
de Muestreo puede contribuir a
su reducción.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 0 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Objetivos de la toma de datos:
• Estimar ciertos parámetros poblacionales (número medio de viajes diarios por persona, reparto modal, etc) a partir de los datos muestrales.
• Contrastar a partir de los datos muestrales hipótesis relativas a parámetros poblacionales. Por ejemplo, se dispone de un año anterior del número de vehículos que circulan en un día laborable por un peaje. Se ha subido la tarifa y se recogen datos de usuarios en día laborable en una muestra de n dias, se podrá inferir el rango de la pérdida proporcional de clientes a un nivel de confianza fijado.
La determinación del tamaño muestral depende de las características target de estudio- fijemos un único target, Y cuantitativo del que interesa su tendencia central:
• La variabilidad de los valores de Y en la población.
• La precisión requerida para los estimadores del parámetro de interés en términos absolutos y relativos.
• El tamaño de la población (universo del estudio).
Ejemplo: Encuesta domiciliaria a famílias (UP), con recogida de todos los datos de sus miembros (US).
• Universo estratificado en H estratos. En estudios de transporte, los estratos corresponden a zonas de transporte o similares (H ≈ 75/80).
• Tamaño muestral en Unidades Primarias: m (Unidades Primarias, UP's) (conocido).
• Tamaño poblacional en Unidades Primarias: M (conocido).
• Tamaño muestra de individuos (Unidades Secundarias, US) notado n, sobre un total poblacional N.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 1 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Para cada estrato h ∈ {1,.....H} se dispone.
• Mh Número poblacional de unidades primarias (UP o conglomerados) (familias en el presente ejemplo) • Nh Número poblacional de unidades secundarias (US) (habitantes) por cuotas por sexo y edad.
Se nota h
hh M
NN = Número medio de individuos por familia en el estrato h (US por UP en estrato)
f para
Sea Y una variable de estudio definida a nivel de individuo. A continuación se define la notación para diversos estimadores asociados a la variable de interés, tanto a nivel global (universo), como a nivel de estrato (zona).
Global
Total )(ˆ YToTo yyy ττ
Valor medio por familia (UP) τ τy y yo t
Valor medio por individuo (US) yyµ
Parámetro vs. Estimador del parámetro
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 2 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Por zona o estrato (h)
Total ( )YToTo hhy
hy
hy ττ ˆ
Valor medio por familia (UP) τ τyh
yh
yho t
Valor medio por individuo (US) µ yh hy
Se distinguen entre los estimadores, en caligrafía normal o con un símbolo ^ sobre la notación de los valores verdaderos o poblacionales de los estadísticos, que se notan con letras griegas o caligráficas.
Para cálculo intervalo confianza de un estimador E :
)ˆ(ˆ
ˆ
EV
E Eµ− ~ tν - Student ~ N(0,1) Normal Standard [ ]
Condicion NO SESGO
E E E
: =µ
donde los grados de libertad de la distribución de t-Student son 1−= nν , con n tamaño muestral en USs y el nivel de confianza se indica (1-α)%. Para simplificar, se suele efectuar una aproximación
96.12/12/1 == −∞→
− αν
α tz para α = 0 05 95%), (IC ó en general
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 3 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
en el cálculo de IC en lugar de E t V E( )% ( )/1 1 2− ± −α να
, se emplea una aproximación normal que obvía el problema de los grados de libertad y en la mayoría de los casos resulta satisfactoria ya que si
∞→ν , tamaño muestral grande entonces asintóticamente una t-Student tiende a una normal standard (N(0,1))
y ( )/E z V E± −1 2α
.
Siempre se calcula un estimador del error estandard ( ( ))V E pues V E( ) es inasequible en la práctica.
La notación empleada para los distintos tipos de varianzas es la siguiente:
σ y2
: Varianza poblacional de la variable Y
′σ y2
: Varianza poblacional corregida de Y ( donde 22
1' yy N
N σσ−
= )
Sy2: Varianza muestral de Y
′Sy2 : Varianza muestral corregida de Y
nyydonden
yyS
n
yyS
ii
ii
yi
i
y ∑∑∑
=−
−=
−=
1
)('
)( 2
2
2
2
N
Y YNi
i
y
2
12)( µ
σ−
=∑=
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 4 Curs 2. 01 8- 2. 01 9
n
Yy ni
i∑== 1
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Sea el estadístico media muestral y habitualmente empleado como estimador de la media poblacional, es una variable aleatoria y por tanto tiene esperanza y varianza. En MAS es no sesgado.
Las propiedades de los estimadores anteriores son para el muestreo sin reposición y facilitan [ ]E S y y' '2 2= σ
• ( )nN
nyV y2
1σ ′
−= y su estimador n
SNnyV y
2'1)(ˆ
−= .
• Si Y es un indicador 0 o 1 (distribución Bernoulli( yµ )) donde 10 ≤≤ yµ py ≡ proporción muestral de
respuestas positivas y ( )
111)(ˆ−−
−=
npp
NnyV .
El error estandard del estimador de la media se nota por ( )V y y un intervalo de confianza bilateral al 95% de
µY es: )(ˆ. yVy 961±
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 5 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
6-1.3 Ejercicios Conceptuales
Sea Y el número de viajes diario por individuo y se le ha dado una distribución de Poisson con parámetro 3=λ viajes/día.
• Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.
• Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.
• Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.
• Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.
Sea Y un indicador de si un individuo viajó el día anterior; se le ha dado una distribución de Bernoulli con
parámetro 90.=π .
• Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.
• Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.
• Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 6 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
• Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.
Sea Y los ingresos mensuales por individuo en $ y se le ha dado una distribución de Normal con parámetro de
posición 1500=µ euros mensuales y desviación estándar (escala) de 400$.
• Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.
• Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.
• Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.
• Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.
• Cómo cambiarían los resultados si la desviación estándar fuera de 200$ con la misma media.
Se podría trabajar con páginas Web disponibles en la red para trabajar esos conceptos: http://lstat.kuleuven.be/java/.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 7 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Por el enfoque dado a la formulación, la variable Y se asocia a individuos (US), pero a nivel de familias
(conglomerados o UP) interesa trabajar con totales: τ yh i,
Suma de todos los valores de Y de las US de la UP i del estrato h
( ) ,W yh yh i
ijj US de la UP idel estrato h
τ = ∑
Se podría definir W: Total de Y en las UPs y definir σ σw w w wh h h hs s2 2 2 2, ' , , ' , pero para no forzar en exceso la
abstracción es mejor escribir más específicamente:
σ
τ yh
2 : Varianza poblacional del total de Y en el estrato h
στ' :
yh
2 Varianza corregida del total de Y en el estrato h
syhτ
2 : Varianza muestral del total de Y en el estrato h
syh' :
τ2
Varianza muestral corregida del total de Y en el estrato h
donde, ∑=i
hih
yhy mt /,τ
∑ −=
hestratodeliUP
hy
ihy
h
tm
s hy
2,2 )(1 ττ
∑ −−
=
hestratodeliUP
hy
ihy
h
tm
s hy
2,2 )(1
1' ττ
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 8 Curs 2. 01 8- 2. 01 9
6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN
Ejemplo: Y: Nº de viajes en autobús de un individuo. Y : Nº medio de viajes en autobús por persona. Yh : Nº medio de viajes en autobús por persona en el estrato h. τ y yo T : Total de viajes en autobús. t y : Nº medio de viajes en autobús por familia (total medio por UP).
t yh
: Nº medio de viajes en autobús en el estrato h (total medio por UP en el estrato h) .
La variable Y puede ser cualquier variable extraída de la muestra a nivel individual , incluso una variable binaria 0 ó 1, lo que da lugar a estimadores de proporciones individuales. Ejemplo:
Y: Indicador de si un individuo es o no estudiante (1: lo es, 0: no lo es) (Y ~ Bernoulli p). τ y : Total de estudiantes en la población. t y : Nº medio de estudiantes por familia
y : Proporción de estudiantes en la población. yh: Proporción de estudiantes en la zona h.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 1 9 Curs 2. 01 8- 2. 01 9
6-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR
6-2.1 Muestreo Aleatorio Simple Sin Reposición (ASSR)
Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación de la media poblacional de yµ se puede realizar a partir de la muestra:
Estimador puntual insesgado de yµ por el estadístico media muestral :
∑=
=n
iiy
ny
1
1
La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:
( ) 2'11ˆ SnN
nyV
−= donde ( )∑
=
−−
=n
ii yy
nS'1
22
11
Si la muestra se extrae sin reposición entonces el estimador puntual de la media poblacional se calcula a partir del estadístico media muestral, cuya verdadera varianza es:
( ) 222 '11'11YYY nN
nnN
1-N1-Nn-N
n1-Nn-NyV σσσ
−=
=
= donde ( ) ( ) σµµσ 2
1
2
1
22
111
11
−=−
−=−
−= ∑∑
== NNy
NN
Ny
N'N
iYi
N
iYi
ASSR
n ind.
N ind.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 20 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR
Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación del total poblacional de yτ se puede realizar a partir de la muestra:
Estimador puntual insesgado de yτ por el estadístico media muestral : ∑=
==n
iiY y
nNyNT
1
ˆ
La varianza del estadístico total muestral se puede estimar a partir de la muestra de manera insesgada por:
( ) ( ) 2'11ˆˆˆ SnN
nNyNVTV 2Y
−== donde ( )∑
=
−−
=n
ii yy
nS'1
22
11
• El factor de expansión es la ponderación de cada unidad de la muestra que permite construir el valor
poblacional : nN
.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 21 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR
Sea Y una característica dicotómica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de m individuos. La estimación de la proporción poblacional de πµ ≡y se puede realizar a partir de la muestra:
• Estimador puntual insesgado de py≡µ por el estadístico media muestral : ∑=
=n
iiy
np
1
1ˆ
• La varianza del estadístico proporción muestral se puede estimar a partir de la muestra de manera
insesgada por: ( ) ( )1-npp
NnpV
ˆˆˆˆ −
−=
11
Selección de la muestra:
• Muestreo sistemático: generar un arranque aleatorio y saltar en pasos N/n.
• Método simple: archivo con N individuos, se generan m números aleatorios entre 1 y N (o a partir de una uniforme [0,1] y se multiplica por n (redondeándose por exceso)). En R:
# Crear una muestra del dataframe UNIVERSO con todas las var.explicativas activas n = 100 indicador <- sample(1:(dim(UNIVERS)[1]),n ) indicador <- sort( indicador ) muestra <- UNIVERS[ indicador, ] # muestra és un nuevo dataframe
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 22 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASCR
6-2.2 Muestreo Aleatorio Simple Con Reposición (ASCR)
Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple con reposición de n individuos.
Desde un punto de vista teórica es equivalente a un muestreo ASSR sobre una población de tamaño infinito (N muy grande, por encima 500.000).
La estimación de la media poblacional de yµ se puede realizar a partir de la muestra:
Estimador puntual insesgado de yµ por el estadístico media muestral : ∑=
=n
iiy
ny
1
1
La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:
( ) →= 21σn
yV ( ) 2'1ˆ Sn
yV = donde ( )∑=
−−
=n
ii yy
nS'1
22
11
ASSR
n ind.
N infinito
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 23 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100 α−
6-2.3 Muestreo Aleatorio Simple (ASSR): intérvalos de confianza )%1(100 α−
En general, sea un estimador no sesgado de θ , parámetro muestral. Se asume una distribución normal del
estimador θ con error estándard (raiz cuadrada del estimador de la varianza de θ ) notado θs
, entonces se contruye un intervalo de confianza bilateral al nivel de confiança α (valor entre 0 y 1) es:
[ ] [ ]θθθθθ ααˆˆˆˆˆˆ
22 11 VzVz −− +≤≤−
Por ejemplo para 1.0=α y para Yτθ = (intérvalo de confianza bilateral al 90% para el total poblacional de Y) a partir de la expresión:
[ ]n
sNnNsVTszsz Y
YY
2'22
ˆˆ21ˆ
211ˆˆ,,ˆˆˆ
−====→+≤≤−
−− θθαθα θτθθθθθ
[ ] [ ]YYYYY TVzTTVzT ˆˆ95,095,0 +≤≤− τ
con 65.195.0 =z
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 24 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100 α−
• Por ejemplo para 05.0=α y para Yπθ = (intérvalo de confianza bilateral al 95% para la proporción poblacional de Y – variable binaria) a partir de la expresión:
[ ] [ ] ( )1ˆ1ˆ
11ˆˆˆ2'
−−
−=
−==
npp
Nn
ns
NnyVpV y
[ ] ( )1ˆ1ˆ
1ˆˆ,,ˆˆˆˆ 2ˆˆ
21ˆ21 −
−
−====→+≤≤−
−− npp
NnsVppszsz
θθαθα θθθθθθ
[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤− con 96.1975.0 =z
• Por ejemplo, el intervalo de confianza bilateral al 99% para la media poblacional seria:
[ ] [ ]yVzyyVzy Yˆˆ
995,0995,0 +≤≤− µ
donde ( ) 2'11ˆ SnN
nyV
−= y ( )∑
=
−−
=n
ii yy
nS'1
22
11
con 58.2995.0 =z
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 25 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−
6-2.4 Muestreo Aleatorio Simple (ASSR): error absoluto al )%1(100 α−
En general, sea un estimador no sesgado de θ , parámetro muestral. Se asume una distribución normal del
estimador θ con error estándard (raiz cuadrada del estimador de la varianza de θ ) notado θs
, entonces el error absoluto al nivel de confiança α (valor entre 0 y 1) es:
[ ] [ ]θθ αˆˆˆ
21 VzEA −=
• Por ejemplo, el error absoluto al nivel de confianza del 99% para la media poblacional de Y seria:
[ ] [ ] [ ] 2995.0995.01 '11ˆˆ
201.0 S
nNnzyVzyVzyEA
−=== −
donde ( )∑=
−−
=n
ii yy
nS'1
22
11
con 58.2995.0 =z
• El error absoluto de un estimador es inversamente proporcional a su precisión: a menor error absoluto mayor precisión y a mayor error absoluto menor precisión.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 26 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−
El error absoluto de un estimador de una media poblacional decrece de manera inversamente proporcional a la raiz
del tamaño muestral y por tanto para reducir el error absoluto en un porcentaje %100β ( con β valor entre 0 y 1):
[ ][ ]
[ ][ ]
( )2'
1
1
1
'1'1
2
2
βββ
α
α
−≥→≥−→≥−
>>
−
− nn'yVz
yVzyEAyEA nN
• Para decrementar en un 5% el error absoluto el tamaño muestral se ha de incrementar en 11%
• Para decrementar en un 10% el error absoluto el tamaño muestral se ha de incrementar en 24%
• Para decrementar en un 20% el error absoluto el tamaño muestral se ha de incrementar en 56%
• Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).
EA(n') EA(n) EA(n')/EA(n) Beta n n' 95 100 0.95 5.00% 1000 1108 90 100 0.9 10.00% 1000 1235 80 100 0.8 20.00% 1000 1563 50 100 0.5 50.00% 1000 4000 20 100 0.2 80.00% 1000 25000 10 100 0.1 90.00% 1000 100000 5 100 0.05 95.00% 1000 400000
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 27 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−
• Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error
absoluto inferior a β unidades fijado, al nivel de confianza del 1oo( α−1 )% fijado para la media muestral Y seria:
[ ] [ ] βααα ==
−==
∞−−−
21
211 '1'11
222S
nzS
nNnzyVzyEA
donde ( )∑=
−−
=n
ii yy
nS'1
22
11
con 21 α−z el nivel de confianza bilaterial fijado
• Donde ( )Nn
nn−
=∞ 1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se
puede obtener ( )Nn
nn∞+
= ∞
1 . Si N es muy grande y el factor de muestreo en población finita es
prácticamente uno: 11 ≅
−
Nn
. A mayor dispersión de Y y mayor precisión (menor β ) mayor tamaño.
22
21 '2 S
zn
βα−
∞ =y considerando el factor de población finita ( )N
nnn
∞+= ∞
1 .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 28 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−
• Por ejemplo, el error absoluto al nivel de confianza del 95% para una proporción seria:
[ ] [ ] ( )1-npp
NnzS
nNnzpEAyEA
ˆ1ˆ1'11ˆ 975.0
2975.0
−
−=
−==
donde ∑=
=n
iiy
np
1
1ˆ con 96.1975.0 =z
o Al máximo nivel de interdeterminación se da cuando p=1-p=0.5 y si N es grande y N >> n de ahí:
[ ] ( )n1-nN
nz1-npp
NnzpEA 111
2ˆ1ˆ
1ˆ 975.0975.0 ≈
−≤
−
−=
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 29 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−
El error absoluto de una proporción decrece de manera inversamente proporcional a la raiz del tamaño muestral y
por tanto para reducir el error absoluto en un porcentaje %100β ( con β valor entre 0 y 1):
[ ][ ] ( )
( )22
111
ˆˆ'1
ββββ
−≥→−≤→−≤→≥−
nn'n'n
n'n
pEApEA
• Para decrementar en un 5% el error absoluto el tamaño muestral se ha de incrementar en 11%
• Para decrementar en un 10% el error absoluto el tamaño muestral se ha de incrementar en 24%
• Para decrementar en un 20% el error absoluto el tamaño muestral se ha de incrementar en 56%
• Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).
• Se reexpresa: para doblar la precisión (reducir a la mitad el error absoluto se tiene que cuatriplicar el tamaño muestral).
EA(n') EA(n) EA(n')/EA(n) Beta n n' 0.475 0.5 0.95 5.00% 1000 1108
0.45 0.5 0.9 10.00% 1000 1235
0.4 0.5 0.8 20.00% 1000 1563
0.25 0.5 0.5 50.00% 1000 4000
0.1 0.5 0.2 80.00% 1000 25000
0.05 0.5 0.1 90.00% 1000 100000
0.025 0.5 0.05 95.00% 1000 400000
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 30 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100 α−
6-2.5 Muestreo Aleatorio Simple (ASSR): error relativo al )%1(100 α−
En general, sea un estimador no sesgado de θ , parámetro muestral. Se asume una distribución normal del
estimador θ con error estándard (raiz cuadrada del estimador de la varianza de θ ) notado θs
, entonces el error relativo al nivel de confiança α (valor entre 0 y 1) es:
[ ] [ ] [ ] θθθθθ αˆˆˆˆˆˆ
21 VzEAER −==
• Por ejemplo, el error relativo al nivel de confianza del 99% para la media poblacional de Y seria:
[ ] [ ] ( )2995.02
995.0995.011'11ˆ YCVnN
nzySnN
nzyyVzyER
−=
−==
donde
( )
y
yyn
yS'YCV
n
ii∑
=
−−
== 1
2
11
)( con 58.2995.0 =z
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 31 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100 α−
Ilustración: error relativo del 50% en el estimador de la media de Y según IC 95%
• El error relativo en la media muestral depende del coeficiente de variación de la Y (variable a observar y
cuya media poblacional se desea estimar).
• Un CV de 1 apunta a una ley exponencial y resulta valorativamente una variabilidad elevada. En las variables socioeconómicas habituales el CV está por debajo de 1.
• El error relativo de una media decrece de manera inversamente proporcional a la raiz del tamaño muestral y
por tanto para reducir el error relativo en un porcentaje %100β ( con β valor entre 0 y 1):
[ ][ ]
( )2'
1
1
11
'11'1
2
2
βββ
α
α
−≥→≥−→≥−
>>
−
− nn'nz
nzyERyER nN
y
[ ] [ ] 5.0ˆ975.0 ≈= yyVzyER
0
[ ]yV2− [ ]yV2+
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 32 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100 α−
• Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error
relativo 100β % fijado al nivel de confianza del 1oo( α−1 )% para la media muestral Y seria:
[ ] [ ] [ ] ( ) ( ) βααα ==
−===
∞−−−
21
211
111222
YCVn
zYCVnN
nzyyVzyyEAyER
YYYCV µσ=)( es el coeficiente de variación poblacional de la variable Y, estimado a partir de la muestra por ySYCV Y')( =
• Donde ( )Nn
nn−
=∞ 1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se
puede obtener ( )Nn
nn∞+
= ∞
1 . Si N es muy grande y el factor de muestreo en población finita es
prácticamente uno: 11 ≅
−
Nn
.
( )22
21 2 YCV
zn
βα−
∞ =y considerando el factor de población finita ( )N
nnn
∞+= ∞
1 .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 33 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100 α−
• Por ejemplo, el error relativo al nivel de confianza del 95% para una proporción seria:
[ ] [ ] ( ) ( )( )1-np
pNnzp
1-npp
NnzppEApER
ˆˆ11ˆˆ1ˆ
1ˆˆˆ 975.0975.0−
−=
−
−==
donde ∑=
=n
iiy
np
1
1ˆ con 96.1975.0 =z
• Cuidado con las interpretaciones de los errores relativos en proporciones. Supóngase que N es muy grande y
el factor de muestreo en población finita es prácticamente uno: 11 ≅
−
Nn
.
• El error relativo a tamaño muestral fijo crece de manera inversamente proporcional a la raiz de los odds
=
p-1ppodd )( y para probabilidades target (π ) pequeñas los tamaños muestrales tienden a ser enormes:
ER(n) IC95% en porcentaje p odd(p) 100 124 156 400 1600 3500 7000 40000
0.01 0.0101 195% 175% 156% 98% 49% 33% 23% 10% 0.05 0.0526 85% 77% 68% 43% 21% 14% 10% 4% 0.1 0.1111 59% 53% 47% 29% 15% 10% 7% 3% 0.2 0.2500 39% 35% 31% 20% 10% 7% 5% 2% 0.5 1.0000 20% 18% 16% 10% 5% 3% 2% 1% 0.8 4.0000 10% 9% 8% 5% 2% 2% 1% 0% 0.9 9.0000 7% 6% 5% 3% 2% 1% 1% 0%
0.95 19.0000 4% 4% 4% 2% 1% 1% 1% 0% 0.99 99.0000 2% 2% 2% 1% 0% 0% 0% 0%
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 34 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD
6-2.6 Muestreo Aleatorio Simple (ASSR): aplicación celdas de matriz OD En las encuestas de movilidad dirigidas a la estimación de matrices de movilidad OD, herramienta esencial en el esquema de planificación de las 4 etapas, las proporciones de viajes entre un origen fijado y los destinos suelen tener valores muy pequeños y la precisión en los valores totales estimados en las celdas OD suele ser muy, muy bajo.
Hay referencias clásicas que lo han estudiado como Smith M.E. TRR701 (1979) “Design of small sample home interview travel surveys” y posteriormente en 2004 Ampt y Ortúzar en Transport Reviews “On best practice in Continuous Large-scale Mobility surveys” refinan la propuesta de Smith y otros autores posteriores, se puede acotar a tamaños – precisiones razonables la generación de viajes según grupos socioeconómicos (definidos por tipología de ingresos, tamaño de los hogares y disponibilidad de vehículos privados), pero muy difícilmente los totales OD (celdas de las matrices de movilidad):
• Las alfas son las proporciones muestrales en cada una de las zonas (se limita a máximo el 5%).
• Las hjx son las unidades totales de la clase h en la zona j (conocido de entrada). Se requiere un mínimo de 30 unidades muestras por clase h.
• Se puede programar en AMPL por ejemplo.
{ }{ }
{ }hxjts
x
zonasjhjj
j
clasesh zonasjhjjj
∀≥∀≤≤
∑
∑ ∑
∈
∈ ∈
3005.00..
min
αα
αα
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 35 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD
Según Smith (79), un tamaño muestral de un 4% de los viajes de un ámbito de estudio sería necesario recoger para estimar celdas origen-destino con valores absolutos mayores de 1100 viajes a un nivel de confianza del 90% y con un error absoluto del 25%. Menos del 4% de los viajes no permitiría detectar satisfactoriamente relaciones OD con un número de viajes inferior a 1100 viajes.
Normalmente en las encuestas domiciliarias se dimensiona por familias (hogares) o bien individuos, no se dimensiona porcentajes de los viajes, ya que el universo de los viajes realizados se desconoce, por tanto estimar número de viajes a partir de unidades de muestreo individuos o familias implicará una ineficiencia por las intradepedencias implícitas en los viajes de los individuos y por tanto, en realidad el tamaño muestral de individuos (u hogares) debería ser mayor que el tamaño muestral en términos de viajes.
Raramente se emplean encuestas domiciliarias para estimar matrices de movilidad del transporte público salvo que la cuota de mercado de éste sea muy elevada, tal como sucede en muchas ciudades compactas europeas.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 36 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD
6-2.7 Muestreo Aleatorio Simple (ASSR): Ejercicios
6- 2. 7. 1 Cuota de Mercado de una linea de transporte público Una muestra ASCR está compuesta por 400 usuarios de autobús en un ámbito de estudio, de los cuales 40 son usuarios de la Linea A. Se pide:
1) Construir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.
2) Supóngase que la extracción fuera ASSR y N=5.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.
3) Supóngase que la extracción fuera ASSR y N=1.000.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.
4) Si se deseara un error absoluto del 1% (1 punto), cuales tendrían que ser los tamaños muestrales bajo extracción ASSR para poblaciones de N=5.000 y N=1.000.000?
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 37 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
6- 2. 7. 2 Rendimento de una encuesta de movilidad domiciliaria por buzoneo Una empresa de estudios de mercado recibe el encargo de realizar una encuesta domiciliaria de movilidad por correo. Se tiene acceso a un fichero con N=200.000 individuos. Sea p el rendimiento desconocido del fichero, es decir, p es la proporción de individuos que devolverán rellenada la encuesta recibida por correo. Para estimar el rendimiento p, llamemos p a la tasa de retorno conseguida a partir de un test sobre una pequeña muestra de n individuos, elegidos con probabilidades iguales y sin reemplazo. La experiencia de la empresa es que el rendimiento en estos tipos de muestreos no suele superar el 3%.
1) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,5% a un nivel de confianza del 95%?
2) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,3% a un nivel de confianza del 95%?
3)¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,1% a un nivel de confianza del 95%?
4) Si finalmente la muestra tiene un tamaño n=10.000 y se contabilizan 230 retornos, cual es el intervalo de confianza bilateral al 95% para el rendimiento p y para el número total de individuos del fichero?
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 38 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
6- 2. 7. 3 Sondeo de opinión pre- electoral Se desarrolla un sondeo de opinión preelectoral para recoger información sobre la opinión general de una
personalidad política y se obtiene un porcentaje de opiniones favorables del 20%, 2,0ˆ =p . 1) Si la extracción es ASCR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza
del 95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p ? 2) Si la extracción es ASSR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza del 95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p (N=5.000.000)
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 39 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
6- 2. 7. 4 Uno más Difícil de Muestreo Aleatorio Simple El único operador de transporte de una ciudad mediana de N=500.000 habitantes, cada mes publica los horarios de las 30 lineas de transporte diferentes que sirve, pero tiene grandes oscilaciones mensuales en la carga total, pero no así en el reparto por línea. Una linea se considera de alta demanda si la carga diaria son como mínimo de 12000 viajeros, y de demanda media, si la carga es como mínimo de 8000 viajeros. Los usuarios del transporte público son aquellos que compran un mínimo de 3 títulos mensuales por año y se quiere dimensionar una muestra de usuarios para promocionar una tarifa rebajada para los que soliciten un título mensual con 15 días de antelación mínimo al mes siguiente, a cambio de que faciliten información sobre sus desplazamientos programados para el siguiente mes (y así hacer planificación de la operación en función de las cargas previstas para cada linea). La experiencia dice que entre los usuarios contactados (n1) son un 30%, n2, los que compran el título para el siguiente mes con 15 días de antelación (n2=0.3n1). El objetivo es estimar n1 (dimensionamiento de la muestra de usuarios a los que se les ofrece la promoción si facilitan información de sus desplazamientos) a partir de unos ciertos requerimientos de precisión absoluta y relativa sobre las cargas diarias de las lineas de demanda media y alta.
1) Determinar n1 para estimar las cargas de las lineas de demanda alta con un error absoluto de 1500 pasajeros a un grado de confianza del 95% (pasajeros).
2) Qué precisión absoluta comporta el tamaño muestral n1 sobre las lineas de demanda media?
3) Comparando 1 con 2, se constata que la precisión absoluta es mejor en 2 que en 1. Verifiquese que con precisión relativa es a la inversa.
4) Cual es el tamaño muestral n1 necesario para lograr en las lineas de demanda media la misma precisión relativa la obtenida en las lineas de demanda alta para el mismo tamaño muestral calculado en el apartado 1 ?
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 40 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
Resolución:
El estimador puntual de la proporción de usuarios de una línea de demanda alta es 024,0
000.500000.12ˆ ==p
Para calcular el interval de confianza al 95% se ha de disponer de la varianza del estimador p , [ ]pV ˆ o en su defecto del estimador de la varianza del estimador [ ]pV ˆˆ y a partir de aquí imponer la condición la condición de
precisión absoluta de 1.500 pasajeros, que representa un 0,3% (003,0
000.500500.1
=).
Sea [ ] ( ) ( )
rpp
npp
NnpV
ˆ1ˆ1ˆ1ˆ
1ˆˆ1
1 −=
−−
−=
, n1 la carga total diaria de viajeros y r el número equivalente si la N tuviera tamaño infinito y en nuestro caso:
[ ] ( ) ( ) 2
1
1 003,0024,01024,096,1024,01024,0000.500
196,1ˆˆ96,1 =−
=−
−=
rnnpV
( ) ( ) 999.94,9998003,0
024,01024,096,1003,0
ˆ1ˆ96,12
2
2
2
≈=−⋅
=−⋅
=ppr
y
804.91
13,0 12 =
+
+=⋅=
Nr
rnn
y por tanto,
680.323,02
1 ==nn
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 41 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
Por tanto, se necesitaría contactar y anunciar la promoción de compra anticipada a 32680 usuarios para conseguir (fijando el 30% de anticipación) información de los viajes diarios a realizar y estimar las lineas de alta demanda con una precisión absoluta de 1500 pasajeros diarios.
Una linea de carga media supone una 016,0
000.500000.8ˆ ==p
y para calcular un intérvalo de confianza para las lineas de demanda media al 95% se ha de calcular [ ]pV ˆ o de su estimador [ ]pV ˆˆ y la precisión absoluta de 8.000 pasajeros en una muestra de 9.9981 =n usuarios que responden en un 30% a las lineas diarias que emplean.
[ ] ( ) ( ) 2
1
1 00124,0997.9
016,01016,0000.500
998.911ˆ1ˆ
1ˆˆ =−
−=
−−
−=
npp
NnpV
[ ] 00243,000124,096,1ˆˆ96,1 =⋅=pV y la precisión absoluta en número de pasajeros por linea media sería
500000 x 0,00243=1215 pasajeros y por tanto es menor que el error absoluto de las lineas de alta demanda (1500 pasajeros de precisión absoluta).
Sea 1δ la precisión relativa de las lineas de 12.000 pasajeros, 125,0
000.12500.1
1 ==δ.
Sea 2δ la precisión relativa de las lineas de 8.000 pasajeros, 153,0
000.8215.1
2 ==δ, por tanto en las lineas de
demanda alta la precisión relativa es mayor (error relativo menor 12.5% frente a 15,3% en demada media).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 42 Curs 2. 01 8- 2. 01 9
6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS
El tamaño que debería tener la muestra de usuarios a los que se les oferta la reducción de tarifa por compra avanzada para garantizar una precisión relativa en las lineas de demanda media (8000 pasajeros/día) del 12.5% (la misma precisión relativa que para la demanda alta cuando se fija una precisión absoluta de la demanda alta de 1500 pasajeros/día) se tendría que fijar una precisión absoluta en la demanda media de 000.1000.500125,0 =⋅ pasajeros y según las fórmulas correspondiente para las precisiones absolutas en ASSR:
[ ] ( ) ( )r
ppn
ppNnpV
ˆ1ˆ1ˆ1ˆ
1ˆˆ1
1 −=
−−
−=
[ ] ( ) ( ) 2
1
1 002,0016,01016,096,1016,01016,0000.500
196,1ˆˆ96,1 =−
=−
−=
rnnpV
al 95% ( ) ( ) 121.15
002,0016,01016,096,1
002,0ˆ1ˆ96,1
2
2
2
2
≈−⋅
=−⋅
=ppr
considerando tamaño poblacional finito y tasa de éxito de la promoción
del 30% se tiene en este caso
679.141
13,0 12 =
+
+=⋅=
Nr
rnn
y 927.48
3,02
1 ==nn
és el tamaño muestra para garantizar la precisión relativa requerida.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 43 Curs 2. 01 8- 2. 01 9
6-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
Sea Y población con σ y2
, n el tamaño total de una muestra tomada sobre una población de tamaño N (UPs). Las UPs son las USs, es decir las unidades finales.
En lugar de extraer la muestra totalmente al azar, se extrae parte de la muestra en cada estrato ; de esta manera, se espera “representar mejor” el universo.
La estratificación puede tener como objetivo principal :
• bien aumentar la precisión global ;
• bien obtener una precisión suficiente a nivel de cada estrato.
• Nos situamos aquí en el caso de una extracción, en el interior de cada estrato, aleatoria simple sin reposición.
Se tienen H estratos (h = 1, 2, ..., H).
Para el estrato h, el efectivo total de UPs es Nh y por tanto, ∑=
=H
1hhNΝ .
nnh
h =∑ H
1
n1
nH-1
nH
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 44 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
La media muestral por estrato de Y es hi
n
hihh y
ny
h
∑=
=1
1y el estimador de la varianza ( )
h
h
h
hh n
SNnyV
2'1ˆ
−= con
( )21
2
11' hhi
n
hihh yy
nS
h
−−
= ∑=
El número de unidades UPs extraídas es nh por estrato y el índice en la muestra es ih (ih = 1, ..., nh).
Se presentarán a continuación estimadores insesgados calculados a partir de estadísticos estratificados para el total de Y y la media de Y.
6-3.1 Estimación del total Y en el universo a partir del sondeo estratificado
Para el estrato h el total de Y se estima por hh yN , por tanto la estimación del total de Y en el universo es
h
H
Y yNT ∑=
=1h
hˆ
o bien ∑∑∑∑∑= ====
===H
hi
n
hihi
n
hi
H
h
H
Y ynNy
nNyNT
hh
1h h
h
111h h
h
1hh
ˆ y su varianza
estimada es ( ) 2h
hh
h
1h
2h '11ˆV S
nNn
NTH
Y
−=∑
=
Toda unidad observada en la muestra se pondera por el coeficiente h
h
nN
(cuyo valor depende del estrato), a fin de
extrapolar (o de “extender”) los resultados al universo : el factor de expansión.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 45 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
6-3.2 Estimación de la media de Y en el universo a partir del sondeo estratificado Para ésto, se utiliza la estimación del total de Y dividida por el número total de unidades del universo N (N es conocido). El estimador es :
h
HYe y
NN
NTy ∑
=
==1h
hˆ
y ( ) 2h
hh
h
1h2
2h '11V S
nNn
NNy
He
−=∑
= con ( )2
1
2
11' hhi
n
hihh yy
nS
h
−−
= ∑=
Estas dos estimaciones de la varianza, respectivamente de los estimadores del total y de la media, permiten calcular la desviación-tipo de dichos estimadores y por tanto, proponer intervalos de confianza asociados a estos estimadores.
6-3.3 Muestreo estratificado proporcional
Las fórmulas presentadas anteriormente son válidas cualquiera que sea el número de unidades extraídas por
estrato ; por tanto, la tasa de hfNn
=h
h puede variar de un estrato a otro.
Cuando se impone una tasa de sondeo idéntica para todos los estratos, se denomina el sondeo “estratificado
representativo” o “estratificado proporcional” y hNnf
Nn
∀==h
h.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 46 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
La estimación del total es ∑∑∑∑∑= ====
===H
hi
n
hihi
n
hi
H
h
H
Y ynNy
nNyNT
hh
1h 111h1hh
ˆ y su varianza estimada es
( ) 2h
1h
h2
'1ˆV SNN
nN
NnT
H
Y ∑=
−= .
La varianza total puede descomponerse como una varianza intraestrato más una varianza interestrato, lo que permite reescribir de manera más compacta las fórmulas.
( ) 2int
2int
2
11
22 )( erraYhY
H
h
hH
h
hY
hY N
NNN
σσµµσσ +=−+= ∑∑==
La estimación de la media es entonces ∑∑∑= ==
===H
hi
n
hih
HYep y
ny
NN
NTy
h
1h 11h
h 1ˆ y por tanto es la media simple calculada
sobre la muestra que permite estimar la media en el universo ; se tiene un sondeo llamado "autoponderado".
La varianza estimada de epy vale ( ) 2
int2h
1h
h '11'11V ra
Hep S
nNnS
NN
nNny
−=
−= ∑
= .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 47 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
6-3.4 Estratificación óptima de Neyman El reparto representativo se presentó antes ; consiste en utilizar la misma tasa de sondeo para todos los estratos ; pero son posibles otros repartos. El reparto de Neyman consiste en respetar la igualdad :
Utiliza una tasa de sondeo proporcional a la dispersión Sh en cada estrato de la variable Y estudiada : tanto más heterogéneo es un estrato con respecto a dicha variable, tanto mayor es la tasa de sondeo en él.
La teoría muestra que este reparto es el que proporciona la varianza global más reducida posible (es decir, la mejor precisión para la estimación global en todo el universo), para unos estratos fijados y un tamaño mostral global n también fijado, a costa perjudicar la precisión individual de algunos estratos.
Veámoslo, ( ) 2h
hh
h
1h2
2h '11V S
nNn
NNy
He
−= ∑
=...
cntSN
nSN
nH
h hhhh
h ==∑ =1
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 48 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: M. ESTRATIFICADO ÓPTIMO
La aplicación de la formula anterior para calcular el reparto de Neyman supone que los valores Sh se conocen a priori. Puede ser el caso, a partir de estudios anteriores al sondeo, pero en general no es así. Cuando el criterio de estratificación es el tamaño de las unidades (estratos definidos mediante “tramos” de tamaño), se constata que la desviación-tipo es sensiblemente proporcional al tamaño medio de las unidades del estrato. Es un orden de magnitud de dicho tamaño medio (más fácil de estimar que Sh) lo que se utiliza para calcular el reparto de los cuestionarios entre los estratos.
[ ]
hSN
SNnn
nnts
SnN
nNNy
NNVyV
H
l ll
hh
h
H
h
He
nh
∀=⇒
=
−=
=
∑
∑∑∑
=
==
1
h
h
2h
hh
h
1h2
2h
1h
h
..
'11min
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 49 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
En la práctica, se utiliza el reparto de Neyman cuando el fenómeno estudiado tiene una distribución muy asimétrica (por ejemplo, cuando se realizan sondeos a empresas y existen a la vez pequeñas empresas y algunas pocas empresas muy grandes que concentran una parte importante de la producción. En cambio, si este fenómeno tiene una distribución simétrica respecto a su media, un sondeo estratificado proporcional (o “representativo”) proporcionará resultados de suficiente calidad.
6-3.5 Estratificación óptima según coste fijado total (variable por estrato) En muchas ocasiones el coste unitario del trabajo de campo depende de las características del estrato e interesa fijado un coste total del trabajo de campo dimensionar, asignar las unidades de muestreo de la manera más eficiente para maximizar la precisión absoluta (minimizar el error absoluto), suponiendo que los costes unitarios dependen del estrato. Si hC es constante implica maximizar la precisión global a tamaño muestral n fijado.
[ ]
hCCSN
CSNCn
CnCts
SnN
nNNy
NNVyV
H
l llll
hhh
hh
H
h
He
nh
∀=⇒
=
−=
=
∑
∑∑∑
=
==
1
h
h
2h
hh
h
1h2
2h
1h
h
..
'11min
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 50 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
6-3.6 Búsqueda de precisión a nivel de cada estrato Cuando se desea obtener información significativa en cada estrato, entonces el problema es completamente distinto, por ejemplo si se quiere estimar la tasa de viajes diarios para la población urbana y la población rural, o para diferentes zonas de transporte de un ámbito de estudio. Aquí, se debe dar una ventaja relativa a los estratos menos poblados, generalmente en detrimento de la precisión global.
Si se desea la misma precisión a nivel de cada estrato y si se estima que los estratos presentan la misma heterogeneidad para el carácter estudiado, se deberán tomar tamaños de muestra similares en cada uno.
6-3.7 Búsqueda trade-off: coste variable-dispersión con n fijo A menudo se fija el tamaño muestral global n y se desea obtener resultados en precisión que mejores cuando se aumenta el tamaño muestral, aceptando que los coste por estrato son distintos y sus varianzas también, en ese caso, el reparto óptimo que se realiza es:
• A más dispersión del estrato más muestra.
• A mayor coste del estrato menor muestra.
• A mayor tamaño poblacional del estrato mayor muestra en el estrato.
6-3 INTRODUCCIÓN Tª DEL MUESTREO:
∑=
= H
l lll
hhh
CSNCSNn
n1
h
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 51 Curs 2. 01 8- 2. 01 9
MUESTREO ESTRATIFICADO
6-3.8 Valoración del muestreo estratificado y relación con ASSR Se debe otorgar un juicio favorable a la estratificación, pero una estratificación puede ser eficaz para un carácter y en absoluto para otro.
La muestra autoponderada simplifica los recuentos, conduce a cálculos fáciles y no depara malas sorpresas en caso de error. Pero se corre el riesgo de acabar con resultados poco significativos para los estratos pequeños. Además, no ofrece, excepto excepciones, la mejor precisión global. Para las encuestas demográficas es el método más utilizado: ya que las varianzas de las variables no son suficientemente diferenciadas de un estrato a otro para justificar tasas de sondeo diferentes.
La muestra de Neyman es de difícil aplicación ; supone disponer de una buena información previa y los errores en dicha información pueden acarrear graves consecuencias. Neyman perjudica a los estratos pequeños, pero proporciona buenos resultados globales. Es un método utilizado en el caso de encuestas sobre la producción destinadas a proporcionar estimaciones de totales (caso de las encuestas sobre las empresas, cuando una base de sondeo está disponible bajo la forma, por ejemplo, de un registro). Para finalizar, si se aumenta la precisión a nivel de estrato, se puede perder eficacia a nivel global.
En general se demuestra que la varianza del estimador de la media estraficado está ligado a la varianza del
estimador obtenido en un sondeo aleatorio simple, para el mismo número de unidades y que el sondeo estratificado representativo tiene una varianza de estimador siempre menor o igual a la del sondeo “simple”, y tanto más pequeña cuando los estratos tienen medias diferentes de la media general.
y
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 52 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
Se entiende intuitivamente este resultado al recordar que la extracción estratificada consiste en alterar el azar “general” para imponer a la muestra “el representar” al universo estrato por estrato, por tanto a concentrar los valores observados alrededor de las medias de cada estrato.
Para y , el estimador del valor medio de la variable de interes se puede determinar:
• ASSR, nfyV
2
1')1()( σ
−=
• Estratificado proporcional , nfyV ra
2int
2 )1()( σ ′−=
Haciendo cociente de los errores en ambos tipos de muestreo:
1'
'1'''
''
)()(
2
2int
2
2int
2
2
2int
1
2 ≤−=−
==σσ
σσσ
σσ ererra
yVyV
donde queda de manifiesto que si existen diferencias en los valores medios en los distintos estratos, entonces el muestreo estratificado proporcional siempre es mejor que el muestreo ASSR.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 53 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
6-3.9 La estratificación en las encuestas de movilidad a residentes según Smith 79 En planificación del transporte es imperativa la partición del ámbito de estudio en macrozonas homogéneas respecto a los usos del suelo y las características socioeconómicas de la población residente. La realización de sondeos ad hoc de manera proporcional al tamaño de las macrozonas en términos de población es una práctica habitual, respectando una cuota mínica de unidades muestrales en las macrozonas más pequeñas en términos de población (no menos de 30 encuestas por zona). Esta práctica garantiza una cobertura más uniforme del ámbito global (apreciada en la construcción de matrices OD más creíbles) y a su vez que garantizan una precisión mayor que la obtenida por un muestreo al azar sobre el conjunto global, dadas las características comunes que comporten los residentes dentro de una macrozona.
Las encuestas de movilidad a residentes se realizan cada 5 años aproximadamente, aunque actualmente se prefiere el tratamiento continuado de un panel con entradas y salidas que permita recoger la particularidades de de la movilidad en las distintas épocas del año y días, no una fotografía representativa del día laborable medio.
Sea como sea, son de propósito múltiple y deben dimensionarse en los estratos (macrozonas) para satisfacer características diferenciales en media poblacional según distintos segmentos de población, cada uno de los cuales tiene una presencia distinta en cada una de las macrozonas.
Smith (1979) propuso para la generación de viajes diarios por hogar usar segmentos caracterizados por tamaño hogar – nº autos, para conseguir una estimación global de viajes por hogar dentro de una precisión relativa. La metodología ha ido modificándose con el tiempo, pero que resulta muy didáctica.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 54 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
1. Fijar el error relativo %100β .
2. Fijar el nivel de confianza ( )%1100 α− para el verdadero valor de la esperanza de Y (número de viajes por hogar).
3. Sea Y el número de viajes diarios por individuo: se acepta que dentro de un estrato la dispersión de la variable
Y respecto a su media será menor que la dispersión global respecto la media poblacional. Sea hS ' la dispersión (desviación tipo-raiz cuadrada de la varianza muestral) estimada para el estrato.
4. Sea ySS hYhh~''' == µθ donde y~ estimador disponible de Yµ por prueba piloto o antiguo estudio de la
generación media global por individuo. 'hθ es el coeficiente de variación de la generación diaria por persona en
el estrato h.
5. Sea c, entre 1 y H, el estrato crítico con 'hθ más elevado.
6. Sea el coeficiente de variación global resultado de ponderar los CV por estrato por el tamaño del estrato:
∑=h
hh NN'' θθ .
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 55 Curs 2. 01 8- 2. 01 9
7. Determinar el tamaño muestral ASSR con población infinita necesario para obtener un error relativo %100β
al nivel de confianza ( )%1100 α− con coeficiente de variación ∑=h
hh NN'' θθ .
[ ] 2
2212
1
''1 2
2 βθ
βθα
α−
∞∞
− =→==z
nn
zyER
8. Si ( ) %90%1100 =−α y %5%100 =β 22
221 '1089
'2 θβθα
==→ −∞
zn .
9. Afectar el tamaño muestral global por el factor de población finita: Nn
nn∞
∞
+=
1
10. Sea '
'
'
'
θθ
θθ NNn
NNNNnn hh
l ll
hhoh ==
∑ el reparto óptimo proporcional al tamaño del estrato y al
coeficiente de variación del estrato.
6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 56 Curs 2. 01 8- 2. 01 9
11. Sea ∑=
l l
heh NN
NNnn el reparto estratificado proporcional al tamaño del estrato. La mayor divergencia
entre los efectivos muestrales óptimos y proporcionales se dará en el estrato crítico c.
12. Sea ec
occ nnf /= .
13. Sea ∑=
l l
hch NN
NNnfn'
el incremento muestral en cada estrato sobre el muestreo proporcional para
satisfacer los requerimientos globales.
6-3.10 Ejercicios de dimensionamiento
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 57 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO: EJERCICIOS
6- 3. 1 0. 1 Caso de Estudio 1 : Tasa de residuos diarios por habitante Dimensionar la muestra de municipios por estratos (de 1 a 11) necesaria para la estimación de la tasa de generación diaria de residuos por habitante con un nivel de confianza del 95% y un error relativo global inferior al 10% e inferior al 20% por estrato.
Media
Tasa Generación
total (kg hab y dia)
Unidades Municipales
f.Rec Sel
Residuos Totales de
Fracción Resto (kg dia)
Nh/N Coeficient e Variación
Tasa generación
total (kg hab y dia)
Desviación Tasa
generación total (kg hab
y dia)
Estrato <15% 15-25% 25-35% 35+% Total general 1 19 47 97 84 247 3210825 0.2366 0.2060 0.296 1.436 2 7 22 26 42 97 995720 0.0929 0.2574 0.415 1.612 3 17 10 17 13 57 155510 0.0546 0.4887 1.059 2.167 4 3 5 12 5 25 316985 0.0239 0.4878 1.285 2.635 5 36 19 14 8 77 828280 0.0738 0.2978 0.736 2.472 6 54 79 33 28 194 322760 0.1858 0.2115 0.287 1.356 7 14 18 10 14 56 184940 0.0536 0.2947 0.402 1.365 8 6 12 11 15 44 8750 0.0421 0.3342 0.445 1.330 9 22 30 21 11 84 52515 0.0805 0.2929 0.535 1.828
10 49 50 16 38 153 61810 0.1466 0.2115 0.252 1.193 11 10 10 1690000 0.0096 0.4023 0.623 1.550
Total 227 292 267 258 1044 7828100 1.0000 0.3968 0.623 1.571
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 58 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
6- 3. 1 0. 2 Caso de Estudio 2: Encuesta de Movilidad Domiciliaria en una ciudad mediana
Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de un municipio de gran superficie y constituído por 10 distritos estrictamente urbanos. Se tiene información de una Encuesta de Movilidad anterior y se desea dimensionar estudios de muestreo bajo diversos supuestos para la actualidad (2010).
El ámbito de estudio se dividió en 118 ZAT internas, organizado en 14 barrios autocontenidos en sólo un distrito cada uno de ellos. La población en el interior del ámbito se sitúa en 608875 residentes (605065 del D1 al D10) y está en vías de crecimiento por su buena oferta logística. A nivel físico está sobre una llanura y la atraviesa un rio de oeste a este. Datos disponibles para el dimensionamiento (a 2006).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 59 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Barrios según Distrito
Hombres Mujeres Población
Total
Zonas Interiores
Error medio por zona
Total Encuestas*
Promedio Encuestas/Zona
Promedio Población/Zona
1 21438 22909 44347 9 10.02% 845 94 4927
2 25973 31292 57265 11 9.75% 1091 99 5206
3 54107 57974 112081 21 9.63% 2135 102 5337
4 24044 27778 51822 10 9.77% 987 99 5182
2 7917 8109 16026 3 9.63% 305 102 5342
5 32933 35765 68698 13 9.67% 1309 101 5284
6 21604 22467 44071 8 9.47% 840 105 5509
7 12567 13200 25767 5 9.79% 491 98 5153
7 3904 33902 7806 1 7.95% 149 149 7806
8 13538 13400 26938 5 9.58% 513 103 5388
9 17435 18131 35566 7 9.87% 677 97 5081
10 28626 28573 57199 11 9.75% 1090 99 5200
10 36034 36116 72150 14 9.80% 1374 98 5154
11 5118 5103 10221 2 9.83% 195 98 5111
Rurales 15456 15421 30877 0 0 0 0
Total 320718 340177 660895 120 0.89% 12001 100 5250
*Dimensionamiento inicial de la muestra-cifras 2006: los resultados finales muestran algunas diferencias.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 60 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
En la tabla adjunta, se ilustran algunos resultados relativos al número de viajes y a los factores de expansión promedio por distrito que se obtuvieron en la toma de datos. Los ejercicios que siguen persiguen dimensionar la toma de datos en función a unos parámetros de precisiones relativas y absolutas que no corresponden con la realmente efectuada en la toma de datos.
• Si la media de viajes diarios por individuo es de 3.42, la desviación típica es de 1.65 viajes y el coeficiente de variación de 0.4833526. Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Distrito Datos Total Expansion 1 Viajes Poblacion 143052 38.02 Viajes Muestra 3763
2 Viajes Poblacion 189459 38.48 Viajes Muestra 4923
3 Viajes Poblacion 361332 48.95 Viajes Muestra 7381
4 Viajes Poblacion 228917 59.32 Viajes Muestra 3859
5 Viajes Poblacion 219033 60.42 Viajes Muestra 3625
6 Viajes Poblacion 145978 48.76 Viajes Muestra 2994
7 Viajes Poblacion 92767 56.32 Viajes Muestra 1647
8 Viajes Poblacion 105726 51.83 Viajes Muestra 2040
9 Viajes Poblacion 114055 45.33 Viajes Muestra 2516
10 Viajes Poblacion 403449 53.15 Viajes Muestra 7591
Poblacion 2003768 49.67 Muestra 40339
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 61 Curs 2. 01 8- 2. 01 9
El error absoluto al nivel de confianza del 95% para el total diario poblacional de Y seria:
[ ] [ ] [ ] [ ] EATnSNyVNyNVzyNEAEA Y =====∞
−
2
1 9619612
050
'.ˆ.ˆˆ .τ
94479596.16605065≈
+=→=
⋅
=
=
∞
∞∞
Nn
nnSEAT
Nn1
65.120000
96.1'96.1 22
22
donde 22 651.=S' con 9619750 .. =z
• Se desea dimensionar una muestra ASCR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.
• Alumnos: Al desplegar el trabajo de campo las cifras de viajes por residente y día resultantes son de 3.4907, con una desviación típica de 1.9076 viajes por habitante y día, y por tanto, un coeficiente de variación de 0.5465. Calcular la precisión relativa y absoluta resultante para el total de viajes diarios.
• Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo del 1%.
[ ] [ ] 8975.12τ =⋅
==→=== ∞∞
− 2
222
2
29750
2
1 01048340961
2050 .
..ˆ .. CV
ERTznERT
nCVzyERER Y 8844≈
+=
∞
∞
Nn
nn1
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 62 Curs 2. 01 8- 2. 01 9
El problema de un muestreo ASSR es la dificultad de conseguir la representatividad deseada y de ahí la posibilidad de disponer únicamente de estimadores sesgados o de mala cobertura.
• Calcular un intérvalo de confianza al 90, 95% y 99% para el número medio de viajes diario por residente que viaja.
• Determinar un intérvalo de confiana al 95% para la proporción de residentes que viajan en un día medio, se sabe por la Encuesta anterior que sólo un 6.5% no viajan y son gente mayor y amas de casa.
•
Si no se sabe cual es la verdadera proporción, pero con el tamaño muestral inicialmente planteado, al máximo nivel de indeterminación está por debajo del 0.9% y con las cifras de la Encuesta anterior es del 0.44%:
> n=12001-195;n [1] 11806 > ni=n/(1-(n/N));ni [1] 12039.44 > 100*1.96*sqrt(0.5*0.5/(ni-1)) [1] 0.893184 > 100*1.96*sqrt(0.935*(1-0.935)/(ni-1)) [1] 0.4403859
• Determinar un intérvalo de confiana al 95% para la proporción de los que viajan en un día medio en autobús.
Ahora bien, la necesidad de disponer de matrices OD lleva a la necesidad de garantizar una buena cobertura territorial de la muestra. Se va a dimensionar por estratos definidos según los distritos municipales urbanes (10).
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 63 Curs 2. 01 8- 2. 01 9
• Dimensionar una muestra estratificada proporcional al tamaño de población residente (total y por estrato), de manera que la precisión absoluta total esté por debajo de 20000 viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.
Distrito Poblacion Encuestas Encuestas
Que no viajan
Mean Stdev Cvy Variaza Intra
Proporcional nh
EAT ERT
1 43226 1071 82 3.5135 1.9003 0.5409 0.2580 894 5329 3.51%
2 55244 1363 100 3.6119 1.9652 0.5441 0.3526 1142 6230 3.12%
3 110431 2126 153 3.4718 1.8104 0.5215 0.5982 2283 8115 2.12%
4 65981 1078 58 3.5798 1.9298 0.5391 0.4061 1364 6686 2.83%
5 66936 1031 84 3.5160 1.9493 0.5544 0.4203 1384 6803 2.89%
6 45019 893 61 3.3527 1.9443 0.5799 0.2813 931 5565 3.69%
7 26491 449 27 3.6682 1.9490 0.5313 0.1663 548 4279 4.40%
8 32674 586 47 3.4812 1.8604 0.5344 0.1869 676 4536 3.99%
9 35428 737 58 3.4138 1.8764 0.5496 0.2061 733 4764 3.94%
10 123635 2222 162 3.4163 1.9255 0.5636 0.7576 2556 9132 2.16%
Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 20000 0.95%
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Muestreo ASSR:
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 64 Curs 2. 01 8- 2. 01 9
25311
27969076.120000
96.1'96.1 22
22
11605065≈
+=→=
⋅
=
=
∞
∞∞
Nn
nnSEAT
Nn
donde 22 9076.1=S' con 9619750 .. =z
Muestreo Estratificado Proporcional: Dimensionar con varianza intraestrato 1.90612
NNnnnnS
EATNn h
hNnra =→≈
+=→=
⋅
=
=
∞
∞∞ 2511
127759061.1
2000096.196.1 2
22'
int
2
11605065
donde 22'int 9061.1=raS con 9619750 .. =z
El error absoluto por estrato sobre el total de viajes diarios es al 95% de confianza:
[ ] [ ] [ ]h
h
h
hh
hh
hh
h
nS
NnNyVNzyNEAEA
Y
2
205.0
'
1 196.1ˆˆ
−=== −τ
El error relativo por estrato sobre el total de viajes diarios es al 95% de confianza:
[ ] [ ] [ ]h
h
h
hhhh
nCV
NnyVzyERER
Y
2
205.0
'
1 196.1ˆˆ
−=== −τ
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 65 Curs 2. 01 8- 2. 01 9
• Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.
Muestreo Estratificado Óptima de Neyman con dimensionado global fijado según estratificado proporcional con
varianza intraestrato ponderada de 1.90612 : 115291612511
'
'
'hh
hl ll
hhh
hh
SNnSN
SNnnNNnn =→=→=
∑
Distrito Poblacion Encuestas No viajan Mean Stdev Cvy Variaza Intra
Proporcional nh
Optimo nh
EAT ERT
1 43226 1071 82 3.5135 1.9003 0.5409 894 891 5337 3.51%
2 55244 1363 100 3.6119 1.9652 0.5441 1142 1178 6133 3.07%
3 110431 2126 153 3.4718 1.8104 0.5215 2283 2169 8330 2.17%
4 65981 1078 58 3.5798 1.9298 0.5391 1364 1382 6643 2.81%
5 66936 1031 84 3.5160 1.9493 0.5544 1384 1416 6724 2.86%
6 45019 893 61 3.3527 1.9443 0.5799 931 950 5508 3.65%
7 26491 449 27 3.6682 1.9490 0.5313 548 560 4230 4.35%
8 32674 586 47 3.4812 1.8604 0.5344 676 660 4592 4.04%
9 35428 737 58 3.4138 1.8764 0.5496 733 721 4801 3.97%
10 123635 2222 162 3.4163 1.9255 0.5636 2556 2583 9084 2.15%
Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 12511 19992 0.95%
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 66 Curs 2. 01 8- 2. 01 9
Todo el dimensionamiento está argumentado en la variable viajes de residente y día. No hay diferencias relevantes entre el resultado de un ASSR y un estratificado proporcional, dado que las magnitudes son muy similares en la variable target que argumenta el dimensionamiento y tampoco resulta remarcable la reducción en el error absoluto por un reparto óptimo de Neyman.
El factor de expansión del estratificado proporcional es el mismo para todas las unidades muestrales (residentes) de 605065/12511=48.36. Sin embargo en la realidad, la muestra recogida fue un poco inferior y el factor de expansión puede verse dependiente del estrato, de hecho el factor de expansión dentro de un estrato no es uniforme, sinó dependiente de las cuotas poblacionales/muestrales según género y grupo de edad (h4-15 h16-29 h30-44 h45-64 h>65 m4-14 m16-29 m30-44 m45-64 m>65), en total 10 grupos. Las cuotas ayudan a dar representatividad global a las muestras por subámbitos y constituyen una estrategia imprescindible en el despliegue del trabajo de campo cuando no existe una base de sondeo actualizada.
Si la encuesta estuviera dirigida a familias entonces las ponderaciones debieran calcularse en base a la segmentación de las cuotas de familias tipo en los distintos estratos de la muestra (distritos o subámbitos de estudio, generalmente denominados macrozonas).
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 67 Curs 2. 01 8- 2. 01 9
6- 3. 1 0. 3 Caso de Estudio 3: Encuesta de Movilidad Domiciliaria en una capital latinoamericana
N
N
N
N
N
N
NN
N
N
N
N N NNN
NN N
N
N N
N
N
N
N
N
NN
N
N
N
N
N
NN
N
N
N
N
N
N
N
N
N
N
N
N
N NN
N
N
N
N
N
N
N
N
N
N
56
58
59
43
38
61
57
3655
37 60
51 39
41
35
44
34
21
54
42
53
18
29
40
50
33
52
47
1145
48
22
17
20
15
49 31
2310 30
12
19
13
8
14
26
6
3
16
32
2
25
28
7
27
4
249
1
46
5
Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de constituído por 55 macrozonas. Se tiene información de una Encuesta de Movilidad y se desea dimensionar estudios de muestreo bajo diversos supuestos. La densidad de puntos indica el tamaño muestral (cada punto son 2 encuestas).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 68 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
• Información sobre las características del individuo 1. PERSONA
(parentesco con jefe hogar)
2. NIVEL FORMACIÓN
3. ACTIVIDAD QUE REALIZA
4. NIVEL DE INGRESOS MENSUAL
(pesos)(familia)
5. CONDICIÓN ENTREVISTADO
6. OCUPACIÓN ACTUAL 7. ACTIVIDAD ECONÓMICA DEL SITIO DE TRABAJO (si
trabaja) (si trabaja)
1. Jefe Hogar (principal sostén)
1.Preescolar 1.Ocupado 1.Menos de 5.000 1.Situación
regular 1.Grandes y medianos comerciantes,
1.Agricultura, Ganadería, Caza y Silvicultura, Pesca,
2.Explotación de minas y canteras
3. Industrias Manufactureras
2. Pareja de jefe 2.Primaria
completa 2.Desempleado 2. 5.000 a 8.000 2.Buscando
trabajo 2.Profesionales, altos empleados 4. Suministro de
Electricidad, Gas y Agua
3. Hijo(a) 3.Primaria incompleta 3.Estudiante 3. 8.000 a
10.000 3. Trabajo Temporal
3. Pequeños comerciantes, trabajadores especializados independientes
5. Construcción
6. Comercio al por mayor y al por menor; Reparación vehículos efectos personales y enseres domésticos
4. Padre 4.Secundaria , Básica completa
4. Ama de casa 4. 10.000 a 12.000 4. Día libre 4. Administrativos,
técnicos, docentes, 7. Hoteles y Restoranes
5. Madre 5.Secundaria , Básica incompleta
5. Trabajo + Estudio
5. 12.000 a 15.000
5. Vacaciones
5. Vendedores
8. Transporte, Almacenamiento y Comunicaciones
9. Intermediación Financiera
6. Otro familiar 6. Superior completa 6. Jubilado/a
6. 15.000 a 20.000 6. Enfermo
6. Operarios, oficios, choferes y otros obreros especializados
10. Administración Pública, Defensa, Org. extraterritoriales
11. Enseñanza
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 69 Curs 2. 01 8- 2. 01 9
12. Servicios Sociales y de Salud
7. Otro no familiar
7. Superior Incompleta 7. Rentas 7. 20.000 a
25.000 7. Permiso
7. Peones, domésticas y obreros no especializado. Personal de la FFAA y Policia
13. Servicio Doméstico
14. Inmobiliarias
8. Otra 8. Otros 8. más de 25.000
8. Otro
8. Changas
15. Eliminación de desperdicios, aguas residuales, saneamiento
9.Otros (especificar) 16.Otros (especifique)
• Información sobre las características del hogar
SECCION III – DATOS DE LA FAMILIA/VIVIENDA
1. Datos de la vivienda 2. Tipo de Vivienda 3. Tenencia de la Vivienda 4. Número de vehículos particulares
propiedad del hogar 1. Número de familias en la vivienda
1. Casa 1. PROPIA Pagada 1. ¿Dispone de vehículo para realizar su desplazamiento?
no
2. Apartamento 2. PROPIA Pagándose si
2. ¿Cuantas personas de este hogar duermen habitualmente en esta vivienda, incluyendo los que están temporalmente fuera?
3. Pieza en vivienda colectiva
Monto mensual hipoteca (pesos)
¿En caso afirmativo especificar cuáles?
1. Automvovil
2. Camioneta
4. Vivienda en asentamiento consolidada
3. ALQUILADA
3. Camión
3. Número de personas entre 5 y 15 años en la vivienda
5. Vivienda precaria en asentamiento
Monto mensual alquiler (pesos)
4. Motocicleta
6. Otros 4. OTRA FORMA 5. Bicicleta cual Monto mensual
(pesos) 6. Tracción Animal
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 70 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
• Información sobre los viajes realizados el día anterior (hasta 4 etapas)
VIAJE 1
DESCRIPCION DEL VIAJE
ETAPA 1 ETAPA 2
PROPÓSITO O Descripción D Tiempo (minutos) Tiempo (minutos)
Camina Espera En
Vehíc Camina Camina Espera En
Vehíc Camina
1. Casa
6. Trámites 1. Casa 1. A pie (más 1 cuadra)
2. Conductor auto
2. Trabajo
7. Recreación-social
2. Trabajo Especificar Estacionamiento en D E1 E2 E3 E4 E1 E2 E3 E4
3. Pasajero Auto
3. Educación
8. Acompañar a otra persona
3. Educación 4. Pasajero Taxi
4. Compras 9. Otro - cual 4. Compras
5. Pasajero Colectivo Urbano Especificar Nombre Línia Bus
Utilizada
5. Atención de salud
5. Atención de salud
6. Pasajero Colectivo Interurbano
7. Pasajero Tte. Escolar
HORA INICIO HORA FINAL 6. Trámites 8. Moto/ Motocicleta
7. Recreación-
social 9. Bicicleta
ZONA ORIGEN ZONA FINAL 8. Acompañar 10.Carro tracción animal
a otra persona 11.Otros
9. Otro - Cual
E1.sin Pago E2.Parquing Horas Zona Inicio
Zona Inicio
E3.Parquing Fijo E4.Parquing
Propio Zona Final
Zona Final
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 71 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
Se les suministra la información relativa a la grabación de la Encuesta: documentada con el significado de los campos grabados en las distintas columnas. La distribución del número de individuos por hogar y el número de vehiculos (auto o moto) por hogar es:
Mayormente no disponen de auto y se podrían clasificar los hogares según su disponibilidad de 0, 1, 2+ vehículos.
Los tamaños de los hogares se podrían agrupar por número de individuos (1, 2, 3, 4, 5+).
La caracterización de las macrozonas está en el archivo ZATS Descripción.xls. La caracterización de los viajes, personas y hogares está disponible en formato excel.
0
200
400
600
800
1000
1200
0 1 2 3 4 5 6 7 8 9 10 11 12 13
10876543210
Cuenta de formular
numperso
novehtot
0
500
1000
1500
2000
2500
3000
0 1 2 3 4 5 6 7 8 10
131211109876543210
Cuenta de formular
novehtot
numperso
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 72 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
56
58
59
43
38
61
57
3655
37 60
51 39
41
35
44
34
21
54
42
53
18
29
40
50
33
52
47
1145
48
22
17
20
15
49 31
2310 30
12
19
13
8
14
26
6
3
16
32
2
25
28
7
27
4
249
1
46
5
0 1.5 3 4.5Miles
POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)
0 1.5 3 4.5Miles
POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 73 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
56
58
59
43
38
61
57
3655
37 60
51 39
41
35
44
34
21
54
42
53
18
29
40
50
33
52
47
1145
48
22
17
20
15
49 31
2310 30
12
19
13
8
14
26
6
3
16
32
2
25
28
7
27
4
249
1
46
5
actor de Muestreo (%)
0 1.5 3 4.5Miles
factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other
Factor de Muestreo (%)
0 1.5 3 4.5Miles
factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 74 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
56
58
59
43
38
61
57
3655
37 60
51 39
41
35
44
34
21
54
42
53
18
29
40
50
33
52
47
1145
48
22
17
20
15
49 31
2310 30
12
19
13
8
14
26
6
3
16
32
2
25
28
7
27
4
249
1
46
5
0 1.5 3 4.5Miles
POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other
ZATS Charts500002500012500
gtsrhgrh
0 1.5 3 4.5Miles
POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other
ZATS Charts500002500012500
gtsrhgrh
Generación de viajes total estimado sin regreso al hogar (naranja) y de regreso al hogar (blanco). Sobre fondo indicador de la población total de las macrozonas de transporte
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 75 Curs 2. 01 8- 2. 01 9
6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS
• Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo global inferior al 1% al 90% de confianza. En primera aproximación, la media de viajes por residente y día se sitúa en 1.887, su desviación estándar en 1.071 y su coeficiente de variación en 0.568.
• La muestra de individuos contiene un total de 3473 residentes y el detalle de todos los desplazamientos realizados el día anterior. Calcular el intérvalo de confianza para el número medio de viajes por residente y día al 95%. Calcular el intérvalo de confianza para el número total de viajes por residente y día al 95%.
• Y para la probabilidad de usar el autobús, podriais dar alguna estimación para su error absoluto al 95% de confianza? Si la probabilidad de usar el autobús fuera del 10%, cual sería su error relativo esperado al 95% de confianza.
Realizados los cálculos pertinentes para determinar a nivel de macrozona el número de viajes por residente encuestado y día (media, desviación típica y coeficiente de variación), según los datos de la grabación de viajes por individuo y día, se puede plantear un dimensionamiento más fino para otras ocasiones.
• Dimensionar una muestra estratificada proporcional según el criterio de error relativo sobre el número total de viajes inferior al 1% con un nivel de confianza del 95% (dimensionar por estrato). Calcular los errores absolutos y relativos por estrato.
• Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.
• Calcular la precisión relativa y absoluta resultante de la muestra de datos disponible para el total de viajes diarios por macrozona. ¿Y para la proporción de usuarios del transporte público?
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 76 Curs 2. 01 8- 2. 01 9
6-4. INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
Se utiliza una sucesión de reagrupamientos de las unidades estadísticas para extraer la muestra. Por ejemplo, se extrae una muestra de familias (unidades primarias), después se extrae, entre las famílias seleccionados, una muestra de individuos (unidades secundarias, no todos los miembros han de ser tenidos en consideración).
Se obtiene así una extracción a dos niveles (pueblos y después hogares): se puede generalizar a tres niveles, cuatro,... En cada nivel, los métodos presentados en los apartados anteriores pueden ser utilizados (por ejemplo, extracción proporcional al tamaño en el primer nivel, y por tanto con probabilidades desiguales, extracción aleatoria simple en el segundo nivel).
Se debe algo sobre el uso de la denominación “sondeo en conglomerados”. Es el caso particular del sondeo a varios niveles (muchas veces dos niveles) en el cual se entrevistan la totalidad de las unidades del último nivel : en el ejemplo, se entrevistarían la totalidad de los miembros de los hogares seleccionados.
ASSR
n ind.
CONGLOMERADOS
n = m n m conglom. (fam.) cada uno tamaño n (ind.)
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 77 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
Tomemos un ejemplo : se desea estudiar 2 000 hogares en un país que contiene aproximadamente 500 000 repartidos en 6 000 pueblos. Se dispone únicamente de una lista de los pueblos con una estimación de su población. Visitar cada pueblo para elaborar una lista de hogares a nivel nacional sería una tárea gigantesca. Además, los hogares de la muestra se encontrarían extremamente dispersos, lo que representaría una pérdida de tiempo enorme en desplazamientos. El coste de la operación resultaría prohibitivo. El sondeo a varios niveles permite resolver los dos problemas siguientes:
• en ausencia de una base de sondeo, es suficiente una construcción parcial de la base de sondeo : se requiere el conocimiento exhaustivo únicamente de las unidades primarias ; se puede limitar el censo, en el ejemplo anterior, a los hogares de los pueblos extraidos en el primer nivel ;
• globalmente, se van a realizar economías de tiempo y gastos de desplazamiento (en lo que concierne el trabajo de los encuestadores).
En contra, el sondeo a varios niveles es, en general, menos preciso que el sondeo a un solo nivel, para un determinado tamaño de muestra (en número de unidades estadísticas en el último nivel de sondeo. Esto se debe a los “efectos de conglomerados”. Las unidades estadísticas reagrupadas en una misma unidad primaria (o en una misma unidad secundaria, si se tiene tres niveles de sondeo) tienen tendencia a parecerse, a tener características comunes. El hecho de concentrar la muestra en una muestra de unidades primarias puede conducir a una cierta “redundancia” de la información sobre dichas unidades y una cierta “falta de representatividad” del conjunto.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 78 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6-4.1 Extracción de las unidades primarias con probabilidades iguales (dos niveles) Se situará la exposición en el marco de una extracción sin reposición en el primer nivel, lo que es a priori preferible para la precisión.
a) Estimación del total de Y, ( ) ( )∑=
=n
ii YT
nNYT
1
ˆˆ , es el estimador del total correspondiente al plan de sondeo
escogido en el segundo nivel de extracción. Este estimador es sin sesgo. b) Por ejemplo, si en el segundo nivel se ha efectuado una extracción aleatoria simple, permite escribir :
( ) ∑=
=im
j
ij
i
ii y
mMYT
1
ˆ
6- 4. 1 . 1 Estimación de la varianza del estimador del total de Y A partir de la muestra (de unidades primarias y de unidades secundarias), la varianza del estimador del total de Y viene estimada mediante :
( )( ) ∑=
+
−=
n
1ii
21
2
ZnNs
Nn1
nNYTV ˆˆˆ
donde ( ) ( )∑=
−
−=
n
1ii
21 N
YTYT1n
1s2ˆˆ y Zi es el estimador de la varianza de la estimación ( )Ti Y correspondiente al
plan de sondeo en el segundo nivel.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 79 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
Por ejemplo, si en el segundo nivel de extracción se ha utilizado un método con probabilidades iguales sin
reposición ( )2
ˆ ∑=
−−
−=
im
iijii
i
i
2i
i1j
yy1m
1Mm1
mMZ donde ij
m
ii y
m1y Σ
i
1j==
En la fórmula anterior, el primer término es en general el más importante: • Si se aumenta n en esta fórmula, se ve que los dos términos disminuyen ; si se aumenta los números de
unidades encuestadas en el segundo nivel, únicamente el segundo término disminuye (a través). Por tanto, interesa más tener extraídas un gran número de unidades primarias.
6- 4. 1 . 2 Caso particular : sondeo autoponderado Si las unidades primarias se extraen con probabilidades iguales y si, además, la tasa de sondeo es la misma para el segundo nivel de muestreo (también con probabilidades iguales) en todas las unidades primarias
extraídas entonces, dado que ( ) ( ) ∑ ∑∑∑∑ ∑∑= = === ==
====n
i
n
i
m
j
ij
m
j
ij
n
i
m
j
ij
i
im
ii
iiiiii
ymM
nNy
mM
nNy
mM
nNYT
nNYT
1 1 111 11
ˆˆ
la ponderación utilizada es la misma para todas las unidades estadísticas de la muestra (en este caso, las unidades) ; el sondeo se llama autoponderado. En este caso, la media simple calculada sobre el conjunto de las unidades extraidas se utiliza cono estimador de la media sobre el universo (lo que no es el caso si se extrae la muestra en el segundo nivel con tasas de sondeo diferentes según las unidades primarias).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 80 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6-4.2 Extracción de las unidades primarias con probabilidades desiguales (extracción a dos niveles)
Nos situaremos, para simplificar, en el marco de sondeo con reposición. Aα es la probabilidad de extraer la unidad primaria α en cada extracción de unidades primarias.
a) Estimador del total de Y: ( ) ( )∑=
=n
i i
i
AYT
nYT
1
ˆ1ˆ
es un estimador sin sesgo del total de Y en el universo ; se ve que se utiliza el estimador ( )YTi del total de Y en la
unidad primaria i, considerando probabilidades desiguales. En ( )YTi , se tiene en cuenta el método de sondeo utilizado en el segundo nivel de extracción.
b) Varianza del estimador del total: ( )( ) ( ) ( ) ∑∑==
+
−=
N
i i
iN
i i
ii A
Zm
YTAYTA
nYTV
1
2
1
11ˆ
donde Zα es la varianza del estimador de Tα (Y), teniendo en cuenta el plan de sondeo en el segundo nivel.
c) El estimador de la varianza del estimador del total a partir de la muestra es :
( )( ) ( )( ) ( )
2
1
ˆˆ
11ˆˆ ∑
=
−
−=
N
i i
i YTAYT
nnYTV
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 81 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6- 4. 2. 1 Muestreo autoponderado En la parte dedicada a la extracción a dos niveles y selección de las unidades primarias con probabilidades desiguales, se supondrá que dichas unidades fueron extraídas con reposición ; ésto en razón de las dificultades en captar correctamente, formalmente, el caso sin reposición. En la práctica, es muy frecuente proceder a la extracción de unidades primarias con probabilidades desiguales sin reposición : se utilizarán las fórmulas precedentes (“como si” se hubiese extraído con reposición), sabiendo que las estimaciones de precisión obtenidas (varianza de estimador) sobreestimarán la verdadera precisión. En la práctica es frecuente extraer las unidades primarias con una probabilidad proporcional al tamaño de : Aα =Mα/M y este caso, es interesante proceder, en el segundo nivel, a una extracción aleatoria simple con el mismo número m0 de unidades secundarias en cada unidad primaria (cualquiera sea su tamaño).
La fórmula de estimación es entonces : ( ) ( ) ∑∑∑ ∑∑
= == == ⋅===
n
i
m
jij
n
i
m
jij
i
i
n
ii
i
ymn
MymM
MM
nYT
MM
nYT
1 101 101
001ˆ1ˆ
Cada unidad encuestada tiene el mismo coeficiente de expansión, se obtiene un sondeo llamado “autoponderado”.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 82 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
En la práctica, es raro encontrar exactamente esta situación. Se extrae proporcionalmente a un tamaño determinado a partir de datos que, aunque sean recientes, pudieron evolucionar : el tamaño de la unidad primaria efectivamente constatada durante la encuesta será, en general, ligeramente diferente. Se tendrá que recalcular las ponderaciones exactas. Si el número de unidades contenidas en la unidad primaria i es, en el momento de la encuesta, M’i, la ponderación de la unidad j en la unidad primaria i valdrá entonces :
0
'mM
MnM i
i
6-4.3 Sondeo en conglomerados Es el caso particular del sondeo a varios niveles en el cual se entrevistan a todas las unidades del “último nivel” : por ejemplo, se extrae una muestra de pueblos al interior de los cuales se entrevistarán a todos los hogares, o a todos los individuos. Aquí también, el interés reside en obtener costes de desplazamiento menores (si se utilizan las unidades primarias correspondientes a reagrupamientos geográficos) y en la no obligación de disponer de una base de sondeo completa.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 83 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6- 4. 3. 1 Estimación de un total en el caso de extracción de conglomerados con probabilidades iguales Si ( )YTi es el total de Y observado en el conglomerado i ( o unidad primaria) sin error aleatorio (dado que se encuesta de manera exhaustiva todo el conglomerado) :
( ) ( )∑=
=n
ii YT
nMYT
1
ˆ es el estimador del total de Y en el universo.
Se vuelve a encontrar el estimador clásico propuesto en el capítulo 2. Su varianza se puede estimar a partir de la muestra por :
( )( ) ( ) ( ) ( )( )2
1
2
111ˆˆ ∑
=−
−
−=
n
ii YTYT
nnNnNYTV donde ( ) ( )∑
==
n
ii YT
nYT
1
1
Estimación de una media (por unidad estadística elemental, por ejemplo unidad secundaria) en el caso de una extracción de los conglomerados con probabilidades iguales
Si se conoce el número total M de unidades estadísticas en el universo, se estima la media por ( )YTM
ˆ1
El problema es más delicado cuando, caso frecuente, no se conoce M. Se llega a estimar por : ∑=
=n
iiM
nNM
1
ˆ . El
estimador de la media es ( )YTM
ˆˆ1
.
Su varianza, más compleja de calcular, es la de un ratio .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 84 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6- 4. 3. 2 Estimación de un total en una extracción de los conglomerados con probabilidades desiguales Si ( )YTi es el total de Y observado en el conglomerado i ( o unidad primaria) sin error aleatorio (dado que se encuesta de manera exhaustiva todo el conglomerado) :
( ) ( )∑=
=n
i i
i
AYT
nYT
1
1ˆ
es el estimador del total de Y en el universo (Aα es la probabilidad de extraer el conglomerado i en cada una de las extracciones).
6-4.4 ASSR frente a Muestreo por Conglomerados Como ya se vió, el hecho de extraer a dos niveles, o de extraer conglomerados, induce frecuentemente una pérdida de precisión (respecto al sondeo simple y considerando el mismo número de unidades encuestadas) debida al hecho que las unidades situadas en el interior de una misma unidad primaria tienden a parecerse. Se considerará el caso de extracciones a dos niveles. Los muestreos en conglomerados suelen facilitar una mayor cobertura de la población a un coste de realización de la encuesta más barato. Para un mismo tamaño muestral final de individuos m, un muestreo en conglomerados representa una pérdida de precisión de los estimadores respecto a un muestreo aleatorio simple sin reposición (ASSR) de igual tamaño; en general, debido a la similaridad entre los individuos de una misma UP.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 85 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
Los conglomerados han de ser: • Los más hetereogeneos posibles, para mejorar la representatividad de la población total. • El tamaño de los conglomerados ha de ser pequeño y similar entre ellos. Cuantos más conglomerados se
muestreen, mejor, la calidad de los estimadores depende más de n (número de conglomerados o UP) que de m (número de individuos o US).
El efecto del conglomerado se puede medir por un coeficiente δ llamado coeficiente de correlación intraconglomerado:
• Si δ >> 0 Existe mucha similitud en el interior del conglomerado (desfavorable). • Si δ << 0 Conglomerados hetereogéneos (favorable).
Se puede demostrar que, si se procede a una extracción en dos etapas o conglomerados, sin estratificación y con probabilidades iguales de las US dentro de cada UP. Si todas las UP tienen el mismo tamaño M y si el tamaño de la muestra de unidades secundarias por UP es constante e igual a m , entonces,
( )( ) ( )( ) ( )( )YTVmYTV ASSRˆ11ˆ −⋅+= δ
Si δ >> 0 entonces el muestreo en conglomerados es peor que el ASSR .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 86 Curs 2. 01 8- 2. 01 9
6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS
6-4.5 Planes de muestreo más complejos Los esquemas complejos que suelen darse en la realización de encuestas domiciliarias en planificación del transporte suelen contener una primera etapa de estratificación y dentro de cada estrato se procede a una extracción de UP (famílias), donde se toma notas de los viajes de todos sus miembros, por tanto, es un muestreo por conglomerados dentro de cada estrato. Los dos tipos de muestreo combinados tienen muestran distintas propiedades respecto al ASSR en los estimadores que facilitan:
• Estratificado: reducción error estandar respecto ASSR, por tanto incremento de precisión. • Conglomerado: incremento error estandar respecto ASSR, por tanto decremento de la precisión.
Las propiedades contrapuestas de los dos esquemas de muestreo combinados sobre el error de los estimadores finales tiene por efecto un cierto control de la pérdida de precisión de los estimadores debido al efecto de los conglomerados. Por otro lado, el muestreo ASSR suele dar menos precisión (más error estandard) en los estimadores que un muestreo estratificado proporcional (tasa muestreo f constante por estrato, como en el presente caso).
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 87 Curs 2. 01 8- 2. 01 9
6-5. INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
Una vez que se ha realizado la encuesta, se deben integrar dos tipos de consideraciones: • se producen un cierto número de sucesos que pertuban el esquema “ideal” previsto (no respuestas, pérdidas de
cuestionarios, ...); • las variables han sido recogidas por la encuesta y facilitan una información sobre la muestra: se ha
seleccionado por ejemplo una muestra de hogares a partir de una base de sondeo donde no se disponía de información sobre el tamaño de los hogares, y , a posteriori (a partir de los cuestionarios), se observa la manera como la muestra seleccionada se comporta a partir de las estadísticas (conocidas por otro lado) sobre la distribución de hogares. Se utiliza entonces una información auxiliar que es “exterior” al sondeo.
Entonces se pueden (y se deben en el caso de las no respuestas, por ejemplo) proponer estimadores que contemplen las informaciones de las que dispone (sobre el desarrollo de la encuesta, o informaciones “exteriores”). Dos tipos de métodos van a presentarse en los párrafos siguientes, tratando posteriormente el tema de las no respuestas.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 88 Curs 2. 01 8- 2. 01 9
6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
6-5.1 Estratificación a posteriori Se descompone el universo en estratos y se efectúan estimaciones por estratos antes de combinarlo para obtener una estimación global. Por ejemplo, en el caso de seleccionar una muestra aleatoria simple (es decir, con probabilidades iguales):
j
my
m1y Σ
1j== es el entimador “en bruto” (antes de la recomposición) de la media de la variable Y.
Si se descompone el universo en h = 1, ..., H estratos y si se conocen los efectivos hM de los estratos,
entonces hh
H
ps yMMy Σ
1h== es el estimador estratificado a posteriori de la media Y (siendo hy , la media simple
calculada en la parte de la muestra que se encuentra en el estrato h). • Se observa que se modifican las ponderaciones de los cuestionarios con respecto al estimador “en bruto”. • En la estratificación a posteriori no se controla la repartición de las unidades encuestadas entre los estratos;
un caso extremo es aquel donde no se encontraría ninguna unidad en la muestra en un estrato definido a posteriori. La estratificación a posteriori, como reajusta la muestra ponderándola para adaptarla a una distribución conocida, es en general menos eficaz que una estratificación a priori bien elegida.
6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 89 Curs 2. 01 8- 2. 01 9
El criterio elegido para estratificar a posteriori debe estar correlacionado con la variable de interés (o las variables de interés) para que la técnica sea eficaz. Por otra parte, es esencial que los efectivos de los estratos (las hM ) sean conocidos de manera precisa y sobretodo reciente: una estratificación a posteriori que ajuste una muestra a una distribución antigua (y susceptible de estar deformada) será desaconsejable. Para finalizar, es preferible no hacer correcciones de las ponderaciones demasiado importantes: una regla empírica sugiere evitar las tasas de corrección más de cinco veces superiores a la tasa de corrección más baja. Se desaconseja tambien el estratificar a posteriori en estratos demasiado poco numerosos (evitar los estratos tales que MM h < 10 %). Si el plan de muestreo es más complejo que el caso aleatorio simple, sin estratificación y si las probabilidades de inclusión de las unidades (es decir, las probabilidades de pertenencia a la muestra) son iguales (por ejemplo, para ciertos muestreos a varios niveles), entonces se utiliza el estimador de la media de Y :
hh
H
ps yMMy Σ
1h== donde hy es la media simple calculada sobre los cuestionarios del h ;
Si el plan de muestreo es no estratificado y con probabilidades desiguales, se estima la media de Y según :
h
hhH
ps MT
MMy Σ
1h ˆˆ
== donde hh MT ˆ,ˆ estiman el total de Y y el tamaño del estrato h.
6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 90 Curs 2. 01 8- 2. 01 9
6- 5. 1 . 1 El método del raking- ratio Este método se emplea cuando se prueba de ajustar la muestra a varios criterios sin que se conozca la distribución conjunta asociada: por ejemplo, se ajusta a la distribución de hogares por tamaño, y tambien su distribución según el nivel de instrucción del cabeza de familia. Se ajusta la muestra a una de las distribuciones modificando las ponderaciones de los cuestionarios (es decir, que se multiplica la ponderación de todas las unidades de una misma “porción” de la distribución por el mismo coeficiente para que después de la extrapolación se contabilicen el número de unidades conocido en cada “porción” por la distribución “exterior”). En una segunda etapa, se modifican las ponderaciones para ajustarla a la otra distribución. Después se continúa con el reajuste a la primera distribución y después de un cierto número de iteraciones, se obtienen las ponderaciones definitivas. Este método puede adaptarse en el caso de un muestreo aleatorio simple o de un plan de sondeo más complejo donde las probabilidades de inclusión finales de las unidades sean iguales y la muestra de tamaño fijo.
6-5.2 Estimación por cociente A diferencia de la recomposición a posteriori, se “ajusta” para satisfacer un valor medio. Se selecciona una muestra para estudiar una variable Y, pero se observa también una variable X. Para esta variable X, se conoce la media Xµ de manera exacta sobre el universo. Se puede “observar” el resultado x obtenido a partir de la muestra y compararlo con Xµ .
6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 91 Curs 2. 01 8- 2. 01 9
La idea es la siguiente: para las variables que varian “proporcionalmente” a la variable X, se tiene en cuenta el resultado y se propone el estimador por cociente (de la media de Y):
xyy X
cµ
=
Si la muestra facilita un resultado x inferior a Xµ , se piensa que es interesante de “dar un empujón” a la estimación “en bruto” de x (e inversamente si x > Xµ ). El estimador por cociente es sesgado, pero si la variable auxiliar X y la variable Y estudiado son aproximadamente proporcionales, su varianza resulta inferior a aquella del estimador por cociente simple:
( ) ( )YXXYc ssrsrsmM
myV ρˆ2ˆ11ˆ 222 −+
−= donde y se calculan a partir de la muestra (fórmula
habitual), y es el coeficiente de correlación lineal X y Y estimado a partir de la muestra Si el sesgo es de un orden de magnitud “controlado” por el error cuadrático, el estimador por cociente resulta entonces interesante. Pero, únicamente se debe aplicar en caso de existir una relación presumiblemente de proporcionalidad entre las dos variables X e Y.
6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES
sy2 sx
2
r yx
= ρ
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 92 Curs 2. 01 8- 2. 01 9
6-5.3 El estimador por regresión Este método presupone una relación lineal entre Y, la variable de interés, y X, la variable auxiliar, Y = a + bX. La idea va a consistir en estimar el parámetro b, para luego utilizar la magnitud Xµ (valor medio de X en el universo, conocido) para recomponer y facilitar el estimador por regresión de la media,
( )xbyy Xr −+= µˆ
donde es el estimador de b por el método de mínimos cuadrados ordinarios aplicado a la muestra. Se utiliza a menudo una “variante”, el estimador por diferencia, donde el valor de b se elige a priori igual a 1,
( )xyy Xr −+= µ
b
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 93 Curs 2. 01 8- 2. 01 9
6-6. Tª DEL MUESTREO: EJEMPLO SUBE/BAJA
6-6.1 Encuesta Sube/Baja sobre una red urbana de autobuses • Se supone una red urbana con 45 lineas, de las cuales 15 son las más importantes.
• Se denomina expedición a cada recorrido en el origen-destino-origen de una unidad en una linea.
• Se supone la existencia de 6 titulos distintos de transporte.
• Se consideran 4 días tipo: día laborable medio, miércoles, sábado y domingo-festivo.
Los objetivos son:
• Conocer el número total de viajeros en la red durante un mes (carga mensual).
• Conocer la repartición de la carga por cada línea, día tipo y título de transporte.
Se dispone de :
• Número de expediciones diarias por línea y dia tipo.
• Número de billetes cancelados para cada día del mes de estudio.
• Número de billetes cancelados para cada línea durante cada día del mes de estudio.
• A nivel mensual: número de billetes vendidos para cada título (billete simple, abonos, etc).
• Resultados de encuestas O-D por línea realizadas anteriormente.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 94 Curs 2. 01 8- 2. 01 9
6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO
La población o universo son todas las expediciones propuestas por el operador durante el mes de estudio. Sea M=126377 expediciones.
La muestra n se determina compuesta de m=1200 expediciones.
Caso ASSR
Sea Y el número de viajeros por expedición, por tanto la variable de interés definida a nivel de US.
La selección de la muestra de expediciones se realiza ASSR y por tanto los estimadores del número medio de viajeros por expedición y del total de viajeros mensual responde a las fórmulas del ASSR:
Estimador puntual insesgado de yµ por el estadístico media muestral : ∑=
=m
iiy
my
1
1
La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:
( ) 2'11ˆ SmM
myV
−= donde ( )∑
=
−−
=m
ii yy
mS'1
22
11
Estimador puntual insesgado del total de viajes mensual yτ es: ∑=
==m
iiY y
mMyMT
1
ˆ
La varianza del estadístico total muestral se puede estimar a partir de la muestra de manera insesgada por:
( ) ( ) 2'11ˆˆˆ SmM
mMyMVTV 2Y
−== donde ( )∑
=
−−
=m
ii yy
mS'1
22
11
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 95 Curs 2. 01 8- 2. 01 9
6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO
Caso muestreo estratificado representativo con estratos definidos por día tipo y línea.
Para cada línea l y tipo de día d, se define un estrato h=(d,l). Por tanto H=45x4=180.
Dentro de cada estrato h (línea y día tipo) se seleccionada una muestra aleatoria simple sin reposición de mh
expediciones entre las Mh con hMmf
Mm
∀==h
h, es decir hM
MmMm ∀
⋅==
1263771200hh
h .
El cálculo del número medio de viajeros por estrato (dia-línea) y su varianza estimada responde a las fórmulas ASSR. A partir de ellas se calculan los totales estimados por estrato, la varianza intra estimada y el total global de viajeros en el mes de estudio (carga mensual):
La estimación del total es ∑∑∑∑∑= ====
===H
hi
m
hihi
m
hi
H
h
H
Y ymMy
mMyMT
hh
1h 111h1hh
ˆ y su varianza estimada es
( ) 22
2h
1h
h2
'1'1ˆV intra
H
Y Sm
MMmS
MM
mM
MmT
−=
−= ∑
=.
Caso muestreo estratificado óptimo de Neyman con estratos definidos por día tipo y línea.
Dentro de cada estrato h (línea y día tipo) se seleccionada una muestra aleatoria simple sin reposición de mh
expediciones entre las Mh con hmSM
SMmk kk
∀=∑ '
'hhh .
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 96 Curs 2. 01 8- 2. 01 9
6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO
La estimación de la carga mensual es ∑∑∑∑∑= ====
===H
hi
m
hihi
m
hi
H
h
H
Y ymMy
mMyMT
hh
1h h
h
111h h
h
1hh
ˆ y su varianza estimada es
( ) 2h
hh
h
1h
2h '11ˆV S
mMm
MTH
Y
−=∑
=
6- 6. 1 . 1 Muestreo a 2 niveles utilizado
• Muestra estratificada de Neyman por linea. H=45.
• Dentro de cada línea: muestra estratificada representativa por cada día tipo.
• Para cada día tipo y línea: muestra sistemática de expediciones (ida y vuelta) en el día (arranque aleatorio del primer recorrido a muestrear del día y distribución a paso constante del conjunto de expediciones del día en la muestra).
Para cada expedición i de la población (i = 1...M), sean iii CVB ,, el número de viajes realizado con billete (sencillo o tarjeta), con título a enseñar y total, respectivamente. Se da la relación iii VBC += .
• Sean ∑==
M
i iB1Bτ , ∑=
=M
i iV V1
τ y ∑==
M
i iC C1
τ el número de viajes con billete, con título a enseñar o total durante el mes de estudio.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 97 Curs 2. 01 8- 2. 01 9
6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO
• Sean MBM
i i∑== 1Bµ , M
VM
i iV∑== 1µ y M
CM
i iC∑== 1µ el número medio por expedición de viajes con
billete, con título a enseñar o total durante el mes de estudio.
• Sea πµµ
ττ
==C
V
C
V la proporción de viajes con título a enseñar entre el total durante el mes de estudio.
• Sea W el número de billetes vendidos durante el mes de estudio.
• Si W=Bτ entonces V
CC WW
ττ
πτ =
−=
1 .
• Si W=Bτ entonces VC MWW µπ
τ +=−
=1 .
La estimación para cada línea l y día tipo d de la carga total C en el mes de estudio responde a:
Primer nivel : muestra aleatoria simple sin reposición de mh expediciones entre las Mh con
hmSM
SMmk kk
∀=∑ '
'hhh por Neyman y estrato h definido por la línea.
Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC
Prof. Lídia Montero © Pàg. 6- 98 Curs 2. 01 8- 2. 01 9
6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO
Segundo nivel : muestra aleatoria simple sin reposición de dhm expediciones entre las hm con hm
MMm h
h
dhd
h ∀=
proporcional al número de expediciones por dia-tipo y estrato h definido por la línea.
La estimación de la carga mensual total (total de C) es ∑∑∑∑∑∑∑∑= = === == =
===H D
did
h
dh
m
ii
m
i
H D
ddh
dhd
h
H D
d
dhC c
mMc
mMcMT
dh
dh
1h 1 111h 11h 1
ˆ y
su varianza estimada es ( ) ( ) ( )∑∑= =
−=
H D
d
dhd
hdh
dhd
hC SmM
mMT1h 1
22 '11ˆV