MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND … · teniendo en cuenta, además del voto directo, los índices de confian za y simpatía. La encuesta telefónica ha sido realizada

Curs Academic 2018-19

MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND LOGISTICS

Anàlisi de Dades de Transport i Logística (240ST014)

NOTES DE CLASSE: Block 6 –Introducció al Mostreig PROFESSOR: Lídia Montero Setembre 2018 – Versió 1.6

Anàlisi de Dades de Transport i Logística - BarcelonaTech - UPC

Prof. Lídia Montero © Pàg. 6- 2 Curs 2. 01 8- 2. 01 9

TABLA DE CONTENIDOS

6-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO __________________________________________________________________________________ 4

6-1.1 CONCEPTOS BÁSICOS: NOTACIÓN, PARÁMETROS Y ESTIMADORES ________________________________________________________________________ 4 6-1.2 EJEMPLO: ELECCIONES GENERALES (ERIK COBO –DEIO-UPC) _________________________________________________________________________ 6 6-1.3 EJERCICIOS CONCEPTUALES _____________________________________________________________________________________________________ 15

6-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR __________________________________________________________________________ 19

6-2.1 MUESTREO ALEATORIO SIMPLE SIN REPOSICIÓN (ASSR) _____________________________________________________________________________ 19 6-2.2 MUESTREO ALEATORIO SIMPLE CON REPOSICIÓN (ASCR) ____________________________________________________________________________ 22

6-2.3 MUESTREO ALEATORIO SIMPLE (ASSR): INTÉRVALOS DE CONFIANZA )%1(100 α− _________________________________________________ 23

6-2.4 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR ABSOLUTO AL )%1(100 α− ______________________________________________________ 25

6-2.5 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR RELATIVO AL )%1(100 α− _______________________________________________________ 30 6-2.6 MUESTREO ALEATORIO SIMPLE (ASSR): APLICACIÓN CELDAS DE MATRIZ OD ____________________________________________________________ 34 6-2.7 MUESTREO ALEATORIO SIMPLE (ASSR): EJERCICIOS ________________________________________________________________________________ 36 6-2.7.1 CUOTA DE MERCADO DE UNA LINEA DE TRANSPORTE PÚBLICO __________________________________________________________________________ 36 6-2.7.2 RENDIMENTO DE UNA ENCUESTA DE MOVILIDAD DOMICILIARIA POR BUZONEO ______________________________________________________________ 37 6-2.7.3 SONDEO DE OPINIÓN PRE-ELECTORAL ______________________________________________________________________________________________ 38 6-2.7.4 UNO MÁS DIFÍCIL DE MUESTREO ALEATORIO SIMPLE _________________________________________________________________________________ 39

6-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO ______________________________________________________________ 43

6-3.1 ESTIMACIÓN DEL TOTAL Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO _______________________________________________________ 44 6-3.2 ESTIMACIÓN DE LA MEDIA DE Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO ___________________________________________________ 45 6-3.3 MUESTREO ESTRATIFICADO PROPORCIONAL ________________________________________________________________________________________ 45 6-3.4 ESTRATIFICACIÓN ÓPTIMA DE NEYMAN ____________________________________________________________________________________________ 47 6-3.5 ESTRATIFICACIÓN ÓPTIMA SEGÚN COSTE FIJADO TOTAL (VARIABLE POR ESTRATO) ________________________________________________________ 49 6-3.6 BÚSQUEDA DE PRECISIÓN A NIVEL DE CADA ESTRATO _________________________________________________________________________________ 50 6-3.7 BÚSQUEDA TRADE-OFF: COSTE VARIABLE-DISPERSIÓN CON N FIJO ______________________________________________________________________ 50 6-3.8 VALORACIÓN DEL MUESTREO ESTRATIFICADO Y RELACIÓN CON ASSR __________________________________________________________________ 51



TABLA DE CONTENIDOS 6-3.9 LA ESTRATIFICACIÓN EN LAS ENCUESTAS DE MOVILIDAD A RESIDENTES SEGÚN SMITH 79 ___________________________________________________ 53 6-3.10 EJERCICIOS DE DIMENSIONAMIENTO ______________________________________________________________________________________________ 56 6-3.10.1 CASO DE ESTUDIO 1: TASA DE RESIDUOS DIARIOS POR HABITANTE ______________________________________________________________________ 57 6-3.10.2 CASO DE ESTUDIO 2: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CIUDAD MEDIANA ___________________________________________________ 58 6-3.10.3 CASO DE ESTUDIO 3: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CAPITAL LATINOAMERICANA __________________________________________ 67

6-4. INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS __________________________________________________________________________ 76

6-4.1 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES IGUALES (DOS NIVELES) __________________________________________________ 78 6-4.1.1 ESTIMACIÓN DE LA VARIANZA DEL ESTIMADOR DEL TOTAL DE Y _________________________________________________________________________ 78 6-4.1.2 CASO PARTICULAR : SONDEO AUTOPONDERADO ______________________________________________________________________________________ 79 6-4.2 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES DESIGUALES (EXTRACCIÓN A DOS NIVELES) _________________________________ 80 6-4.2.1 MUESTREO AUTOPONDERADO ____________________________________________________________________________________________________ 81 6-4.3 SONDEO EN CONGLOMERADOS ____________________________________________________________________________________________________ 82 6-4.3.1 ESTIMACIÓN DE UN TOTAL EN EL CASO DE EXTRACCIÓN DE CONGLOMERADOS CON PROBABILIDADES IGUALES ____________________________________ 83 6-4.3.2 ESTIMACIÓN DE UN TOTAL EN UNA EXTRACCIÓN DE LOS CONGLOMERADOS CON PROBABILIDADES DESIGUALES ___________________________________ 84 6-4.4 ASSR FRENTE A MUESTREO POR CONGLOMERADOS __________________________________________________________________________________ 84 6-4.5 PLANES DE MUESTREO MÁS COMPLEJOS ____________________________________________________________________________________________ 86

6-5. INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES _______________________________________________________________________ 87

6-5.1 ESTRATIFICACIÓN A POSTERIORI __________________________________________________________________________________________________ 88 6-5.1.1 EL MÉTODO DEL RAKING-RATIO ___________________________________________________________________________________________________ 90 6-5.2 ESTIMACIÓN POR COCIENTE ______________________________________________________________________________________________________ 90 6-5.3 EL ESTIMADOR POR REGRESIÓN ___________________________________________________________________________________________________ 92

6-6. Tª DEL MUESTREO: EJEMPLO SUBE/BAJA ______________________________________________________________________________________ 93

6-6.1 ENCUESTA SUBE/BAJA SOBRE UNA RED URBANA DE AUTOBUSES _________________________________________________________________________ 93 6-6.1.1 MUESTREO A 2 NIVELES UTILIZADO ________________________________________________________________________________________________ 96



6-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO

6-1.1 Conceptos básicos: notación, parámetros y estimadores La población objeto de estudio mediante una encuesta (target population, en inglés) o universo del estudio es el grupo completo de elementos (individuos) sobre los que se desea recoger información. Los elementos de la población pueden ser directamente unidades de muestreo, pero en general, las unidades de muestreo suelen ser grupos de elementos de la población y por tanto, las unidades de muestreo están constituidas por uno o más individuos.

El marco de muestreo (sampling frame) es la lista base que identifica cada unidad de muestreo del universo de muestreo. Por ejemplo, para una escuesta de movilidad de un ámbito, la lista de números telefónicos no se corresponde forzosamente con el universo de muestreo: individuos sin teléfono, números de empresa, etc. Tarea clave donde normalmente se detectan:

• Imprecisiones. Listas de censo no actualizadas donde hay cambios de domicilio, apellidos incorrectos, etc.

• Universo incompleto: listas del censo donde hay hogares con más/menos individuos.

• Duplicaciones: Listas de personas vinculadas a una universidad, posiblemente el personal de administración que estudia alguna titulación puede aparecer como trabajador y como estudiante.

• Marco muestral inadecuado: listados telefónicos de un ámbito.

• Marco muestral no actualizado: muy frecuentes en encuestas CATI donde se tiene integrada una base de datos con el marco muestral de un ámbito en el formato conveniente; las BBDD son de pago y se solicitan y actualizan con poca frecuencia.



6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

El objeto del plan de muestreo reside en diseñar la selección de una muestra del universo de estudio representativa del universo: unidades de muestreo, tamaño de la muestra, etc según restricciones de presupuesto, tiempo de ejecución y precisión de los estimadores obtenidos.

Finalidad: Obtener buenas estimaciones sobre parámetros de la población a partir de muestras pequeñas.

Las cualidades estadísticas de los estimadores de los parámetros son totalmente dependientes del plan de muestreo. Las cualidades estadísticos básicas son: ausencia de sesgo (accuracy), precisión (precision) a un nivel de confianza fijado.

Según estemos en una muestra o en una población, los valores que utilizamos para describir los datos reciben un nombre diferente y tienen su propio símbolo. Para una característica X:

Parámetro ( ) Estadístico ( ) (Población) (Muestra)

Media mu x barra ó m

Desviación típica sigma s

Probabilidad/Proporción pi (probabilidad) P (proporción)

Cuando un estadístico se usa para conocer el valor de un parámetro recibe el nombre de estimador.




6-1.2 Ejemplo: Elecciones generales (Erik Cobo –DEIO-UPC) - Muestras (estimadores): sondeos electorales de 2 periódicos - Población (parámetros): resultados reales de las elecciones

La interpretación de la “precisión” es: según “PERIÓDICO X” la auténtica proporción del PSOE se situará en el intervalo 40’5%±1% → [39’5%,41’5%] ¿Aciertan?

PERIÓDICO X n=9.524 +2.000

PERIÓDICO Y n=3.262

RESULTADOS ELECTORALES

PSOE PP

CIU IU

CDS

40’5% 19’1% 4’9% 10’3% 8’5%

41’5% 25’0% 4’5% 7’5% 6’5%

39’55% 25’83% 5’04% 9’05% 7’91%

Precisión ± 1% ± 2% Las “fichas técnicas” de ambos estudios figuran en el cuadro siguiente.¿qué explicaciones encuentran al resultado anterior?




PERIÓDICO X PERIÓDICO Y Dirección y realización: ICP/Research. Universo: electorado español. Ámbito: todo el territorio español. Tipo de entrevista: personal. Puntos de muestreo: 705. Selección de los entrevistados: Al azar; selección aleatoria de personas mediante cuotas de sexo y edad dentro de cada punto de muestreo. Diseño de la muestra: Distribución no proporcional con muestras óptimas para cada una de las circunscripciones. En los datos globales se han aplicado los coeficientes de ponderación adecuados para reconvertir la muestra a su dimensión real. Tamaño de la muestra: 9.524 entrevistas, con una ampliación en Catalunya hasta 2.000 más. Margen de error: En cada circunscripción el error oscila entre ± 3’2% y ±10% según el número de entrevistas realizadas. En datos globales ponderados el error es del ±1% con un nivel de significación del 95’5% de probabilidades. Tratamiento de la información: Programa de tabulación cruzado simple y desarrollo específico de la Ley D/Hondt. El voto ponderado final se estima teniendo en cuenta, además del voto directo, los índices de confianza y simpatía.

La encuesta telefónica ha sido realizada por el instituto OPINA,

S.A., durante 3 días en el conjunto del estado español.

El universo de análisis lo han

compuesto una muestra de 3.262 personas seleccionadas

aleatoriamente según cuotas de: sexo, edad, profesión y tamaño del

hábitat.

El error muestral es de un ± 2 por ciento para un margen de confianza del 95 por ciento y bajo el supuesto

de máxima indeterminación (p=q=50%).




La inferencia estadística se basa en la obtención de muestras por procedimientos aleatorios, que garantizan que la muestra representa a la población: la media muestral es una buena estimación del valor poblacional de la característica.

Pero diferentes hechos hacen imposible la muestra aleatoria: Los individuos tienen derecho a rechazar su participación en un estudio,

a abandonarlo en cualquier momento. No se dispone de definiciones operativas de todas poblaciones O bien, no hay respuesta en preguntas delicadas.

Todos estos fenómenos -no aleatorios- pueden provocar distorsiones no aleatorias: sesgos. En resumen, la inferencia,

en su paso de la muestra a la población, está sujeta a dos posibles fuentes de errores: Aleatorios: Errores de muestreo (por estar trabajando con muestras)

No aleatorios o Sesgos: Sesgo del muestreo.




Según la referencia: Survey Methods for Transport Planning, Eucalyptus Press de A. J. Richarson, E.S.Ampt, A.H. Meyburg pp 97 (http://www.transportsurveymethods.com.au/downloadBook.html)

Error de muestreo Error de muestreo

Sesgo

Error de muestreo

En general, el error de muestreo puede reducirse aumentando el

tamaño muestral y si esto resulta muy caro quizás el Plan

de Muestreo puede contribuir a

su reducción.

http://www.transportsurveymethods.com.au/downloadBook.html


Prof. Lídia Montero © Pàg. 6- 1 0 Curs 2. 01 8- 2. 01 9


Objetivos de la toma de datos:

• Estimar ciertos parámetros poblacionales (número medio de viajes diarios por persona, reparto modal, etc) a partir de los datos muestrales.

• Contrastar a partir de los datos muestrales hipótesis relativas a parámetros poblacionales. Por ejemplo, se dispone de un año anterior del número de vehículos que circulan en un día laborable por un peaje. Se ha subido la tarifa y se recogen datos de usuarios en día laborable en una muestra de n dias, se podrá inferir el rango de la pérdida proporcional de clientes a un nivel de confianza fijado.

La determinación del tamaño muestral depende de las características target de estudio- fijemos un único target, Y cuantitativo del que interesa su tendencia central:

• La variabilidad de los valores de Y en la población.

• La precisión requerida para los estimadores del parámetro de interés en términos absolutos y relativos.

• El tamaño de la población (universo del estudio).

Ejemplo: Encuesta domiciliaria a famílias (UP), con recogida de todos los datos de sus miembros (US).

• Universo estratificado en H estratos. En estudios de transporte, los estratos corresponden a zonas de transporte o similares (H ≈ 75/80).

• Tamaño muestral en Unidades Primarias: m (Unidades Primarias, UP's) (conocido).

• Tamaño poblacional en Unidades Primarias: M (conocido).

• Tamaño muestra de individuos (Unidades Secundarias, US) notado n, sobre un total poblacional N.




Para cada estrato h ∈ {1,.....H} se dispone.

• Mh Número poblacional de unidades primarias (UP o conglomerados) (familias en el presente ejemplo) • Nh Número poblacional de unidades secundarias (US) (habitantes) por cuotas por sexo y edad.

Se nota h

hh M

NN = Número medio de individuos por familia en el estrato h (US por UP en estrato)

f para

Sea Y una variable de estudio definida a nivel de individuo. A continuación se define la notación para diversos estimadores asociados a la variable de interés, tanto a nivel global (universo), como a nivel de estrato (zona).

Global

Total )(ˆ YToTo yyy ττ

Valor medio por familia (UP) τ τy y yo t

Valor medio por individuo (US) yyµ

Parámetro vs. Estimador del parámetro




Por zona o estrato (h)

Total ( )YToTo hhy

hy

hy ττ ˆ

Valor medio por familia (UP) τ τyh

yh

yho t

Valor medio por individuo (US) µ yh hy

Se distinguen entre los estimadores, en caligrafía normal o con un símbolo ^ sobre la notación de los valores verdaderos o poblacionales de los estadísticos, que se notan con letras griegas o caligráficas.

Para cálculo intervalo confianza de un estimador E :

)ˆ(ˆ

ˆ

EV

E Eµ− ~ tν - Student ~ N(0,1) Normal Standard [ ]

Condicion NO SESGO

E E E

: =µ

donde los grados de libertad de la distribución de t-Student son 1−= nν , con n tamaño muestral en USs y el nivel de confianza se indica (1-α)%. Para simplificar, se suele efectuar una aproximación

96.12/12/1 == −∞→

− αν

α tz para α = 0 05 95%), (IC ó en general




en el cálculo de IC en lugar de E t V E( )% ( )/1 1 2− ± −α να

, se emplea una aproximación normal que obvía el problema de los grados de libertad y en la mayoría de los casos resulta satisfactoria ya que si

∞→ν , tamaño muestral grande entonces asintóticamente una t-Student tiende a una normal standard (N(0,1))

y ( )/E z V E± −1 2α

.

Siempre se calcula un estimador del error estandard ( ( ))V E pues V E( ) es inasequible en la práctica.

La notación empleada para los distintos tipos de varianzas es la siguiente:

σ y2

: Varianza poblacional de la variable Y

′σ y2

: Varianza poblacional corregida de Y ( donde 22

1' yy N

N σσ−

= )

Sy2: Varianza muestral de Y

′Sy2 : Varianza muestral corregida de Y

nyydonden

yyS

n

yyS

ii

ii

yi

i

y ∑∑∑

=−

−=

−=

1

)('

)( 2

2

2

2

N

Y YNi

i

y

2

12)( µ

σ−

=∑=



n

Yy ni

i∑== 1


Sea el estadístico media muestral y habitualmente empleado como estimador de la media poblacional, es una variable aleatoria y por tanto tiene esperanza y varianza. En MAS es no sesgado.

Las propiedades de los estimadores anteriores son para el muestreo sin reposición y facilitan [ ]E S y y' '2 2= σ

• ( )nN

nyV y2

1σ ′

−= y su estimador n

SNnyV y

2'1)(ˆ

−= .

• Si Y es un indicador 0 o 1 (distribución Bernoulli( yµ )) donde 10 ≤≤ yµ py ≡ proporción muestral de

respuestas positivas y ( )

111)(ˆ−−

−=

npp

NnyV .

El error estandard del estimador de la media se nota por ( )V y y un intervalo de confianza bilateral al 95% de

µY es: )(ˆ. yVy 961±



6-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

6-1.3 Ejercicios Conceptuales

Sea Y el número de viajes diario por individuo y se le ha dado una distribución de Poisson con parámetro 3=λ viajes/día.

• Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.

• Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

• Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

• Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

Sea Y un indicador de si un individuo viajó el día anterior; se le ha dado una distribución de Bernoulli con

parámetro 90.=π .








Sea Y los ingresos mensuales por individuo en $ y se le ha dado una distribución de Normal con parámetro de

posición 1500=µ euros mensuales y desviación estándar (escala) de 400$.





• Cómo cambiarían los resultados si la desviación estándar fuera de 200$ con la misma media.

Se podría trabajar con páginas Web disponibles en la red para trabajar esos conceptos: http://lstat.kuleuven.be/java/.

http://lstat.kuleuven.be/java/




Por el enfoque dado a la formulación, la variable Y se asocia a individuos (US), pero a nivel de familias

(conglomerados o UP) interesa trabajar con totales: τ yh i,

Suma de todos los valores de Y de las US de la UP i del estrato h

( ) ,W yh yh i

ijj US de la UP idel estrato h

τ = ∑

Se podría definir W: Total de Y en las UPs y definir σ σw w w wh h h hs s2 2 2 2, ' , , ' , pero para no forzar en exceso la

abstracción es mejor escribir más específicamente:

σ

τ yh

2 : Varianza poblacional del total de Y en el estrato h

στ' :

yh

2 Varianza corregida del total de Y en el estrato h

syhτ

2 : Varianza muestral del total de Y en el estrato h

syh' :

τ2

Varianza muestral corregida del total de Y en el estrato h

donde, ∑=i

hih

yhy mt /,τ

∑ −=

hestratodeliUP

hy

ihy

h

tm

s hy

2,2 )(1 ττ

∑ −−

=

hestratodeliUP

hy

ihy

h

tm

s hy

2,2 )(1

1' ττ




Ejemplo: Y: Nº de viajes en autobús de un individuo. Y : Nº medio de viajes en autobús por persona. Yh : Nº medio de viajes en autobús por persona en el estrato h. τ y yo T : Total de viajes en autobús. t y : Nº medio de viajes en autobús por familia (total medio por UP).

t yh

: Nº medio de viajes en autobús en el estrato h (total medio por UP en el estrato h) .

La variable Y puede ser cualquier variable extraída de la muestra a nivel individual , incluso una variable binaria 0 ó 1, lo que da lugar a estimadores de proporciones individuales. Ejemplo:

Y: Indicador de si un individuo es o no estudiante (1: lo es, 0: no lo es) (Y ~ Bernoulli p). τ y : Total de estudiantes en la población. t y : Nº medio de estudiantes por familia

y : Proporción de estudiantes en la población. yh: Proporción de estudiantes en la zona h.



6-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

6-2.1 Muestreo Aleatorio Simple Sin Reposición (ASSR)

Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación de la media poblacional de yµ se puede realizar a partir de la muestra:

Estimador puntual insesgado de yµ por el estadístico media muestral :

∑=

=n

iiy

ny

1

1

La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:

( ) 2'11ˆ SnN

nyV

−= donde ( )∑

=

−−

=n

ii yy

nS'1

22

11

Si la muestra se extrae sin reposición entonces el estimador puntual de la media poblacional se calcula a partir del estadístico media muestral, cuya verdadera varianza es:

( ) 222 '11'11YYY nN

nnN

1-N1-Nn-N

n1-Nn-NyV σσσ

−=

=

= donde ( ) ( ) σµµσ 2

1

2

1

22

111

11

−=−

−=−

−= ∑∑

== NNy

NN

Ny

N'N

iYi

N

iYi

ASSR

n ind.

N ind.



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación del total poblacional de yτ se puede realizar a partir de la muestra:

Estimador puntual insesgado de yτ por el estadístico media muestral : ∑=

==n

iiY y

nNyNT

1

ˆ

La varianza del estadístico total muestral se puede estimar a partir de la muestra de manera insesgada por:

( ) ( ) 2'11ˆˆˆ SnN

nNyNVTV 2Y

−== donde ( )∑

=

−−

=n

ii yy

nS'1

22

11

• El factor de expansión es la ponderación de cada unidad de la muestra que permite construir el valor

poblacional : nN

.



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

Sea Y una característica dicotómica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de m individuos. La estimación de la proporción poblacional de πµ ≡y se puede realizar a partir de la muestra:

• Estimador puntual insesgado de py≡µ por el estadístico media muestral : ∑=

=n

iiy

np

1

1ˆ

• La varianza del estadístico proporción muestral se puede estimar a partir de la muestra de manera

insesgada por: ( ) ( )1-npp

NnpV

ˆˆˆˆ −

−=

11

Selección de la muestra:

• Muestreo sistemático: generar un arranque aleatorio y saltar en pasos N/n.

• Método simple: archivo con N individuos, se generan m números aleatorios entre 1 y N (o a partir de una uniforme [0,1] y se multiplica por n (redondeándose por exceso)). En R:

# Crear una muestra del dataframe UNIVERSO con todas las var.explicativas activas n = 100 indicador <- sample(1:(dim(UNIVERS)[1]),n ) indicador <- sort( indicador ) muestra <- UNIVERS[ indicador, ] # muestra és un nuevo dataframe



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASCR

6-2.2 Muestreo Aleatorio Simple Con Reposición (ASCR)

Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple con reposición de n individuos.

Desde un punto de vista teórica es equivalente a un muestreo ASSR sobre una población de tamaño infinito (N muy grande, por encima 500.000).

La estimación de la media poblacional de yµ se puede realizar a partir de la muestra:

Estimador puntual insesgado de yµ por el estadístico media muestral : ∑=

=n

iiy

ny

1

1


( ) →= 21σn

yV ( ) 2'1ˆ Sn

yV = donde ( )∑=

−−

=n

ii yy

nS'1

22

11

ASSR

n ind.

N infinito



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100 α−

6-2.3 Muestreo Aleatorio Simple (ASSR): intérvalos de confianza )%1(100 α−

En general, sea un estimador no sesgado de θ , parámetro muestral. Se asume una distribución normal del

estimador θ con error estándard (raiz cuadrada del estimador de la varianza de θ ) notado θs

, entonces se contruye un intervalo de confianza bilateral al nivel de confiança α (valor entre 0 y 1) es:

[ ] [ ]θθθθθ ααˆˆˆˆˆˆ

22 11 VzVz −− +≤≤−

Por ejemplo para 1.0=α y para Yτθ = (intérvalo de confianza bilateral al 90% para el total poblacional de Y) a partir de la expresión:

[ ]n

sNnNsVTszsz Y

YY

2'22

ˆˆ21ˆ

211ˆˆ,,ˆˆˆ

−====→+≤≤−

−− θθαθα θτθθθθθ

[ ] [ ]YYYYY TVzTTVzT ˆˆ95,095,0 +≤≤− τ

con 65.195.0 =z



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100 α−

• Por ejemplo para 05.0=α y para Yπθ = (intérvalo de confianza bilateral al 95% para la proporción poblacional de Y – variable binaria) a partir de la expresión:

[ ] [ ] ( )1ˆ1ˆ

11ˆˆˆ2'

−−

−=

−==

npp

Nn

ns

NnyVpV y

[ ] ( )1ˆ1ˆ

1ˆˆ,,ˆˆˆˆ 2ˆˆ

21ˆ21 −

−

−====→+≤≤−

−− npp

NnsVppszsz

θθαθα θθθθθθ

[ ] [ ]pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 +≤≤− con 96.1975.0 =z

• Por ejemplo, el intervalo de confianza bilateral al 99% para la media poblacional seria:

[ ] [ ]yVzyyVzy Yˆˆ

995,0995,0 +≤≤− µ

donde ( ) 2'11ˆ SnN

nyV

−= y ( )∑

=

−−

=n

ii yy

nS'1

22

11

con 58.2995.0 =z



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100 α−

6-2.4 Muestreo Aleatorio Simple (ASSR): error absoluto al )%1(100 α−



, entonces el error absoluto al nivel de confiança α (valor entre 0 y 1) es:

[ ] [ ]θθ αˆˆˆ

21 VzEA −=

• Por ejemplo, el error absoluto al nivel de confianza del 99% para la media poblacional de Y seria:

[ ] [ ] [ ] 2995.0995.01 '11ˆˆ

201.0 S

nNnzyVzyVzyEA

−=== −

donde ( )∑=

−−

=n

ii yy

nS'1

22

11

con 58.2995.0 =z

• El error absoluto de un estimador es inversamente proporcional a su precisión: a menor error absoluto mayor precisión y a mayor error absoluto menor precisión.




El error absoluto de un estimador de una media poblacional decrece de manera inversamente proporcional a la raiz

del tamaño muestral y por tanto para reducir el error absoluto en un porcentaje %100β ( con β valor entre 0 y 1):

[ ][ ]

[ ][ ]

( )2'

1

1

1

'1'1

2

2

βββ

α

α

−≥→≥−→≥−

>>

−

− nn'yVz

yVzyEAyEA nN

• Para decrementar en un 5% el error absoluto el tamaño muestral se ha de incrementar en 11%



• Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).

EA(n') EA(n) EA(n')/EA(n) Beta n n' 95 100 0.95 5.00% 1000 1108 90 100 0.9 10.00% 1000 1235 80 100 0.8 20.00% 1000 1563 50 100 0.5 50.00% 1000 4000 20 100 0.2 80.00% 1000 25000 10 100 0.1 90.00% 1000 100000 5 100 0.05 95.00% 1000 400000




• Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error

absoluto inferior a β unidades fijado, al nivel de confianza del 1oo( α−1 )% fijado para la media muestral Y seria:

[ ] [ ] βααα ==

−==

∞−−−

21

211 '1'11

222S

nzS

nNnzyVzyEA

donde ( )∑=

−−

=n

ii yy

nS'1

22

11

con 21 α−z el nivel de confianza bilaterial fijado

• Donde ( )Nn

nn−

=∞ 1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se

puede obtener ( )Nn

nn∞+

= ∞

1 . Si N es muy grande y el factor de muestreo en población finita es

prácticamente uno: 11 ≅

−

Nn

. A mayor dispersión de Y y mayor precisión (menor β ) mayor tamaño.

22

21 '2 S

zn

βα−

∞ =y considerando el factor de población finita ( )N

nnn

∞+= ∞

1 .




• Por ejemplo, el error absoluto al nivel de confianza del 95% para una proporción seria:

[ ] [ ] ( )1-npp

NnzS

nNnzpEAyEA

ˆ1ˆ1'11ˆ 975.0

2975.0

−

−=

−==

donde ∑=

=n

iiy

np

1

1ˆ con 96.1975.0 =z

o Al máximo nivel de interdeterminación se da cuando p=1-p=0.5 y si N es grande y N >> n de ahí:

[ ] ( )n1-nN

nz1-npp

NnzpEA 111

2ˆ1ˆ

1ˆ 975.0975.0 ≈

−≤

−

−=




El error absoluto de una proporción decrece de manera inversamente proporcional a la raiz del tamaño muestral y

por tanto para reducir el error absoluto en un porcentaje %100β ( con β valor entre 0 y 1):

[ ][ ] ( )

( )22

111

ˆˆ'1

ββββ

−≥→−≤→−≤→≥−

nn'n'n

n'n

pEApEA




• Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).

• Se reexpresa: para doblar la precisión (reducir a la mitad el error absoluto se tiene que cuatriplicar el tamaño muestral).

EA(n') EA(n) EA(n')/EA(n) Beta n n' 0.475 0.5 0.95 5.00% 1000 1108

0.45 0.5 0.9 10.00% 1000 1235

0.4 0.5 0.8 20.00% 1000 1563

0.25 0.5 0.5 50.00% 1000 4000

0.1 0.5 0.2 80.00% 1000 25000

0.05 0.5 0.1 90.00% 1000 100000

0.025 0.5 0.05 95.00% 1000 400000



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100 α−

6-2.5 Muestreo Aleatorio Simple (ASSR): error relativo al )%1(100 α−



, entonces el error relativo al nivel de confiança α (valor entre 0 y 1) es:

[ ] [ ] [ ] θθθθθ αˆˆˆˆˆˆ

21 VzEAER −==

• Por ejemplo, el error relativo al nivel de confianza del 99% para la media poblacional de Y seria:

[ ] [ ] ( )2995.02

995.0995.011'11ˆ YCVnN

nzySnN

nzyyVzyER

−=

−==

donde

( )

y

yyn

yS'YCV

n

ii∑

=

−−

== 1

2

11

)( con 58.2995.0 =z




Ilustración: error relativo del 50% en el estimador de la media de Y según IC 95%

• El error relativo en la media muestral depende del coeficiente de variación de la Y (variable a observar y

cuya media poblacional se desea estimar).

• Un CV de 1 apunta a una ley exponencial y resulta valorativamente una variabilidad elevada. En las variables socioeconómicas habituales el CV está por debajo de 1.

• El error relativo de una media decrece de manera inversamente proporcional a la raiz del tamaño muestral y

por tanto para reducir el error relativo en un porcentaje %100β ( con β valor entre 0 y 1):

[ ][ ]

( )2'

1

1

11

'11'1

2

2

βββ

α

α

−≥→≥−→≥−

>>

−

− nn'nz

nzyERyER nN

y

[ ] [ ] 5.0ˆ975.0 ≈= yyVzyER

0

[ ]yV2− [ ]yV2+




• Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error

relativo 100β % fijado al nivel de confianza del 1oo( α−1 )% para la media muestral Y seria:

[ ] [ ] [ ] ( ) ( ) βααα ==

−===

∞−−−

21

211

111222

YCVn

zYCVnN

nzyyVzyyEAyER

YYYCV µσ=)( es el coeficiente de variación poblacional de la variable Y, estimado a partir de la muestra por ySYCV Y')( =

• Donde ( )Nn

nn−

=∞ 1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se

puede obtener ( )Nn

nn∞+

= ∞

1 . Si N es muy grande y el factor de muestreo en población finita es

prácticamente uno: 11 ≅

−

Nn

.

( )22

21 2 YCV

zn

βα−

∞ =y considerando el factor de población finita ( )N

nnn

∞+= ∞

1 .




• Por ejemplo, el error relativo al nivel de confianza del 95% para una proporción seria:

[ ] [ ] ( ) ( )( )1-np

pNnzp

1-npp

NnzppEApER

ˆˆ11ˆˆ1ˆ

1ˆˆˆ 975.0975.0−

−=

−

−==

donde ∑=

=n

iiy

np

1

1ˆ con 96.1975.0 =z

• Cuidado con las interpretaciones de los errores relativos en proporciones. Supóngase que N es muy grande y

el factor de muestreo en población finita es prácticamente uno: 11 ≅

−

Nn

.

• El error relativo a tamaño muestral fijo crece de manera inversamente proporcional a la raiz de los odds

=

p-1ppodd )( y para probabilidades target (π ) pequeñas los tamaños muestrales tienden a ser enormes:

ER(n) IC95% en porcentaje p odd(p) 100 124 156 400 1600 3500 7000 40000

0.01 0.0101 195% 175% 156% 98% 49% 33% 23% 10% 0.05 0.0526 85% 77% 68% 43% 21% 14% 10% 4% 0.1 0.1111 59% 53% 47% 29% 15% 10% 7% 3% 0.2 0.2500 39% 35% 31% 20% 10% 7% 5% 2% 0.5 1.0000 20% 18% 16% 10% 5% 3% 2% 1% 0.8 4.0000 10% 9% 8% 5% 2% 2% 1% 0% 0.9 9.0000 7% 6% 5% 3% 2% 1% 1% 0%

0.95 19.0000 4% 4% 4% 2% 1% 1% 1% 0% 0.99 99.0000 2% 2% 2% 1% 0% 0% 0% 0%



6-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD

6-2.6 Muestreo Aleatorio Simple (ASSR): aplicación celdas de matriz OD En las encuestas de movilidad dirigidas a la estimación de matrices de movilidad OD, herramienta esencial en el esquema de planificación de las 4 etapas, las proporciones de viajes entre un origen fijado y los destinos suelen tener valores muy pequeños y la precisión en los valores totales estimados en las celdas OD suele ser muy, muy bajo.

Hay referencias clásicas que lo han estudiado como Smith M.E. TRR701 (1979) “Design of small sample home interview travel surveys” y posteriormente en 2004 Ampt y Ortúzar en Transport Reviews “On best practice in Continuous Large-scale Mobility surveys” refinan la propuesta de Smith y otros autores posteriores, se puede acotar a tamaños – precisiones razonables la generación de viajes según grupos socioeconómicos (definidos por tipología de ingresos, tamaño de los hogares y disponibilidad de vehículos privados), pero muy difícilmente los totales OD (celdas de las matrices de movilidad):

• Las alfas son las proporciones muestrales en cada una de las zonas (se limita a máximo el 5%).

• Las hjx son las unidades totales de la clase h en la zona j (conocido de entrada). Se requiere un mínimo de 30 unidades muestras por clase h.

• Se puede programar en AMPL por ejemplo.

{ }{ }

{ }hxjts

x

zonasjhjj

j

clasesh zonasjhjjj

∀≥∀≤≤

∑

∑ ∑

∈

∈ ∈

3005.00..

min

αα

αα




Según Smith (79), un tamaño muestral de un 4% de los viajes de un ámbito de estudio sería necesario recoger para estimar celdas origen-destino con valores absolutos mayores de 1100 viajes a un nivel de confianza del 90% y con un error absoluto del 25%. Menos del 4% de los viajes no permitiría detectar satisfactoriamente relaciones OD con un número de viajes inferior a 1100 viajes.

Normalmente en las encuestas domiciliarias se dimensiona por familias (hogares) o bien individuos, no se dimensiona porcentajes de los viajes, ya que el universo de los viajes realizados se desconoce, por tanto estimar número de viajes a partir de unidades de muestreo individuos o familias implicará una ineficiencia por las intradepedencias implícitas en los viajes de los individuos y por tanto, en realidad el tamaño muestral de individuos (u hogares) debería ser mayor que el tamaño muestral en términos de viajes.

Raramente se emplean encuestas domiciliarias para estimar matrices de movilidad del transporte público salvo que la cuota de mercado de éste sea muy elevada, tal como sucede en muchas ciudades compactas europeas.




6-2.7 Muestreo Aleatorio Simple (ASSR): Ejercicios

6- 2. 7. 1 Cuota de Mercado de una linea de transporte público Una muestra ASCR está compuesta por 400 usuarios de autobús en un ámbito de estudio, de los cuales 40 son usuarios de la Linea A. Se pide:

1) Construir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

2) Supóngase que la extracción fuera ASSR y N=5.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

3) Supóngase que la extracción fuera ASSR y N=1.000.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

4) Si se deseara un error absoluto del 1% (1 punto), cuales tendrían que ser los tamaños muestrales bajo extracción ASSR para poblaciones de N=5.000 y N=1.000.000?




6- 2. 7. 2 Rendimento de una encuesta de movilidad domiciliaria por buzoneo Una empresa de estudios de mercado recibe el encargo de realizar una encuesta domiciliaria de movilidad por correo. Se tiene acceso a un fichero con N=200.000 individuos. Sea p el rendimiento desconocido del fichero, es decir, p es la proporción de individuos que devolverán rellenada la encuesta recibida por correo. Para estimar el rendimiento p, llamemos p a la tasa de retorno conseguida a partir de un test sobre una pequeña muestra de n individuos, elegidos con probabilidades iguales y sin reemplazo. La experiencia de la empresa es que el rendimiento en estos tipos de muestreos no suele superar el 3%.

1) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,5% a un nivel de confianza del 95%?

2) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,3% a un nivel de confianza del 95%?

3)¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,1% a un nivel de confianza del 95%?

4) Si finalmente la muestra tiene un tamaño n=10.000 y se contabilizan 230 retornos, cual es el intervalo de confianza bilateral al 95% para el rendimiento p y para el número total de individuos del fichero?




6- 2. 7. 3 Sondeo de opinión preelectoral Se desarrolla un sondeo de opinión preelectoral para recoger información sobre la opinión general de una

personalidad política y se obtiene un porcentaje de opiniones favorables del 20%, 2,0ˆ =p . 1) Si la extracción es ASCR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza

del 95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p ? 2) Si la extracción es ASSR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza del 95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p (N=5.000.000)




6- 2. 7. 4 Uno más Difícil de Muestreo Aleatorio Simple El único operador de transporte de una ciudad mediana de N=500.000 habitantes, cada mes publica los horarios de las 30 lineas de transporte diferentes que sirve, pero tiene grandes oscilaciones mensuales en la carga total, pero no así en el reparto por línea. Una linea se considera de alta demanda si la carga diaria son como mínimo de 12000 viajeros, y de demanda media, si la carga es como mínimo de 8000 viajeros. Los usuarios del transporte público son aquellos que compran un mínimo de 3 títulos mensuales por año y se quiere dimensionar una muestra de usuarios para promocionar una tarifa rebajada para los que soliciten un título mensual con 15 días de antelación mínimo al mes siguiente, a cambio de que faciliten información sobre sus desplazamientos programados para el siguiente mes (y así hacer planificación de la operación en función de las cargas previstas para cada linea). La experiencia dice que entre los usuarios contactados (n1) son un 30%, n2, los que compran el título para el siguiente mes con 15 días de antelación (n2=0.3n1). El objetivo es estimar n1 (dimensionamiento de la muestra de usuarios a los que se les ofrece la promoción si facilitan información de sus desplazamientos) a partir de unos ciertos requerimientos de precisión absoluta y relativa sobre las cargas diarias de las lineas de demanda media y alta.

1) Determinar n1 para estimar las cargas de las lineas de demanda alta con un error absoluto de 1500 pasajeros a un grado de confianza del 95% (pasajeros).

2) Qué precisión absoluta comporta el tamaño muestral n1 sobre las lineas de demanda media?

3) Comparando 1 con 2, se constata que la precisión absoluta es mejor en 2 que en 1. Verifiquese que con precisión relativa es a la inversa.

4) Cual es el tamaño muestral n1 necesario para lograr en las lineas de demanda media la misma precisión relativa la obtenida en las lineas de demanda alta para el mismo tamaño muestral calculado en el apartado 1 ?




Resolución:

El estimador puntual de la proporción de usuarios de una línea de demanda alta es 024,0

000.500000.12ˆ ==p

Para calcular el interval de confianza al 95% se ha de disponer de la varianza del estimador p , [ ]pV ˆ o en su defecto del estimador de la varianza del estimador [ ]pV ˆˆ y a partir de aquí imponer la condición la condición de

precisión absoluta de 1.500 pasajeros, que representa un 0,3% (003,0

000.500500.1

=).

Sea [ ] ( ) ( )

rpp

npp

NnpV

ˆ1ˆ1ˆ1ˆ

1ˆˆ1

1 −=

−−

−=

, n1 la carga total diaria de viajeros y r el número equivalente si la N tuviera tamaño infinito y en nuestro caso:

[ ] ( ) ( ) 2

1

1 003,0024,01024,096,1024,01024,0000.500

196,1ˆˆ96,1 =−

=−

−=

rnnpV

( ) ( ) 999.94,9998003,0

024,01024,096,1003,0

ˆ1ˆ96,12

2

2

2

≈=−⋅

=−⋅

=ppr

y

804.91

13,0 12 =

+

+=⋅=

Nr

rnn

y por tanto,

680.323,02

1 ==nn




Por tanto, se necesitaría contactar y anunciar la promoción de compra anticipada a 32680 usuarios para conseguir (fijando el 30% de anticipación) información de los viajes diarios a realizar y estimar las lineas de alta demanda con una precisión absoluta de 1500 pasajeros diarios.

Una linea de carga media supone una 016,0

000.500000.8ˆ ==p

y para calcular un intérvalo de confianza para las lineas de demanda media al 95% se ha de calcular [ ]pV ˆ o de su estimador [ ]pV ˆˆ y la precisión absoluta de 8.000 pasajeros en una muestra de 9.9981 =n usuarios que responden en un 30% a las lineas diarias que emplean.

[ ] ( ) ( ) 2

1

1 00124,0997.9

016,01016,0000.500

998.911ˆ1ˆ

1ˆˆ =−

−=

−−

−=

npp

NnpV

[ ] 00243,000124,096,1ˆˆ96,1 =⋅=pV y la precisión absoluta en número de pasajeros por linea media sería

500000 x 0,00243=1215 pasajeros y por tanto es menor que el error absoluto de las lineas de alta demanda (1500 pasajeros de precisión absoluta).

Sea 1δ la precisión relativa de las lineas de 12.000 pasajeros, 125,0

000.12500.1

1 ==δ.

Sea 2δ la precisión relativa de las lineas de 8.000 pasajeros, 153,0

000.8215.1

2 ==δ, por tanto en las lineas de

demanda alta la precisión relativa es mayor (error relativo menor 12.5% frente a 15,3% en demada media).




El tamaño que debería tener la muestra de usuarios a los que se les oferta la reducción de tarifa por compra avanzada para garantizar una precisión relativa en las lineas de demanda media (8000 pasajeros/día) del 12.5% (la misma precisión relativa que para la demanda alta cuando se fija una precisión absoluta de la demanda alta de 1500 pasajeros/día) se tendría que fijar una precisión absoluta en la demanda media de 000.1000.500125,0 =⋅ pasajeros y según las fórmulas correspondiente para las precisiones absolutas en ASSR:

[ ] ( ) ( )r

ppn

ppNnpV

ˆ1ˆ1ˆ1ˆ

1ˆˆ1

1 −=

−−

−=

[ ] ( ) ( ) 2

1

1 002,0016,01016,096,1016,01016,0000.500

196,1ˆˆ96,1 =−

=−

−=

rnnpV

al 95% ( ) ( ) 121.15

002,0016,01016,096,1

002,0ˆ1ˆ96,1

2

2

2

2

≈−⋅

=−⋅

=ppr

considerando tamaño poblacional finito y tasa de éxito de la promoción

del 30% se tiene en este caso

679.141

13,0 12 =

+

+=⋅=

Nr

rnn

y 927.48

3,02

1 ==nn

és el tamaño muestra para garantizar la precisión relativa requerida.



6-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

Sea Y población con σ y2

, n el tamaño total de una muestra tomada sobre una población de tamaño N (UPs). Las UPs son las USs, es decir las unidades finales.

En lugar de extraer la muestra totalmente al azar, se extrae parte de la muestra en cada estrato ; de esta manera, se espera “representar mejor” el universo.

La estratificación puede tener como objetivo principal :

• bien aumentar la precisión global ;

• bien obtener una precisión suficiente a nivel de cada estrato.

• Nos situamos aquí en el caso de una extracción, en el interior de cada estrato, aleatoria simple sin reposición.

Se tienen H estratos (h = 1, 2, ..., H).

Para el estrato h, el efectivo total de UPs es Nh y por tanto, ∑=

=H

1hhNΝ .

nnh

h =∑ H

1

n1

nH-1

nH



6-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

La media muestral por estrato de Y es hi

n

hihh y

ny

h

∑=

=1

1y el estimador de la varianza ( )

h

h

h

hh n

SNnyV

2'1ˆ

−= con

( )21

2

11' hhi

n

hihh yy

nS

h

−−

= ∑=

El número de unidades UPs extraídas es nh por estrato y el índice en la muestra es ih (ih = 1, ..., nh).

Se presentarán a continuación estimadores insesgados calculados a partir de estadísticos estratificados para el total de Y y la media de Y.

6-3.1 Estimación del total Y en el universo a partir del sondeo estratificado

Para el estrato h el total de Y se estima por hh yN , por tanto la estimación del total de Y en el universo es

h

H

Y yNT ∑=

=1h

hˆ

o bien ∑∑∑∑∑= ====

===H

hi

n

hihi

n

hi

H

h

H

Y ynNy

nNyNT

hh

1h h

h

111h h

h

1hh

ˆ y su varianza

estimada es ( ) 2h

hh

h

1h

2h '11ˆV S

nNn

NTH

Y

−=∑

=

Toda unidad observada en la muestra se pondera por el coeficiente h

h

nN

(cuyo valor depende del estrato), a fin de

extrapolar (o de “extender”) los resultados al universo : el factor de expansión.




6-3.2 Estimación de la media de Y en el universo a partir del sondeo estratificado Para ésto, se utiliza la estimación del total de Y dividida por el número total de unidades del universo N (N es conocido). El estimador es :

h

HYe y

NN

NTy ∑

=

==1h

hˆ

y ( ) 2h

hh

h

1h2

2h '11V S

nNn

NNy

He

−=∑

= con ( )2

1

2

11' hhi

n

hihh yy

nS

h

−−

= ∑=

Estas dos estimaciones de la varianza, respectivamente de los estimadores del total y de la media, permiten calcular la desviación-tipo de dichos estimadores y por tanto, proponer intervalos de confianza asociados a estos estimadores.

6-3.3 Muestreo estratificado proporcional

Las fórmulas presentadas anteriormente son válidas cualquiera que sea el número de unidades extraídas por

estrato ; por tanto, la tasa de hfNn

=h

h puede variar de un estrato a otro.

Cuando se impone una tasa de sondeo idéntica para todos los estratos, se denomina el sondeo “estratificado

representativo” o “estratificado proporcional” y hNnf

Nn

∀==h

h.




La estimación del total es ∑∑∑∑∑= ====

===H

hi

n

hihi

n

hi

H

h

H

Y ynNy

nNyNT

hh

1h 111h1hh

ˆ y su varianza estimada es

( ) 2h

1h

h2

'1ˆV SNN

nN

NnT

H

Y ∑=

−= .

La varianza total puede descomponerse como una varianza intraestrato más una varianza interestrato, lo que permite reescribir de manera más compacta las fórmulas.

( ) 2int

2int

2

11

22 )( erraYhY

H

h

hH

h

hY

hY N

NNN

σσµµσσ +=−+= ∑∑==

La estimación de la media es entonces ∑∑∑= ==

===H

hi

n

hih

HYep y

ny

NN

NTy

h

1h 11h

h 1ˆ y por tanto es la media simple calculada

sobre la muestra que permite estimar la media en el universo ; se tiene un sondeo llamado "autoponderado".

La varianza estimada de epy vale ( ) 2

int2h

1h

h '11'11V ra

Hep S

nNnS

NN

nNny

−=

−= ∑

= .




6-3.4 Estratificación óptima de Neyman El reparto representativo se presentó antes ; consiste en utilizar la misma tasa de sondeo para todos los estratos ; pero son posibles otros repartos. El reparto de Neyman consiste en respetar la igualdad :

Utiliza una tasa de sondeo proporcional a la dispersión Sh en cada estrato de la variable Y estudiada : tanto más heterogéneo es un estrato con respecto a dicha variable, tanto mayor es la tasa de sondeo en él.

La teoría muestra que este reparto es el que proporciona la varianza global más reducida posible (es decir, la mejor precisión para la estimación global en todo el universo), para unos estratos fijados y un tamaño mostral global n también fijado, a costa perjudicar la precisión individual de algunos estratos.

Veámoslo, ( ) 2h

hh

h

1h2

2h '11V S

nNn

NNy

He

−= ∑

=...

cntSN

nSN

nH

h hhhh

h ==∑ =1



6-3 INTRODUCCIÓN Tª DEL MUESTREO: M. ESTRATIFICADO ÓPTIMO

La aplicación de la formula anterior para calcular el reparto de Neyman supone que los valores Sh se conocen a priori. Puede ser el caso, a partir de estudios anteriores al sondeo, pero en general no es así. Cuando el criterio de estratificación es el tamaño de las unidades (estratos definidos mediante “tramos” de tamaño), se constata que la desviación-tipo es sensiblemente proporcional al tamaño medio de las unidades del estrato. Es un orden de magnitud de dicho tamaño medio (más fácil de estimar que Sh) lo que se utiliza para calcular el reparto de los cuestionarios entre los estratos.

[ ]

hSN

SNnn

nnts

SnN

nNNy

NNVyV

H

l ll

hh

h

H

h

He

nh

∀=⇒

=

−=

=

∑

∑∑∑

=

==

1

h

h

2h

hh

h

1h2

2h

1h

h

..

'11min




En la práctica, se utiliza el reparto de Neyman cuando el fenómeno estudiado tiene una distribución muy asimétrica (por ejemplo, cuando se realizan sondeos a empresas y existen a la vez pequeñas empresas y algunas pocas empresas muy grandes que concentran una parte importante de la producción. En cambio, si este fenómeno tiene una distribución simétrica respecto a su media, un sondeo estratificado proporcional (o “representativo”) proporcionará resultados de suficiente calidad.

6-3.5 Estratificación óptima según coste fijado total (variable por estrato) En muchas ocasiones el coste unitario del trabajo de campo depende de las características del estrato e interesa fijado un coste total del trabajo de campo dimensionar, asignar las unidades de muestreo de la manera más eficiente para maximizar la precisión absoluta (minimizar el error absoluto), suponiendo que los costes unitarios dependen del estrato. Si hC es constante implica maximizar la precisión global a tamaño muestral n fijado.

[ ]

hCCSN

CSNCn

CnCts

SnN

nNNy

NNVyV

H

l llll

hhh

hh

H

h

He

nh

∀=⇒

=

−=

=

∑

∑∑∑

=

==

1

h

h

2h

hh

h

1h2

2h

1h

h

..

'11min




6-3.6 Búsqueda de precisión a nivel de cada estrato Cuando se desea obtener información significativa en cada estrato, entonces el problema es completamente distinto, por ejemplo si se quiere estimar la tasa de viajes diarios para la población urbana y la población rural, o para diferentes zonas de transporte de un ámbito de estudio. Aquí, se debe dar una ventaja relativa a los estratos menos poblados, generalmente en detrimento de la precisión global.

Si se desea la misma precisión a nivel de cada estrato y si se estima que los estratos presentan la misma heterogeneidad para el carácter estudiado, se deberán tomar tamaños de muestra similares en cada uno.

6-3.7 Búsqueda trade-off: coste variable-dispersión con n fijo A menudo se fija el tamaño muestral global n y se desea obtener resultados en precisión que mejores cuando se aumenta el tamaño muestral, aceptando que los coste por estrato son distintos y sus varianzas también, en ese caso, el reparto óptimo que se realiza es:

• A más dispersión del estrato más muestra.

• A mayor coste del estrato menor muestra.

• A mayor tamaño poblacional del estrato mayor muestra en el estrato.

6-3 INTRODUCCIÓN Tª DEL MUESTREO:

∑=

= H

l lll

hhh

CSNCSNn

n1

h



MUESTREO ESTRATIFICADO

6-3.8 Valoración del muestreo estratificado y relación con ASSR Se debe otorgar un juicio favorable a la estratificación, pero una estratificación puede ser eficaz para un carácter y en absoluto para otro.

La muestra autoponderada simplifica los recuentos, conduce a cálculos fáciles y no depara malas sorpresas en caso de error. Pero se corre el riesgo de acabar con resultados poco significativos para los estratos pequeños. Además, no ofrece, excepto excepciones, la mejor precisión global. Para las encuestas demográficas es el método más utilizado: ya que las varianzas de las variables no son suficientemente diferenciadas de un estrato a otro para justificar tasas de sondeo diferentes.

La muestra de Neyman es de difícil aplicación ; supone disponer de una buena información previa y los errores en dicha información pueden acarrear graves consecuencias. Neyman perjudica a los estratos pequeños, pero proporciona buenos resultados globales. Es un método utilizado en el caso de encuestas sobre la producción destinadas a proporcionar estimaciones de totales (caso de las encuestas sobre las empresas, cuando una base de sondeo está disponible bajo la forma, por ejemplo, de un registro). Para finalizar, si se aumenta la precisión a nivel de estrato, se puede perder eficacia a nivel global.

En general se demuestra que la varianza del estimador de la media estraficado está ligado a la varianza del

estimador obtenido en un sondeo aleatorio simple, para el mismo número de unidades y que el sondeo estratificado representativo tiene una varianza de estimador siempre menor o igual a la del sondeo “simple”, y tanto más pequeña cuando los estratos tienen medias diferentes de la media general.

y




Se entiende intuitivamente este resultado al recordar que la extracción estratificada consiste en alterar el azar “general” para imponer a la muestra “el representar” al universo estrato por estrato, por tanto a concentrar los valores observados alrededor de las medias de cada estrato.

Para y , el estimador del valor medio de la variable de interes se puede determinar:

• ASSR, nfyV

2

1')1()( σ

−=

• Estratificado proporcional , nfyV ra

2int

2 )1()( σ ′−=

Haciendo cociente de los errores en ambos tipos de muestreo:

1'

'1'''

''

)()(

2

2int

2

2int

2

2

2int

1

2 ≤−=−

==σσ

σσσ

σσ ererra

yVyV

donde queda de manifiesto que si existen diferencias en los valores medios en los distintos estratos, entonces el muestreo estratificado proporcional siempre es mejor que el muestreo ASSR.




6-3.9 La estratificación en las encuestas de movilidad a residentes según Smith 79 En planificación del transporte es imperativa la partición del ámbito de estudio en macrozonas homogéneas respecto a los usos del suelo y las características socioeconómicas de la población residente. La realización de sondeos ad hoc de manera proporcional al tamaño de las macrozonas en términos de población es una práctica habitual, respectando una cuota mínica de unidades muestrales en las macrozonas más pequeñas en términos de población (no menos de 30 encuestas por zona). Esta práctica garantiza una cobertura más uniforme del ámbito global (apreciada en la construcción de matrices OD más creíbles) y a su vez que garantizan una precisión mayor que la obtenida por un muestreo al azar sobre el conjunto global, dadas las características comunes que comporten los residentes dentro de una macrozona.

Las encuestas de movilidad a residentes se realizan cada 5 años aproximadamente, aunque actualmente se prefiere el tratamiento continuado de un panel con entradas y salidas que permita recoger la particularidades de de la movilidad en las distintas épocas del año y días, no una fotografía representativa del día laborable medio.

Sea como sea, son de propósito múltiple y deben dimensionarse en los estratos (macrozonas) para satisfacer características diferenciales en media poblacional según distintos segmentos de población, cada uno de los cuales tiene una presencia distinta en cada una de las macrozonas.

Smith (1979) propuso para la generación de viajes diarios por hogar usar segmentos caracterizados por tamaño hogar – nº autos, para conseguir una estimación global de viajes por hogar dentro de una precisión relativa. La metodología ha ido modificándose con el tiempo, pero que resulta muy didáctica.




1. Fijar el error relativo %100β .

2. Fijar el nivel de confianza ( )%1100 α− para el verdadero valor de la esperanza de Y (número de viajes por hogar).

3. Sea Y el número de viajes diarios por individuo: se acepta que dentro de un estrato la dispersión de la variable

Y respecto a su media será menor que la dispersión global respecto la media poblacional. Sea hS ' la dispersión (desviación tipo-raiz cuadrada de la varianza muestral) estimada para el estrato.

4. Sea ySS hYhh~''' == µθ donde y~ estimador disponible de Yµ por prueba piloto o antiguo estudio de la

generación media global por individuo. 'hθ es el coeficiente de variación de la generación diaria por persona en

el estrato h.

5. Sea c, entre 1 y H, el estrato crítico con 'hθ más elevado.

6. Sea el coeficiente de variación global resultado de ponderar los CV por estrato por el tamaño del estrato:

∑=h

hh NN'' θθ .




7. Determinar el tamaño muestral ASSR con población infinita necesario para obtener un error relativo %100β

al nivel de confianza ( )%1100 α− con coeficiente de variación ∑=h

hh NN'' θθ .

[ ] 2

2212

1

''1 2

2 βθ

βθα

α−

∞∞

− =→==z

nn

zyER

8. Si ( ) %90%1100 =−α y %5%100 =β 22

221 '1089

'2 θβθα

==→ −∞

zn .

9. Afectar el tamaño muestral global por el factor de población finita: Nn

nn∞

∞

+=

1

10. Sea '

'

'

'

θθ

θθ NNn

NNNNnn hh

l ll

hhoh ==

∑ el reparto óptimo proporcional al tamaño del estrato y al

coeficiente de variación del estrato.




11. Sea ∑=

l l

heh NN

NNnn el reparto estratificado proporcional al tamaño del estrato. La mayor divergencia

entre los efectivos muestrales óptimos y proporcionales se dará en el estrato crítico c.

12. Sea ec

occ nnf /= .

13. Sea ∑=

l l

hch NN

NNnfn'

el incremento muestral en cada estrato sobre el muestreo proporcional para

satisfacer los requerimientos globales.

6-3.10 Ejercicios de dimensionamiento



6-3 INTRODUCCIÓN Tª DEL MUESTREO: EJERCICIOS

6- 3. 1 0. 1 Caso de Estudio 1 : Tasa de residuos diarios por habitante Dimensionar la muestra de municipios por estratos (de 1 a 11) necesaria para la estimación de la tasa de generación diaria de residuos por habitante con un nivel de confianza del 95% y un error relativo global inferior al 10% e inferior al 20% por estrato.

Media

Tasa Generación

total (kg hab y dia)

Unidades Municipales

f.Rec Sel

Residuos Totales de

Fracción Resto (kg dia)

Nh/N Coeficient e Variación

Tasa generación

total (kg hab y dia)

Desviación Tasa

generación total (kg hab

y dia)

Estrato <15% 15-25% 25-35% 35+% Total general 1 19 47 97 84 247 3210825 0.2366 0.2060 0.296 1.436 2 7 22 26 42 97 995720 0.0929 0.2574 0.415 1.612 3 17 10 17 13 57 155510 0.0546 0.4887 1.059 2.167 4 3 5 12 5 25 316985 0.0239 0.4878 1.285 2.635 5 36 19 14 8 77 828280 0.0738 0.2978 0.736 2.472 6 54 79 33 28 194 322760 0.1858 0.2115 0.287 1.356 7 14 18 10 14 56 184940 0.0536 0.2947 0.402 1.365 8 6 12 11 15 44 8750 0.0421 0.3342 0.445 1.330 9 22 30 21 11 84 52515 0.0805 0.2929 0.535 1.828

10 49 50 16 38 153 61810 0.1466 0.2115 0.252 1.193 11 10 10 1690000 0.0096 0.4023 0.623 1.550

Total 227 292 267 258 1044 7828100 1.0000 0.3968 0.623 1.571



6-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

6- 3. 1 0. 2 Caso de Estudio 2: Encuesta de Movilidad Domiciliaria en una ciudad mediana

Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de un municipio de gran superficie y constituído por 10 distritos estrictamente urbanos. Se tiene información de una Encuesta de Movilidad anterior y se desea dimensionar estudios de muestreo bajo diversos supuestos para la actualidad (2010).

El ámbito de estudio se dividió en 118 ZAT internas, organizado en 14 barrios autocontenidos en sólo un distrito cada uno de ellos. La población en el interior del ámbito se sitúa en 608875 residentes (605065 del D1 al D10) y está en vías de crecimiento por su buena oferta logística. A nivel físico está sobre una llanura y la atraviesa un rio de oeste a este. Datos disponibles para el dimensionamiento (a 2006).




Barrios según Distrito

Hombres Mujeres Población

Total

Zonas Interiores

Error medio por zona

Total Encuestas*

Promedio Encuestas/Zona

Promedio Población/Zona

1 21438 22909 44347 9 10.02% 845 94 4927

2 25973 31292 57265 11 9.75% 1091 99 5206

3 54107 57974 112081 21 9.63% 2135 102 5337

4 24044 27778 51822 10 9.77% 987 99 5182

2 7917 8109 16026 3 9.63% 305 102 5342

5 32933 35765 68698 13 9.67% 1309 101 5284

6 21604 22467 44071 8 9.47% 840 105 5509

7 12567 13200 25767 5 9.79% 491 98 5153

7 3904 33902 7806 1 7.95% 149 149 7806

8 13538 13400 26938 5 9.58% 513 103 5388

9 17435 18131 35566 7 9.87% 677 97 5081

10 28626 28573 57199 11 9.75% 1090 99 5200

10 36034 36116 72150 14 9.80% 1374 98 5154

11 5118 5103 10221 2 9.83% 195 98 5111

Rurales 15456 15421 30877 0 0 0 0

Total 320718 340177 660895 120 0.89% 12001 100 5250

*Dimensionamiento inicial de la muestra-cifras 2006: los resultados finales muestran algunas diferencias.




En la tabla adjunta, se ilustran algunos resultados relativos al número de viajes y a los factores de expansión promedio por distrito que se obtuvieron en la toma de datos. Los ejercicios que siguen persiguen dimensionar la toma de datos en función a unos parámetros de precisiones relativas y absolutas que no corresponden con la realmente efectuada en la toma de datos.

• Si la media de viajes diarios por individuo es de 3.42, la desviación típica es de 1.65 viajes y el coeficiente de variación de 0.4833526. Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.


Distrito Datos Total Expansion 1 Viajes Poblacion 143052 38.02 Viajes Muestra 3763

2 Viajes Poblacion 189459 38.48 Viajes Muestra 4923









Poblacion 2003768 49.67 Muestra 40339



El error absoluto al nivel de confianza del 95% para el total diario poblacional de Y seria:

[ ] [ ] [ ] [ ] EATnSNyVNyNVzyNEAEA Y =====∞

−

2

1 9619612

050

'.ˆ.ˆˆ .τ

94479596.16605065≈

+=→=

⋅

=

=

∞

∞∞

Nn

nnSEAT

Nn1

65.120000

96.1'96.1 22

22

donde 22 651.=S' con 9619750 .. =z

• Se desea dimensionar una muestra ASCR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.

• Alumnos: Al desplegar el trabajo de campo las cifras de viajes por residente y día resultantes son de 3.4907, con una desviación típica de 1.9076 viajes por habitante y día, y por tanto, un coeficiente de variación de 0.5465. Calcular la precisión relativa y absoluta resultante para el total de viajes diarios.

• Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo del 1%.

[ ] [ ] 8975.12τ =⋅

==→=== ∞∞

− 2

222

2

29750

2

1 01048340961

2050 .

..ˆ .. CV

ERTznERT

nCVzyERER Y 8844≈

+=

∞

∞

Nn

nn1




El problema de un muestreo ASSR es la dificultad de conseguir la representatividad deseada y de ahí la posibilidad de disponer únicamente de estimadores sesgados o de mala cobertura.

• Calcular un intérvalo de confianza al 90, 95% y 99% para el número medio de viajes diario por residente que viaja.

• Determinar un intérvalo de confiana al 95% para la proporción de residentes que viajan en un día medio, se sabe por la Encuesta anterior que sólo un 6.5% no viajan y son gente mayor y amas de casa.

•

Si no se sabe cual es la verdadera proporción, pero con el tamaño muestral inicialmente planteado, al máximo nivel de indeterminación está por debajo del 0.9% y con las cifras de la Encuesta anterior es del 0.44%:

> n=12001-195;n [1] 11806 > ni=n/(1-(n/N));ni [1] 12039.44 > 100*1.96*sqrt(0.5*0.5/(ni-1)) [1] 0.893184 > 100*1.96*sqrt(0.935*(1-0.935)/(ni-1)) [1] 0.4403859

• Determinar un intérvalo de confiana al 95% para la proporción de los que viajan en un día medio en autobús.

Ahora bien, la necesidad de disponer de matrices OD lleva a la necesidad de garantizar una buena cobertura territorial de la muestra. Se va a dimensionar por estratos definidos según los distritos municipales urbanes (10).




• Dimensionar una muestra estratificada proporcional al tamaño de población residente (total y por estrato), de manera que la precisión absoluta total esté por debajo de 20000 viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

Distrito Poblacion Encuestas Encuestas

Que no viajan

Mean Stdev Cvy Variaza Intra

Proporcional nh

EAT ERT

1 43226 1071 82 3.5135 1.9003 0.5409 0.2580 894 5329 3.51%

2 55244 1363 100 3.6119 1.9652 0.5441 0.3526 1142 6230 3.12%

3 110431 2126 153 3.4718 1.8104 0.5215 0.5982 2283 8115 2.12%

4 65981 1078 58 3.5798 1.9298 0.5391 0.4061 1364 6686 2.83%

5 66936 1031 84 3.5160 1.9493 0.5544 0.4203 1384 6803 2.89%

6 45019 893 61 3.3527 1.9443 0.5799 0.2813 931 5565 3.69%

7 26491 449 27 3.6682 1.9490 0.5313 0.1663 548 4279 4.40%

8 32674 586 47 3.4812 1.8604 0.5344 0.1869 676 4536 3.99%

9 35428 737 58 3.4138 1.8764 0.5496 0.2061 733 4764 3.94%

10 123635 2222 162 3.4163 1.9255 0.5636 0.7576 2556 9132 2.16%

Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 20000 0.95%


Muestreo ASSR:



25311

27969076.120000

96.1'96.1 22

22

11605065≈

+=→=

⋅

=

=

∞

∞∞

Nn

nnSEAT

Nn

donde 22 9076.1=S' con 9619750 .. =z

Muestreo Estratificado Proporcional: Dimensionar con varianza intraestrato 1.90612

NNnnnnS

EATNn h

hNnra =→≈

+=→=

⋅

=

=

∞

∞∞ 2511

127759061.1

2000096.196.1 2

22'

int

2

11605065

donde 22'int 9061.1=raS con 9619750 .. =z

El error absoluto por estrato sobre el total de viajes diarios es al 95% de confianza:

[ ] [ ] [ ]h

h

h

hh

hh

hh

h

nS

NnNyVNzyNEAEA

Y

2

205.0

'

1 196.1ˆˆ

−=== −τ

El error relativo por estrato sobre el total de viajes diarios es al 95% de confianza:

[ ] [ ] [ ]h

h

h

hhhh

nCV

NnyVzyERER

Y

2

205.0

'

1 196.1ˆˆ

−=== −τ




• Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

Muestreo Estratificado Óptima de Neyman con dimensionado global fijado según estratificado proporcional con

varianza intraestrato ponderada de 1.90612 : 115291612511

'

'

'hh

hl ll

hhh

hh

SNnSN

SNnnNNnn =→=→=

∑

Distrito Poblacion Encuestas No viajan Mean Stdev Cvy Variaza Intra

Proporcional nh

Optimo nh

EAT ERT

1 43226 1071 82 3.5135 1.9003 0.5409 894 891 5337 3.51%

2 55244 1363 100 3.6119 1.9652 0.5441 1142 1178 6133 3.07%

3 110431 2126 153 3.4718 1.8104 0.5215 2283 2169 8330 2.17%

4 65981 1078 58 3.5798 1.9298 0.5391 1364 1382 6643 2.81%

5 66936 1031 84 3.5160 1.9493 0.5544 1384 1416 6724 2.86%

6 45019 893 61 3.3527 1.9443 0.5799 931 950 5508 3.65%

7 26491 449 27 3.6682 1.9490 0.5313 548 560 4230 4.35%

8 32674 586 47 3.4812 1.8604 0.5344 676 660 4592 4.04%

9 35428 737 58 3.4138 1.8764 0.5496 733 721 4801 3.97%

10 123635 2222 162 3.4163 1.9255 0.5636 2556 2583 9084 2.15%

Total 605065 11556 832 3.4907 1.9076 0.5465 1.90612 12511 12511 19992 0.95%




Todo el dimensionamiento está argumentado en la variable viajes de residente y día. No hay diferencias relevantes entre el resultado de un ASSR y un estratificado proporcional, dado que las magnitudes son muy similares en la variable target que argumenta el dimensionamiento y tampoco resulta remarcable la reducción en el error absoluto por un reparto óptimo de Neyman.

El factor de expansión del estratificado proporcional es el mismo para todas las unidades muestrales (residentes) de 605065/12511=48.36. Sin embargo en la realidad, la muestra recogida fue un poco inferior y el factor de expansión puede verse dependiente del estrato, de hecho el factor de expansión dentro de un estrato no es uniforme, sinó dependiente de las cuotas poblacionales/muestrales según género y grupo de edad (h4-15 h16-29 h30-44 h45-64 h>65 m4-14 m16-29 m30-44 m45-64 m>65), en total 10 grupos. Las cuotas ayudan a dar representatividad global a las muestras por subámbitos y constituyen una estrategia imprescindible en el despliegue del trabajo de campo cuando no existe una base de sondeo actualizada.

Si la encuesta estuviera dirigida a familias entonces las ponderaciones debieran calcularse en base a la segmentación de las cuotas de familias tipo en los distintos estratos de la muestra (distritos o subámbitos de estudio, generalmente denominados macrozonas).




6- 3. 1 0. 3 Caso de Estudio 3: Encuesta de Movilidad Domiciliaria en una capital latinoamericana

N

N

N

N

N

N

NN

N

N

N

N N NNN

NN N

N

N N

N

N

N

N

N

NN

N

N

N

N

N

NN

N

N

N

N

N

N

N

N

N

N

N

N

N NN

N

N

N

N

N

N

N

N

N

N

56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

49 31

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de constituído por 55 macrozonas. Se tiene información de una Encuesta de Movilidad y se desea dimensionar estudios de muestreo bajo diversos supuestos. La densidad de puntos indica el tamaño muestral (cada punto son 2 encuestas).




• Información sobre las características del individuo 1. PERSONA

(parentesco con jefe hogar)

2. NIVEL FORMACIÓN

3. ACTIVIDAD QUE REALIZA

4. NIVEL DE INGRESOS MENSUAL

(pesos)(familia)

5. CONDICIÓN ENTREVISTADO

6. OCUPACIÓN ACTUAL 7. ACTIVIDAD ECONÓMICA DEL SITIO DE TRABAJO (si

trabaja) (si trabaja)

1. Jefe Hogar (principal sostén)

1.Preescolar 1.Ocupado 1.Menos de 5.000 1.Situación

regular 1.Grandes y medianos comerciantes,

1.Agricultura, Ganadería, Caza y Silvicultura, Pesca,

2.Explotación de minas y canteras

3. Industrias Manufactureras

2. Pareja de jefe 2.Primaria

completa 2.Desempleado 2. 5.000 a 8.000 2.Buscando

trabajo 2.Profesionales, altos empleados 4. Suministro de

Electricidad, Gas y Agua

3. Hijo(a) 3.Primaria incompleta 3.Estudiante 3. 8.000 a

10.000 3. Trabajo Temporal

3. Pequeños comerciantes, trabajadores especializados independientes

5. Construcción

6. Comercio al por mayor y al por menor; Reparación vehículos efectos personales y enseres domésticos

4. Padre 4.Secundaria , Básica completa

4. Ama de casa 4. 10.000 a 12.000 4. Día libre 4. Administrativos,

técnicos, docentes, 7. Hoteles y Restoranes

5. Madre 5.Secundaria , Básica incompleta

5. Trabajo + Estudio

5. 12.000 a 15.000

5. Vacaciones

5. Vendedores

8. Transporte, Almacenamiento y Comunicaciones

9. Intermediación Financiera

6. Otro familiar 6. Superior completa 6. Jubilado/a

6. 15.000 a 20.000 6. Enfermo

6. Operarios, oficios, choferes y otros obreros especializados

10. Administración Pública, Defensa, Org. extraterritoriales

11. Enseñanza



12. Servicios Sociales y de Salud

7. Otro no familiar

7. Superior Incompleta 7. Rentas 7. 20.000 a

25.000 7. Permiso

7. Peones, domésticas y obreros no especializado. Personal de la FFAA y Policia

13. Servicio Doméstico

14. Inmobiliarias

8. Otra 8. Otros 8. más de 25.000

8. Otro

8. Changas

15. Eliminación de desperdicios, aguas residuales, saneamiento

9.Otros (especificar) 16.Otros (especifique)

• Información sobre las características del hogar

SECCION III – DATOS DE LA FAMILIA/VIVIENDA

1. Datos de la vivienda 2. Tipo de Vivienda 3. Tenencia de la Vivienda 4. Número de vehículos particulares

propiedad del hogar 1. Número de familias en la vivienda

1. Casa 1. PROPIA Pagada 1. ¿Dispone de vehículo para realizar su desplazamiento?

no

2. Apartamento 2. PROPIA Pagándose si

2. ¿Cuantas personas de este hogar duermen habitualmente en esta vivienda, incluyendo los que están temporalmente fuera?

3. Pieza en vivienda colectiva

Monto mensual hipoteca (pesos)

¿En caso afirmativo especificar cuáles?

1. Automvovil

2. Camioneta

4. Vivienda en asentamiento consolidada

3. ALQUILADA

3. Camión

3. Número de personas entre 5 y 15 años en la vivienda

5. Vivienda precaria en asentamiento

Monto mensual alquiler (pesos)

4. Motocicleta

6. Otros 4. OTRA FORMA 5. Bicicleta cual Monto mensual

(pesos) 6. Tracción Animal




• Información sobre los viajes realizados el día anterior (hasta 4 etapas)

VIAJE 1

DESCRIPCION DEL VIAJE

ETAPA 1 ETAPA 2

PROPÓSITO O Descripción D Tiempo (minutos) Tiempo (minutos)

Camina Espera En

Vehíc Camina Camina Espera En

Vehíc Camina

1. Casa

6. Trámites 1. Casa 1. A pie (más 1 cuadra)

2. Conductor auto

2. Trabajo

7. Recreación-social

2. Trabajo Especificar Estacionamiento en D E1 E2 E3 E4 E1 E2 E3 E4

3. Pasajero Auto

3. Educación

8. Acompañar a otra persona

3. Educación 4. Pasajero Taxi

4. Compras 9. Otro - cual 4. Compras

5. Pasajero Colectivo Urbano Especificar Nombre Línia Bus

Utilizada

5. Atención de salud

5. Atención de salud

6. Pasajero Colectivo Interurbano

7. Pasajero Tte. Escolar

HORA INICIO HORA FINAL 6. Trámites 8. Moto/ Motocicleta

7. Recreación-

social 9. Bicicleta

ZONA ORIGEN ZONA FINAL 8. Acompañar 10.Carro tracción animal

a otra persona 11.Otros

9. Otro - Cual

E1.sin Pago E2.Parquing Horas Zona Inicio

Zona Inicio

E3.Parquing Fijo E4.Parquing

Propio Zona Final

Zona Final




Se les suministra la información relativa a la grabación de la Encuesta: documentada con el significado de los campos grabados en las distintas columnas. La distribución del número de individuos por hogar y el número de vehiculos (auto o moto) por hogar es:

Mayormente no disponen de auto y se podrían clasificar los hogares según su disponibilidad de 0, 1, 2+ vehículos.

Los tamaños de los hogares se podrían agrupar por número de individuos (1, 2, 3, 4, 5+).

La caracterización de las macrozonas está en el archivo ZATS Descripción.xls. La caracterización de los viajes, personas y hogares está disponible en formato excel.

0

200

400

600

800

1000

1200

0 1 2 3 4 5 6 7 8 9 10 11 12 13

10876543210

Cuenta de formular

numperso

novehtot

0

500

1000

1500

2000

2500

3000

0 1 2 3 4 5 6 7 8 10

131211109876543210

Cuenta de formular

novehtot

numperso




56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

49 31

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

0 1.5 3 4.5Miles

POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)

0 1.5 3 4.5Miles

POBTOT5123 and below (6)5124 to 12999 (8)13000 to 18999 (14)19000 to 24999 (8)25000 to 29999 (11)30000 to 38999 (7)39000 to 49999 (5)50000 and above (2)




56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

49 31

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

actor de Muestreo (%)

0 1.5 3 4.5Miles

factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other

Factor de Muestreo (%)

0 1.5 3 4.5Miles

factorm0.5044 to 0.67490.6749 to 0.84540.8454 to 1.01581.0158 to 1.18631.1863 to 1.35681.3568 to 1.5273Other




56

58

59

43

38

61

57

3655

37 60

51 39

41

35

44

34

21

54

42

53

18

29

40

50

33

52

47

1145

48

22

17

20

15

49 31

2310 30

12

19

13

8

14

26

6

3

16

32

2

25

28

7

27

4

249

1

46

5

0 1.5 3 4.5Miles

POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other

ZATS Charts500002500012500

gtsrhgrh

0 1.5 3 4.5Miles

POBTOT5124 to 1401314014 to 2290222903 to 3179231793 to 4068140682 to 4957149572 to 58461Other

ZATS Charts500002500012500

gtsrhgrh

Generación de viajes total estimado sin regreso al hogar (naranja) y de regreso al hogar (blanco). Sobre fondo indicador de la población total de las macrozonas de transporte




• Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo global inferior al 1% al 90% de confianza. En primera aproximación, la media de viajes por residente y día se sitúa en 1.887, su desviación estándar en 1.071 y su coeficiente de variación en 0.568.

• La muestra de individuos contiene un total de 3473 residentes y el detalle de todos los desplazamientos realizados el día anterior. Calcular el intérvalo de confianza para el número medio de viajes por residente y día al 95%. Calcular el intérvalo de confianza para el número total de viajes por residente y día al 95%.

• Y para la probabilidad de usar el autobús, podriais dar alguna estimación para su error absoluto al 95% de confianza? Si la probabilidad de usar el autobús fuera del 10%, cual sería su error relativo esperado al 95% de confianza.

Realizados los cálculos pertinentes para determinar a nivel de macrozona el número de viajes por residente encuestado y día (media, desviación típica y coeficiente de variación), según los datos de la grabación de viajes por individuo y día, se puede plantear un dimensionamiento más fino para otras ocasiones.

• Dimensionar una muestra estratificada proporcional según el criterio de error relativo sobre el número total de viajes inferior al 1% con un nivel de confianza del 95% (dimensionar por estrato). Calcular los errores absolutos y relativos por estrato.

• Dimensionar una muestra estratificada óptima de Neymann fijado el tamaño de la muestra total según el punto anterior (dimensionar por estrato), y determinar la precisión absoluta del total de viajes diarios al 95% de confianza. Calcular los errores absolutos y relativos por estrato.

• Calcular la precisión relativa y absoluta resultante de la muestra de datos disponible para el total de viajes diarios por macrozona. ¿Y para la proporción de usuarios del transporte público?



6-4. INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS

Se utiliza una sucesión de reagrupamientos de las unidades estadísticas para extraer la muestra. Por ejemplo, se extrae una muestra de familias (unidades primarias), después se extrae, entre las famílias seleccionados, una muestra de individuos (unidades secundarias, no todos los miembros han de ser tenidos en consideración).

Se obtiene así una extracción a dos niveles (pueblos y después hogares): se puede generalizar a tres niveles, cuatro,... En cada nivel, los métodos presentados en los apartados anteriores pueden ser utilizados (por ejemplo, extracción proporcional al tamaño en el primer nivel, y por tanto con probabilidades desiguales, extracción aleatoria simple en el segundo nivel).

Se debe algo sobre el uso de la denominación “sondeo en conglomerados”. Es el caso particular del sondeo a varios niveles (muchas veces dos niveles) en el cual se entrevistan la totalidad de las unidades del último nivel : en el ejemplo, se entrevistarían la totalidad de los miembros de los hogares seleccionados.

ASSR

n ind.

CONGLOMERADOS

n = m n m conglom. (fam.) cada uno tamaño n (ind.)



6-4 INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS

Tomemos un ejemplo : se desea estudiar 2 000 hogares en un país que contiene aproximadamente 500 000 repartidos en 6 000 pueblos. Se dispone únicamente de una lista de los pueblos con una estimación de su población. Visitar cada pueblo para elaborar una lista de hogares a nivel nacional sería una tárea gigantesca. Además, los hogares de la muestra se encontrarían extremamente dispersos, lo que representaría una pérdida de tiempo enorme en desplazamientos. El coste de la operación resultaría prohibitivo. El sondeo a varios niveles permite resolver los dos problemas siguientes:

• en ausencia de una base de sondeo, es suficiente una construcción parcial de la base de sondeo : se requiere el conocimiento exhaustivo únicamente de las unidades primarias ; se puede limitar el censo, en el ejemplo anterior, a los hogares de los pueblos extraidos en el primer nivel ;

• globalmente, se van a realizar economías de tiempo y gastos de desplazamiento (en lo que concierne el trabajo de los encuestadores).

En contra, el sondeo a varios niveles es, en general, menos preciso que el sondeo a un solo nivel, para un determinado tamaño de muestra (en número de unidades estadísticas en el último nivel de sondeo. Esto se debe a los “efectos de conglomerados”. Las unidades estadísticas reagrupadas en una misma unidad primaria (o en una misma unidad secundaria, si se tiene tres niveles de sondeo) tienen tendencia a parecerse, a tener características comunes. El hecho de concentrar la muestra en una muestra de unidades primarias puede conducir a una cierta “redundancia” de la información sobre dichas unidades y una cierta “falta de representatividad” del conjunto.




6-4.1 Extracción de las unidades primarias con probabilidades iguales (dos niveles) Se situará la exposición en el marco de una extracción sin reposición en el primer nivel, lo que es a priori preferible para la precisión.

a) Estimación del total de Y, ( ) ( )∑=

=n

ii YT

nNYT

1

ˆˆ , es el estimador del total correspondiente al plan de sondeo

escogido en el segundo nivel de extracción. Este estimador es sin sesgo. b) Por ejemplo, si en el segundo nivel se ha efectuado una extracción aleatoria simple, permite escribir :

( ) ∑=

=im

j

ij

i

ii y

mMYT

1

ˆ

6- 4. 1 . 1 Estimación de la varianza del estimador del total de Y A partir de la muestra (de unidades primarias y de unidades secundarias), la varianza del estimador del total de Y viene estimada mediante :

( )( ) ∑=

+

−=

n

1ii

21

2

ZnNs

Nn1

nNYTV ˆˆˆ

donde ( ) ( )∑=

−

−=

n

1ii

21 N

YTYT1n

1s2ˆˆ y Zi es el estimador de la varianza de la estimación ( )Ti Y correspondiente al

plan de sondeo en el segundo nivel.




Por ejemplo, si en el segundo nivel de extracción se ha utilizado un método con probabilidades iguales sin

reposición ( )2

ˆ ∑=

−−

−=

im

iijii

i

i

2i

i1j

yy1m

1Mm1

mMZ donde ij

m

ii y

m1y Σ

i

1j==

En la fórmula anterior, el primer término es en general el más importante: • Si se aumenta n en esta fórmula, se ve que los dos términos disminuyen ; si se aumenta los números de

unidades encuestadas en el segundo nivel, únicamente el segundo término disminuye (a través). Por tanto, interesa más tener extraídas un gran número de unidades primarias.

6- 4. 1 . 2 Caso particular : sondeo autoponderado Si las unidades primarias se extraen con probabilidades iguales y si, además, la tasa de sondeo es la misma para el segundo nivel de muestreo (también con probabilidades iguales) en todas las unidades primarias

extraídas entonces, dado que ( ) ( ) ∑ ∑∑∑∑ ∑∑= = === ==

====n

i

n

i

m

j

ij

m

j

ij

n

i

m

j

ij

i

im

ii

iiiiii

ymM

nNy

mM

nNy

mM

nNYT

nNYT

1 1 111 11

ˆˆ

la ponderación utilizada es la misma para todas las unidades estadísticas de la muestra (en este caso, las unidades) ; el sondeo se llama autoponderado. En este caso, la media simple calculada sobre el conjunto de las unidades extraidas se utiliza cono estimador de la media sobre el universo (lo que no es el caso si se extrae la muestra en el segundo nivel con tasas de sondeo diferentes según las unidades primarias).




6-4.2 Extracción de las unidades primarias con probabilidades desiguales (extracción a dos niveles)

Nos situaremos, para simplificar, en el marco de sondeo con reposición. Aα es la probabilidad de extraer la unidad primaria α en cada extracción de unidades primarias.

a) Estimador del total de Y: ( ) ( )∑=

=n

i i

i

AYT

nYT

1

ˆ1ˆ

es un estimador sin sesgo del total de Y en el universo ; se ve que se utiliza el estimador ( )YTi del total de Y en la

unidad primaria i, considerando probabilidades desiguales. En ( )YTi , se tiene en cuenta el método de sondeo utilizado en el segundo nivel de extracción.

b) Varianza del estimador del total: ( )( ) ( ) ( ) ∑∑==

+

−=

N

i i

iN

i i

ii A

Zm

YTAYTA

nYTV

1

2

1

11ˆ

donde Zα es la varianza del estimador de Tα (Y), teniendo en cuenta el plan de sondeo en el segundo nivel.

c) El estimador de la varianza del estimador del total a partir de la muestra es :

( )( ) ( )( ) ( )

2

1

ˆˆ

11ˆˆ ∑

=

−

−=

N

i i

i YTAYT

nnYTV




6- 4. 2. 1 Muestreo autoponderado En la parte dedicada a la extracción a dos niveles y selección de las unidades primarias con probabilidades desiguales, se supondrá que dichas unidades fueron extraídas con reposición ; ésto en razón de las dificultades en captar correctamente, formalmente, el caso sin reposición. En la práctica, es muy frecuente proceder a la extracción de unidades primarias con probabilidades desiguales sin reposición : se utilizarán las fórmulas precedentes (“como si” se hubiese extraído con reposición), sabiendo que las estimaciones de precisión obtenidas (varianza de estimador) sobreestimarán la verdadera precisión. En la práctica es frecuente extraer las unidades primarias con una probabilidad proporcional al tamaño de : Aα =Mα/M y este caso, es interesante proceder, en el segundo nivel, a una extracción aleatoria simple con el mismo número m0 de unidades secundarias en cada unidad primaria (cualquiera sea su tamaño).

La fórmula de estimación es entonces : ( ) ( ) ∑∑∑ ∑∑

= == == ⋅===

n

i

m

jij

n

i

m

jij

i

i

n

ii

i

ymn

MymM

MM

nYT

MM

nYT

1 101 101

001ˆ1ˆ

Cada unidad encuestada tiene el mismo coeficiente de expansión, se obtiene un sondeo llamado “autoponderado”.




En la práctica, es raro encontrar exactamente esta situación. Se extrae proporcionalmente a un tamaño determinado a partir de datos que, aunque sean recientes, pudieron evolucionar : el tamaño de la unidad primaria efectivamente constatada durante la encuesta será, en general, ligeramente diferente. Se tendrá que recalcular las ponderaciones exactas. Si el número de unidades contenidas en la unidad primaria i es, en el momento de la encuesta, M’i, la ponderación de la unidad j en la unidad primaria i valdrá entonces :

0

'mM

MnM i

i

6-4.3 Sondeo en conglomerados Es el caso particular del sondeo a varios niveles en el cual se entrevistan a todas las unidades del “último nivel” : por ejemplo, se extrae una muestra de pueblos al interior de los cuales se entrevistarán a todos los hogares, o a todos los individuos. Aquí también, el interés reside en obtener costes de desplazamiento menores (si se utilizan las unidades primarias correspondientes a reagrupamientos geográficos) y en la no obligación de disponer de una base de sondeo completa.




6- 4. 3. 1 Estimación de un total en el caso de extracción de conglomerados con probabilidades iguales Si ( )YTi es el total de Y observado en el conglomerado i ( o unidad primaria) sin error aleatorio (dado que se encuesta de manera exhaustiva todo el conglomerado) :

( ) ( )∑=

=n

ii YT

nMYT

1

ˆ es el estimador del total de Y en el universo.

Se vuelve a encontrar el estimador clásico propuesto en el capítulo 2. Su varianza se puede estimar a partir de la muestra por :

( )( ) ( ) ( ) ( )( )2

1

2

111ˆˆ ∑

=−

−

−=

n

ii YTYT

nnNnNYTV donde ( ) ( )∑

==

n

ii YT

nYT

1

1

Estimación de una media (por unidad estadística elemental, por ejemplo unidad secundaria) en el caso de una extracción de los conglomerados con probabilidades iguales

Si se conoce el número total M de unidades estadísticas en el universo, se estima la media por ( )YTM

ˆ1

El problema es más delicado cuando, caso frecuente, no se conoce M. Se llega a estimar por : ∑=

=n

iiM

nNM

1

ˆ . El

estimador de la media es ( )YTM

ˆˆ1

.

Su varianza, más compleja de calcular, es la de un ratio .




6- 4. 3. 2 Estimación de un total en una extracción de los conglomerados con probabilidades desiguales Si ( )YTi es el total de Y observado en el conglomerado i ( o unidad primaria) sin error aleatorio (dado que se encuesta de manera exhaustiva todo el conglomerado) :

( ) ( )∑=

=n

i i

i

AYT

nYT

1

1ˆ

es el estimador del total de Y en el universo (Aα es la probabilidad de extraer el conglomerado i en cada una de las extracciones).

6-4.4 ASSR frente a Muestreo por Conglomerados Como ya se vió, el hecho de extraer a dos niveles, o de extraer conglomerados, induce frecuentemente una pérdida de precisión (respecto al sondeo simple y considerando el mismo número de unidades encuestadas) debida al hecho que las unidades situadas en el interior de una misma unidad primaria tienden a parecerse. Se considerará el caso de extracciones a dos niveles. Los muestreos en conglomerados suelen facilitar una mayor cobertura de la población a un coste de realización de la encuesta más barato. Para un mismo tamaño muestral final de individuos m, un muestreo en conglomerados representa una pérdida de precisión de los estimadores respecto a un muestreo aleatorio simple sin reposición (ASSR) de igual tamaño; en general, debido a la similaridad entre los individuos de una misma UP.




Los conglomerados han de ser: • Los más hetereogeneos posibles, para mejorar la representatividad de la población total. • El tamaño de los conglomerados ha de ser pequeño y similar entre ellos. Cuantos más conglomerados se

muestreen, mejor, la calidad de los estimadores depende más de n (número de conglomerados o UP) que de m (número de individuos o US).

El efecto del conglomerado se puede medir por un coeficiente δ llamado coeficiente de correlación intraconglomerado:

• Si δ >> 0 Existe mucha similitud en el interior del conglomerado (desfavorable). • Si δ << 0 Conglomerados hetereogéneos (favorable).

Se puede demostrar que, si se procede a una extracción en dos etapas o conglomerados, sin estratificación y con probabilidades iguales de las US dentro de cada UP. Si todas las UP tienen el mismo tamaño M y si el tamaño de la muestra de unidades secundarias por UP es constante e igual a m , entonces,

( )( ) ( )( ) ( )( )YTVmYTV ASSRˆ11ˆ −⋅+= δ

Si δ >> 0 entonces el muestreo en conglomerados es peor que el ASSR .




6-4.5 Planes de muestreo más complejos Los esquemas complejos que suelen darse en la realización de encuestas domiciliarias en planificación del transporte suelen contener una primera etapa de estratificación y dentro de cada estrato se procede a una extracción de UP (famílias), donde se toma notas de los viajes de todos sus miembros, por tanto, es un muestreo por conglomerados dentro de cada estrato. Los dos tipos de muestreo combinados tienen muestran distintas propiedades respecto al ASSR en los estimadores que facilitan:

• Estratificado: reducción error estandar respecto ASSR, por tanto incremento de precisión. • Conglomerado: incremento error estandar respecto ASSR, por tanto decremento de la precisión.

Las propiedades contrapuestas de los dos esquemas de muestreo combinados sobre el error de los estimadores finales tiene por efecto un cierto control de la pérdida de precisión de los estimadores debido al efecto de los conglomerados. Por otro lado, el muestreo ASSR suele dar menos precisión (más error estandard) en los estimadores que un muestreo estratificado proporcional (tasa muestreo f constante por estrato, como en el presente caso).



6-5. INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES

Una vez que se ha realizado la encuesta, se deben integrar dos tipos de consideraciones: • se producen un cierto número de sucesos que pertuban el esquema “ideal” previsto (no respuestas, pérdidas de

cuestionarios, ...); • las variables han sido recogidas por la encuesta y facilitan una información sobre la muestra: se ha

seleccionado por ejemplo una muestra de hogares a partir de una base de sondeo donde no se disponía de información sobre el tamaño de los hogares, y , a posteriori (a partir de los cuestionarios), se observa la manera como la muestra seleccionada se comporta a partir de las estadísticas (conocidas por otro lado) sobre la distribución de hogares. Se utiliza entonces una información auxiliar que es “exterior” al sondeo.

Entonces se pueden (y se deben en el caso de las no respuestas, por ejemplo) proponer estimadores que contemplen las informaciones de las que dispone (sobre el desarrollo de la encuesta, o informaciones “exteriores”). Dos tipos de métodos van a presentarse en los párrafos siguientes, tratando posteriormente el tema de las no respuestas.



6-5 INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES

6-5.1 Estratificación a posteriori Se descompone el universo en estratos y se efectúan estimaciones por estratos antes de combinarlo para obtener una estimación global. Por ejemplo, en el caso de seleccionar una muestra aleatoria simple (es decir, con probabilidades iguales):

j

my

m1y Σ

1j== es el entimador “en bruto” (antes de la recomposición) de la media de la variable Y.

Si se descompone el universo en h = 1, ..., H estratos y si se conocen los efectivos hM de los estratos,

entonces hh

H

ps yMMy Σ

1h== es el estimador estratificado a posteriori de la media Y (siendo hy , la media simple

calculada en la parte de la muestra que se encuentra en el estrato h). • Se observa que se modifican las ponderaciones de los cuestionarios con respecto al estimador “en bruto”. • En la estratificación a posteriori no se controla la repartición de las unidades encuestadas entre los estratos;

un caso extremo es aquel donde no se encontraría ninguna unidad en la muestra en un estrato definido a posteriori. La estratificación a posteriori, como reajusta la muestra ponderándola para adaptarla a una distribución conocida, es en general menos eficaz que una estratificación a priori bien elegida.




El criterio elegido para estratificar a posteriori debe estar correlacionado con la variable de interés (o las variables de interés) para que la técnica sea eficaz. Por otra parte, es esencial que los efectivos de los estratos (las hM ) sean conocidos de manera precisa y sobretodo reciente: una estratificación a posteriori que ajuste una muestra a una distribución antigua (y susceptible de estar deformada) será desaconsejable. Para finalizar, es preferible no hacer correcciones de las ponderaciones demasiado importantes: una regla empírica sugiere evitar las tasas de corrección más de cinco veces superiores a la tasa de corrección más baja. Se desaconseja tambien el estratificar a posteriori en estratos demasiado poco numerosos (evitar los estratos tales que MM h < 10 %). Si el plan de muestreo es más complejo que el caso aleatorio simple, sin estratificación y si las probabilidades de inclusión de las unidades (es decir, las probabilidades de pertenencia a la muestra) son iguales (por ejemplo, para ciertos muestreos a varios niveles), entonces se utiliza el estimador de la media de Y :

hh

H

ps yMMy Σ

1h== donde hy es la media simple calculada sobre los cuestionarios del h ;

Si el plan de muestreo es no estratificado y con probabilidades desiguales, se estima la media de Y según :

h

hhH

ps MT

MMy Σ

1h ˆˆ

== donde hh MT ˆ,ˆ estiman el total de Y y el tamaño del estrato h.




6- 5. 1 . 1 El método del raking- ratio Este método se emplea cuando se prueba de ajustar la muestra a varios criterios sin que se conozca la distribución conjunta asociada: por ejemplo, se ajusta a la distribución de hogares por tamaño, y tambien su distribución según el nivel de instrucción del cabeza de familia. Se ajusta la muestra a una de las distribuciones modificando las ponderaciones de los cuestionarios (es decir, que se multiplica la ponderación de todas las unidades de una misma “porción” de la distribución por el mismo coeficiente para que después de la extrapolación se contabilicen el número de unidades conocido en cada “porción” por la distribución “exterior”). En una segunda etapa, se modifican las ponderaciones para ajustarla a la otra distribución. Después se continúa con el reajuste a la primera distribución y después de un cierto número de iteraciones, se obtienen las ponderaciones definitivas. Este método puede adaptarse en el caso de un muestreo aleatorio simple o de un plan de sondeo más complejo donde las probabilidades de inclusión finales de las unidades sean iguales y la muestra de tamaño fijo.

6-5.2 Estimación por cociente A diferencia de la recomposición a posteriori, se “ajusta” para satisfacer un valor medio. Se selecciona una muestra para estudiar una variable Y, pero se observa también una variable X. Para esta variable X, se conoce la media Xµ de manera exacta sobre el universo. Se puede “observar” el resultado x obtenido a partir de la muestra y compararlo con Xµ .




La idea es la siguiente: para las variables que varian “proporcionalmente” a la variable X, se tiene en cuenta el resultado y se propone el estimador por cociente (de la media de Y):

xyy X

cµ

=

Si la muestra facilita un resultado x inferior a Xµ , se piensa que es interesante de “dar un empujón” a la estimación “en bruto” de x (e inversamente si x > Xµ ). El estimador por cociente es sesgado, pero si la variable auxiliar X y la variable Y estudiado son aproximadamente proporcionales, su varianza resulta inferior a aquella del estimador por cociente simple:

( ) ( )YXXYc ssrsrsmM

myV ρˆ2ˆ11ˆ 222 −+

−= donde y se calculan a partir de la muestra (fórmula

habitual), y es el coeficiente de correlación lineal X y Y estimado a partir de la muestra Si el sesgo es de un orden de magnitud “controlado” por el error cuadrático, el estimador por cociente resulta entonces interesante. Pero, únicamente se debe aplicar en caso de existir una relación presumiblemente de proporcionalidad entre las dos variables X e Y.


sy2 sx

2

r yx

= ρ



6-5.3 El estimador por regresión Este método presupone una relación lineal entre Y, la variable de interés, y X, la variable auxiliar, Y = a + bX. La idea va a consistir en estimar el parámetro b, para luego utilizar la magnitud Xµ (valor medio de X en el universo, conocido) para recomponer y facilitar el estimador por regresión de la media,

( )xbyy Xr −+= µˆ

donde es el estimador de b por el método de mínimos cuadrados ordinarios aplicado a la muestra. Se utiliza a menudo una “variante”, el estimador por diferencia, donde el valor de b se elige a priori igual a 1,

( )xyy Xr −+= µ

b



6-6. Tª DEL MUESTREO: EJEMPLO SUBE/BAJA

6-6.1 Encuesta Sube/Baja sobre una red urbana de autobuses • Se supone una red urbana con 45 lineas, de las cuales 15 son las más importantes.

• Se denomina expedición a cada recorrido en el origen-destino-origen de una unidad en una linea.

• Se supone la existencia de 6 titulos distintos de transporte.

• Se consideran 4 días tipo: día laborable medio, miércoles, sábado y domingo-festivo.

Los objetivos son:

• Conocer el número total de viajeros en la red durante un mes (carga mensual).

• Conocer la repartición de la carga por cada línea, día tipo y título de transporte.

Se dispone de :

• Número de expediciones diarias por línea y dia tipo.

• Número de billetes cancelados para cada día del mes de estudio.

• Número de billetes cancelados para cada línea durante cada día del mes de estudio.

• A nivel mensual: número de billetes vendidos para cada título (billete simple, abonos, etc).

• Resultados de encuestas O-D por línea realizadas anteriormente.



6-6 INTRODUCCIÓN Tª DEL MUESTREO: EJEMPLO

La población o universo son todas las expediciones propuestas por el operador durante el mes de estudio. Sea M=126377 expediciones.

La muestra n se determina compuesta de m=1200 expediciones.

Caso ASSR

Sea Y el número de viajeros por expedición, por tanto la variable de interés definida a nivel de US.

La selección de la muestra de expediciones se realiza ASSR y por tanto los estimadores del número medio de viajeros por expedición y del total de viajeros mensual responde a las fórmulas del ASSR:

Estimador puntual insesgado de yµ por el estadístico media muestral : ∑=

=m

iiy

my

1

1


( ) 2'11ˆ SmM

myV

−= donde ( )∑

=

−−

=m

ii yy

mS'1

22

11

Estimador puntual insesgado del total de viajes mensual yτ es: ∑=

==m

iiY y

mMyMT

1

ˆ

La varianza del estadístico total muestral se puede estimar a partir de la muestra de manera insesgada por:

( ) ( ) 2'11ˆˆˆ SmM

mMyMVTV 2Y

−== donde ( )∑

=

−−

=m

ii yy

mS'1

22

11




Caso muestreo estratificado representativo con estratos definidos por día tipo y línea.

Para cada línea l y tipo de día d, se define un estrato h=(d,l). Por tanto H=45x4=180.

Dentro de cada estrato h (línea y día tipo) se seleccionada una muestra aleatoria simple sin reposición de mh

expediciones entre las Mh con hMmf

Mm

∀==h

h, es decir hM

MmMm ∀

⋅==

1263771200hh

h .

El cálculo del número medio de viajeros por estrato (dia-línea) y su varianza estimada responde a las fórmulas ASSR. A partir de ellas se calculan los totales estimados por estrato, la varianza intra estimada y el total global de viajeros en el mes de estudio (carga mensual):

La estimación del total es ∑∑∑∑∑= ====

===H

hi

m

hihi

m

hi

H

h

H

Y ymMy

mMyMT

hh

1h 111h1hh


( ) 22

2h

1h

h2

'1'1ˆV intra

H

Y Sm

MMmS

MM

mM

MmT

−=

−= ∑

=.

Caso muestreo estratificado óptimo de Neyman con estratos definidos por día tipo y línea.

Dentro de cada estrato h (línea y día tipo) se seleccionada una muestra aleatoria simple sin reposición de mh

expediciones entre las Mh con hmSM

SMmk kk

∀=∑ '

'hhh .




La estimación de la carga mensual es ∑∑∑∑∑= ====

===H

hi

m

hihi

m

hi

H

h

H

Y ymMy

mMyMT

hh

1h h

h

111h h

h

1hh


( ) 2h

hh

h

1h

2h '11ˆV S

mMm

MTH

Y

−=∑

=

6- 6. 1 . 1 Muestreo a 2 niveles utilizado

• Muestra estratificada de Neyman por linea. H=45.

• Dentro de cada línea: muestra estratificada representativa por cada día tipo.

• Para cada día tipo y línea: muestra sistemática de expediciones (ida y vuelta) en el día (arranque aleatorio del primer recorrido a muestrear del día y distribución a paso constante del conjunto de expediciones del día en la muestra).

Para cada expedición i de la población (i = 1...M), sean iii CVB ,, el número de viajes realizado con billete (sencillo o tarjeta), con título a enseñar y total, respectivamente. Se da la relación iii VBC += .

• Sean ∑==

M

i iB1Bτ , ∑=

=M

i iV V1

τ y ∑==

M

i iC C1

τ el número de viajes con billete, con título a enseñar o total durante el mes de estudio.




• Sean MBM

i i∑== 1Bµ , M

VM

i iV∑== 1µ y M

CM

i iC∑== 1µ el número medio por expedición de viajes con

billete, con título a enseñar o total durante el mes de estudio.

• Sea πµµ

ττ

==C

V

C

V la proporción de viajes con título a enseñar entre el total durante el mes de estudio.

• Sea W el número de billetes vendidos durante el mes de estudio.

• Si W=Bτ entonces V

CC WW

ττ

πτ =

−=

1 .

• Si W=Bτ entonces VC MWW µπ

τ +=−

=1 .

La estimación para cada línea l y día tipo d de la carga total C en el mes de estudio responde a:

Primer nivel : muestra aleatoria simple sin reposición de mh expediciones entre las Mh con

hmSM

SMmk kk

∀=∑ '

'hhh por Neyman y estrato h definido por la línea.




Segundo nivel : muestra aleatoria simple sin reposición de dhm expediciones entre las hm con hm

MMm h

h

dhd

h ∀=

proporcional al número de expediciones por dia-tipo y estrato h definido por la línea.

La estimación de la carga mensual total (total de C) es ∑∑∑∑∑∑∑∑= = === == =

===H D

did

h

dh

m

ii

m

i

H D

ddh

dhd

h

H D

d

dhC c

mMc

mMcMT

dh

dh

1h 1 111h 11h 1

ˆ y

su varianza estimada es ( ) ( ) ( )∑∑= =

−=

H D

d

dhd

hdh

dhd

hC SmM

mMT1h 1

22 '11ˆV

Documents

MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND … · teniendo en cuenta, además del voto directo, los índices de confian za y simpatía. La encuesta telefónica ha sido realizada