Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
ESQUEMA ESTADISTICO
Aquı enunciaremos de forma breve las etapas que, idealmente, debieran cumplirse en un
proceso de analisis estadıstico.
• Problema de investigacion
• Pregunta de investigacion
• Formulacion precisa de la(s) pregunta(s) de investigacion
• Planeacion
• Diseno
• Muestra
• Fenomeno Aleatorio
• Analisis y presentacion de la informacion
• Inferencias
• Toma de decisiones
Planeacion: Comunicacion usuario/estadıstico
¿Que preguntar?
¿Como preguntar?
¿A quien preguntar?
¿Que medir?
¿Como medir?
Diseno: Cohorte, casos y controles, ensayo clınico, transversal, longitudinal, observacional,
de intervencion.
1
Muestreo. ¿Que tipo de muestreo se va a utilizar en el diseno?: Aleatorio simple, estratifi-
cado, sistematico, por conglomerados, bietapico, multietapico, etc.
Analisis y presentacion de la informacion:Analisis descriptivo: Permite tener un mejor
conocimiento del problema que nos ocupa y hacer conjeturas sobre el mismo.
Analisis inferencial : ¿Habra un modelo teorico (Probabilıstico) que se ajuste a los datos?
¿Y para que sirve tener ese modelo?
! YA TERMINAMOS!
Por que podremos responder todas las preguntas sobre el fenomeno en terminos proba-
bilısticos. Permite extrapolar los resultados obtenidos a partir de muestra a la poblacion ob-
jetivo. En este punto es donde se “juntan” la PROBABILIDAD Y LA ESTADISTICA
Toma de decisiones. Un estudio estadıstico, ası como de cualquier otra ındole, no tendrıa
ningun sentido si los resultados no se utilizan para realizar propuestas con miras a la toma
de decisiones.
¿Porque hay tantos metodos de analisis en estadıstica?
Objetivos
• Asociacion
Correlacion, correlacion canonica, tablas de contingencia, Analisis de correspondencias, etc.
• Causalidad
Modelos tipo regresion: Regresion lineal, Logıstica, Politomica, Politomica Ordinal, Multi-
variada, Modelos para supervivencia, etc.
• Estructura de la informacion
Modelos Multinivel, Modelos mixtos, Series de tiempo, Meta analisis, Modelos para datos
de panel, etc.
• Consideraciones muestrales
2
Modelos con pesos diferenciados en las observaciones, atendiendo las caracterısticas del
muestreo.
Clasificacion de las variables
La clasificacion de las variables aleatorias que tiene mas importancia para fines estadısticos,
es la que se realiza de acuerdo a su escala de medicion. Y se clasifican en:
Nominal : Los valores de la variable solo identifican alguna caracterıstica de la poblacion.
Sexo: 0: masculino 1: femenino
Preferencia polıtica: 1: PAN, 2: PRD 3: PRI
Enfermedad: 0: sano, 1: enfermo
Ordinal : Sus categorıas representan orden.
Nivel socioeconomico: 1: bajo, 2: medio, 3: alto.
Nivel de satisfaccion: 1: nada, 2: regular, 3: mucho
Nivel de atencion: 1: muy malo, 2: malo, 3: regular, 4: bueno, 5: muy bueno.
Enfermedad: 0: leve, 1: moderada, 2: grave, 3: muy grave.
Las “etiquetas” no son intercambiables. No siempre es claro si la “distancia” entre categorıas
adyacentes es la misma. Por lo general, solo indican que una categorıa es mejor o peor que
la otra, pero no en que magnitud lo es.
De intervalo o de razon: Aquı la diferencia entre dos valores si es cuantificable.
Discretas de conteo( ...-2,-1,0,1,2...)
Numero de especies
Numero de dıas con precipitacion pluvial
Continuas : Pueden tomar TODOS los valores en un intervalo definido. Contaminante, talla
de un arbol, elemento quımico en el suelo, etc.
3
Ademas de depender del objetivo del estudio, el uso de los diferentes metodos de analisis
estadıstico, tambien depende de la escala de medicion de las variables involucradas, es decir,
no cualquier tipo de escala sirve para cualquier tipo de metodo estadıstico.
Escala nominal : Moda, Diagramas de pie, tablas de contingencia, analisis de corresponden-
cias, regresion logıstica, regresion politomica, etc.
Escala ordinal : Moda, diagramas de pie, diagramas de barras, tablas de contingencia, analisis
de correspondencias, regresion ordinal, etc.
Escala conteo: Media, mediana, moda, histograma, regresion Poisson, etc.
Escala continua: Toda la descriptiva, correlacion canonica, histograma, regresion lineal, re-
gresion multivariada, etc.
DATOS MULTIVARIADOS
INTRODUCCION
Los datos multivariados se presentan cuando el investigador recaba varias variables sobre
cada “unidad” en su muestra. La mayorıa de los conjuntos de datos que se colectan para
una investigacion son multivariados. Aunque algunas veces tiene sentido estudiar por sepa-
rado cada una de las variables, en la mayorıa de los casos no. En el comun de las situaciones,
las variables estan relacionas de tal manera que si se analizan por separado, no se revela la
estructura completa de los datos. En la gran mayorıa de los conjuntos de datos multivaria-
dos, todas las variables necesitan analizarse de manera simultanea para descubrir patrones
y caracterısticas esenciales de la informacion que contienen. El analisis multivariado incluye
metodos que son totalmente descriptivos y otros que son inferenciales. El objetivo principal
es revelar la estructura de los datos, eliminando el “ruido” de los mismos.
Un aspecto muy importante a considerar en los datos multivariados, es que, por lo general,
las variables que los componen tienen diferentes escalas de medicion, hecho que se debe con-
siderar al momento de realizar el analisis estadıstico.
Estructura de los datos multivariados
Matriz de datos
4
X =
x11 x12 · · · x1k · · · x1p
x21 x22 · · · x2k · · · x2p
...... · · · ... · · · ...
xn1 xn2 · · · xnk · · · xnp
Donde xjk es el valor de la k-esima variable (k=1,2,...,p) del j-esimo individuo (j=1,2,...,n).
Resumen mediante descripciones numericas
En una extension simple de los procesos descriptivos que se realizan con una muestra, pode-
mos hacer los correspondientes resumenes numericos para cada una de las variables involu-
cradas en el analisis.
• Resumenes univariados, respetando la escala de medicion de cada variable
• Graficas univariadas
• Vector de medias
X =(
X1, X2, ..., Xp
)′
con Xk =1
n
n∑
j=1
xjk, k = 1, 2, ..., p.
• Matriz de Varianza-Covarianza
S2 =
s2
11s12 · · · s1p
s21 s2
22· · · s2p
...... · · · ...
sp1 sp2 · · · s2
pp
con las varianzas muestrales s2
kk =1
n
n∑
j=1
(
xjk − Xk
)2
, k = 1, 2, ..., p, y
las covarianzas muestrales sik =1
n
n∑
j=1
(
xji − Xi
) (
xjk − Xk
)
, i 6= k = 1, 2, ..., p
• Matriz de correlacion
5
R =
r11 r12 · · · r1p
r21 r22 · · · r2p
...... · · · ...
rp1 rp2 · · · rpp
con las correlaciones muestrales rik =sik
siiskk
, i 6= k = 1, 2, ..., p
Algunas caracteısticas de las correlaciones
• −1 ≤ rik ≤ 1
• rik es una medida de la fuerza de la asociacion lineal entre las variables involucradas
• rik es invariante ante cambios de escala
• rik usualmente se refiere a la correlacion de Pearson. Para medidas generales correlacion
(incluida la no lineal), se pueden utilizar la tau de Kendall o rho de Spearman.
Representacion matricial
• Media muestral: x = (x1, x2, ..., xp)′
• Matriz de varianza-covarianza muestral: Sn = [sik]
• Matriz de correlacion muestral: Rn = [rij], con rii = 1
Resumen mediante descripciones graficas
Una manera natural en estadıstica de mostrar la informacion contenida en un conjunto de
datos, es a traves de algunas representaciones graficas de los mismos. Similar al analisis uni-
variado estandar, se pueden hacer las representaciones graficas que se considere necesarias,
para cada variable. Pero, dada la naturaleza multivarida de nuestros datos, es mas conve-
niente realizar estas representaciones tratando de involucrar a todas las variables de manera
simultanea. El problema para graficar datos multivariados, es su dimension.
Existen diversas tecnicas graficas para desplegar datos multivariados. La finalidad esencial
de estas es tratar de identificar grupos similiares de sujetos, observaciones atıpicas, dispersion
de las variables, correlacion entre ellas, etc.
6
El uso de diagramas y graficas ahorra tiempo, ya que las caracterısticas esenciales de grandes
volumenes de datos estadısticos puede apreciarse de un solo vistazo
Grafica de la matriz de datos
Una procedimiento util para iniciar una exploracion de las variables en datos multivariados,
es desplegar graficas de dispersion entre pares de variables contenidas en la matriz de datos.
Para que un analisis multivariado tenga sentido, debemos tener una fuerte correlacion entre
las variables involucradas. Una grafica que es util para estos propositos y que proporciona
informacion adicional, se obtiene con el comando pairs de R. Los datos pertenecen a la
base en R, USArrests que reporta el numero de arrestos por asesinatos (Murder), asaltos
(Assault), y violaciones (Rape), ademas del porcentaje de poblacion urbana (Urban Pop) de
los 50 estados que constituyen los Estados Unidos de America
Asesinatos
50 150 250
0.80 0.07
10 20 30 40
510
15
0.56
5015
025
0
Asaltos
0.26 0.67Pro.pob.urbana
3040
5060
7080
90
0.41
5 10 15
1020
3040
30 40 50 60 70 80 90
Violación
Gráfica utilizando el comando pairs
7
La grafica anterior presenta caracterısticas de la forma de la densidad de la variable (his-
tograma) y de la correlacion entre el grupo de variables. Pero no serıa util para descubrir que
estados son similares de acuerdo a este grupo de variables medidas. Para ello, recurriremos
a algunas tecnicas que intentan resumir todas las variables en una sola grafica.
Diagramas de estrellas
En la grafica de estrellas, cada observacion esta representada por una estrella o polıgono, en
la que la longitud del centro a cada vertice corresponde a un valor particular de alguna de
las variables.
AlabamaAlaska
ArizonaArkansas
CaliforniaColorado
Connecticut
DelawareFlorida
GeorgiaHawaii
IdahoIllinois
Indiana
IowaKansas
KentuckyLouisiana
MaineMaryland
Massachusetts
MichiganMinnesota
MississippiMissouri
MontanaNebraska
Nevada
New HampshireNew Jersey
New MexicoNew York
North CarolinaNorth Dakota
Ohio
OklahomaOregon
PennsylvaniaRhode Island
South CarolinaSouth Dakota
Tennessee
TexasUtah
VermontVirginia
WashingtonWest Virginia
Wisconsin
Wyoming
Gráfica de estrellas: USArrests
8
AlabamaAlaska
ArizonaArkansas
CaliforniaColorado
Connecticut
DelawareFlorida
GeorgiaHawaii
IdahoIllinois
Indiana
IowaKansas
KentuckyLouisiana
MaineMaryland
Massachusetts
MichiganMinnesota
MississippiMissouri
MontanaNebraska
Nevada
New HampshireNew Jersey
New MexicoNew York
North CarolinaNorth Dakota
Ohio
OklahomaOregon
PennsylvaniaRhode Island
South CarolinaSouth Dakota
Tennessee
TexasUtah
VermontVirginia
WashingtonWest Virginia
Wisconsin
Wyoming
Gráfica de estrellas: USArrests
Caritas de Chernoff
El objetivo en esta tecnica es asociar el valor de cada variable, con alguna caracterıstica de
una cara humana. Las variables estan asociadas con seis aspectos basicos de la carita: forma
de la cara, la boca, la nariz, los ojos, las cejas y las orejas. Cuando el numero de variables es
grande, algunas de ellas estaran asociadas con varios aspectos relacionados con los anteriores:
Amplitud de la cara, longitud de las cejas, altura de la cara, separacion de los ojos, posicion
de las pupilas, longitud de la nariz, ancho de la nariz, diametro de las orejas, nivel de las
orejas, longitud de la boca, inclinacion de los ojos, altura de las cejas, etc. Bernard Flury
ideo, con base al trabajo de Chernoff, duplicar la cantidad de variables para representar la
carita, dejando de lado la simetrıa, i.e., del lado izquierdo del rostro es posible graficar 18
variables y otras tantas del lado derecho.
9
Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware
Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas
Kentucky Louisiana Maine MarylandMassachusetts Michigan Minnesota Mississippi
Missouri Montana Nebraska Nevada New HampshireNew Jersey New Mexico New York
North CarolinaNorth Dakota Ohio Oklahoma Oregon PennsylvaniaRhode IslandSouth Carolina
South Dakota Tennessee Texas Utah Vermont Virginia WashingtonWest Virginia
Wisconsin Wyoming
Caritas de Chernoff: USArrests
10
Caritas de Chernoff: USArrests
Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware
Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas
Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi
Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York
North Carolina North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island South Carolina
South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia
Wisconsin Wyoming
11
Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware
Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas
Kentucky Louisiana Maine MarylandMassachusetts Michigan Minnesota Mississippi
Missouri Montana Nebraska Nevada New HampshireNew Jersey New Mexico New York
North CarolinaNorth Dakota Ohio Oklahoma Oregon PennsylvaniaRhode IslandSouth Carolina
South Dakota Tennessee Texas Utah Vermont Virginia WashingtonWest Virginia
Wisconsin Wyoming
Caritas de Chernoff: USArrests
Curvas de Andrew
Supongamos que cada individuo tiene p variables medidas (Xi1, Xi2, ..., Xip). Se define la
funcion
fXi=
Xi1√2
+ Xi2sen(t) + Xi3cos(t) + Xi4sen(2t) + Xi5cos(2t) + ... − π < t < π
Algunas propiedades interesantes de estas curvas
i) Preserva medias, i.e.
fX = 1
n
n∑
i=1
fXi(t)
12
ii) Preserva distancias
∥
∥fXi(t) − fXj
(t)∥
∥
2
=π∫
−π
(
fXi(t) − fXj
(t))2
dt = πp
∑
k=1
(Xik − Xjk)2
Por lo tanto, si los sujetos Xi, Xj , estan cerca, las respectivas curvas lo estaran tambien.
En esta representacion grafica, el orden de las variables juega un papel importante. Si la
dimension de X es muy alta, las ultimas variables tendran una contribucion pequena. Por
lo que se recomienda ordenar las variables de manera que las variables “mas importantes”
aparezcan al principio (por ejemplo, aquellas que discriminan mejor los posibles subgrupos
presentes en los datos). Tambien es recomendable no incluir demasiadas observaciones (cur-
vas) en una sola grafica.
En este tipo de graficas, las observaciones atıpicas aparecen como curvas aisladas que se
distinguen claramente de las demas.
Nota: Cada una de estas tecnicas se vuelve inadecuada, si el numero de sujetos es muy
grande.
13
−3 −2 −1 0 1 2 3
−3
−2
−1
01
2
Curvas Andrews: USArrests
t
f(t)
14
0 1 2 3 4 5 6
05
1015
Curvas de Andrew: Iris
setosaversicolorvirginica
15