C:/Documents and Settings/USUARIO/Desktop/MUCHOS … · n2 ··· x nk ··· x np Donde x jk es el valor de la k-´esima variable (k=1,2,...,p) del j-´esimo individuo (j=1,2,...,n)

ESQUEMA ESTADISTICO

Aquı enunciaremos de forma breve las etapas que, idealmente, debieran cumplirse en un

proceso de analisis estadıstico.

• Problema de investigacion

• Pregunta de investigacion

• Formulacion precisa de la(s) pregunta(s) de investigacion

• Planeacion

• Diseno

• Muestra

• Fenomeno Aleatorio

• Analisis y presentacion de la informacion

• Inferencias

• Toma de decisiones

Planeacion: Comunicacion usuario/estadıstico

¿Que preguntar?

¿Como preguntar?

¿A quien preguntar?

¿Que medir?

¿Como medir?

Diseno: Cohorte, casos y controles, ensayo clınico, transversal, longitudinal, observacional,

de intervencion.

1

Muestreo. ¿Que tipo de muestreo se va a utilizar en el diseno?: Aleatorio simple, estratifi-

cado, sistematico, por conglomerados, bietapico, multietapico, etc.

Analisis y presentacion de la informacion:Analisis descriptivo: Permite tener un mejor

conocimiento del problema que nos ocupa y hacer conjeturas sobre el mismo.

Analisis inferencial : ¿Habra un modelo teorico (Probabilıstico) que se ajuste a los datos?

¿Y para que sirve tener ese modelo?

! YA TERMINAMOS!

Por que podremos responder todas las preguntas sobre el fenomeno en terminos proba-

bilısticos. Permite extrapolar los resultados obtenidos a partir de muestra a la poblacion ob-

jetivo. En este punto es donde se “juntan” la PROBABILIDAD Y LA ESTADISTICA

Toma de decisiones. Un estudio estadıstico, ası como de cualquier otra ındole, no tendrıa

ningun sentido si los resultados no se utilizan para realizar propuestas con miras a la toma

de decisiones.

¿Porque hay tantos metodos de analisis en estadıstica?

Objetivos

• Asociacion

Correlacion, correlacion canonica, tablas de contingencia, Analisis de correspondencias, etc.

• Causalidad

Modelos tipo regresion: Regresion lineal, Logıstica, Politomica, Politomica Ordinal, Multi-

variada, Modelos para supervivencia, etc.

• Estructura de la informacion

Modelos Multinivel, Modelos mixtos, Series de tiempo, Meta analisis, Modelos para datos

de panel, etc.

• Consideraciones muestrales

2

Modelos con pesos diferenciados en las observaciones, atendiendo las caracterısticas del

muestreo.

Clasificacion de las variables

La clasificacion de las variables aleatorias que tiene mas importancia para fines estadısticos,

es la que se realiza de acuerdo a su escala de medicion. Y se clasifican en:

Nominal : Los valores de la variable solo identifican alguna caracterıstica de la poblacion.

Sexo: 0: masculino 1: femenino

Preferencia polıtica: 1: PAN, 2: PRD 3: PRI

Enfermedad: 0: sano, 1: enfermo

Ordinal : Sus categorıas representan orden.

Nivel socioeconomico: 1: bajo, 2: medio, 3: alto.

Nivel de satisfaccion: 1: nada, 2: regular, 3: mucho

Nivel de atencion: 1: muy malo, 2: malo, 3: regular, 4: bueno, 5: muy bueno.

Enfermedad: 0: leve, 1: moderada, 2: grave, 3: muy grave.

Las “etiquetas” no son intercambiables. No siempre es claro si la “distancia” entre categorıas

adyacentes es la misma. Por lo general, solo indican que una categorıa es mejor o peor que

la otra, pero no en que magnitud lo es.

De intervalo o de razon: Aquı la diferencia entre dos valores si es cuantificable.

Discretas de conteo( ...-2,-1,0,1,2...)

Numero de especies

Numero de dıas con precipitacion pluvial

Continuas : Pueden tomar TODOS los valores en un intervalo definido. Contaminante, talla

de un arbol, elemento quımico en el suelo, etc.

3

Ademas de depender del objetivo del estudio, el uso de los diferentes metodos de analisis

estadıstico, tambien depende de la escala de medicion de las variables involucradas, es decir,

no cualquier tipo de escala sirve para cualquier tipo de metodo estadıstico.

Escala nominal : Moda, Diagramas de pie, tablas de contingencia, analisis de corresponden-

cias, regresion logıstica, regresion politomica, etc.

Escala ordinal : Moda, diagramas de pie, diagramas de barras, tablas de contingencia, analisis

de correspondencias, regresion ordinal, etc.

Escala conteo: Media, mediana, moda, histograma, regresion Poisson, etc.

Escala continua: Toda la descriptiva, correlacion canonica, histograma, regresion lineal, re-

gresion multivariada, etc.

DATOS MULTIVARIADOS

INTRODUCCION

Los datos multivariados se presentan cuando el investigador recaba varias variables sobre

cada “unidad” en su muestra. La mayorıa de los conjuntos de datos que se colectan para

una investigacion son multivariados. Aunque algunas veces tiene sentido estudiar por sepa-

rado cada una de las variables, en la mayorıa de los casos no. En el comun de las situaciones,

las variables estan relacionas de tal manera que si se analizan por separado, no se revela la

estructura completa de los datos. En la gran mayorıa de los conjuntos de datos multivaria-

dos, todas las variables necesitan analizarse de manera simultanea para descubrir patrones

y caracterısticas esenciales de la informacion que contienen. El analisis multivariado incluye

metodos que son totalmente descriptivos y otros que son inferenciales. El objetivo principal

es revelar la estructura de los datos, eliminando el “ruido” de los mismos.

Un aspecto muy importante a considerar en los datos multivariados, es que, por lo general,

las variables que los componen tienen diferentes escalas de medicion, hecho que se debe con-

siderar al momento de realizar el analisis estadıstico.

Estructura de los datos multivariados

Matriz de datos

4

X =

x11 x12 · · · x1k · · · x1p

x21 x22 · · · x2k · · · x2p

...... · · · ... · · · ...

xn1 xn2 · · · xnk · · · xnp

Donde xjk es el valor de la k-esima variable (k=1,2,...,p) del j-esimo individuo (j=1,2,...,n).

Resumen mediante descripciones numericas

En una extension simple de los procesos descriptivos que se realizan con una muestra, pode-

mos hacer los correspondientes resumenes numericos para cada una de las variables involu-

cradas en el analisis.

• Resumenes univariados, respetando la escala de medicion de cada variable

• Graficas univariadas

• Vector de medias

X =(

X1, X2, ..., Xp

)′

con Xk =1

n

n∑

j=1

xjk, k = 1, 2, ..., p.

• Matriz de Varianza-Covarianza

S2 =

s2

11s12 · · · s1p

s21 s2

22· · · s2p

...... · · · ...

sp1 sp2 · · · s2

pp

con las varianzas muestrales s2

kk =1

n

n∑

j=1

(

xjk − Xk

)2

, k = 1, 2, ..., p, y

las covarianzas muestrales sik =1

n

n∑

j=1

(

xji − Xi

) (

xjk − Xk

)

, i 6= k = 1, 2, ..., p

• Matriz de correlacion

5

R =

r11 r12 · · · r1p

r21 r22 · · · r2p

...... · · · ...

rp1 rp2 · · · rpp

con las correlaciones muestrales rik =sik

siiskk

, i 6= k = 1, 2, ..., p

Algunas caracteısticas de las correlaciones

• −1 ≤ rik ≤ 1

• rik es una medida de la fuerza de la asociacion lineal entre las variables involucradas

• rik es invariante ante cambios de escala

• rik usualmente se refiere a la correlacion de Pearson. Para medidas generales correlacion

(incluida la no lineal), se pueden utilizar la tau de Kendall o rho de Spearman.

Representacion matricial

• Media muestral: x = (x1, x2, ..., xp)′

• Matriz de varianza-covarianza muestral: Sn = [sik]

• Matriz de correlacion muestral: Rn = [rij], con rii = 1

Resumen mediante descripciones graficas

Una manera natural en estadıstica de mostrar la informacion contenida en un conjunto de

datos, es a traves de algunas representaciones graficas de los mismos. Similar al analisis uni-

variado estandar, se pueden hacer las representaciones graficas que se considere necesarias,

para cada variable. Pero, dada la naturaleza multivarida de nuestros datos, es mas conve-

niente realizar estas representaciones tratando de involucrar a todas las variables de manera

simultanea. El problema para graficar datos multivariados, es su dimension.

Existen diversas tecnicas graficas para desplegar datos multivariados. La finalidad esencial

de estas es tratar de identificar grupos similiares de sujetos, observaciones atıpicas, dispersion

de las variables, correlacion entre ellas, etc.

6

El uso de diagramas y graficas ahorra tiempo, ya que las caracterısticas esenciales de grandes

volumenes de datos estadısticos puede apreciarse de un solo vistazo

Grafica de la matriz de datos

Una procedimiento util para iniciar una exploracion de las variables en datos multivariados,

es desplegar graficas de dispersion entre pares de variables contenidas en la matriz de datos.

Para que un analisis multivariado tenga sentido, debemos tener una fuerte correlacion entre

las variables involucradas. Una grafica que es util para estos propositos y que proporciona

informacion adicional, se obtiene con el comando pairs de R. Los datos pertenecen a la

base en R, USArrests que reporta el numero de arrestos por asesinatos (Murder), asaltos

(Assault), y violaciones (Rape), ademas del porcentaje de poblacion urbana (Urban Pop) de

los 50 estados que constituyen los Estados Unidos de America

Asesinatos

50 150 250

0.80 0.07

10 20 30 40

510

15

0.56

5015

025

0

Asaltos

0.26 0.67Pro.pob.urbana

3040

5060

7080

90

0.41

5 10 15

1020

3040

30 40 50 60 70 80 90

Violación

Gráfica utilizando el comando pairs

7

La grafica anterior presenta caracterısticas de la forma de la densidad de la variable (his-

tograma) y de la correlacion entre el grupo de variables. Pero no serıa util para descubrir que

estados son similares de acuerdo a este grupo de variables medidas. Para ello, recurriremos

a algunas tecnicas que intentan resumir todas las variables en una sola grafica.

Diagramas de estrellas

En la grafica de estrellas, cada observacion esta representada por una estrella o polıgono, en

la que la longitud del centro a cada vertice corresponde a un valor particular de alguna de

las variables.

AlabamaAlaska

ArizonaArkansas

CaliforniaColorado

Connecticut

DelawareFlorida

GeorgiaHawaii

IdahoIllinois

Indiana

IowaKansas

KentuckyLouisiana

MaineMaryland

Massachusetts

MichiganMinnesota

MississippiMissouri

MontanaNebraska

Nevada

New HampshireNew Jersey

New MexicoNew York

North CarolinaNorth Dakota

Ohio

OklahomaOregon

PennsylvaniaRhode Island

South CarolinaSouth Dakota

Tennessee

TexasUtah

VermontVirginia

WashingtonWest Virginia

Wisconsin

Wyoming

Gráfica de estrellas: USArrests

8

AlabamaAlaska

ArizonaArkansas

CaliforniaColorado

Connecticut

DelawareFlorida

GeorgiaHawaii

IdahoIllinois

Indiana

IowaKansas

KentuckyLouisiana

MaineMaryland

Massachusetts

MichiganMinnesota

MississippiMissouri

MontanaNebraska

Nevada

New HampshireNew Jersey

New MexicoNew York

North CarolinaNorth Dakota

Ohio

OklahomaOregon

PennsylvaniaRhode Island

South CarolinaSouth Dakota

Tennessee

TexasUtah

VermontVirginia

WashingtonWest Virginia

Wisconsin

Wyoming

Gráfica de estrellas: USArrests

Caritas de Chernoff

El objetivo en esta tecnica es asociar el valor de cada variable, con alguna caracterıstica de

una cara humana. Las variables estan asociadas con seis aspectos basicos de la carita: forma

de la cara, la boca, la nariz, los ojos, las cejas y las orejas. Cuando el numero de variables es

grande, algunas de ellas estaran asociadas con varios aspectos relacionados con los anteriores:

Amplitud de la cara, longitud de las cejas, altura de la cara, separacion de los ojos, posicion

de las pupilas, longitud de la nariz, ancho de la nariz, diametro de las orejas, nivel de las

orejas, longitud de la boca, inclinacion de los ojos, altura de las cejas, etc. Bernard Flury

ideo, con base al trabajo de Chernoff, duplicar la cantidad de variables para representar la

carita, dejando de lado la simetrıa, i.e., del lado izquierdo del rostro es posible graficar 18

variables y otras tantas del lado derecho.

9

Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware

Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas

Kentucky Louisiana Maine MarylandMassachusetts Michigan Minnesota Mississippi

Missouri Montana Nebraska Nevada New HampshireNew Jersey New Mexico New York

North CarolinaNorth Dakota Ohio Oklahoma Oregon PennsylvaniaRhode IslandSouth Carolina

South Dakota Tennessee Texas Utah Vermont Virginia WashingtonWest Virginia

Wisconsin Wyoming

Caritas de Chernoff: USArrests

10




Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi

Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York

North Carolina North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island South Carolina

South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia

Wisconsin Wyoming

11



Kentucky Louisiana Maine MarylandMassachusetts Michigan Minnesota Mississippi

Missouri Montana Nebraska Nevada New HampshireNew Jersey New Mexico New York

North CarolinaNorth Dakota Ohio Oklahoma Oregon PennsylvaniaRhode IslandSouth Carolina

South Dakota Tennessee Texas Utah Vermont Virginia WashingtonWest Virginia

Wisconsin Wyoming


Curvas de Andrew

Supongamos que cada individuo tiene p variables medidas (Xi1, Xi2, ..., Xip). Se define la

funcion

fXi=

Xi1√2

+ Xi2sen(t) + Xi3cos(t) + Xi4sen(2t) + Xi5cos(2t) + ... − π < t < π

Algunas propiedades interesantes de estas curvas

i) Preserva medias, i.e.

fX = 1

n

n∑

i=1

fXi(t)

12

ii) Preserva distancias

∥

∥fXi(t) − fXj

(t)∥

∥

2

=π∫

−π

(

fXi(t) − fXj

(t))2

dt = πp

∑

k=1

(Xik − Xjk)2

Por lo tanto, si los sujetos Xi, Xj , estan cerca, las respectivas curvas lo estaran tambien.

En esta representacion grafica, el orden de las variables juega un papel importante. Si la

dimension de X es muy alta, las ultimas variables tendran una contribucion pequena. Por

lo que se recomienda ordenar las variables de manera que las variables “mas importantes”

aparezcan al principio (por ejemplo, aquellas que discriminan mejor los posibles subgrupos

presentes en los datos). Tambien es recomendable no incluir demasiadas observaciones (cur-

vas) en una sola grafica.

En este tipo de graficas, las observaciones atıpicas aparecen como curvas aisladas que se

distinguen claramente de las demas.

Nota: Cada una de estas tecnicas se vuelve inadecuada, si el numero de sujetos es muy

grande.

13

−3 −2 −1 0 1 2 3

−3

−2

−1

01

2

Curvas Andrews: USArrests

t

f(t)

14

0 1 2 3 4 5 6

05

1015

Curvas de Andrew: Iris

setosaversicolorvirginica

15