View
6
Download
2
Embed Size (px)
DESCRIPTION
EJEMPLO: Borja, (2010), realizó la investigación: La administración de recursos humanos y su relación con la formación profesional en el Instituto de Educación Superior Tecnológico Público José María Arguedas de Sicaya - 2010, en la Escuela de Post Grado de la Universidad Ricardo Palma. La investigación llegó a las siguientes principales conclusiones: 1. Se ha determinado con un nivel de significancia del 5% y una prueba r = 0,703 la relación que existe entre la administración de recursos humanos de los docentes y la formación profesional de los estudiantes del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya. 2. Los directivos, docentes y administrativos del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya son óptimos, ya que estos están comprometidos con sacar adelante a su institución, muestra de ello es el trabajo cooperativo y comprometido que realizan diariamente. 3. Los estudiantes del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya casi siempre logran reconocer sus fortalezas y debilidades, asimismo son capaces de controlar su estado emocional de acuerdo a la circunstancia.
Citation preview
ANALISIS EXPLORATORIOANALISIS EXPLORATORIODE DATOSDE DATOS
LIC. ESPERANZA GARCIA CRIBILLEROS
2006
ENFOQUES DE ANALISIS ENFOQUES DE ANALISIS ESTADISTICOESTADISTICO
Confirmatorio (ClConfirmatorio (Cláásico)sico)
Exploratorio (Exploratorio (TukeyTukey, 1977), 1977)
COMPARACION DE LOS ENFOQUES DE COMPARACION DE LOS ENFOQUES DE ANALISIS (ANALISIS (BertrandBertrand))
EXPLOTARIOEXPLOTARIOEnfoque descriptivoEnfoque descriptivoIndica las hipIndica las hipóótesis a tesis a probarprobarUsa estadUsa estadíísticos sticos Plan de investigaciPlan de investigacióón n flexible y poco definidoflexible y poco definidoUsa los datos Usa los datos disponiblesdisponiblesPrivilegia la Privilegia la representacirepresentacióón grn grááfica.fica.Tiene visiTiene visióón intuitiva de n intuitiva de los datoslos datosSemeja una Semeja una investigaciinvestigacióón policial.n policial.
CONFIRMATORIOCONFIRMATORIOEnfoque Enfoque inferencialinferencialPrueba hipPrueba hipóótesistesisUsa estadUsa estadíísticos sticos Plan de investigaciPlan de investigacióón n riguroso y bien definido.riguroso y bien definido.Usa datos sin error Usa datos sin error (ideal).(ideal).Poca importancia a la Poca importancia a la representacirepresentacióón grn grááfica.fica.Tiene una visiTiene una visióón precisa n precisa de los datos.de los datos.Semeja a un juicioSemeja a un juicio
Evaluar la calidad y la consistencia de Evaluar la calidad y la consistencia de los datos.los datos.Determinar la distribuciDeterminar la distribucióón de las n de las variables en estudio.variables en estudio.Aplicar el tratamiento de datos Aplicar el tratamiento de datos ausentes.ausentes.Detectar datos atDetectar datos atíípicos (picos (outliersoutliers).).
DefiniciDefinicióón de ann de anáálisis exploratorio lisis exploratorio de datos:de datos:Conjunto de herramientas estadConjunto de herramientas estadíísticas que sticas que permiten una visualizacipermiten una visualizacióón previa al ann previa al anáálisis lisis definitivo de los datos en estudio. Este andefinitivo de los datos en estudio. Este anáálisis lisis tiene los siguientes objetivos:tiene los siguientes objetivos:
Comprobar supuestos: normalidad, Comprobar supuestos: normalidad, linealidad, linealidad, homocedasticidadhomocedasticidad. . Resumir los datos mediante el uso conjunto Resumir los datos mediante el uso conjunto de medidas de resumen y sus grde medidas de resumen y sus grááficos.ficos.Explorar formas de categorizar variables a Explorar formas de categorizar variables a travtravéés de bs de búúsqueda de puntos de corte.squeda de puntos de corte.
El anEl anáálisis exploratorio de datos puede ser:lisis exploratorio de datos puede ser:
UnivariadoUnivariado:: Estatura, peso, pulso, Estatura, peso, pulso, temperatura, etc.temperatura, etc.
BivariadoBivariado:: Estatura y peso, frecuencia Estatura y peso, frecuencia cardiaca y nivel de colesterol.cardiaca y nivel de colesterol.
MultivariadoMultivariado:: Se quiere medir la Se quiere medir la relacirelacióón entre la presin entre la presióón arterial, n arterial, edad, peso y estredad, peso y estréés.s.
El anEl anáálisis exploratorio de datos se lisis exploratorio de datos se puede realizar en:puede realizar en:
Forma de grForma de grááficosficos
Pruebas de contrastePruebas de contraste
ANANÁÁLISIS EXPLORATORIO UNIVARIADOLISIS EXPLORATORIO UNIVARIADO
HISTOGRAMA:HISTOGRAMA:Muestra la forma de distribuciMuestra la forma de distribucióón de n de los datos.los datos.Revela la presencia o no de simetrRevela la presencia o no de simetríía a Proporciona informaciProporciona informacióón respecto a n respecto a la variabilidad de los datos.la variabilidad de los datos.
Ejemplo:Ejemplo:Edades de un grupo de pacientes que Edades de un grupo de pacientes que participaron en un trabajo de participaron en un trabajo de investigaciinvestigacióón.n.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2020 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 3334 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 4141 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 4848 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 5757 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 65
Histograma
Histograma y curva normal
AsimetrAsimetrííaa
Identifica datos Identifica datos extremos extremos
Se observa Se observa simetrsimetrííaa
NormalidadNormalidad
Ausencia de Ausencia de datos datos extremosextremos
Diagrama de tallo y hojasDiagrama de tallo y hojas
Permite observar al conjunto de Permite observar al conjunto de datos como un todo y destacar datos como un todo y destacar algunas caracteralgunas caracteríísticas, tales como:sticas, tales como:La simetrLa simetríía del conjunto de datosa del conjunto de datosLa variabilidad de los datosLa variabilidad de los datosLa presencia o no de La presencia o no de ““outliersoutliers””ConcentraciConcentracióón de los datosn de los datosBrechas en el conjunto de datos Brechas en el conjunto de datos
Ejemplo: Se tienen las edades de 100 pacientes que participaron en un estudio de investigación.
896564646362626160605959585858575757575757565656555555545353525251505049494948484847474746464545444444444343434242424241414040393938383737373636363535343434343433333232303030303030292828262625252423202019181716151413121110987654321
Diagrama de tallo y hojas en Diagrama de tallo y hojas en forma compacta:forma compacta:
Stem-and-leaf of EDAD N = 100Leaf Unit = 1.0
10 2 034556688937 3 000000223344444556667778899(28) 4 001122223334444556677788899935 5 001223345556667777778889910 6 001223445
HI 89,
SimetrSimetrííaa
NormalidadNormalidad
Valor extremo alto (89)Valor extremo alto (89)
Edad de los pacientes Stem-and-Leaf Plot
Frec. Tallo Hojas
3 2 . 0347 2 . 556688915 3 . 00000022334444412 3 . 55666777889915 4 . 00112222333444413 4 . 55667778889998 5 . 0012233417 5 . 555666777777888998 6 . 001223441 6 . 51 Extremes (>=89)
Stem width: 10Each leaf: 1 case(s)
Tallo desdoblada
CCumple las mismas funciones que el histograma.
Conserva todos los datos y se pueden determinar los datos extremos.
Adecuado para muestras grandes y pequeñas.
Tallo y hojas con brechasTallo y hojas con brechasStemStem--andand--leafleaf ofof Edad N = 20Edad N = 20LeafLeaf UnitUnit = 1.0= 1.0
2 1 792 1 792 2 2 2 7 3 025797 3 02579
(4) 4 1356(4) 4 13569 5 9 5 9 6 0023457899 6 002345789
GRGRÁÁFICO DE CAJAS FICO DE CAJAS (BOXPLOT)(BOXPLOT)
Es una presentaciEs una presentacióón simple de la n simple de la informaciinformacióón que permite conocer:n que permite conocer:
La localizaciLa localizacióón del centro de los n del centro de los datosdatosDispersiDispersióónn
DIAGRAMA O GRDIAGRAMA O GRÁÁFICO DE FICO DE CAJAS (BOXPLOT)CAJAS (BOXPLOT)
SimetrSimetrííaa
La extensiLa extensióón: n: Limite Superior = (QLimite Superior = (Q33 +1.5*+1.5*dQdQ); ); Limite inferior =(QLimite inferior =(Q11--1.5*1.5*dQdQ
La existencia de los valores extremos La existencia de los valores extremos ((outliersoutliers).).
Me=44
Q3=55
Q1=34.25
Valor min=20
valor max=65
DATOS ATDATOS ATÍÍPICOS (OUTLIERS)PICOS (OUTLIERS)
TIPOS:TIPOS:Aquellos que surgen de un error de Aquellos que surgen de un error de procedimiento.procedimiento.Los que ocurren por un hecho Los que ocurren por un hecho extraordinario, tiene explicaciextraordinario, tiene explicacióón. n. Observaciones extraordinaria sin Observaciones extraordinaria sin explicaciexplicacióón.n.
Normalidad de los datos:Normalidad de los datos:
Se considera que los datos son normales si Se considera que los datos son normales si la distribucila distribucióón de la poblacin de la poblacióón de la cual ha n de la cual ha sido extrasido extraíída la muestra se aproxima a la da la muestra se aproxima a la distribucidistribucióón ten teóórica.rica.Se puede verificar esta propiedad por:Se puede verificar esta propiedad por:
MMéétodos grtodos grááficos para ver normalidadficos para ver normalidadContrastes de normalidadContrastes de normalidad
MMÉÉTODOS GRTODOS GRÁÁFICOS PARA VER FICOS PARA VER NORMALIDAD:NORMALIDAD:
Histogramas Histogramas GrGrááfico Pfico P--P P GrGrááfico QQ fico QQ plotplot. .
CONTRASTES DE NORMALIDAD:CONTRASTES DE NORMALIDAD:Prueba Chi cuadrado: Prueba Chi cuadrado: Bondad de ajusteBondad de ajuste
( ) s/xxZ i −= ( )∑ −=
i
2
ii2
EEo
χ
Prueba de Prueba de ColmogorovColmogorov--SmirnovSmirnov
Prueba de Prueba de ShapiroShapiro WilksWilks
( ) ( )xFoxFnmaxD −=
2
2
nsDW =
Todas las pruebas plantean Ho de normalidad.
TRASFORMACITRASFORMACIÓÓN DE LOS N DE LOS DATOSDATOS
• En este gráfico se observa que los datos son normales.
• Si existe normalidad la recta del diagrama pasa por el origen.
• Es un artificio para normalizar datos.
• Se construye a partir de la transformación de los datos a su lognatural.
Tests of Normality
.072 100 .200* .971 100 .024Edad de los pacienStatistic df Sig. Statistic df Sig.
Kolmogorov-Smirnova Shapiro-Wilk
This is a lower bound of the true significance.*.
Lilliefors Significance Correctiona.
Para este caso es conveniente interpretar el resultado con la prueba de Kolmogorov-Smirnov. La de Shapiro-Wilk es útil con muestras no mayores de 50.
Ho, (normalidad) no se puede rechazar porque el valor calculado es mayor que 0.05.
En el gráfico P-P se observa la normalidad de los datos.
ANALISIS BIVARIADOANALISIS BIVARIADONo Sexo Peso Estatura No Sexo Peso Estatura1 1 18.2 112 21 1 18.3 114.32 1 14.6 103.4 22 1 21.3 1153 1 19.4 114.9 23 1 16.2 1034 2 15.7 104.1 24 1 23.31 117.75 2 18.7 104.9 25 1 20 113.46 1 16.6 105.5 26 2 22.3 114.37 2 20.7 113 27 2 25.4 1218 2 19.3 109.4 28 1 17.6 106.69 1 16.6 104.7 29 1 19.8 111.410 1 20.6 114.4 30 1 17.1 108.311 1 18.2 112.9 31 1 18.2 109.612 1 20.4 110.1 32 2 25.1 114.613 1 21.8 122.5 33 2 16.9 104.514 1 22.6 116.3 34 1 18.4 107.315 1 20.7 115.9 35 1 18.8 106.816 2 15.5 107.2 36 2 17.5 108.517 2 18.9 110.4 37 1 21.4 112.918 2 15.4 113.2 38 1 19.4 111.619 2 18.4 109.5 39 1 18.9 106.820 1 18.3 110.4 40 1 20.2 115.8
AnAnáálisis exploratorio lisis exploratorio bivariadobivariado::
GrGrááfico de dispersifico de dispersióón de estatura n de estatura y peso por sexoy peso por sexo
NINIÑÑOS SEGOS SEGÚÚN PESO Y SEXON PESO Y SEXO
ANÁLISIS EXPLORATORIO MULTIVARIADO
FINFIN