312
UNIVERSIDAD DE COLOMBIA S E D E P A L M 1 R A FACULTAD DE INGENIERÍA Y ADMINISTRACIÓN

Estadística descriptiva para ingeniería ambiental con SPS

Embed Size (px)

Citation preview

  • UNIVERSIDAD

    ~~NACIONAL DE COLOMBIA

    "~~=~ S E D E P A L M 1 R A FACULTAD DE INGENIERA Y ADMINISTRACIN

  • ESTADSTICA DESCRIPTIVA PARA

    INGENIERA AMBIENTAL CON SPSS

  • VIVIANA VARGAS FRANCO

    ESTADSTICA DESCRIPTIVA PARA

    INGENIERA AMBIENTAL CON SPSS

    CALI, JULIO DE 2007

  • Vargas Franco, Viviana Estadstica descriptiva para ingeniera ambiental con

    SPSS / Viviana Vargas Franco. -- Editora Viviana Vargas Franco. -- Cali : Impresora Feriva, 2007.

    312 p.: ii. ; 24 cm. ISBN 978-958-33-9319-3 1. Estadstica descriptiva. 2. Anlisis de datos. 3. Estadstica

    con ayuda de computador. 4. SPSS para Windows (Programa para computador) -Mtodos estadsticos. 5. Medio ambiente - Mtodos estadsticos 1. T!. 519.53 cd 21 ed. A1131724

    CEP-Banco de la Repblica-Biblioteca Luis ngel Arango

    Viviana Vargas Franco [email protected] .co Julio de 2007

    ISBN 978-958-33-9319-3

    Universidad Nacional de Colombia - Sede Palmira Facultad de Ingeniera y Administracin

    Foto cartula: Carlos Carrillo

    Impreso en los talleres grficos de Impresora Feriva S.A. Calle 18 No. 3-33 PBX: 5249009 www.feriva.com Cali, Colombia

  • A Diana y David, mis hijos

  • A Diana y David, mis hijos

  • Agradecimientos La autora expresa sus ms sinceros agradecimientos a las diversas personas e instituciones que han colaborado en la elaboracin de este libro, entre las que se destacan las siguientes:

    Adela Parra Romero. Estadstica - Universidad del Valle. Juan Jos Castillo. Ingeniero Ambiental- Universidad Nacional de Colombia, Sede Palmira. Mauricio Rojas Delgado. Estudiante Ingeniera Agrcola - Universidad Nacional de Colombia, Sede Palmira. Natalia Tamayo Gonzlez. IngenieraAmbiental- Universidad Nacional de Colombia, Sede Palmira. Rafael Domnguez Lasso. Ingeniero Agroindustrial - Universidad Nacional de Colombia, Sede Palmira. Ricardo Alberto Londoo Saldaa. Ingeniero Agroindustrial - Universidad Nacional de Colombia, Sede Palmira.

    Instituciones Instituto Cinara de la Universidad del Valle. Santiago de Cali Departamento Administrativo de Gestin del Medio Ambiente de Cali-DAGMA. Corporacin Autnoma Regional del Valle del Cauca-CVC. Universidad Nacional de Colombia - Sede Palmira

  • Agradecimientos La autora expresa sus ms sinceros agradecimientos a las diversas personas e instituciones que han colaborado en la elaboracin de este libro, entre las que se destacan las siguientes:

    Adela Parra Romero. Estadstica - Universidad del Valle. Juan Jos Castillo. Ingeniero Ambiental- Universidad Nacional de Colombia, Sede Palmira. Mauricio Rojas Delgado. Estudiante Ingeniera Agrcola - Universidad Nacional de Colombia, Sede Palmira. Natalia Tamayo Gonzlez. IngenieraAmbiental- Universidad Nacional de Colombia, Sede Palmira. Rafael Domnguez Lasso. Ingeniero Agroindustrial - Universidad Nacional de Colombia, Sede Palmira. Ricardo Alberto Londoo Saldaa. Ingeniero Agroindustrial - Universidad Nacional de Colombia, Sede Palmira.

    Instituciones Instituto Cinara de la Universidad del Valle. Santiago de Cali Departamento Administrativo de Gestin del Medio Ambiente de Cali-DAGMA. Corporacin Autnoma Regional del Valle del Cauca-CVC. Universidad Nacional de Colombia - Sede Palmira

  • Contenido

    Pg.

    Introduccin ................................................................................................... .

    Captulo 1

    Fundamentos de los mtodos estadsticos

    1.1 Modelos estadsticos............................................... .............. ....... ..... .... 4 1.2 Aspectos generales del mtodo cientfico............................................. 5 1.3 Los datos como materia prima de los mtodos estadsticos .... ... ....... ... 8 1.4 Aspectos relacionados con la calidad del dato..................................... 9 1.5 Conceptos en la aplicacin de los mtodos estadsticos.. ..................... 11 1.6 Estadstica descriptiva vs estadstica inferencial.................................. 13 1. 7 Definicin de variables ............... ....................... ..... .............................. 14

    1. 7.1 Variables cualitativas o categricas.......... ....... ....... ....... ....... ...... 14 1.7.2 Variables cuantitativas................................................................ 15 1.7.3 Otras clasificaciones................................................................... 17

    1.8 Mtodos paramtricos y no paramtricos ............................................. 17 1.9 Mtodos estadsticos por tipo de variable............................................. 18 1.10 Etapas generales en la construccin de un modelo estadstico ............. 20

    Captulo 2 Medidas descriptivas

    2.1 Medidas de tendencia central............ ............ ................ .............. ......... 23 2.1.1 Media.......................................................................................... 24 2.1.2 Mediana...................................................................................... 36 2.1.3 Moda........................................................................................... 38

    2.2 Medidas de dispersin .......... .................. ...... ................ ................ ....... 41 2.2.1 Rango....................................................... .................. ................ 41 2.2.2 Desviacin media ....................................................................... 42 2.2.3 Varianza...................................................................................... 44 2.2.4 Desviacin estndar.... ............................... ............ ......... ............ 46 2.2.5 Coeficiente de variacin ...... ....................................................... 48

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS IX

  • Captulo 3 Distribucin de frecuencias 3.1 Distribucin de frecuencias univariadas............................................... 53

    3.1.1 Distribucin de frecuencias univariadas para una variable discreta.................. ........................................................ 54

    3.1.2 Distribucin de frecuencias univariadas para una variable continua .................................. ...................................... 61

    3.2. Distribuciones bidimensionales de frecuencia ................................ ..... 89 3.2.1 Distribucin bidimensional en variables discretas ...................... 89 3.2.2 Distribucin bidimensional para variables continuas.................. 93

    Captulo 4 Medidas y grficas de posicin 4.1 Cuartiles................................................................................................ 98 4.2 Deciles .................................................................................................. 103 4.3 Percentiles............................................................................................. 106 4.4 Medidas de dispersin para indicadores de posicin............................ 11 O 4.5 Representacin grfica de las medidas de posicin .............................. 11 O

    4.5.1 Diagramas de cajas y alambres .................................................. 110 4.5.2 Diagrama de tallos y hojas ......................................................... 120

    Captulo 5 Modelos de regresin 5.1 Modelo de regresin lineal simple........................................................ 127 5.2 Supuestos del modelo de regresin lineal simple ................................. 131 5.3 Diagrama de dispersin ........................................................................ 132 5.4 Otros modelos de regresin .................................................................. 136 5.5 Coeficiente de correlacin.................................................................... 147 5.6 Coeficiente de determinacin ............................................................... 155

    Captulo 6 Planeacin estadstica en un proyecto de investigacin 6.1 Objetivos del proyecto .......................................................................... 159 6.2 Descripcin del sistema ........................................................................ 159 6.3 Codificacin del sistema........................ ............................................... 161 6.4 Definicin de variables, sitios y frecuencia de muestreo ..................... 162 6.5 Formatos de muestreo........................................................................... 164

    x ESTADisTICA DESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPss

  • 6.6 Flujo de informacin ... ......... .. ............... .............. .... ............................. 165 6.7 Sistema de informacin .. ....... ...................... ........ ... ..................... ......... 167

    Captulo 7 Evaluacin de sistemas para tratamiento de agua potable 7.1 Estadsticas descriptivas ..... ..................... .................... ..... .................... 171 7.2 Grficos de medias, mnimos y mximos............................................. 173 7.3 Histogramas ............................................................................. ... ......... . 180 7.4 Tablas cruzadas..................................................................................... 182 7.5 Grficos de frecuencias acumuladas ..................................................... 185 7.6 Grficos de tallos y hojas .... ... ............................ .. ............... ............. ... .. 186 7.7 Percentiles .... ... .... ........ ....... ........... .. ... ..... .. ... ... ................ .. ..... .... ... ... ... .. 190 7.8 Diagrama de cajas y alambres .............................................................. 193

    Captulo 8 Calidad de aire 8.l Grficos de estadsticas descriptivas.. .... ..... .. .............. ........... .. ............. 204 8.2 Histogramas ........ .... .. .. ........ ... ....... ... .... ....... .. ........ ...... ... .. ..... ..... .. ........ . 211 8.3 Tablas cruzadas..................................................................................... 214 8.4 Grficas de frecuencias acumuladas .. ................ .... ............ ................... 217 8.5 Percentiles... ........... ............................ .............. .............................. ....... 220 8.6 Contaminacin del aire en Ciudad de Mxico........ ............... ............... 224

    Captulo 9 Calidad de agua en una fuente superficial 9.l Estadsticas descriptivas ....................................................................... 237 9.2 Presentacin grfica.............................................................................. 239 9.3 Histogramas .......... ......... ......... .... .... ...................................................... 245 9.4 Tablas cruzadas..................................................................................... 248 9.5 Frecuencias acumuladas ....................................................................... 251 9.6 Percentiles....... .... ................................................. ... .... ....... .......... ......... 252

    Captulo 10 Instrucciones en SPSS 10.1 Ingresando los datos a SPSS .................................................................. 257 10.2 Importando archivos de Excel ....................... .... ............................. .. ..... . 259 10.3 Estadsticas descriptivas................................................... ... ..... ............... 263

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS XI

  • 10.4 Histograma .... ... ..... ............ .. .... . ....... ... .... ..... ........ ... ... .. ..... .. .. ... .. .... .......... 268 10.5 Grfico de frecuencias acumuladas......................................................... 270 10.6 Grficos en tres dimensiones ...... ....... ...... ...................................... .. ....... 271 10.7 Grficos de barras en tres dimensiones .. ................................................. 273 10.8 Grfico de tallos y hojas. .............. .............. .... ..... ..... ...... .... ............. ..... ... 274 10.9 Grfico de cajas y alambres ... ........................................... ............ .......... 276 10.10 Percentiles.... ................................... ................... ...... ............ .... ... ... ....... 277 10.11 Tablas cruzadas o distribucin de frecuencias con dos variables.......... 280

    Captulo 11 Grficas en Excel

    11.1 Grfico para la media, desviacin estndar y el mximo.... ... ..... ....... .. ... 283 11.2 Grfico para media, mximo y mnimo .... .... ....... .... ... ... ....... .. ... ...... .. .... . 288 11.3 Grfico de series de tiempo ............................................................... ...... 291

    Bibliografa .................................................................................................................... 295

    XII ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • Introduccin

    Este libro tiene como objetivo proporcionar aspectos conceptuales de la estadstica descriptiva con aplicaciones en estudios de la Ingeniera Sanitaria y Ambiental. Est diseado como texto de consulta en cursos de estadstica o para el uso de estudiantes o profesionales que desarrollen un estudio o una investigacin donde se requiera aplicar tcnicas de estadstica descriptiva para el anlisis de datos y la toma de decisiones.

    En l se exponen aspectos conceptuales de los principales mtodos de la estadstica descriptiva en lo relacionado con la organizacin, presentacin, estimacin y anlisis de indicadores estadsticos aplicados en estudios o investigaciones en la Ingeniera Sanitaria y Ambiental. Este trabajo se constituye en un aporte al uso de los mtodos estadsticos descriptivos, considerando que se han escrito muchos textos sobre mtodos estadsticos pero pocos en el mbito nacional y regional con aplicaciones a la Ingeniera Sanitaria y Ambiental.

    Si bien es cierto que el espectro de desarrollo de la Ingeniera Sanitaria y Ambiental es amplio, se han seleccionado casos sobre evaluacin de la calidad de agua en una fuente superficial, comparacin de sistemas de tratamiento para agua potable y evaluacin de la contaminacin del aire en una regin especfica. Otras aplicaciones pueden seguir la metodologa estadstica utilizada en los casos estudiados en el presente libro.

    Debido al avance de los recursos informticos, en cuanto a hardware y software, los cuales han permitido una utilizacin intensiva de los mtodos estadsticos, en este libro se presentan los procesos o rutinas para la estimacin de los indicadores estadsticos en la hoja electrnica Excel (Microsoft Office) y el programa estadstico SPSS (Statistical Package for the Social Sciences) versin 11.5.

    La forma como se expone el libro se presenta a continuacin: Los primeros cinco captulos contienen los aspectos conceptuales de la estadstica descriptiva. El captulo 1 presenta los fundamentos de los mtodos estadsticos; el captulo 2, medidas de tendencia central y medidas de dispersin; el captulo 3, distribuciones univariadas

    ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS

  • y bivariadas; el captulo 4, medidas y grficas de posicin, y el captulo 5, modelos de regresin lineal. En cada uno de estos captulos se desarrollan ejemplos que ilustran los procesos estadsticos relacionados con estudios sobre ingeniera sanitaria y ambiental.

    Del captulo 6 al captulo 9 se presenta la aplicacin de los mtodos estadsticos descriptivos a casos documentados de la Ingeniera Sanitaria y Ambiental. El captulo 6 desarrolla la planeacin estadstica de un proyecto de investigacin; el captulo 7 analiza la evaluacin de plantas de tratamiento de agua; el captulo 8 presenta un estudio de calidad de aire, y el captulo 9, un estudio sobre la calidad de agua en una fuente superficial.

    Los captulos 10 Y 11 presentan las instrucciones para utilizar el software SPSS y Excel, respectivamente.

    Las bases de datos de los casos de apl icacin fueron recolectadas en diversas investigaciones y estudios desarrollados por varias instituciones, entre las que se destacan: Instituto Cinara de la Universidad del Valle, Corporacin Autnoma Regional del Valle del Cauca (CVC), Universidad Nacional de Colombia, sede Palmira y Departamento Administrativo de Gestin del Medio Ambiente de la ciudad Santiago de Cali (DAGMA).

    2 ESTADSTICA DESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPss

  • CAPTULO

    1 Fundamentos de los mtodos estadsticos

    Los procesos de recoleccin, organizacin, presentacin, procesamiento, anlisis e interpretacin de datos numricos son aspectos fundamentales en el desarrollo de un estudio o una investigacin en general, y en particular en los estudios relacionados con la Ingeniera Sanitaria y Ambiental, considerando que generalmente en estos ltimos los datos son la herramienta bsica para la consolidacin de las investigaciones y la toma de decisiones.

    Los datos generan informacin para la toma de decisiones en condiciones de certeza o de incertidumbre. Para la toma de decisiones en condiciones de certeza se utilizan modelos matemticos determinsticos y la toma de decisiones en condiciones de incertidumbre, medida por la teora de la probabilidad, se realiza a travs de los modelos estadsticos estudiados en la ciencia Estadstica.

    La estadstica es la ciencia que se encarga de la recopilacin, organizacin, presentacin, anlisis e interpretacin de datos numricos, con el fin de tomar decisiones con criterios de incertidumbre y confiabilidad. Los mtodos estadsticos tratan de la presentacin grfica y resumen de datos a travs de indicadores, estimacin de parmetros poblacionales, pruebas de hiptesis en relacin con parmetros poblacionales, determinacin de la exactitud de las estimaciones, estudio de la variacin, estudio de correlacin y el diseo de experimentos, de forma univariada y multivariada, entre otros.

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 3

  • VIVIANA VARGAS FRANCO

    1.1 Modelos estadsticos Un modelo estadstico es una representacin simplificada, formal y abstracta de un fenmeno de la naturaleza o de un sistema, ste puede representar la estructura, el comportamiento o el funcionamiento de una parte de inters o el conjunto del fenmeno o del sistema. La representacin se hace a travs de smbolos matemticos que corresponden a relaciones entre parmetros y variables.

    Un modelo se considera adecuado si efectiva y objetivamente representa la realidad que pretende estudiar y conocer. El elemento bsico para juzgar un modelo es su confrontacin con la realidad, esto implica que para juzgar el modelo debe hacerse una observacin emprica del objeto de estudio y con base en ella juzgar la bondad del modelo (Quiroga).

    La construccin y aplicacin de un modelo estadstico se define a travs de los elementos bsicos de la teora estadstica: datos, aleatoriedad, variabilidad, teora de probabilidad, seleccin muestral, estimacin de parmetros y docimasia de hiptesis, entre otros.

    No existe un modelo perfecto, pero se debe preferir un modelo simple, donde no se pierda informacin, considerando los componentes sistmicos y aleatorios del fenmeno.

    Los mtodos estadsticos proporcionan criterios y modelos matemticos para realizar los procesos de recoleccin, procesamiento y anlisis de datos requeridos en estudios donde una componente fundamental son los datos, con caractersticas de variabilidad y aleatoriedad. La aplicacin de los mtodos estadsticos permite generar conclusiones objetivas con criterios de confiabilidad y riesgo en la toma de decisiones. Los mtodos estadsticos son un medio y no un fin y como tal deben ser utilizados; los resultados estadsticos deben ser contrastados con anlisis de las teoras y modelos conceptuales o modelos matemticos que permitan suministrar avances significativos en las diferentes reas de su aplicacin.

    La estadstica como ciencia independiente es un desarrollo del siglo XX. Sir Ronald Aymer Fischer (1890-1962) fue el principal representante, el transformador de ideas que cohesion y estableci los fundamentos tericos de la inferencia estadstica como mtodo de razonamiento inductivo que da un nuevo sentido al procesamiento de datos e intenta medir su grado de incertidumbre. Sus resultados le dieron a la estadstica estatus de disciplina cientfica, reafirmado por los innumerables campos de aplicacin de sus metodologas (Y ez, 200 1).

    El avance del anlisis estadstico en los ltimos aos ha sido rpido y su uso se constituye en una valiosa herramienta para la toma de decisiones. La actualizacin

    4 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADSTICOS

    permanente de los recursos informticos en cuanto a hardware y software ha permitido una utilizacin intensiva de los mtodos estadsticos.

    Existen dos fases en el procesamiento estadstico de un conjunto de datos: una parte relacionada con la estadstica descriptiva o estadstica deductiva y otra relacionada con la estadstica inferencial o estadstica inductiva. La estadstica descriptiva consiste en resumir el conjunto de datos de una investigacin en indicadores estadsticos que permiten estimar el grado de centralidad, dispersin, posicin y distribucin de frecuencias. El anlisis descriptivo es una etapa importante en la comprensin de un fenmeno, pues permite estudiar las tendencias generales del conjunto de datos.

    Generalmente despus del proceso descriptivo se hace la estimacin de la inferencia estadstica o estadstica inferencia\. Esta consiste, a partir de los resultados estadsticos de una muestra representativa de una poblacin, en realizar generalizaciones o inducciones a parmetros de la poblacin, considerando criterios de riesgo y confiabilidad, estimados a partir de la teora de la probabilidad, tal como se observa en la Figura 1.1.

    Poblacin

    X" Xl' XJ' X 4 , X 5 , ........ X .. , X .. +/, X m+l , ........ X p XIV'

    Muestreo probabilstico

    Teora de probabilidad

    /

    Proceso de inferencia estadstica

    Figura 1.1 Esquema del proceso de inferencia estadstica

    MlIestra representativa

    X/ . Xl'" X J X 4 X k+/ Xk+1" ....... X n

    Los mtodos estadsticos estn relacionados con el mtodo cientfico en las etapas de recoleccin, organizacin, presentacin y anlisis de datos, para la deduccin de conclusiones y la toma de decisiones razonables de acuerdo con los anlisis estadsticos.

    1.2 Aspectos generales del mtodo cientfico El conocimiento cientfico es aquel que se realiza mediante la aplicacin del mtodo cientfico; permite el uso de la razn, la lgica, la objetividad y tiende a evitar que

    ESTADSTICA DESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPSS 5

  • VIVIANA VARGAS FRANCO

    el conocimiento surja de la pasin o la emocin. Por medio de la investigacin

    cientfica el hombre ha alcanzado una reconstruccin conceptual del mundo que es

    cada vez ms amplia, profunda y exacta (Bunge). El conocimiento cientfico puede

    caracterizarse como conocimiento racional, sistemtico, exacto, verificable y por

    consiguiente falible .

    El mtodo cientfico es una gua para desarrollar una investigacin o estudio con

    resultados de carcter cientfico. La palabra mtodo viene del griego: "meta", que

    significa "con" y "odos" que significa "camino", es decir, es la forma de proceder

    encaminada hacia un objetivo donde lo que se va desarrollando guarda orden y

    coherencia. El mtodo cientfico puede concebirse como un modelo general de

    acercamiento a la realidad; es una pauta o matriz abstracta y amplia, dentro de

    la cual estn los procedimientos y tcnicas especficas que se emplean en una

    investigacin.

    Una investigacin puede definirse como el estudio sistemtico de un sujeto u objeto

    con el fin de descubrir nuevos hechos o principios. La aplicacin de la lgica y

    la objetividad son la base del uso del mtodo cientfico. En el mtodo cientfico

    es esencial el estudio de lo que ya se conoce, pues a partir de ese conocimiento

    se formulan hiptesis, que se ponen a prueba generalmente con procesos de

    experimentacin.

    Las etapas del mtodo cientfico no deben considerarse lineales, son procesos

    cclicos, donde el avance de una etapa permite revisar las anteriores; stas deben

    considerarse como una gua para abordar en forma metdica el proceso de realizar

    una investigacin. Si bien existen diferentes esquemas del mtodo cientfico, el

    que se presenta en la Figura 1.2 destaca los aspectos relacionados con el uso de los

    mtodos estadsticos.

    Entre las caractersticas bsicas del proceso de investigacin se destacan los siguientes

    aspectos:

    Un producto de la investigacin: nuevo conocimiento

    Es un proceso sistemticamente organizado

    Es un proceso en espiral del conocimiento

    Genera saltos cualitativos del conocimiento por acumulacin de pequeos cambios

    cuantitativos

    Permite replicabilidad de los resultados Operan la lgica y la objetividad

    B ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADSTICOS

    PREGUNTAS DE INVESTIGACIN

    Definir: Antecedentes Justificacin

    Preguntas a resolver

    t NUEVAS

    PREGUNTAS DE INVESTIGACIN

    t CONCLUSIONES y

    RECOMENDACIONES Generar en relacin con las preguntas de investigacin y anlisis de datos.

    .......

    OBJETIVOS Definir: Objetivo general Objetivos

    especficos

    HIPTESIS ~ Definir los posibles resulta-

    dos de las preguntas de in-vestigacin.

    PROCESAMIENTO Y ANLISIS DE DATOS

    Aplicar:

    Instrumentos de recoleccin de datos.

    Sistemas de informacin. Teora de muestreo. Estadstica descriptiva. Inferencia estadstica. Modelos matemticos.

    t MARCO TERICO

    Describir teoras y concep-tos aplicados en la investi-gacin .

    t METODOLOGA

    Describir el diseo ex-perimental, materiales y

    ~ mtodos para desarrollar los objetivos de la inves-tigacin.

    Figura 1.2 Esquema de las etapas del mtodo cientfico.

    Se relacionan los siguientes conceptos: o Teora vs prctica o Abstraccin vs concrecin o Conocimiento particular vs general o Induccin vs deduccin o Anlisis vs sntesis o Conocimiento heurstico vs cientfico

    La estadstica es un conjunto de herramientas tiles en la investigacin en las fases de planeacin, anlisis e interpretacin de los resultados de una investigacin, apoyando el desarrollo del mtodo cientfico en la descripcin y la prediccin. Por la naturaleza de los mtodos estadsticos los resultados son parciales y fragmentados ms que completos y definitivos.

    En una investigacin debe haber concordancia lgica entre los objetivos, el diseo de la investigacin, el anlisis de los resultados y las conclusiones; generalmente los conceptos y mtodos estadsticos juegan un papel importante nicamente en el anlisis e interpretacin de datos, lo cual conduce con frecuencia a investigaciones en las que no hay una buena concordancia entre los objetivos, el diseo de la investigacin y las conclusiones.

    ESTADISTICA DESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPss 7

  • VIVIANA VARGAS FRANCO

    Los procesos estadsticos proporcionan informacin y conclusiones a partir de un

    conjunto de datos. Inferencias de lo particular a lo general podrn obtenerse con

    un cierto grado de incertidumbre y los investigadores en los diferentes campos de

    la ciencia debern reconocer el papel de la estadstica como un aspecto relevante

    de una investigacin.

    El papel de la estadstica en la investigacin es, entonces, funcionar como una

    herramienta en el diseo de sta, en el anlisis de datos y en la extraccin de conclusiones a partir de ellos. Los mtodos estadsticos no deberan ser ignorados

    por ningn investigador, aun cuando no tengan ocasin de emplearlos en todos sus

    detalles y ramificaciones.

    1.3 Los datos como materia prima de los mtodos estadsticos

    Los datos provienen de un proceso de medicin u observacin que debe realizarse

    de manera regular, organizada y sistemtica, de tal forma que permita obtener un sistema confiable de observaciones con el fin de acercarse a la respuesta de los

    interrogantes especficos de una investigacin.

    Los datos son la materia prima de la mayora de los estudios o investigaciones, de

    ellos depende en buena medida el aprovechamiento de los mtodos estadsticos para

    su posterior anlisis. De nada vale acumular datos sobre una investigacin si no

    existen criterios para su organizacin y procesamiento estadstico.

    En un estudio donde los resultados generan un conjunto de datos, es casi indispensable

    resumirlos en indicadores de carcter estadstico que faciliten su presentacin,

    interpretacin y anlisis. Un conjunto de datos no genera informacin por s mismo, es a travs del procesamiento matemtico o estadstico significativo donde se pueden encontrar indicadores y medidas de tendencia que generen informacin:

    Datos =/:. Informacin

    No se puede caer en la frase "ricos en datos, pobres en iriformacin ". En general los textos de mtodos estadsticos no mencionan o suponen que el proceso de recoleccin

    y calidad del dato es un aspecto conocido por los investigadores o profesionales

    que realizan estudios, sin embargo es una de las fases de la experimentacin que

    generalmente no se planea con el cuidado que se requiere.

    La recoleccin de datos y su posterior anlisis no son la finalidad principal de

    una investigacin o un estudio, es necesario realizar procesos de modelacin

    matemtica y estadstica que permitan generar informacin sobre las preguntas de la investigacin. La informacin que se genere del proceso de anlisis debe

    8 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPiTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADSTICOS

    incorporarse a teoras y marcos conceptuales, de tal forma que se consigan conclusiones vlidas y objetivas. Un proceso que permite transformar datos en informacin se presenta en la Figura 1.3.

    Definicin de tcnicas de

    recoleccin de datos

    Aplicacin de tcnicas de

    recoleccin de datos

    + DATOS J

    Organizacin y digitalizacin en

    bases de datos y sistemas de infonnacin

    Procesamiento y anlisis de datos con mtodos estadsticos

    y matemticos

    ( INFORMACIN )

    Teoras y conceptos del fenmeno de

    estudio

    Figura 1.3 Un esquema metodolgico para convertir datos en informacin.

    1.4 Aspectos relacionados con la calidad del dato La calidad de los datos es uno de los aspectos importantes que se deben planear

    antes de las etapas de recoleccin y aplicacin de los mtodos estadsticos, pues los

    procesos estadsticos generalmente no verifican ni corrigen deficiencias en la calidad

    de los datos. Varios componentes se deben estudiar sobre la calidad de un conjunto

    de datos: confiabilidad, validez y representatividad, entre otros.

    Representatividad. Est relacionada con el tamao de la muestra y la forma como se seleccionan los individuos u observaciones a ser analizados y responde a la pregunta:

    Los resultados de la muestra pueden aplicarse o generalizarse a la poblacin objeto

    de estudio?

    El tamao de la muestra depende del grado de variabilidad del fenmeno a estudiar,

    el nivel de precisin deseado y el nivel de confiabilidad requerido, as como de los costos de personal, reactivos y equipos, entre otros.

    La forma de seleccin del nmero de muestras, es decir, el tipo de muestreo a

    utilizar, puede ser probabilstico (cada elemento tiene una probabilidad conocida de

    ser seleccionado en la muestra), o no probabilstico (no todos los elementos tienen

    ESTADSTICA DESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPss 9

  • VIVIANA VARGAS FRANCO

    probabilidad de ser incluidos en la muestra). Se deben seleccionar los individuos sin sesgo y que haya participacin de los diversos elementos del fenmeno a estudiar.

    La representatividad est ligada a la definicin de la poblacin objetivo y a la muestra seleccionada y estas a su vez a los objetivos del estudio, los cuales deben estar claramente definidos

    Con fiabilidad. Se relaciona con los instrumentos o formas de medicin de las variables a medir y responde a la pregunta: Qu tanto se puede repetir la medicin de tal forma que produzca resultados similares en condiciones similares?

    La corrfiabilidad est asociada a la consistencia de los datos con los instrumentos de medicin. La corrfiabilidad de un instrumento de medicin se refiere al grado en que su aplicacin, repetida al mismo sujeto u objeto, produce resultados iguales.

    Validez . Se refiere al grado en que un instrumento, concepto o indicador mide realmente la variable que se pretende medir, sta debe alcanzarse en todo instrumento de medicin que se aplica. Una pregunta que responde al concepto de validez es: Se est midiendo lo que realmente se cree medir?

    Si es as, la medida es vlida, de lo contrario no lo es. No hay medicin perfecta, pero es necesario que haya una representacin fiel de las variables a observar, mediante el instrumento de medicin.

    Un instrumento de medicin puede ser confiable, pero no necesariamente vlido. Por eso es conveniente que los resultados de una investigacin demuestren ser

    confiables y vlidos,

    Factores que afectan la con fiabilidad y la validez. Algunos factores que afectan la confiabilidad y la validez de un conjunto de datos:

    Improvisacin Instrumentos de medicin utilizados en diferentes contextos y sin adaptacin Falta de validacin de los instrumentos de medicin Instrumentos inadecuados para las variables seleccionadas Condiciones inadecuadas en las que se aplica el instrumento

    Capacitacin deficiente al personal de apoyo Instrucciones deficientes

    Fuentes de error. Algunas fuentes de error en las mediciones son: error aleatorio, error sistemtico, normalidad y anormalidad.

    Error aleatorio. Es el producido por el sistema de mediciones, es un error constante que est presente en cada una de las mediciones que se efectan. Su valor no afecta

    10 ESTADiSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPTULO 1 - FUNDAMENTOS DE lOS MTODOS ESTADSTICOS

    al valor real ni al valor promedio del conjunto de datos. En trminos estadsticos es

    igual a la diferencia entre una medicin y la media de todas las mediciones.

    Error sistemtico. Es el producido por la medicin de cada una de las componentes

    del sistema, no es constante, es el error de redondeo que se lleva a cabo en cada una de las mediciones. En trminos estadsticos es igual a la diferencia de la media de todas las mediciones con el valor real de la variable (que normalmente es desconocido en el estudio).

    El error sistemtico normalmente permanecer cuando se repita la medicin. De ah que sea dificil detectarlo en un estudio. ste tambin indica que el instrumento de medida no es completamente vlido. Algunas veces es posible detectar un error sistemtico si el mismo objeto se mide con dos mtodos distintos. Si se descubre, se elimina por correccin de mediciones (por ejemplo, por normalizacin de las mismas) o por calibracin de la escala del instrumento de medida.

    En un estudio el error aleatorio y el error sistemtico pueden darse conjuntamente y es importante detectarlos. A mayor nmero de observaciones se controla el error aleatorio, pero no el error sistemtico. Entre las estrategias para reducir el error sistemtico se encuentran: calibracin de los instrumentos y realizacin de medidas ocultas. En general, los fabricantes de instrumentos de medicin suelen garantizar que el error total (aleatorio + sistemtico) de su equipo es inferior a cierto lmite, siempre y cuando el instrumento sea usado con las especificaciones definidas.

    Normalidad y anormalidad. Se dice que los datos son normales si el patrn sigue la forma de una curva normal o en forma de campana, en caso contrario se habla de datos con anormalidad. En el caso de datos normales, se pueden estimar intervalos de confianza alrededor de indicadores estadsticos de inters; en caso de anormalidad se pueden estimar niveles percentiles, que pueden estar alrededor del 95% y 97,5%, que depende del estudio que se est realizando.

    1.5 Conceptos en la aplicacin de los mtodos estadsticos

    A continuacin se describen algunos conceptos fundamentales para la aplicacin de los mtodos estadsticos.

    Poblacin. Se define de acuerdo con los objetivos del estudio, y est determinada por condiciones ambientales, de tiempo y espacio, entre otras. La poblacin se define como la totalidad de los elementos o individuos que tienen caractersticas similares y sobre los cuales se desean realizar inferencias o generalizaciones. Se deben definir claramente quines y qu caractersticas deben tener los objetos o sujetos del estudio, es decir, la poblacin.

    ESTADSTICA D ESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 11

  • VIVIANA VARGAS FRANCO

    Muestra. Es una parte seleccionada de la poblacin objeto de estudio y sobre la cual se van a realizar las mediciones. La muestra debe ser representativa con el fin de dar confiabilidad a las inferencias o generalizaciones a la poblacin. La muestra puede ser seleccionada con criterios probabilsticos o criterios no probabilsticos. En general, para el uso de la inferencia estadstica se requiere una muestra probabilstica. Para la seleccin de una muestra probabilstica se deben considerar los siguientes aspectos:

    Definir en forma precisa la poblacin Considerar el marco muestral (fuente de extraccin de unidades) Seleccionar el tipo de muestreo (depende de la poblacin, puede ser aleatorio, estratificado, por conglomerados, sistemtico, entre otros)

    Estimar el tamao de muestra (con criterios estadsticos, definir: nivel de confiabilidad deseado, nivel de precisin en la estimacin y nivel de variabilidad de las variables de inters)

    Definir un procedimiento de muestreo (cmo seleccionar los elementos de la poblacin) Seleccionar la muestra

    Una poblacin puede ser finita o infinita, pero la muestra siempre ser finita. La muestra puede ser de inters inmediato, pero importa principalmente describir la poblacin de la cual se tom. La escogencia de la muestra debe reflejar estrechamente las posibles caractersticas de la poblacin.

    Parmetro. Se refiere a un indicador estadstico que es calculado a travs de las observaciones o datos de la poblacin. El valor del parmetro es constante y generalmente desconocido, el cual se estima a travs de los datos de la muestra.

    Estadstico o estadgrafo. Se refiere a un indicador estadstico que es calculado de las observaciones o datos de la muestra. El valor del estadstico es conocido y vara con la muestra. En general estos indicadores son los que se pretenden generalizar a la poblacin a travs del proceso de inferencia estadstica. Los ms utilizados son: media aritmtica, desviacin estndar, momentos, coeficientes de correlacin, entre otros. La media muestral es un estadstico que permite estimar la media poblacional, que es un parmetro.

    Estimacin. Es el proceso estadstico mediante el cual se infieren o generalizan los datos de un estadstico a un parmetro, utilizando la teora de la probabilidad. Es decir, se generalizan los valores de los resultados muestrales a valores poblacionales.

    Distribucin de probabilidades. Es la forma de agrupacin de los datos. Existe un gran nmero de distribuciones asociadas a la forma de agrupacin y al tipo de variable de los datos. Algunos ejemplos de distribuciones son: normal, Poisson, geomtrica,

    12 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS

  • CAPITULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADlsTICOS

    hipergeomtrica, entre otras. Si los datos se aproximan a una de estas distribuciones, su modelo terico se puede utilizar para propsitos de toma de decisiones.

    1.6 Estadstica descriptiva vs estadstica inferencial Los mtodos estadsticos se pueden clasificar en dos fases: estadstica descriptiva y estadstica inferencia\. No es que existan dos estadsticas, las primeras son tcnicas descriptivas y las segundas inferenciales, estas ltimas se apoyan en los resultados de las tcnicas descriptivas y permiten generalizar de una muestra a una poblacin, utilizando la teora de la probabilidad, tal como se observa en la Figura 1.4.

    Estadistica descriptiva o estadlstica deductiva

    Univariada o multivariada

    1

    Inferencia estadlstica o estadlstica Inductiva

    Unlvariada o multivariada

    ( TEoRA DE LA PROBABILIDAD )

    1 Intervalos de confianza. Pruebas de hiptesis. Modelos de regresin. Modelos de diseo de experimentos. Modelos de series de tiempo. Anlisis multivariado. Geoestadstica.

    Presentacin grfica de datos. Medidas de tendencia central. Medidas de dispersin. Medidas de posicin. Distribucin de frecuencias.

    Meta-anlisis.

    Figura 1.4 Esquema de la relacin entre estadstica descriptiva e inferencial y sus principales procesos.

    La estadstica descriptiva, como su nombre lo indica, permite describir significativamente un conjunto de datos mediante la presentacin, organizacin y resumen en indicadores estadsticos. Las tcnicas con las cuales se resume el conjunto de datos son: las medidas de tendencia central, de dispersin, de posicin y el anlisis de distribucin de frecuencias; estos mtodos pueden ser de carcter univariado o multivariado, de acuerdo con los requerimientos del estudio. Generalmente despus del anlisis descriptivo se desarrolla el anlisis inferencia\.

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 13

  • VIVIANA VARGAS FRANCO

    El anlisis estadstico inferencial permite hacer un proceso inductivo para inferir sobre una medida estadstica, generalmente la media aritmtica, a la poblacin con base en observaciones de una muestra seleccionada en el estudio. Este tipo de anlisis utiliza la teora de la probabilidad para cuantificar el nivel de confianza de las conclusiones obtenidas (Behar, 1996). Algunos mtodos para realizar el proceso de inferencia estn conformados por modelos de diseo de experimentos, modelos de regresin, intervalos de confianza y pruebas de hiptesis.

    1.7 Definicin de variables Una variable es una caracterstica observable o medible en un objeto o sujeto de estudio, que puede adoptar diferentes valores o expresarse en varias categoras. Los valores que asumen las variables en cada uno de los sujetos son los datos. Tambin se entiende por variable una caracterstica observable relacionada con otros aspectos observables, estas relaciones pueden ser de causalidad, covariacin, dependencia y asociacin o influencia.

    En investigacin, las variables son los aspectos a medir y representan los conceptos estudiados, estas constituyen un elemento bsico de las hiptesis puesto que se construyen sobre la base de relaciones entre variables referentes a determinadas unidades de medicin. Es importante resaltar la importancia de las variables como elementos bsicos del mtodo cientfico, ya que la investigacin es, en ciertos aspectos fundamentales, una tarea de medir, analizar y concluir sobre variables de inters en un problema especfico.

    Una variable es medida utilizando una escala de medicin, la eleccin de la escala de medicin depende del tipo de variable y del manejo estadstico que se aplicar al conjunto de datos. Existe una correspondencia directa entre el concepto de variable y escala de medicin. Las variables pueden ser clasificadas como cuantitativas (intervalares) o cualitativas (categricas), dependiendo si los valores presentados tienen o no un orden de magnitud natural (cuantitativas), o simplemente un atributo no sometido a cuantificacin (cualitativa). Un diagrama donde se presentan la clasificacin de los principales tipos de variables y la relacin con la escala de medicin se presenta en la Figura 1.5.

    1.7.1 Variables cualitativas o categricas Son aquellas cuyos valores tienen un carcter de cualidad no susceptible, naturalmente de variacin numrica. Se clasifican en ordinales y nominales.

    Nominal, se denomina a la variable cualitativa que genera valores de cualidad, sin tener ellos ningn orden o jerarqua. Los nmeros asignados a las diversas categoras

    14 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS

  • CAPITULO 1 - FUNOAMENTOS DE LOS MTODOS ESTADlsTICOS

    ( CLASlFICACIN DE VARIABLES)

    CUALITATIVAS CUANTITATIVAS

    Escala de medicin

    INTERVALO RAZN

    Figura 1.5 Diagrama general de clasificacin de variables.

    del valor de las variables se consideran como etiquetas, pero no poseen el significado numrico usual , los valores tienen una naturaleza no-mtrica, no se puede decir que una categora es mejor que otra y la asignacin numrica es arbitraria. Algunos ejemplos de variables cualitativas nominales son: gnero, raza, profesin, credo religioso, color de ojos, partidos polticos y estado civil.

    Ordinal, se denomina a una variable que genera datos de cualidad y no de cantidad, los nmeros asignados a las diversas categoras se consideran etiquetas, pero se genera una relacin de orden que se preserva en el sistema numrico. Los nmeros que se asignan a los atributos deben respetar o conservar el orden de las caractersticas que se miden. El tipo de datos que resulta tiene naturaleza no-mtrica. A pesar del orden jerrquico no es posible obtener valoracin numrica lgica entre dos valores. Algunos ejemplos de variables cualitativas ordinales son: estrato socio-econmico, nivel de satisfaccin (acuerdo-total, acuerdo-parcial, desacuerdo-parcial y desacuerdo-total) y calificacin (E-excelente, S-satisfactorio, A-aceptable, D-deficiente, I-insuficiente).

    Las funciones de distribucin asociadas a una variable discreta son: uniforme discreta, Bemoulli , binomial , hypergeomtrica, Poisson, geomtrica, binomial negativa, Beta-binomial y logartmica.

    1.7.2 Variables cuantitativas Son aquellas donde las caractersticas o propiedades pueden presentarse en diversos grados o intensidad y poseen un carcter numrico. Las escalas cuantitativas son

    ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 15

  • VIVIANA VARGAS FRANCO

    reconocidas tambin como escalas intervalares o numricas. Estas se clasifican en continuas y discretas.

    Variables discretas, los valores de estas variables son enumerables y toman slo valores enteros. Ejemplos: nmero de hijos, nmero de carros, nmero de personas, nmero de productos y nmero de pacientes atendidos, entre otras. La escala de medicin es de intervalo.

    Variables continuas, son aquellas que pueden tomar infinitos valores dentro de un intervalo dado. Los valores de estas variables estn relacionados con los

    nmeros reales. Ejemplos: peso, estatura, salario y temperatura, entre otros. Las variables continuas presentan dos escalas de medicin: de intervalo y de razn.

    Escala de intervalo, se caracteriza por generar datos numricos, la diferencia entre dos medidas es significativa. En esta escala tienen sentido la suma y la resta de valores, pero no existe un cero absoluto ni las distancias entre los valores generan nocin de equivalencia. En esta escala no tiene sentido el concepto de divisin. Algunos ejemplos: puntuaciones en una prueba de razonamiento (IQ) y temperatura del agua.

    Por ejemplo, en esta escala es posible decir el mejor desempeo (IQ) que tuvo un estudiante en una prueba frente a otro; un nio con un IQ de 150 es mejor que un nio que obtuvo 75, pero no se puede decir que el primero tiene el doble de inteligencia que el segundo. En esta escala no hay un cero verdadero. El cero

    en temperatura Fahrenheit es una temperatura seleccionada al azar. El cero en centgrados corresponde a otra temperatura muy diferente. El resultado es que, a pesar de que 100C es el doble de 50C, en una temperatura de 100C no hace el doble de calor que en una de 50C.

    Escala de razn, es el nivel ms complejo en las escalas, tiene un origen natural, el cero absoluto, y al igual que en la escala de intervalo se generan medidas numricas y las diferencias son valores significativos. La resta y la divisin entre dos valores de esta escala tienen significado. Ejemplos: peso, estatura y edad, entre otros. Aqu tiene sentido hablar de que una persona pesa el doble de otra, o que alguien tiene el doble de aos que otra persona.

    En general las medidas dan origen a datos continuos, mientras que las enumeraciones

    o conteos originan datos discretos. Es siempre posible pasar de una escala a otra

    menos exigente. Ejemplo: los estudiantes pueden medirse en metros (variable

    continua-razn), pero pueden tambin ordenarse de mayor a menor, convirtindose

    en una variable ordinal.

    16 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS

  • CAPfTUlO 1 - FUNDAMENTOS DE lOS MTODOS ESTADfsTICOS

    En nivel de complejidad se puede clasificar como el ms simple, la escala nominal, seguido de la escala ordinal, posteriormente aparecen las escalas de intervalo y la escala de ms alto nivel de complejidad es la de razn. La importancia de esta clasificacin por niveles reside en el hecho de que mientras ms complejo o alto es el nivel de medicin, ms elaborados son los mtodos estadsticos que se pueden utilizar.

    Las funciones de distribucin asociadas a una variable continua son: uniforme, normal, exponencial, gamma, beta, Cauchy, Log normal, doble exponencial o Laplace, Weibull, Logstica, Gumbel y sistema Personiano.

    1.7.3 Otras clasificaciones

    Existe otro tipo de clasificaciones de las variables, las cuales se presentan a continuacin:

    Variables dependientes (1'): Reciben este nombre las variables a explicar, o sea, el objeto de una investigacin que se trata de explicar en funcin de otros elementos.

    Variables independientes (X): Son las variables explicativas, es decir, los factores o elementos susceptibles de explicar las variables dependientes (Y); en una investigacin de tipo experimental son las variables que se manipulan.

    Variables intermedias o intervinientes: En algunos casos de anlisis de relacin causa-efecto, se introducen una o ms variables de enlace interpretativo entre las variables dependientes e independientes.

    Variables explicatorias: Son las propiedades que interesan directamente al investigador en trminos de su modelo.

    Variables externas: Son las que estn fuera del inters terico inmediato y pueden afectar los resultados de la investigacin emprica.

    La clasificacin de las variables depende de cada investigacin en particular.

    1.8 Mtodos paramtricos y no paramtricos Dentro de los mtodos estadsticos se pueden distinguir los mtodos paramtricos y no paramtricos. La estadstica paramtrica se aplica principalmente a datos de tipo cuantitativo y cada tcnica tiene supuestos estadsticos que se deben cumplir para poder aplicar el mtodo; uno de los principales supuestos se refiere a la normalidad de la poblacin de la cual fue extrada la muestra, si no se cumple este supuesto, sobre todo en los casos en que la muestra es de tamao menor de 30 unidades, las conclusiones a las que se llegue podran ser errneas. Cuando las variables que se manejan no son de tipo cuantitativo o cuando no se cumplen

    ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 17

  • VIVIANA VARGAS FRANCO

    los supuestos estadsticos requeridos para las diferentes pruebas, se utilizan los mtodos no paramtricos.

    Los mtodos utilizados para las variables de tipo cuantitativo (intervalo o razn) son los mtodos paramtricos, los cuales presentan buenos niveles de confiabilidad en la prediccin. En las escalas cualitativas (nominales u ordinales) se utilizan los mtodos estadsticos no paramtricos, que no son tan precisos en su prediccin. En la Tabla 1.1 se presentan las principales caractersticas de los mtodos paramtricos y no paramtricos.

    Tabla 1.1 Principales caractersticas de los mtodos paramtricos y no paramtricos.

    Mtodos paramtricos Mtodos no paramtricos

    Se requieren conocimientos de teora de Se requieren conocimientos elementales la probabilidad, pruebas de hiptesis y a nivel matemtico. Son fciles de usar y funciones de distribucin, entre otros. entender.

    Se deben cumplir varios supuestos sobre los Se tienen pocos supuestos, los datos pue-datos de la poblacin: distribucin normal, den o no tener distribucin, es decir, libre varianzas iguales, entre otros. distribucin.

    Las variables deben ser cuantitativas, Se pueden utilizar con variables de tipo con escala de medicin de intervalo o de cualitativo con escalas de medicin ordinal razn. o nominal. Tambin se pueden utilizar en

    variables cuantitativas.

    Se pueden realizar anlisis multivariados. Presenta limitaciones en el anlisis multi-variado.

    Generalmente se requieren tamaos de Se pueden trabajar con muestras pequeas muestra grandes (n > 30). (n < 30).

    Se utiliza el total del conjunto de datos. Solo se utiliza parte del conjunto de da tos.

    Son mtodos eficientes y confiables esta- No son tan eficientes estadsticamente, dsticamente. presentan una mayor probabilidad de

    rechazar una hiptesis nula falsa (error Tipo 11).

    1.9 Mtodos estadsticos por tipo de variable Un aspecto a considerar en una investigacin es definir el tipo de anlisis estadstico que se debe realizar dependiendo de las variables y su escala de medicin. Como una gua se presentan en la Tabla 1.2 los diversos mtodos estadsticos que se pueden aplicar segn el tipo de variable y su escala de medicin.

    18 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPrTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADrSTICDS

    Tabla 1.2 Clasificacin de mtodos estadsticos dependiente del tipo de variable y su escala de medicin.

    M6todo a utilizar Tipo de variable Estadistica Estadistica inferencial Estadistica infarancial

    descriptiva paramtrica no param6trica Anlisis de Tabulacin cruza-correspondencias. da: Chi-cuadrado, Anlisis de correlacin

    moda cannica no lineal. Mcnemar, Cochran, nominal frecuencias Anlisis de Coeficiente de contin-

    homogeneidad. gencia, Phi, Cramer's V, Lambda Modelos de regresin de Rachas. eleccin discreta. Anlisis de

    Cualitativa correspondencias. Tabulacin cruzada: Anlisis de correlacin Chi-cuadrado, Gamma, cannica no lineal.

    Anlisis de Somer's d, Kendall's,

    moda homogeneidad. Taub, Kendall's tauc. Kruskal-Wallis. ordinal frecuencias Anlisis de componentes Prueba de la mediana. mediana principales Friedman. categrico. Mann-Whitney. Regresin categrica. Wilcoxon. Modelos de regresin de Rachas. eleccin discreta-ordenados. Anlisis de

    correspondencias. Tabulacin cruzada: Anlisis de correlacin Chi-cuadrado, Gamma, cannica no lineal. Anlisis de Somer's d, Kendall's,

    moda homogeneidad. Tau-b, Kendall's tau-c. Kruskal-Wallis. discreta frecuencias Anlisis de componentes Prueba de la mediana. mediana principales Friedman. categrico. Mann-Whitney. Regresin categrica. Wilcoxon. Cuantitativa

    Modelos de regresin de Rachas. eleccin discreta-ordenados.

    Estimacin puntual y por intervalo. Kruskal-Wallis.

    Pruebas de hiptesis. Prueba de la mediana. ANOVA. Mann-Whitney.

    continua Todas MANOVA. Wilcoxon. Anlisis de componentes Signo.

    principales. Rachas. Modelo de regresin Chi-cuadrado.

    lineal simple y mltiple.

    ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 19

  • VIVIANA VARGAS FRANCO

    1.10 Etapas generales en la construccin de un modelo estadstico Como una gua y no como una norma inflexible, se pueden delinear las siguientes etapas en la construccin de un modelo o procesamiento estadstico (Quiroga).

    Caracterizacin del problema

    En esta etapa se deben definir los diferentes aspectos del problema, con el fin de lograr una idea global del mismo, considerando en lo posible ir de lo simple a lo complejo, de las partes al todo. En este aspecto se pueden seguir los siguientes pasos:

    El sistema. Definicin del sistema y los diversos componentes del sistema, de acuerdo con el problema, su delimitacin, los diversos componentes y sus relaciones.

    Justificacin. Se debe definir el porqu y el para qu de la investigacin y del estudio del sistema, aclarando los elementos tericos sobre el problema y sus fuentes, realizando una revisin del estado del arte. Se deben definir el tipo de parmetros, variables y supuestos sobre sus relaciones; de causalidad o de correlacin. As mismo, se deben definir variables de respuesta, variables de estado, variables endgenas y/o exgenas y la caracterizacin de informacin disponible, en inventario y tamao.

    Definicin de objetivos e hiptesis

    Se deben plantear los objetivos e hiptesis generales en relacin con el problema

    objeto de la investigacin. Las hiptesis deben basarse principalmente en la

    naturaleza misma del fenmeno o sistema, apoyadas en teoras, experiencias y

    criterios de personas que conozcan la problemtica estudiada. Se deben definir

    alternativas de modelos y su aplicacin.

    Marco terico

    De acuerdo con las hiptesis, se deben exponer los elementos tericos fundamentales de la investigacin y de carcter estadstico que permitirn la construccin, el desarrollo y aplicacin de los modelos estadsticos.

    Diseo de metodologas estadsticas

    Se debe caracterizar el proceso de muestreo o el diseo experimental utilizado para la obtencin de las observaciones, definiendo limitaciones y cobertura (poblacin y muestra). As mismo, definir los parmetros y las variables, su caracterizacin y su nivel de importancia: cules variables se observan?, cmo se observan?, cules se generan? y cmo se generan? Las variables deben clasificarse segn diferentes criterios (aleatoria, determinstica, de respuesta, independiente, dependiente, observable, no observable, generada, endgena, exgena, de estado, controlada, no

    20 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPrTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADrSTICOS

    controlada y covariable, entre otras). Debe juzgarse su grado de variabilidad, los posibles factores que la determinan y definir sus categoras.

    En la caracterizacin de parmetros deben explicarse su interpretacin y su papel en el sistema o fenmeno. Del mismo modo, describir los mtodos de estimacin de parmetros, propiedades, errores estndar y criterios para evaluarlos. Se deben describir y explicar la docimasia de hiptesis estadsticas. Qu supuestos se deben validar? Cul es su importancia? Cmo validarlos? Se deben describir y explicar los mtodos y formas de aplicacin del modelo construido y validado, sus alcances, limitaciones y ventajas.

    ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 21

  • CAPrTULO 1 - FUNDAMENTOS DE LOS MTODOS ESTADrSTICOS

    controlada y covariable, entre otras). Debe juzgarse su grado de variabilidad, los posibles factores que la determinan y definir sus categoras.

    En la caracterizacin de parmetros deben explicarse su interpretacin y su papel en el sistema o fenmeno. Del mismo modo, describir los mtodos de estimacin de parmetros, propiedades, errores estndar y criterios para evaluarlos. Se deben describir y explicar la docimasia de hiptesis estadsticas. Qu supuestos se deben validar? Cul es su importancia? Cmo validarlos? Se deben describir y explicar los mtodos y formas de aplicacin del modelo construido y validado, sus alcances, limitaciones y ventajas.

    ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 21

  • CAPTULO

    2 Medidas descriptivas

    Este captulo presenta las principales medidas descriptivas de tendencia central y dispersin utilizadas para el resumen de un conjunto de datos. Una medida descriptiva es un valor que caracteriza las observaciones resumindolas en medidas de tendencia central, dispersin o variabilidad y forma o asociacin.

    Las medidas de tendencia central describen valores tpicos que se encuentran entre el valor mnimo y el valor mximo observado en el conjunto de datos. Las medidas de dispersin o variabilidad describen en qu medida los valores de un conjunto de datos son distintos entre s o con respecto a una medida de centralidad. Las medidas de forma describen las caractersticas de una distribucin de frecuencias de un conjunto de datos. Las medidas de asociacin, para el caso de dos o ms variables, muestran el grado de asociacin entre estas variables y cmo estn relacionadas.

    2.1 Medidas de tendencia central Estas medidas permiten describir el grado de centralidad de un conjunto de datos. Son valores que representan un valor central hacia el cual tiene tendencia a concentrarse el conjunto de datos. Entre las medidas de tendencia central se destacan:

    Media: aritmtica geomtrica

    ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 23

  • VIVIANA VARGAS FRANCO

    armnica cuadrtica rango medio ponderada

    Mediana

    Moda

    Las medidas de centralidad ms utilizadas son la media aritmtica, mediana y moda. En algunos textos al clculo de estas tres medidas se le denomina promedio.

    2.1.1 Media

    2.1.1.1 Meda aritmtica

    Es la medida ms utilizada en el anlisis de un conjunto de datos, es un valor central que toma en cuenta todos los valores que aparecen en el conjunto de datos y las distancias relativas a estos valores. Los valores tienen la misma importancia en el grupo de datos.

    Su analoga fisica se puede comparar con el centro de masa de una coleccin de masas de una dimensin, tal como se presenta en la Figura 2.1

    o O O O! O

    Figura 2.1 Representacin grfica del concepto de media.

    La media aritmtica es la suma de los valores de la variable sobre el nmero de datos en anlisis, la notacin en la muestra es diferente que en la poblacin.

    Si XI' X]' X j , , X n _ l' X n representan los valores de una variable en una muestra, entonces la media aritmtica se calcula por medio de la ecuacin 2.1.

    11

    X=XI+XZ+Xj + ... +Xn _~Xi LX ---=-- . (2.1) n n n

    X . (se lee "X barra" o "X trazo ''): media de un conjunto de datos provenientes de una muestra n : nmero de datos de una muestra

    I : (es la letra griega mayscula sigma): signo de suma/aria (se lee "suma de'')

    Cuando los datos representan el total de la poblacin, la notacin de la media es diferente de la media de los datos muestrales.

    24 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPITULO 2 - MEDIDAS DESCRIPTIVAS

    Si XI' X]' XJ , ............ , X N _ l' XN representan los valores de una variable en una poblacin, entonces la media aritmtica se calcula por medio de la ecuacin 2.2.

    N

    ,L .. Ix ~X XI+X]+XJ+'" +XN ~ p= =--=-- (2.2) N N N

    f.l : (es la letra griega minscula mu): media de un conj unto de datos provenientes de una poblacin N : nmero de datos de una poblacin

    La media aritmtica poblacional se estima a partir de la media aritmtica muestral utilizando la teora de la probabilidad.

    En estudios ambientales o de ingeniera sanitaria en muy pocas oportunidades se cuenta con los datos poblacionales, muy frecuentemente se tienen conjuntos de datos provenientes de una muestra, considerando que generalmente los fenmenos naturales tienen poblacin infinita, lo cual impide obtener los datos de la poblacin. Por ejemplo, para estimar la calidad de agua de una fuente de agua o la calidad del aire en una determinada zona, tener la poblacin es equivalente a analizar "toda" el agua del ro o "todo" el aire de la zona de estudio, lo cual no es posible. Esto refuerza la importancia de la estimacin de la media poblacional a partir de la media muestral.

    La media aritmtica no siempre tiene sentido conceptual o validez real. Por ejemplo, si en un muestreo de calidad de agua se tiene un valor de pH de 4 unidades, es decir cido, y un valor de pH de 8 unidades, es decir bsico, el promedio del agua dara un pH de 6 unidades, es decir neutro, lo cual no tendra sentido desde el punto de vista real, por 10 anterior es necesario analizar la validez lgica y real de esta medida antes de ser utilizada.

    La media aritmtica slo tiene sentido para datos cuantitativos, ya sean estos de carcter discreto o continuo, pues no se puede promediar el sexo, que toma categoras de femenino y masculino, as estas estn categorizadas como y 1, debido a que la media dara 0,5, que no tiene sentido ni representacin real. En el presente texto la media aritmtica se denominar media o promedio. En la Tabla 2.1 se presentan algunas ventajas y limitaciones de la media aritmtica.

    ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 25

  • V IVIANA VARGAS FRANCO

    Tabla 2.1 Ventajas y limitaciones de la media aritmtica.

    Ventajas Limitaciones

    Es la medida estadstica ms comnmente Es fuertemente afectada por los valores ex empleada. tremos, ya sean valores mximos o mnimos

    Es fcil de calcular y entender. Y por consiguiente puede estar lejos de ser

    Se pueden realizar clculos algebraicos. una representacin de la muestra.

    En su clculo se incluye cada uno de los No es conveniente utilizarla en: conjunto

    datos de la muestra o la poblacin. de datos demasiado heterogneos, cuando

    Es un valor nico para cada conjunto de los datos sean proporcionales o estn en

    datos. progresin geomtrica.

    Las unidades son las mismas de la variable Se debe analizar junto con medidas de

    analizada. dispersin.

    La distribucin de las medias que se obtienen Se debe acompaar por otras medidas de

    de muestreos repetidos de una poblacin se tendencia central, tales como la mediana y

    conoce y es de gran utilidad en el proceso de la moda.

    inferencia. Generalmente es la distribucin Slo tiene sentido en variables cuantitati

    normal. vas.

    Ejemplo 2.1 Un monitoreo de la calidad de agua en una fuente superficial, en la variable turbiedad, presenta los siguientes resultados:

    7

    X; Datos primer muestreo: 5; 4; 5; 4; 8; 10,' 9 (UNT) -+ X = ~= 6,4 (UNT)

    7

    Con una muestra adicional: 12 (UNT)

    Con otra muestra adicional: 150 (UNT)

    Con otra muestra adicional: 320 (UNT)

    (UNT Unidades Nefelomtricas de Turbiedad)

    8

    X; -+ X=~= 7,1 (UNT)

    8 9

    X; -+ X=~= 23(UNT)

    9 10

    x; -+ X=~= 52,7 (UNT)

    10

    -,

    26 ESTADSTICA D ESCRIPTIVA PARA INGENIERA AMBIENTAL CON SPss

  • CAPfTULO 2 - MEDIDAS DESCRIPTIVAS

    Considerando el primer muestreo, la media de turbiedad para la fuente superficial es 6,4 UNT, valor que indica el centro del conjunto de datos. A medida que se adicionan valores extremos de turbiedad, la media incrementa su valor significativamente. Un solo dato extremo altera el valor de la media de manera significativa.

    El valor de la media para datos homogneos es un buen indicador del grado de centralidad de un conjunto de datos; sin embargo, es una medida fuertemente afectada por valores extremos, y esto es una gran limitacin para el uso de este indicador estadstico sin el anlisis conjunto de otras medidas de centralidad o dispersin.

    2.1.1.2 Propiedades del operador sumatoria

    A continuacin se presentan las principales propiedades del operador sumatoria, las cuales permiten comprobar algunas propiedades de la media.

    n e = ne donde e es constante y n el nmero de datos ; = /

    n n

    eX;=eX; ; = / ; = /

    11

    X=nX ; = /

    n n n

    (aX;bYj=aX;bY; ; = / ; = / ; = /

    n

    "x. I 11 - . / " - X=~-X.=nX

    n ;=/ I

    2.1.1.3 Propiedades de la media

    La suma de las desviaciones de los datos con respecto a la media es cero. Esta propiedad surge del hecho de que la media es el punto de equilibrio de la distribucin, tal como se presenta en la ecuacin 2.3. La media es la nica medida de tendencia central que cumple esta propiedad.

    n

    (X-X)= 0 (2.3) ;=/

    ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 27

  • VIVIANA VARGAS FRANCO

    Demostracin: Aplicando propiedades del operador sumatoria se tiene el siguiente proceso:

    n n n n

    I(X-X)= Ix;- IX= IX-nX=nX-nX=O = 1 = 1 = 1 = 1

    Las sumas de los cuadrados de las desviaciones a partir de la media aritmtica es menor que la suma de cuadrados de las desviaciones a partir de cualquier otro valor. En forma algebraica:

    I (X-xy es mnima. Si cada uno de los datos de una variable toma valores constantes (k) , la media

    ser igual al valor de la constante. En trminos algebraicos:

    Si X= k , para todo i = 1,2, ..... n, entonces X= k .

    Si cada uno de los datos de una variable es afectado aditivamente (negativamente) por una constante (k) , la media de la nueva variable es equivalente a sumar (restar) la constante a la media de la variable original. Enforma algebraica:

    Si Y = k X,para todo i = 1,2, ..... n , entonces Y= k X.

    Si cada uno de los datos de una variable es afectado multiplicativamente por una constante (k) , la media de la nueva variable es equivalente a multiplicar la constante por la media de la variable original. Enforma algebraica:

    Si Y = kX , para todo i = 1, 2, ..... n , entonces Y = kX.

    Si cada uno de los datos de una variable es dividido por una constante (k) , entonces la media de la nueva variable es la media de la variable original, dividida por la constante. Algebraicamente:

    X -Si Y. = -'- , para todo i = 1, 2, ..... n , entonces Y = X

    , k k

    Si se genera una variable como la combinacin lineal de dos variables, la media de la nueva variable ser la combinacin lineal de las medias de las variables originales. Algebraicamente:

    Si Z = aX + bY , para todo i = 1,2, ..... n, entonces Z = aX + bY.

    En general, de todas las medidas utilizadas para calcular la tendencia central de una poblacin, la media es la menos sujeta a variacin debida a cambios en la muestra.

    28 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPiTULO 2 - MEDIDAS DESCRIPTIVAS

    La media es la medida de tendencia central ms utilizada en estadstica, pues emplea los datos disponibles de una variable y tiene una fuerte aplicabilidad en el proceso de inferir de una muestra a una poblacin, debido a que las distribuciones de medias que se obtienen de muestreos repetidos de una poblacin se conocen y son de gran utilidad en el proceso de inferencia.

    2.1.1.4 Media geomtrica

    Esta es una medida de centralidad que se utiliza generalmente cuando los valores dependen del tiempo; varan de manera no lineal o cuando existe un alto grado de heterogeneidad en el conjunto de datos.

    La media geomtrica de un conjunto de datos XI' Xl' X] , ...... , XII _I , XII de una muestra se define como la raz n-sima de la multiplicacin del conjunto de datos y se calcula como se presenta en la ecuacin 2.4.

    (2.4)

    Para facilitar el clculo se aplica la funcin log a ambos lados de la ecuacin:

    _1 - -log ( XI' Xl' XII) n

    _1 - - ( log XI + log Xl + ... + log XII) n

    generando la ecuacin 2.5. 11

    Llog(X/)

    l X ..:.../ ---=1'---__ og g= n

    (2.5)

    Entonces para hallar la media geomtrica se aplica la foncin exponencial en base 10, a ambos lados de la igualdad, generando:

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 29

  • VIVIANA VARGAS FRANCO

    Cuando los datos representan el total de la poblacin la notacin de la media geomtrica se presenta a continuacin.

    La media geomtrica de un conjunto de datos Xl' X]' X 3 , , XN _1' XN de una poblacin, se define como la raz N-sima de la multiplicacin del conjunto de datos y se calcula como se presenta en la ecuacin 2.6.

    Ilg = ~ XJ' X]' X 3 ' oo. XN_J' XN (2.6)

    El empleo de la media geomtrica es equivalente a realizar una transformacin de la variable original X , en log(X) y el posterior clculo de la media aritmtica a la nueva variable, para obtener ellogaritrno de la media geomtrica. Por ejemplo, si la variable abarca un campo de variacin muy grande, tal como el porcentaje de impureza de un producto qumico (por lo general alrededor del 0.1 %, pero en ocasiones llega incluso al 1 % o ms); en este caso es conveniente el empleo de log X en lugar de X para obtener una distribucin ms simtrica y una aproximacin ms cercana a la curva nOffilal. En la Tabla 2.2 se presentan algunas ventajas y limitaciones de la media geomtrica.

    Tabla 2.2 Ventajas y limitaciones de la media geomtrica

    Ventajas Limitaciones

    Es una medida resistente a datos extremos, pero No es fcil de calcular y para un nmero considera mite detectar en un conjunto muy heterogneo, ble de datos (n > 150), se presentan limitaciones una medida de tendencia central confiable. en el programa Excel. En el programa SPSS

    Las unidades de la media geomtrica son las no est considerada dentro de las rutinas ms mismas de la variable. comunes.

    Se pueden realizar clculos algebraicos. Puede presentar limitaciones en su interpreta En su clculo se incluye cada uno de los datos de cin.

    la muestra. Cuando existe uno o varios valores de la variable Es un valor nico para un conjunto de datos. iguales a cero, el valor de la media geomtrica Es muy til cuando el conjunto de datos represen toma automticamente el valor de cero.

    ta aumentos o disminuciones porcentuales. Slo se puede calcular cuando la raz nsima Se utiliza para promediar valores cuyo crecimiento exista.

    sea en progresin geomtrica. Programas como Excel no validan el signo del producto y siempre que hay valores negativos no la calcula.

    Slo tiene sentido en variables de carcter cuan titativo.

    El desarrollo algebraico de esta medida puede tener un grado de complejidad mayor que el desarrollo de la media aritmtica.

    30 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPTULO 2 - MEDIDAS DESCRIPTIVAS

    Ejemplo 2.2 Considerando la situacin del ejemplo 2.1 se calcula la media geomtrica:

    Datos del primer muestreo:

    5; 4; 5; 4; 8; 10; 9 (UNT) x =~x.x"x = 6 (UNT' g I 2 7 / Considerando una muestra adicional:

    12 (UNT) -+ Xg = ~ XI Xl Xa = 6,6 (UNT) Considerando otra muestra adicional:

    150 (UNT) -+ ~ = ~ Xl Xl X 9 = 9,3 (UNT) Considerando otra muestra adicional:

    _ ~ol 320 (UNT) -+ X g = 'IJ Xl Xl XJO = 13,2 (UNT)

    La media geomtrica para los datos del primer muestreo es 6 UNTya medida que se incorporan datos extremos la media geomtrica se incrementa levemente en comparacin con la alteracin que presentan las medias aritmticas calculadas en el ejemplo 2.1 .

    El valor de la media geomtrica es considerablemente menos afectado por valores extremos en comparacin con los valores de la media aritmtica, generando una medida ms cercana a la centralidad del conjunto de datos cuando el conjunto

    de datos es heterogneo.

    2.1.1.5 Media armnica

    Equivale a la transformacin del conjunto de datos originales en el recproco de cada dato, l/X, y luego se calcula la media de los datos transformados, es el recproco de X. Su campo de aplicacin es bastante restringido. Es til al promediar velocidades, volmenes de ventas y cuando la variable crece en progresin armnica.

    La media armnica de un conjunto de datos XI' X 2 , Xl' ............ , XII _I' XII provenientes de una muestra se define como la media de los recprocos del

    conjunto de datos, tal como se presenta en la ecuacin 2.7.

    1 n 11 1 I-

    =I X (2.7)

    n

    Siempre que X :; O

    ESTADSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 31

  • VIVIANA VARGAS FRANCO

    Para un conjunto de datos provenientes de una poblacin se calcula como se presenta a continuacin.

    La media armnica de un conjunto de datos XI' X]' X 3 , , X N _I' X N provenientes de una poblacin se define como la media de los recprocos del conjunto de datos, tal como se presenta en la ecuacin 2.8.

    1 N

    #"=7f~) L...x. ;=1 t

    N 1 Ix. ;-1 ,

    (2.8)

    N

    Siempre que X '* O La relacin entre las medias aritmtica, geomtrica y armnica se presenta en la desigualdad 2.9.

    X" :5 Xg :5 X (2.9)

    La media armnica es la ms resistente a valores extremos, seguida por la media geomtrica y luego la media aritmtica. Las fortalezas de la media aritmtica son sus propiedades, las cuales permiten desarrollos algebraicos y propiedades importantes para la inferencia estadstica y la distribucin normal que presenta la familia de medias de un estudio.

    Ejemplo 2.3 Considerando la situacin del ejemplo 2.1 se calcula la media armnica:

    Datos del primer muestreo:

    x= 7

    5,7 (UNT) 5; 4; 5; 4; 8; 10; 9 (UNT) -+ " 7 1 I-/_/ X

    Con una muestra adicional:

    X= 8

    6,1 (UNT) 12 (UNT) -+ " 8 1 I-~/ X

    Con otra muestra adicional:

    X= 9

    6,8 (UNT) 150 (UNT) -+ h 9 1 I-_/ Xi

    Con otra muestra adicional:

    32 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPfTULO 2 - MEDIDAS DESCRIPTIVAS

    320 (UNT) 7,5 (UNT)

    El valor de la media armnica para turbiedad en el primer muestreo es 5, 7 UNT, ya medida que se adicionan valores extremos a la muestra el valor de la media armnica no se incrementa significativamente.

    Como se puede observar, a travs de los ejemplos 2.1, 2.2 Y 2.3, se cumple la relacin de desigualdad presentada en la ecuacin 2.9 entre las medias armnica, geomtrica y aritmtica. La media armnica genera los menores valores de centralidad del conjunto de datos y es la que menor impacto presenta por valores extremos. Sin embargo, esta medida presenta limitaciones en su manejo algebraico y no existe cuando algn dato toma el valor de cero. As mismo no posee ventajas en su distribucin.

    2.1.1.6 Media cuadrtica

    Es otra medida de tendencia central, que consiste en elevar al cuadrado los valores y generar la raz cuadrada de la media aritmtica de estos nuevos valores, es poco afectada por valores extremos, pero presenta pocas ventajas algebraicas y de distribucin.

    La media cuadrtica de un conjunto de datos Xl' X 2 , X 3 , ............ , Xn_l' X n provenientes de una muestra se define como se presenta en la ecuacin 2.10.

    -2 r;Zx/ X=

    n (2.10)

    Xl es la notacin para la media cuadrtica muestral

    Cuando los datos representan la totalidad de una poblacin la definicin de la media cuadrtica se presenta a continuacin.

    La media cuadrtica de un conjunto de datos XI' X 2 , X 3 , ............ , X N _I' X N provenientes de una poblacin se define como se presenta en la ecuacin 2.11.

    2 ~~X/ p. =

    N (2.11)

    p.2 es la notacin para la media cuadrtica poblacional

    ESTADfsTICA D ESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 33

  • VIVIANA VARGAS FRANCO

    Ejemplo 2.4 Considerando la situacin del ejemplo 2.1 se calcula la media cuadrtica:

    Datos del primer muestreo:

    5; 4; 5; 4; 8; 10; 9 (UNT) -+ ~ X/ X 2 = ;=17 = 6,8 (UNT) Con un dato adicional:

    12 (UNT) -+ [f; X/ X 2 = ;=18 = 7,7 (UNT) Con otro dato adicional:

    150 (UNT) -+ ~ X/ X2 = ;=19 = 50,5 (UNT) Con otro dato adicional:

    ~o

    X/ X 2 = ; = 1 = 112 (UNT)

    10

    320 (UNT) -+

    El valor de la media cuadrtica para turbiedad en el primer muestreo es 6,8 UNT, pero a medida que se adicionan valores extremos el valor de la media cuadrtica aumenta significativamente.

    La media cuadrtica presenta ms variabilidad que la media aritmtica. Esta medida es fuertemente afectada por valores extremos.

    2.1.1.7 Rango meda o semrrango

    Otro valor representativo de importancia, sobre todo cuando se necesita rpidamente una medida de centralidad es el rango medio o semirrango.

    El rango medio se define como la media aritmtica del valor mximo y el valor mnimo de un conjunto de datos y se calcula como se presenta en la ecuacin 2.12.

    X mn +Xmx RM = ~~--.:.=- (2.12) 2

    Donde X mn es el valor mnimo y X mx es el valor mximo del conjunto de datos.

    34 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPfTULO 2 - MEDIDAS DESCRIPTIVAS

    Aunque el rango medio se calcula fcil y rpidamente, a menudo es ineficiente porque ignora la informacin contenida en los trminos intermedios. As mismo puede que no sea representativo, en el caso de que alguno de los valores mximo o mnimo, sean valores especiales o atpicos dentro del conjunto de datos.

    Ejemplo 2.5 Considerando la situacin del ejemplo 2.1 se calcula el rango medio:

    Datos del primer muestreo:

    5; 4; 5; 4; 8; 10; 9 (UNT) ~ RM= X min +Xm6x = 7 (UNT)

    2 Con un dato adicional:

    12 (UNT) ~ RM= X min + X m6x =8 (UNT)

    2 Con otro dato adicional:

    150 (UNT) ~ RM= X mn +Xm6x = 77 (UNT)

    2

    Con otro dato adicional:

    320 (UNT) ~ RM= X min +Xm6x =162 (UNT)

    2

    El rango medio para turbiedad en el primer muestreo es 7 UNT; sin embargo, cuando se adicionan datos extremos esta media aumenta significativamente.

    El valor del rango medio presenta una variacin similar al valor de la media aritmtica, por su definicin es afectada por los valores extremos.

    2.1.1.8 Media ponderada

    Cuando se conoce la media de varios grupos de datos y el nmero de datos en cada grupo, se puede calcular la media global que se conoce como la media ponderada, mediante la ecuacin 2.13.

    (2.13)

    En el siguiente ejemplo se ilustra su uso.

    ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 35

  • VIVIANA VARGAS FRANCO

    Ejemplo 2.6 Se ha realizado un monitoreo de 4 meses sobre la calidad de agua en slidos suspendidos (mg/l), en el afluente de una planta de tratamiento de agua potable. Las medias mensuales se presentan a continuacin:

    S61idos suspendidos (mall) Mes 1 Mes 2 Mes 3 Mes 4

    X 9,8 11,4 7,5 10,5

    n 13 18 20 15

    Para el clculo de la media se utiliza la media ponderada, descrita en la ecuacin 2.13

    Xp (13 9,8) + (18 11,4) + (20 7,5) + (1510,5)

    13 + 18 + 20 + 15

    Xp = 9,7 mg/l

    Es decir, la media de slidos suspendidos en el afluente de la planta durante los 4 meses fue de 9, 7 mg/l

    2.1.2 A4ediana Es la segunda medida ms utilizada despus de la media aritmtica para estimar el centro de un conjunto de datos. Para hallar la mediana de un conjunto de datos estos deben ser inicialmente puestos en orden de magnitud, de manera creciente o decreciente. La mediana es el elemento central del conjunto de datos, es una medida de posicin; hay el mismo nmero de observaciones a la derecha y a la izquierda del valor de la mediana.

    La mediana divide la distribucin de los datos en el punto medio; el 50% de los datos est por encima de la mediana y el otro 50% est por debajo de la mediana, es decir, es el valor que divide el conjunto de datos en dos grupos iguales.

    Si Xl' X 2 , Xj , , X n -1' X n representan los valores ordenados de forma ascendente o descendente de una variable seleccionada de una muestra, entonces la mediana se calcula mediante la ecuacin 2.14.

    Xn+l 2

    si n es impar

    Me =ixn+xn (2.14) - - +1 2 2 si n es par

    2

    36 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

  • CAPITULO 2 - MEDIDAS DESCRIPTIVAS

    Cuando los datos representan la totalidad de una poblacin la frmula de la mediana se presenta a continuacin:

    Si XI' X]' X 3 , , XN - 1' XN representan los valores ordenados de forma ascendente o descendente de una variable seleccionada de una poblacin, entonces la mediana se calcula mediante la ecuacin 2.15.

    XN+ I si N es impar -]

    M= XN+XN (2.15)

    e - -+1 ] 2 si N espar

    2

    Si el nmero de datos es impar, la mediana es el dato del centro del conjunto de datos. Una vez los datos se ordenen en forma ascendente o descendente. Los datos que se repiten deben ser ordenados, tambin, en su secuencia lgica. Si el nmero de datos es par, la mediana es la media de los dos datos del centro. En la Tabla 2.3 se presentan algunas ventajas y limitaciones de la mediana.

    Tabla 2.3 Ventajas y limitaciones de la mediana.

    Ventajas Limitaciones

    Su valor no se ve afectado por datos extre Es afectada por el nmero de observaciones, mos y por lo tanto es una medida de impor pero no por su magnitud. tancia cuando se presenta esta situacin en

    En general la mediana es menos estable que un conjunto de datos. la media de una muestra a otra, por lo tanto

    Es fcil de calcular y entender. no es tan til en la estadstica inferencial.

    las unidades de la mediana son las mismas los datos deben ser ordenados antes de de la variable. calcular la mediana.

    Se puede hallar en variables cualitativas y Su definicin no permite realizar procesos cuantitativas. algebraicos.

    Es un valor nico para un conjunto de da tos.

    Cuando los datos tienen una marcada asi metra, es mejor representar la tendencia central con la mediana que con la media.

    ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 37

  • VIVIANA VARGAS FRANCO

    Ejemplo 2. 7 Considerando la situacin del ejemplo 2.1 se calcula la mediana:

    Datos del primer muestreo (n=7):

    5; 4; 5; 4; 8; 10; 9 (UNT) -+ Me =X7 +/ =X4 = 5 (UNT)

    Con un dato adicional (n=8):

    12 (UNT) -+

    Con otro dato adicional (n=9):

    2

    Xi + X~ + /= X 4 : X s = 6,5 (UNT) M= '" e

    150 (UNT) -+ Me = X 9 +/ =Xs = 8 (UNT)

    Con otro dato adicional (n=10):

    320 (UNT) -+ Me

    2

    X IO + X/o - -+/ 2 2

    2 X s + X6 = 8,5 (UNT)

    La mediana para la turbiedad en el primer muestreo es 5 UNT, es decir, el 50% de los datos son menores a 5 UNTy el 50% son mayores a 5 UNT A medida que se adicionan datos extremos esta medida vara levemente.

    El valor de la mediana es el valor central de la distribucin de datos, es una medida bastante resistente a valores extremos, por lo tanto es una buena medida de centralidad del conjunto de datos.

    2.1.3 Moda Como su nombre lo indica, representa el valor o valores que tienen la mayor frecuencia en el conjunto de datos; son los valores que ms se repiten, ya sean estos muestrales o poblacionales. En un conjunto de datos puede no existir un valor modal o existir una o ms modas. Cuando hay una moda, el conjunto de datos se denomina unimodal, en el caso de dos modas se denomina bimodal, en el caso de tres modas se denomina tri modal y en el caso de ms modas se denomina multimodal. La moda se representa como M o para datos muestrales o poblacionales. En la Tabla 2.4 se muestran algunas ventajas y limitaciones de la moda.

    38 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

  • CAPrTULO 2 - MEDIDAS DESCRIPTIVAS

    Tabla 2.4 Ventajas y limitaciones de la moda.

    Ventajas Limitaciones

    Es fcil de calcular y entender. La moda no necesariamente ocurrir como un valor central.

    Las unidades de la moda son las mismas de La moda no siempre existe.

    la variable. No se pueden realizar procesos algebrai-

    cos.

    No requiere clculo. No presenta mucha utilidad con pocos datos

    en el conjunto de anlisis. En general cuando el conjunto de datos no

    Puede utilizarse para datos cualitativos y resulta unimodal se debe a posibles fallas datos cuantitativos. en el muestreo o fal ta de homogeneidad de los mismos.

    No es afectada por datos extremos aisla- A pesar de describirse como una medida

    de centralidad, cuando los datos no son dos. simtricos, no la representa.

    Ejemplo 2.8 Considerando la situacin del ejemplo 2.1, se estima la moda:

    Primer muestreo:

    5; 4; 5; 4; 8; 10; 9 (UNT) -+ Mol = 4 (UNT) Y Mol = 5 (UNT) Con un dato adicional:

    12 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT) Con otro dato adicional:

    150 (UNT) -+ MOl = 4 (UNT) y Mol = 5 (UNT) Con otro dato adicional:

    320 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT)

    Los datos del primer muestreo presentan dos modas, es decir, es un conjunto de datos bimodal; los valores que mayor frecuencia presentan en turbiedad son 4 UNT y 5 UNT A medida que se incorporan datos extremos al conjunto de datos las modas se mantienen constantes, en este caso especfico.

    Si se obtienen diferentes muestras de una poblacin en forma aleatoria, la media varia en cada una de ellas, lo mismo sucede con la mediana y la moda. Sin embargo, la media var