52
La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos , busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional . Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica . Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales , desde las ciencias de la salud hasta el control de calidad . Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales . La estadística se divide en dos grandes áreas: 1. Estadística descriptiva : Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar . Algunos ejemplos gráficos son: histograma , pirámide poblacional , gráfico circular , entre otros. 2. Estadística inferencial : Se dedica a la generación de los modelos , inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis ), estimaciones de unas características numéricas (estimación ), pronósticos de futuras observaciones, descripciones de asociación (correlación ) o modelamiento de relaciones entre variables (análisis de regresión ). Otras técnicas

Estadistica

Embed Size (px)

Citation preview

Laestadsticaes unaciencia formaly una herramienta que estudia el uso y los anlisis provenientes de una muestra representativa dedatos, busca explicar las correlaciones y dependencias de un fenmeno fsico o natural, de ocurrencia en formaaleatoriaocondicional.

Sin embargo, la estadstica es ms que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con lainvestigacin cientfica.

Es transversal a una amplia variedad de disciplinas, desde la fsica hasta lasciencias sociales, desde lasciencias de la saludhasta elcontrol de calidad.

Se usa para la toma de decisiones en reas denegocioso institucionesgubernamentales.

La estadstica se divide en dos grandes reas:

1. Estadstica descriptiva: Se dedica a la descripcin, visualizacin y resumen de datos originados a partir de los fenmenos de estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos deparmetros estadsticosson: lamediay ladesviacin estndar. Algunos ejemplos grficos son:histograma,pirmide poblacional,grfico circular, entre otros.

2. Estadstica inferencial: Se dedica a la generacin de losmodelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta laaleatoriedadde las observaciones. Se usa paramodelarpatrones en los datos y extraer inferencias acerca de lapoblacinbajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas s/no (prueba de hiptesis), estimaciones de unas caractersticas numricas (estimacin),pronsticosde futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas demodelamientoincluyenanova,series de tiempoyminera de datos.

Ambas ramas (descriptiva e inferencial) comprenden laestadstica aplicada. La estadstica inferencial, por su parte, se divide en estadstica paramtrica y estadstica no paramtrica.

Hay tambin una disciplina llamadaestadstica matemtica, la que se refiere a las bases tericas de la materia.

La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como enestadsticas econmicas,estadsticas criminales, entre otros.

ndice

[ocultar]

1Historia

1.1Origen

1.2Orgenes en probabilidad

1.3Estado actual

2Mtodos estadsticos

2.1Estudios experimentales y observacionales

2.2Niveles de medicin

2.3Tcnicas de anlisis estadstico

3Disciplinas especializadas

4Computacin estadstica

5Crticas a la estadstica

6Estadsticos famosos

7Notas

8Bibliografa

9Enlaces externos

Historia[editar]

Origen[editar]

El trminoalemnStatistik, introducido originalmente porGottfried Achenwallen1749, se refera al anlisis dedatosdelEstado, es decir, la ciencia del Estado (o ms bien, de laciudad-estado). Tambin se llamaritmtica polticade acuerdo con la traduccin literal delingls. No fue hasta el siglo XIX cuando el trminoestadsticaadquiri el significado de recolectar y clasificar datos. Este concepto fue introducido por el militar britnicosirJohn Sinclair(1754-1835).

En su origen, por tanto, la estadstica estuvo asociada a los Estados o ciudades libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La coleccin de datos acerca de estados y localidades contina ampliamente a travs de los servicios de estadstica nacionales e internacionales. En particular, loscensoscomenzaron a suministrar informacin regular acerca de lapoblacinde cada pas. As pues, los datos estadsticos se referan originalmente a los datos demogrficos de una ciudad o Estado determinados. Y es por ello que en la clasificacin decimal deMelvil Dewey, empleada en las bibliotecas, todas las obras sobre estadstica se encuentran ubicadas al lado de las obras de o sobre lademografa.

Ya se utilizaban representaciones grficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el nmero de personas, animales o ciertas mercancas. Hacia el ao3000a.C.los babilonios usaban ya pequeos envases moldeados de arcilla para recopilar datos sobre la produccin agrcola y de los gneros vendidos o cambiados. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XIa.C. Los libros bblicos deNmerosyCrnicasincluyen en algunas partes trabajos de estadstica. El primero contiene dos censos de la poblacin de laTierra de Israely el segundo describe el bienestar material de las diversastribus judas. EnChinaexistan registros numricos similares con anterioridad al ao2000a.C.Los antiguos griegos realizaban censos cuya informacin se utilizaba hacia el594a.C.para cobrarimpuestos.

Orgenes en probabilidad[editar]

Los mtodos estadstico-matemticos emergieron desde la teora deprobabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654).Christian Huygens(1657) da el primer tratamiento cientfico que se conoce a la materia. ElArs coniectandi(pstumo,1713) de Jakob Bernoulli y laDoctrina de posibilidades(1718) deAbraham de Moivreestudiaron la materia como una rama de las matemticas.1En la era moderna, el trabajo deKolmogrovha sido un pilar en la formulacin del modelo fundamental de la Teora de Probabilidades, el cual es usado a travs de la estadstica.

Lateora de erroresse puede remontar a lapera miscellnea(pstuma, 1722) deRoger Cotesy al trabajo preparado porThomas Simpsonen 1755 (impreso en 1756) el cual aplica por primera vez la teora de la discusin de errores de observacin. La reimpresin (1757) de este trabajo incluye elaxiomade que errores positivos y negativos son igualmente probables y que hay unos ciertos lmites asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad.

Pierre-Simon Laplace(1774) hace el primer intento de deducir una regla para la combinacin de observaciones desde los principios de la teora de probabilidades. Laplace represent la Ley de probabilidades de errores mediante una curva y dedujo una frmula para la media de tres observaciones. Tambin, en 1871, obtiene la frmula para la ley de facilidad del error (trmino introducido porLagrange, 1744) pero con ecuaciones inmanejables.Daniel Bernoulli(1778) introduce el principio del mximo producto de las probabilidades de un sistema de errores concurrentes.

Fotografa deCerespor el telescopio espacial Hubble. La posicin fue estimada por Gauss mediante el mtodo de mnimos cuadrados.

Elmtodo de mnimos cuadrados, el cual fue usado para minimizar los errores enmediciones, fue publicado independientemente porAdrien-Marie Legendre(1805),Robert Adrain(1808), yCarl Friedrich Gauss(1809). Gauss haba usado el mtodo en su famosa prediccin de la localizacin delplaneta enanoCeresen 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823),James Ivory(1825, 1826), Hagen (1837),Friedrich Bessel(1838),W.F. Donkin(1844, 1856),John Herschel(1850) yMorgan Crofton(1870). Otros contribuidores fueron Ellis (1844),Augustus De Morgan(1864),Glaisher(1872) yGiovanni Schiaparelli(1875). La frmula de Peters para, el probable error de una observacin simple es bien conocido.

Elsiglo XIXincluye autores como Laplace,Silvestre Lacroix(1816), Littrow (1833),Richard Dedekind(1860), Helmert (1872),Hermann Laurent(1873), Liagre, Didion yKarl Pearson.Augustus De MorganyGeorge Boolemejoraron la presentacin de la teora.Adolphe Quetelet(1796-1874), fue otro importante fundador de la estadstica y quien introdujo la nocin del hombre promedio(lhomme moyen)como un medio de entender los fenmenos sociales complejos tales comotasas de criminalidad,tasas de matrimoniootasas de suicidios.

Estado actual[editar]

Durante elsiglo XX, la creacin de instrumentos precisos para asuntos desalud pblica(epidemiologa,bioestadstica, etc.) y propsitos econmicos y sociales (tasa dedesempleo,econometra, etc.) necesit de avances sustanciales en las prcticas estadsticas.

Hoy el uso de la estadstica se ha extendido ms all de sus orgenes como un servicio alEstadoo al gobierno. Personas y organizaciones usan la estadstica para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras reas. La estadstica es entendida generalmente no como un sub-rea de las matemticas sino como una ciencia diferente aliada. Muchasuniversidadestienen departamentos acadmicos de matemticas y estadstica separadamente. La estadstica se ensea en departamentos tan diversos comopsicologa,educacinysalud pblica.

Regresin lineal Grficos dedispersinen estadstica.

Al aplicar la estadstica a un problema cientfico, industrial o social, se comienza con un proceso opoblacina ser estudiado. Esta puede ser la poblacin de un pas, de granos cristalizados en una roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin podra ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen unaserie de tiempo.

Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia un subconjunto seleccionado de la poblacin, llamadomuestra. Datos acerca de la muestra son recogidos de manera observacional oexperimental. Los datos son entonces analizados estadsticamente lo cual sigue dos propsitos: descripcin e inferencia.

El concepto de correlacin es particularmente valioso. Anlisis estadsticos de unconjunto de datospuede revelar que dos variables (esto es, dos propiedades de la poblacin bajo consideracin) tienden a variar conjuntamente, como si hubiera una conexin entre ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podra resultar en que personas pobres tienden a tener vidas ms cortas que personas de mayor ingreso. Las dos variables se dice que estn correlacionadas. Sin embargo, no se puede inferir inmediatamente la existencia de una relacin de causalidad entre las dos variables. El fenmeno correlacionado podra ser la causa de una tercera, previamente no considerada, llamadavariable confusora.

Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la poblacin completa. Un problema mayor es el de determinar cun representativa es la muestra extrada. La estadstica ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recoleccin de los datos, as como mtodos para disear experimentos robustos como primera medida, verdiseo experimental.

El concepto matemtico fundamental empleado para entender la aleatoriedad es el deprobabilidad. Laestadstica matemtica(tambin llamada teora estadstica) es la rama de lasmatemticas aplicadasque usa lateora de probabilidadesy elanlisis matemticopara examinar las bases tericas de la estadstica.

El uso de cualquier mtodo estadstico es vlido solo cuando el sistema o poblacin bajo consideracin satisface los supuestos matemticos del mtodo. El mal uso de la estadstica puede producir serios errores en la descripcin e interpretacin, lo cual podra llegar a afectar polticas sociales, la prctica mdica y la calidad de estructuras tales como puentes y plantas de reaccin nuclear.

Incluso cuando la estadstica es correctamente aplicada, los resultados pueden ser difciles de interpretar por un inexperto. Por ejemplo, el significado estadstico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variacin aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadsticas bsicas (y el escepticismo) que una persona necesita para manejar informacin en el da a da se refiere como cultura estadstica.

Mtodos estadsticos[editar]

Estudios experimentales y observacionales[editar]

Un objetivo comn para un proyecto de investigacin estadstica es investigar la causalidad, y en particular extraer una conclusin en el efecto que algunos cambios en los valores de predictores ovariables independientestienen sobre una respuesta ovariables dependientes. Hay dos grandes tipos de estudios estadsticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo.

Niveles de medicin[editar]

Hay cuatro tipos de mediciones o escalas de medicin en estadstica:niveles de medicin(nominal,ordinal,intervaloyrazn). Tienen diferentes grados de uso en lainvestigacinestadstica. Las medidas de razn, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en mtodos estadsticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en gradosCelsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningn rango interpretable entre sus valores.

La escala de medida nominal, puede considerarse la escala de nivel ms bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de orden de los nmeros. La escala de intervalos iguales est caracterizada por una unidad de medida comn y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningn momento ausencia de la magnitud que estamos midiendo. Esta escala, adems de poseer las caractersticas de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida ms elevado y se diferencia de las escalas de intervalos iguales nicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los nmeros asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.

Tcnicas de anlisis estadstico[editar]

Algunostestsy procedimientos parainvestigacindeobservacionesbien conocidos son:

Prueba t de Student

Prueba de

Anlisis de varianza(ANOVA)

U de Mann-Whitney

Anlisis de regresin

Correlacin

Iconografa de las correlaciones

Frecuencia estadstica

Anlisis de frecuencia acumulada

Prueba de la diferencia menos significante de Fisher

Coeficiente de correlacin de Pearson

Coeficiente de correlacin de Spearman

Anlisis factorial exploratorio

Anlisis factorial confirmatorio

Grfica estadstica

Disciplinas especializadas[editar]

Algunos campos de investigacin usan la estadstica tan extensamente que tienenterminologa especializada. Estas disciplinas incluyen:

Ciencias actuariales

Fsica estadstica

Estadstica industrial

Estadstica espacial

Matemtica estadstica

Estadstica en medicina

Estadstica en medicina veterinaria y zootecnia

Estadstica en nutricin

Estadstica en agronoma

Estadstica en planificacin

Estadstica en investigacin

Estadstica en restauracin de obras

Estadstica en literatura

Estadstica en astronoma

Estadstica en antropologa (antropometra)

Estadstica enhistoria

Estadstica militar

Geoestadstica

Bioestadstica

Estadsticas de negocios

Estadstica computacional

Estadstica en ciencias de la salud

Investigacin de operaciones

Estadsticas de consultora

Estadstica de la educacin, la enseanza, y la formacin

Estadstica en comercializacin o mercadotecnia

Cienciometra

Estadstica del medio ambiente

Estadstica en epidemiologa

Minera de datos(aplica estadstica yreconocimiento de patronespara el conocimiento de datos)

Econometra(estadstica econmica)

Estadstica en ingeniera

Geografaysistemas de informacin geogrfica, ms especficamente enanlisis espacial

Demografa

Estadstica en psicologa (psicometra)

Calidady productividad

Estadsticas sociales (para todas las ciencias sociales)

Cultura estadstica

Encuestas por muestreo

Anlisis de procesosyquimiometra(para anlisis de datos enqumica analticaeingeniera qumica)

Confiabilidad estadstica

Procesamiento de imgenes

Estadsticas deportivas

La estadstica es una herramienta bsica en negocios y produccin. Se usa para entender la variabilidad de sistemas de medicin, control de procesos (como encontrol estadstico de procesoso SPC (CEP)), para compilar datos y para tomar decisiones. En estas aplicaciones es una herramienta clave y probablemente la nica herramienta disponible.

Computacin estadstica[editar]

El rpido y sostenido incremento en el poder de clculo de la computacin desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la prctica de la ciencia estadstica. Viejos modelos estadsticos fueron casi siempre de la clase de losmodelos lineales. Ahora, complejos computadores junto con apropiadosalgoritmosnumricos han causado un renacer del inters enmodelos no lineales(especialmenteredes neuronalesyrboles de decisin) y la creacin de nuevos tipos tales comomodelos lineales generalizadosymodelos multinivel.

El incremento en el poder computacional tambin ha llevado al crecimiento en popularidad de mtodos intensivos computacionalmente basados enremuestreo, tales como tests de permutacin y debootstrap, mientras tcnicas como elmuestreo de Gibbshan hecho los mtodos bayesianos ms accesibles. La revolucin en computadores tiene implicaciones en el futuro de la estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero depaquetes estadsticosest ahora disponible para los investigadores. Lossistemas dinmicos y teora del caos, desde hace una dcada, empezaron a interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la conducta catica en sistemas dinmicos no lineales con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la fsica. Tambin se estaba contemplando su uso en analtica.

Vase tambin:Computacin Cientfica

Crticas a la estadstica[editar]

Hay una percepcin general de que el conocimiento estadstico es intencionado y frecuentementemal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer deBenjamin Disraeli,2es: Hay tres tipos de mentiras: mentiras pequeas, mentiras grandes y estadsticas. El popular libroHow to lie with statistics(Cmo mentir con las estadsticasen la edicin espaola) deDarrell Huffdiscute muchos casos de mal uso de la estadstica, con nfasis en grficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo, mediante la eliminacin selectiva de valores atpicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador (Darrel Huff3).Lawrence Lowell(decano de laUniversidad de Harvard) escribi en 1909 que las estadsticas, como algunos pasteles, son buenas si se sabe quin las hizo y se est seguro de los ingredientes.

Algunos estudios contradicen resultados obtenidos previamente y la poblacin comienza a dudar en la veracidad de tales estudios. Se podra leer que un estudio dice (por ejemplo) que hacer X reduce la presin sangunea, seguido por un estudio que dice que hacer X no afecta la presin sangunea, seguido por otro que dice que hacer X incrementa la presin sangunea. A menudo los estudios se hacen siguiendo diferentes metodologas, o estudios en muestras pequeas que prometen resultados maravillosos que no son obtenibles en estudios de mayor tamao. Sin embargo, muchos lectores no notan tales diferencias, y los medios de comunicacin simplifican la informacin alrededor del estudio y la desconfianza del pblico comienza a crecer.

Sin embargo, las crticas ms fuertes vienen del hecho que la aproximacin de pruebas de hiptesis, ampliamente usada en muchos casos requeridos por ley o reglamentacin, obliga a una hiptesis a ser favorecida (lahiptesis nula) y puede tambin exagerar la importancia de pequeas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna significancia prctica.

Vase tambincrticas de prueba de hiptesisycontroversia de la hiptesis nula.

En los campos de la psicologa y la medicina, especialmente con respecto a la aprobacin de nuevos medicamentos por laFood and Drug Administration, crticas de la aproximacin de prueba de hiptesis se han incrementado en los aos recientes. Una respuesta ha sido un gran nfasis en elp-valoren vez de simplemente reportar si la hiptesis fue rechazada al nivel de significanciadado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no eltamao del efecto. Una posibilidad es reportarintervalos de confianza, puesto que estos indican el tamao del efecto y la incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para undado indicando simultneamente la significancia estadstica y el efecto de tamao.

El p-valor y los intervalos de confianza son basados en los mismos clculos fundamentales como aquellos para las correspondientes pruebas de hiptesis. Los resultados son presentados en un formato ms detallado, en lugar del s o no de las pruebas de hiptesis y con la misma metodologa estadstica.

Otro tipo de aproximacin es el uso demtodos bayesianos. Esta aproximacin ha sido, sin embargo, tambin criticada.

El fuerte deseo de que los medicamentos buenos sean aprobados y que los medicamentos peligrosos o de poco uso sean rechazados crea tensiones y conflictos (errores tipo I y IIen el lenguaje de pruebas de hiptesis).

Estadstica Descriptiva

CONCEPTOS BSICOS

INTRODUCCIN

La investigacin cuya finalidad es: el anlisis o experimentacin de situaciones para el descubrimiento de nuevos hechos, la revisin o establecimiento de teoras y las aplicaciones prcticas de las mismas, se basa en los principios de Observacin y Razonamiento y necesita en su carcter cientfico el anlisis tcnico de Datos para obtener de ellos informacin confiable y oportuna. Este anlisis de Datos requiere de la Estadstica como una de sus principales herramientas, por lo que los investigadores de profesin y las personas que de una y otra forma la realizan requieren adems de los conocimientos especializados en su campo de actividades, del manejo eficiente de los conceptos, tcnicas y procedimientos estadsticos.

ESTADSTICA

Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar y analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de incertidumbre que plantean las ciencias sociales o naturales.

ESTADSTICA INDUCTIVA Y DEDUCTIVA

Uno de los problemas fundamentales de la Estadstica es el estudio de la relacin existente entre una poblacin y sus muestras. Segn la direccin de tal relacin la Estadstica puede ser:

Deductiva, cuando a partir del conocimiento de la poblacin se trata de caracterizar cada muestra posible.

Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende caracterizar la poblacin.

ESTADSTICA DESCRIPTIVA E INFERENCIAL

Estadstica Descriptiva se refiere a la recoleccin, presentacin, descripcin, anlisis e interpretacin de una coleccin de datos, esencialmente consiste en resumir stos con uno o dos elementos de informacin (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadstica Descriptiva es el mtodo de obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por stos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una poblacin o de una muestra, cuando en la etapa preliminar de la Inferencia Estadstica se conocen los elementos de una muestra.

Estadstica Inferencial se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, poblacin, partiendo de lo especfico, muestra. las cuales llevan implcitos una serie de riesgos. Para que stas generalizaciones sean vlidas la muestra deben ser representativa de la poblacin y la calidad de la informacin debe ser controlada, adems puesto que las conclusiones as extradas estn sujetas a errores, se tendr que especificar el riesgo o probabilidad que con que se pueden cometer esos errores. La estadstica inferencial es el conjunto de tcnicas que se utiliza para obtener conclusiones que sobrepasan los lmites del conocimiento aportado por los datos, busca obtener informacin de un colectivo mediante un metdico procedimiento del manejo de datos de la muestra.

En sus particularidades la Inferencia distingue la Estimacin y la Contrastacin de Hiptesis. Es estimacin cuando se usan las caractersticas de la muestra para hacer inferencias sobre las caractersticas de la poblacin. Es contrastacin de hiptesis cuando se usa la informacin de la muestra para responder a interrogantes sobre la poblacin.

ANALISIS ESTADSTICO

El anlisis estadstico es todo el proceso de organizacin, procesamiento, reduccin e interpretacin de datos para realizar inferencias.

DATOS Y VARIABLES

Cuando se consideran los mtodos de organizacin, reduccin y anlisis de datos estadsticos, se hace necesario aclarar los siguientes conceptos.

Variables: es toda caracterstica que vara de un elemento a otro de la poblacin.

Datos: son medidas o valores de las caractersticas susceptibles de observar y contar, se originan por la observacin de una o ms variables de un grupo de elementos o unidades

CLASIFICACIN DE VARIABLES

Las variables pueden clasificarse en: categricas o cualitativas (atributos), no tienen ningn grado de comparacin numrica, ejemplo: sexo, estado civil; y numricas o cuantitativas, son caractersticas factibles de expresar por medio de nmeros, estas pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y Continuas, que pueden tomar cualquier valor en un intervalo.

REPRESENTACIN DE DATOS

Los datos son colecciones de un nmero cualquiera de observaciones relacionadas entre si, para que sean tiles se deben organizar de manera que faciliten su anlisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones lgicas y tomar decisiones bien fundamentadas; por esa razn es necesario conocer lo mtodos de Organizacin y Representacin, la finalidad de stos mtodos es permitir ver rpidamente todas las caractersticas posibles de los datos que se han recolectado.

Representacin Tabular:

Presenta las variable y las frecuencias con que los valores de stas se encuentran presentes en el estudio.

Representacin Grfica :

Se llaman grficas a las diferentes formas de expresar los datos utilizando los medios de representacin que proporciona la geometra.

METODOS DE REPRESENTACIN DE DATOS CUANTITATIVOS

Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o descendente. Ofrece las ventajas siguientes: describe los valores mnimos y mximos, en l se pueden dividir los datos fcilmente en secciones, permite darse cuenta de los valores que aparecen ms de una vez, se puede observar la distancia entre valores consecutivos.

Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores

Diagrama de Tallo y Hoja. Es til para realizar una exploracin preliminar del conjunto, genera una imagen adecuada de ellos sin perder informacin.

Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar los datos segn su magnitud, en ella se seala el nmero de veces que aparece cada uno de los valores. Cuando se dispone de un gran nmero de valores discretos o cuando las variables son continuas, tiene sentido formar una tabla que presente la distribucin de frecuencias de los datos agrupados en intervalos o clases, de igual tamao si es posible, sin embargo una tabla de este tipo supone una concentracin de datos que produce prdida de informacin.

DISTRIBUCIN DE FRECUENCIAS

Organizacin de datos agrupados

Definiciones

Clases o intervalos de clase: Grupo de valores que describen una caracterstica. Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen los lmites de clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados, cuando contienen ambos lmites e intervalos abiertos si incluyen solo un lmite.

Limites Reales: Sirven para mantener la continuidad de las clases

Anchura o tamao del intervalo: es la diferencia entre los lmites reales de una clase

Nmero de clases: es el nmero total de grupos en que se clasifica la informacin, se recomienda que no sea menor que 5 ni mayor que 15

Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los puntos medios coincidan con los datos observados para minimizar el error.

Frecuencia: es el nmero de veces que aparece un valor

Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado valor o lmite de clase.

Frecuencia Relativa: Indica la proporcin que representa la frecuencia de cada intervalo de clase en relacin al total, es til para comparar varias distribuciones con parmetros de referencia uniformes.

Frecuencia Acumulada Relativa: Indica la proporcin de datos que se encuentra por arriba o debajo de cierto valor o lmite de clase.

Grficos de una Distribucin de Frecuencias

Los grficos son tiles porque ponen en relieve y aclaran las tendencias que no se captan fcilmente en la tabla, ayudan a estimar valores con una simple ojeada y brinda una verificacin grfica de la veracidad de las soluciones.

Histograma:

Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la caracterstica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamao o diferente ( intervalo variable). La utilizacin de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los dems, logrando as que las observaciones se hallen mejor repartidas dentro del intervalo.

Polgono de Frecuencias

Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del reas.

Curvas de frecuencia

No es ms que la curva suavizada que se traza sobre el polgono y representa la asimetra y la curtosis que tiene la distribucin, permite visualizar un esquema ms claro del patrn de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simtricas o Asimtricas (sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales.

Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva representa grficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til para obtener una medida de los cuartiles, deciles , percentiles.

MEDIDAS DESCRIPTIVAS

Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas caractersticas de los conjuntos, logrando una comparacin ms precisa de los datos que la que se puede conseguir con tablas y grficas.

MEDIDAS DE TENDENCIA CENTRAL: PROMEDIOS

Los promedios son una medida de posicin que dan una descripcin compacta de como estn centrados los datos y una visualizacin ms clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.

Es importante poner en relieve que la notacin de promedio lleva implcita la idea de variacin y que este nmero promedio debe cumplir con la condicin de ser representativo de conjunto de datos.

El promedio como punto tpico de los datos es el valor al rededor del cual se agrupan los dems valores de la variable.

MEDIA ARITMTICA

Es una medida matemtica, un nmero individual que representa razonablemente el comportamiento de todos los datos.

Para datos no agrupados X = S xi / n

Para datos agrupados X = S fi Xi / S fi

donde Xi es la marca de clase para cada intervalo y fi es la frecuencia de clase

Caractersticas de la Media:

1. En su clculo estn todos los valores del conjunto de datos por lo que cada uno afecta la media.

2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.

3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier nmero A es mnimo si A = X

4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la distribucin es asimtrica, la media aritmtica no constituye un valor tpico.

LA MODA

Es el valor de un conjunto de datos que ocurre ms frecuentemente, se considera como el valor ms tpico de una serie de datos.

Para datos agrupados se define como Clase Modal el intervalo que tiene ms frecuencia.

La moda puede no existir o no ser nica, las distribuciones que presentan dos o ms mximos relativos se designan de modo general como bimodales o multimodales.

Caractersticas de la Moda.

1. Representa ms elementos que cualquier otro valor

2. No est afectada por los valores extremos pero para datos continuos es dudoso su clculo.

3. La moda para una distribucin de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el mtodo de agrupacin de los intervalos de clase.

4. La moda no permite conocer la mayor parte de los datos

5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente.

6. Puede usarse para datos cuantitativos como cualitativos

7. La moda como estadstico, vara mucho de una muestra a otra

8. Cuando se tienen dos o ms modas es difcil su interpretacin

9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan, pero no se presta para un tratamiento matemtico.

LA MEDIANA

Es el valor de la observacin que ocupa la posicin central de un conjunto de datos ordenados segn su magnitud. Es el valor medio o la media aritmtica de los valores medios. La mediana es un valor de la variable que deja por debajo de l un nmero de casos igual al que deja por arriba.

Geomtricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos reas iguales.

Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeos con respecto a los dems, entonces la media aritmtica se puede distorsionar y perder su carcter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central.

Caractersticas de la mediana

1. Es un promedio de posicin no afectado por los valores extremos.

2. No est definida algebraicamente

3. Cuando la localizacin del elemento central puede ser determinada y los lmites de clase mediana son conocidos, la mediana para la distribucin de frecuencias puede ser calculada por interpolacin, no importando que sta contenga intervalos abiertos, cerrados, iguales o diferentes.

4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales respecto a la mediana es mnimo.

5 La mediana en caso de una distribucin asimtrica, no resulta desplazado del punto de tendencia central.

6. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos que cualquier otra medida.

7. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicacin puede resultar falsa.

8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparacin pone en evidencia si un elemento est en la mitad superior a ella o en la inferior.

MEDIA ARITMETICA PONDERADA

En sta, para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la importancia que el investigador desee darle.

Xp = S ( xi wi) / S wi

MEDIA GEOMTRICA

til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del promedio de tasas, razones, proporciones geomtricas y relaciones de variables. Se utiliza en Matemticas Financieras y Finanzas para promediar nmeros ndices, tasas de cambio, etc.

La media Geomtrica de una serie de nmeros es la raz n-sima del producto de esos nmeros

M = n e (x 1 * x 2 * x 3 *.....*x n )

Se ve afectada por todos los nmeros y valores extremos pero en menor grado que la Media Aritmtica, su valor siempre es menor que el de sta.

MEDIA ARMNICA

Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de una serie de nmeros es el reciproco de la media aritmtica del recproco de esos nmeros.

1 / MH = [ S 1 / xi ] / n

MEDIA CUADRTICA

Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se usa eficientemente para promediar los errores o desviaciones porque es ms susceptible a los mismos.

MC = 2 e S [ xi 2 ] / n

LOS CUANTILES

Son valores que dividen a la distribucin en n partes iguales

Cuartiles, cuatro partes iguales: Q1, Q2, Q3

Deciles, diez pares iguales : D1, D2..........D9

Percentiles o centiles, cien partes iguales: P1, P2.....P99

Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo. Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.

MEDIDAS DE DISPERSIN

Un rasgo principal de los datos es su dispersin o amplitud, que se refiere a su variabilidad, a la evaluacin de cun separados o extendidos estn estos datos o bien cuanto difieren unos de otros.

Variacin: es el grado en que los datos numricos tienden a extenderse al rededor de un valor, generalmente el valor medio

Por qu es importante la variacin?

1. Al menudo una medida de posicin de un conjunto de datos se vincula con la indicacin de cun tpico o representativo es para la poblacin y para ello es necesario contar con la informacin que proporcionan las mediadas de variacin. Solo el conocimiento de un estadstico de tendencia central no aclara o define toda la distribucin, adems que no existe un valor de tendencia central ideal, por lo que es significativo tener una idea de la dispersin de los valores y determinar si es mucha o poca al rededor de la media, pues si la variacin es muy grande entonces esta medida de tendencia central no es buena seleccin como valor tpico.

2. La medida de tendencia central no indica la relacin de un dato con los otros, es necesario para ello las medidas de variabilidad o dispersin.

3. Al tratar problemas con datos dispersos se requiere conocer que problemas puede esto traer, hasta que punto la dispersin tiene un riesgo aceptable o inaceptable en la toma de decisiones.

4. Al comparar dos distribuciones por lo general centramos la atencin en la posicin y en la dispersin.

RANGO

Mide la dispersin de la totalidad de los datos. Es la ms obvia de las mediadas ya que es la distancia entre los valores mximo y mnimo.

El rango o recorrido da alguna idea del grado de variacin que ocurre en la poblacin, pero con frecuencia los resultados pueden ser engaosos, pues este depende de los valores extremos e ignora la variacin de las dems observaciones. Est afectado por ocurrencias raras o extraordinarias.

INTERVALO INTERDECIL

Mide la dispersin del 80% de los datos centrales y se obtiene de la diferencia entre el decil 9 y el decil 1, evitando as los puntos extremos.

INTERVALO INTERCUARTIL

Cuando aumenta la dispersin de una distribucin de frecuencias, se ampla la distancia entre los cuartiles, por lo que esta distancia puede usarse como base de una medida de variabilidad

El intervalo intercuartil, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo en el cual est comprendido el 50% de los datos centrales.

DESVIACIN CUARTLICA

Mide el intervalo promedio de un cuarto de los datos [Q3-Q1)/2]

Si la distribucin es perfectamente simtrica, los dos cuartiles Q1 y Q3 equidistan de la mediana y la mitad de la distancia entre los cuartiles representa la distancia promedio entre ellos y la mediana.

Si en una distribucin simtrica se mide una distancia igual a la desviacin cuartlica a ambos lados de un punto ubicado en el centro de los cuartiles, el 50% de los valores estarn incluidos dentro de esos lmites y el valor del punto medio coincide con la mediana.

La ventaja de la desviacin cuartlica es que evita los valores extremos utilizando nicamente la mitad intermedia de los datos.

DESVIACIN MEDIA

La desviacin Media o Desviacin absoluta promedio, es la media aritmtica de las desviaciones absolutas de cada una de las observaciones con respecto a su valor central, la media aritmtica, o la mediana

Cuanto mayor es su valor, mayor es la dispersin de los datos

DM =[ S | xi . X | ] / n

DM = [ S fi | xi - X | ] / S fi

Las caractersticas de esta media de dispersin son:

1. Su valor depende del valor de cada observacin.

2. Se puede calcular al rededor de la media o de la mediana.

3. La desviacin promedio respecto a la mediana es un mnimo

4. Mide la desviacin de una observacin sin notar si est por encima o por debajo del promedio.

VARIANZA

Otro tratamiento para evadir la suma cero de las desviaciones de las observaciones respecto a su Media Aritmtica, consiste en recurrir al proceso de elevar al cuadrado estas desviaciones y sumar los cuadrados, dividiendo la suma por el nmero de casos, a esta cantidad se le denomina varianza, y es la ms importante de las medidas de variacin porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero al igual que la desviacin media los valores extremos pueden distorsionarla

s 2 = S ( xi - X ) 2 / n

s 2 = S fi (xi-X ) 2 / S fi

S 2 = S (xi-X) 2 / ( n)

S 2 = S fi ( xi-X ) 2 / ( S fi )

S 2 * = S (xi-X) 2 / ( n-1)

S 2 *= S fi ( xi-X ) 2 / ( S fi -1)

En inferencia, con una muestra tomada de una poblacin grande se pretende descubrir cuanto varan los datos al rededor de la media poblacional, si embargo cuando no se conoce la media de la poblacin se estima a partir de la media aritmtica de la muestra y esto hace que parezca menos variable de o que es en realidad, al dividir por n-1 se est compensando por la variabilidad ms pequea que se observa en la muestra, por lo que S 2 * , la suma de cuadrados dividida por n-1 es considerado un estimador ms eficiente para la varianza poblacional.

DESVIACION ESTANDAR

Cuando se utiliza la varianza como medida de dispersin, para salvar el problema de trabajar con distintas dimensiones en la media y en la medida de variabilidad es necesario definir la Desviacin estndar como la raz cuadrada de l varianza.

La Desviacin Estndar es til para describir cuanto se apartan de la media de la distribucin los elementos individuales. Una medida de ello se denomina puntuacin estndar nmero de desviaciones a las que determinada observacin se encuentra con respecto a la media.

Puntuacin estndar de xi = (xi - X) / s

Al comparar distribuciones tambin hacemos uso de la calificacin estndar.

Caracterstica de la Desviacin Estndar:

1. Es afectada por el valor de cada observacin

2. Como consecuencia de considerar desviaciones cuadrticas pone mayor nfasis en las desviaciones extremas que en las dems desviaciones.

3. Si en el eje X de la distribucin de frecuencias normal, se mide a ambos lados de la media una distancia igual a :

Una desviacin estndar se forma un intervalo en el cual se encuentra el 68.27% de los valores centrales de la variable

Dos desviaciones estndar, se forma un intervalo donde se encuentra el 95.43% de los valores centrales

Tres desviaciones estndar, se forma un intervalo que contiene el 99.73% de los valores centrales

4. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviacin estndar no hay prdida de informacin por lo que la desviacin para los datos observados es igual que para los datos tabulados.

En la construccin de una tabla de una variable continua hay prdida de informacin por el agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviacin observada y tabulada.

MEDIADAS DE DISPERSIN RELATIVAS

Cuando se necesita comparar dos o ms series de datos a veces no es posible hacerlo con las medidas absolutas, ya sea porque las unidades son diferentes o porque tienen diferente media, en stos casos deben utilizarse cantidades relativas definida generalmente como:

Dispersin relativa = Dispersin absoluta / media

COEFICIENTE DE VARIACIN

Es la medida de dispersin relativa ms usada y se define como el cociente de la desviacin estndar entre el promedio aritmtico, expresado en porcentaje y es adimensional

V = S / X

MEDIDAS DE ASIMETRA Y CURTOSIS

MEDIDAS DE SESGO O ASIMETRIA

En las distribuciones que no toman la forma de una curva acampanada Normal, interesa muchas veces obtener dos medias adicionales, las de asimetra y curtosis. Las medidas de asimetra muestran si en la distribucin hay concentracin de datos en un extremo, superior o inferior, y se denomina Sesgo positivo o a la derecha si la concentracin es en el extremo inferior y Sesgo Negativo o a la izquierda si la concentracin es en el superior.

COEFICIENTE DE PEARSON

En las distribuciones simtricas, la media , la mediana y la moda coinciden y conforme la distribucin se separa de la simetra estos valores se separan, por lo que la ms corriente de las medidas de asimetra es la diferencia entre la moda y la media que se la ms sensible a los valores extremos

Sk = ( X -Mo) / S

Para cuando la moda no se encuentra bien definida se puede sustituir por la mediana

Sk= 3 ( X -Me) / S

Estas medidas se conocen como el primero y segundo coeficiente de Pearson y varan entre el intervalo + 3, es cero para la distribucin normal.

MEDIDA CUARTIL DE ASIMETRIA

En una distribucin simtrica los cuartiles quedan simtricamente colocados respecto a la mediana, pero si es asimtrica un cuartil se separa ms que otro. La medida cuartil de asimetra marca esta relacin

Sk =[ ( Q3-Me) -( Me-Q1) ]/ ( Q3-Q1)

Si la asimetra es a la derecha Q3 est ms lejos de la mediana que Q1, si la asimetra es a la izquierda Q1 est mas alejada de la mediana que Q3.Esta medida vara siempre entre + 1, si es cero la distribuciones normal.

COEFICIENTE DE SESGO PERCENTLICO

Se aplica con el mismo criterio de la medida Cuartil de Asimetra

Sk = [( P90-P50) -(P50-P10) ]/ ( P90-P10)

MEDIDAS DE CURTOSIS

Al comparar cun aguda es una distribucin en relacin con la Distribucin Normal, se pueden presentar diferentes grados de apuntalamiento.

1. Mesocrtica, Normal

2. PlarticrtiCa, Menor apuntalamiento

3. Leptocrtica, Mayor apuntalamiento

COEFICIENTE DE CURTOSIS PERCENTILICO

Una medida del apuntalamiento o curtosis de la distribucin est basada en los cuartiles y percentiles, y est dada por el coeficiente de Curtosis Percentlico

K= ( 0.5 ( Q3- Q1) ) / ( P90-P10)

Para la distribucin normal K toma un valor de 0.263 y las distribuciones se definen como:

Leptocrtica si k es mayor que 0.263

Platicrtica si k es menor que 0.263

10 METODOS ESTADISTICOS Jos Jimnez La estadstica puede definirse como un mtodo de razonamiento que permite interpretar datos cuyo carcter esencial es la variabilidad. Est presente en la prctica mdica cada vez con ms frecuencia y en muy diversas formas, desde las estadsticas de actividad de un hospital o los resultados de auditoras, por ejemplo, hasta los hallazgos de estudios de investigacin que aparecen en la literatura mdica. En investigacin, la finalidad de la estadstica es utilizar datos obtenidos en una muestra de sujetos para realizar inferencias vlidas para una poblacin ms amplia de individuos de caractersticas similares. La validez y utilidad de estas inferencias dependen de cmo el estudio ha sido diseado y ejecutado, por lo que la estadstica debe considerarse como una parte integrante del mtodo cientfico. Muchos profesionales creen que se trata simplemente de un conjunto de frmulas y clculos matemticos que se aplican a un conjunto de datos. Si bien el anlisis de datos es la parte ms visible de la estadstica, deben tenerse en cuenta los aspectos metodolgicos relacionados con el estudio. La justificacin del an- lisis no radica en los datos, sino en la forma en que han sido recogidos. Habitualmente se distingue entre estadstica descriptiva, que comprende la organizacin, presentacin y sntesis de datos de una manera cientfica, y estadstica inferencial, que comprende las bases lgicas mediante las cuales se establecen conclusiones relacionadas con poblaciones a partir de los resultados obtenidos en muestras. Las tcnicas estadsticas pueden utilizarse para confirmar hiptesis de trabajo o bien para explorar conjuntos de datos sin hiptesis previas. Ambas finalidades, la confirmacin y la exploracin, estn vinculadas a la naturaleza de los objetivos del estudio, a la actitud con que el investigador se enfrenta a los datos y a los trminos en que debern interpretarse los resultados. Una hiptesis se confirma cuando se disea un estudio con el propsito de hacerlo. Se explora cuando se rastrean datos en busca de informacin, sin objetivos concretos y formales que hayan gobernado el dise- o del estudio. La exploracin puede servir para sugerir nuevas hiptesis, pero de ningn modo para contrastarlas, sino que la confirmacin deber obtenerse en un nuevo estudio diseado especficamente para ello. Para las finalidades de este captulo, consideraremos que existen dos grandes tipos de estudio: los que tienen por objetivo estimar un parmetro a partir de observaciones obtenidas en una muestra (por ejemplo, determinar el porcentaje de errores de medicacin en J. Jimnez un hospital), y los que contrastan hip- tesis mediante la comparacin de dos o ms grupos (por ejemplo, determinar cul de dos estrategias es ms eficaz para reducir el porcentaje de infecciones quirrgicas). ESTUDIOS DE ESTIMACION DE UN PARAMETRO Principio de representatividad En estadstica, el trmino poblacin se utiliza para describir todas las posibles observaciones de una determinada variable o todas las unidades sobre las que podra haberse realizado una observacin. Puede tratarse de pacientes, de profesionales o de prescripciones teraputicas, por ejemplo. Habitualmente se estudian muestras en lugar de poblaciones por criterios de eficiencia. El trmino muestra se refiere a cualquier conjunto especfico de sujetos u observaciones procedentes de una poblacin determinada. Para que sea til y la estadstica aplicable, se requiere que la muestra tenga un tamao razonable y sea representativa de la poblacin de la que procede. Un tamao elevado no asegura la representatividad, sino que sta radica bsicamente en que la muestra haya sido escogida adecuadamente y est libre de sesgos. En cualquier estudio pueden considerarse tres niveles de poblacin: Poblacin diana, a la que hace referencia el objetivo del estudio, y a la que se deseara generalizar los resultados. Poblacin de estudio, a la que se tiene la intencin de estudiar, definida por los criterios de seleccin establecidos en el protocolo del estudio. Muestra o conjunto de individuos realmente estudiados. La validez de las conclusiones de un estudio dependen de cmo haya sido diseado, de si la muestra es representativa, de si no se han producido prdidas o no respuestas, de si las mediciones se han realizado correctamente y son de calidad, etc. (validez interna). Por otro lado, la capacidad para generalizar las conclusiones o extrapolarlas a otras poblaciones diferentes de la estudiada dependen de las diferencias entre la poblacin diana y la de estudio, y entre stas y la poblacin a la que se quiera aplicar los resultados (validez externa). Para que los resultados de un estudio tengan validez interna, la muestra de sujetos estudiada debe ser representativa de la poblacin de estudio (principio de representatividad). Este principio puede verse comprometido cuando la muestra inicial ha sido mal seleccionada, cuando, aunque se haya utilizado una tcnica de muestre0 adecuada, la variabilidad aleatoria (el azar) ha hecho que se obtenga una muestra no representativa, o bien cuando la muestra de sujetos finalmente analizados est sesgada debido a las no respuestas (sujetos de los que no se ha podido obtener la informacin deseada). Intervalos de confianza En un estudio, tan slo se estudia una de las mltiples muestras que podran haberse obtenido de la poblacin de referencia. Si se estudiara ms de una, Mtodos estadsticos en cada una de ellas el resultado podra presentar valores diferentes simplemente por azar. Las diferentes tcnicas de la estadstica inferencia1 se fundamentan en que esta variabilidad inherente al proceso de muestre0 sigue unas leyes conocidas y puede ser cuantificada. Si la variable es cuantitativa, la media m y la desviacin estndar s observadas en la muestra son la mejor estimacin que se dispone de los verdaderos valores de los parmetros poblacionales. Pero cules seran los resultados si se repitiera el estudio en mltiples ocasiones? Supongamos que en una muestra de 60 sujetos se observa una media de tensin arteria1 sistlica (TAS) de 150 mmHg con una desviacin estndar de 20 mmHg. Se desea conocer el verdadero valor de la TAS media en la poblacin de referencia. El valor ms probable es el observado en la muestra (150 mmHg), conocido por ello como estimacin puntual. Pero ste no es ms que el resultado observado en una de las mltiples muestras que hubieran podido obtenerse de la misma poblacin. Dado que diferentes muestras podran conducir a diferentes resultados, se necesita una medida de la precisin de esta estimacin, lo que se hace mediante el clculo del llamado intervalo de confianza (IC). Por ello, siempre que se estimen parmetros poblacionales a partir de estadsticos muestrales, los resultados deben expresarse como IC, y no slo como estimaciones puntuales. Si se desea una confianza del 95% en la estimacin, se trabaja con un valor a del 5%, que corresponde a un valor Z (distribucin normal tipificada) de 1.96. En el ejemplo, aplicando la frmula de la tabla 1, se obtendra un IC del 95% que sera aproximadamente de 150 2 5 mmHg, lo que significa que la TAS media de la poblacin de referencia est situada entre 145 y 155 mmHg con un 95% de confianza. De forma similar se calculara el IC en el caso de una variable cualitativa (tabla 1). El clculo del IC proporciona mucha ms informacin que la simple estimacin puntual, ya que permite evaluar la Tabla 1. Clculo del intervalo de confianza (IC) en la estirn~iGn-de- un parmetro poblacional. IC DE UNA MEDIA (variable cuantitativa)*: m I ( Z . ESM ) siendo ESM = s 6 IC DE UNA PROPORCION (variable cualitativa)**: p I ( Z - ESP ) siendo ESP= 4- m: Media observada en la muestra; S: Desviacin estandar observada en la muestra; n: Nmero de individuos de la muestra; ESM: Error estndar de la media; p: Proporcin observada en la muestra, ESP: Error estndar de la proporcin; Z: Valor de la variable normal tipificada correspondiente al valor a para un nivel de confianza (1-a). (*) Este clculo se basa en la distribucin normal. El valor de Z para un IC del 95% es 1.96. Para muestras de tamao inferior a 30 individuos, este valor debe sustituirse por el de la distribucin de la t de Student-Fisher para (n-1) grados de libertad. (* *) Las variables cualitativas no presentan una distribucin normal. Las frmulas de la tabla se basan en una aproximacin a la normalidad, aplicable cuando los productos n.p y n.(l-p) son mayores de 5. J. Jimnez precisin con que el parmetro poblacional ha sido estimado, es decir, entre qu lmites se tiene una determinada confianza de que est situado su verdadero pero desconocido valor. Si se repitiera el estudio en 100 ocasiones, el IC incluira el verdadero valor en 95 de ellas. De las frmulas se deduce que un aumento del nmero de sujetos produce un estrechamiento del intervalo, aumentando as la precisin de la estimacin. Su amplitud depende tambin del nivel de confianza que se utilice, aumentando si se incrementa su valor convencional del 95% al 99%, por ejemplo. En el clculo del IC se asume que se ha estudiado una muestra aleatoria de la poblacin de referencia. Al interpretarlo, hay que tener siempre en cuenta la posibilidad de existencia de otras fuentes de error no debidas al azar (errores sistemticos o sesgos). Si stos existen, o si la muestra no es aleatoria, el error de la estimacin puede ser mayor que el sugerido por la amplitud del intervalo. Tamao de la muestra En cualquier estudio, es importante determinar a priori el nmero de sujetos que es necesario incluir, aunque el resultado de este clculo debe considerarse como orientativo, ya que se basa en asunciones que pueden ser incorrectas. La inclusin de un nmero excesivo de sujetos encarece el estudio, tanto desde el punto de vista econmico como de los recursos humanos y fsicos necesarios. Por otra parte, un estudio con un tamao insuficiente estimar un parmetro con poca precisin. La amplitud del IC, es decir, la precisin de la estimacin, depende del nivel de confianza utilizado, de la variabilidad del parmetro de inters y del nmero de sujetos estudiados. Cuanto menor sea la variabilidad del parmetro y mayor el nmero de sujetos, mayor precisin existir en la estimacin para un nivel de confianza determinado. Para el clculo del tamao de la muestra debe conocerse: La variabilidad del parmetro que se desea estimar. Si no se conoce, puede obtenerse una aproximacin a partir de datos propios o de otras investigaciones, o un estudio piloto. En el caso de las variables cuantitativas se mide por la variancia, y en el de las cualitativas, por el producto p-(1-p). La precisin con que se desea obtener la estimacin, es decir, la amplitud deseada del IC. Cuanto mayor precisin se desee, ms estrecho deber ser este intervalo, y ms sujetos debern ser estudiados. El nivel de confianza deseado. Habitualmente se fija en el 95%. Este valor indica el grado de confianza que se tendr de que el verdadero valor del parmetro en la poblacin se site en el intervalo obtenido. Cuanto ms confianza se desee, mayor ser el nmero de sujetos necesario. De estos tres elementos, slo debe conocerse la variabilidad del parmetro, ya que tanto la precisin como el nivel de confianza son fijados en funcin de los intereses del investigador. Mtodos estadsticos Estimacin de una proporcin La frmula para el clculo del nmero de sujetos necesarios para estimar una proporcin se presenta en la tabla 2. Supongamos que se desea estimar el porcentaje de pacientes ingresados en un servicio que requieren una dieta determinada. A partir de datos previos se supone que debe estar situado alrededor del 40% (p=0,40). Se quiere realizar la estimacin con una precisin de 24 % (i=0,04) y una confianza del 95% (1-a =0,95; Z =1,96). Aplicando la frmula, puede determinarse que seran necesarios 576 sujetos. Esta cifra se convierte en 9.220 cuando se desea una precisin muy alta (i=0,01), o en tan slo 92 si se es menos exigente (i=0,1). Modificando cualquier valor, puede obtenerse un nmero de sujetos que se aproxime al "deseado" o al disponible. Debe evitarse esta manipulacin del clculo ya que, al reducir el nmero de sujetos que se van a estudiar, tambin disminuye el grado de precisin con que el parmetro va a ser estimado y aumenta la amplitud del IC. En el clculo del tamao de la muestra debe tenerse en cuenta tambin la estrategia de anlisis y cmo se presentarn los resultados. As, por ejemplo, si los investigadores desean presentar el resultado en funcin del sexo, la estratificacin har que la estimacin se haya obtenido en un nmero menor de sujetos por lo que la precisin en cada estrato ser menor de la deseada. En algunas ocasiones no se conoce el valor aproximado del parmetro que se est buscando. Si no existen datos de la literatura que resulten tiles, o si no puede realizarse una prueba piloto para obtener una primera aproximacin a dicho valor, puede adoptarse la postura de la mxima indeterminacin, que consiste en suponer que el porcentaje que se desea estimar se sita alrededor del 50%, ya que es el valor que requiere una mayor cantidad de individuos para una precisin determinada. Estimacin de una media Cuando el objetivo del estudio es estimar una media, el clculo del nmero de sujetos necesario es similar (tabla 2), con la diferencia que la medida de la variabilidad es la variancia de la distribucin de la variable en la poblacin. Supongamos que desea estimar la tensin arteria1 diastlica (TAD) de los pacientes diabticos ingresados en un servicio. Por estudios previos, se conoce que la desviacin estndar de la TAD Tabla 2. Frmulas para el clculo del nmero de sujetos necesarios para la realizacin de un estudio cuyo objetivo es la estimacin de una media o una proporcin.

ESTIMACION DE UNA PROPORCION (Variable cualitativa) N = (z2-~.(1-~))/i2 ESTIMACION DE UNA MEDIA (Variable cuantitativa) N = (Z2-s2)/i2 N: Nmero de sujetos necesarios; Z:Valor de Z correspondiente al riesgo a fijado (cuando cr=0,05, Z=1,96); P: Valor de la proporcin que se supone existe en la poblacin; s2:Variancia de la distribucin de la variable cuantitativa que se supone que existe en la poblacin. i: Precisin con que se desea estimar el parmetro (2i es la amplitud del intervalo de confianza). J. Jimnez en sujetos diabticos es de 25 mmHg (s=25 rnrnHg; s2=625 mrnHg). Se desea realizar la estimacin con una confianza del 95% (1-a =0,95) y una precisin de 15 mmHg (i=5). Aplicando la frmula, se puede determinar que son necesarios 96 sujetos. Correccin para poblaciones finitas En los clculos anteriores no ha intervenido el tamao de la poblacin, ya que se ha asumido que es infinito. Sin embargo, en muchas ocasiones, desea obtenerse una muestra de una poblacin de tamao conocido (finito). En esta situacin, puede aplicarse la siguiente frmula que ajusta el nmero de sujetos necesarios en funcin del tamao de la poblacin: donde n, es el nmero de sujetos necesarios, n es el nmero de sujetos calculado para poblaciones infinitas y N es el tamao de la poblacin de referencia. En el ejemplo en que se haba calculado que eran necesarios 576 sujetos para estimar el porcentaje de pacientes ingresados que requeran una dieta, si la poblacin de referencia fuera de 1000 sujetos, aplicando la frmula anterior podra determinarse que son necesarios 365 pacientes pacientes. Correccin segn el porcentaje esperado de no respuestas El nmero de sujetos calculado debe ser ampliado en funcin del porcentaje de no respuestas que se espera que se produzcan, de forma que se asegure que se obtendr informacin del nmero de pacientes deseado. Una frmula para hacerlo es la siguiente: donde N representa el nmero de sujetos terico, Na el nmero de sujetos ajustado y R la proporcin esperada de no respuestas. Supongamos que para realizar un estudio se ha calculado que son necesarios 300 sujetos (N=300) y que se espera un 20% de no respuestas (R=0,20). El nmero de sujetos que deberan iniciar el estudio sera Na=300(1/(1-0,2))=375 sujetos. La utilizacin de esta frmula asegura que el estudio mantenga la potencia estadstica deseada pero no evita que se puedan producir sesgos si las no respuestas no se han producido aleatoriamente, es decir, si los sujetos de los que no se obtiene informacin son diferentes de aquellos de los que s se obtiene (lo que suele ser lo habitual). Para que se cumpla el principio de representatividad, debe prestarse atencin al proceso de seleccin de los sujetos, utilizando una tcnica de muestreo adecuada que aumente la probabilidad de obtener una muestra representativa. El muestreo probabilstico se define como el proceso de seleccin en que todos los individuos candidatos tienen una probabilidad conocida, distinta de Mtodos estadsticos cero, de ser incluidos en la muestra, utilizndose alguna forma de seleccin aleatoria para obtener las unidades que sern estudiadas. Tiende a asegurar que se obtendr una muestra representativa, especialmente si la poblacin y la muestra son de gran tamao, pero tambin puede ocurrir que no sea as, ya que el propio azar puede conducir a una muestra que no tenga la misma distribucin de las variables de inters que la poblacin de referencia, especialmente si su tamao es reducido. La unidad de muestreo es el elemento sobre el que se aplica la tcnica de seleccin, ya sean personas, servicios u hospitales. La unidad de muestreo no tiene por qu coincidir con la unidad de anlisis. En un estudio para conocer la frecuencia de errores de medicacin en un hospital, la unidad de muestreo pueden ser los servicios, y analizar en una muestra de ellos las prescripciones teraputicas. En las tcnicas probabilsticas la seleccin de las unidades se realiza al azar, evitando la posible parcialidad, consciente o inconsciente, de los investigadores. Por esta razn, es ms probable que las muestras tiendan a ser representativas de la poblacin de referencia. En el muestreo aleatorio simple, se prepara un listado de las unidades de muestreo, numerndolas, por ejemplo, secuencialmente, y a continuacin, se seleccionan tantos nmeros aleatorios como elementos debe tener la muestra. El muestreo aleatorio estratificado es una modificacin que intenta asegurar que la muestra presenta la misma distribucin que la poblacin en relacin a determinadas variables, previniendo la aparicin de sesgos debidos a las mismas. La poblacin se divide en estratos en funcin de las categoras de las variables por las que se desea estratificar, es decir, se forman subgrupos de poblacin que comparten alguna caracterstica en comn y son mutuamente excluyentes. A continuacin, se escoge una muestra al azar en cada estrato, habitualmente manteniendo las proporciones observadas en la poblacin de referencia (muestreo aleatorio estratificado proporcional). Es preciso que los estratos se delimiten en funcin de variables que puedan influir sobre los resultados. El muestreo en mltiples etapas consiste en seleccionar unidades de muestreo de una poblacin (unidades primarias, por ejemplo, servicios), y, en una segunda etapa, obtener una muestra de cada una de las unidades primarias seleccionadas (unidades secundarias, por ejemplo, pacientes ingresados). Se pueden usar el nmero de etapas que sean necesario y, en cada una de ellas, un mtodo diferente de muestreo (simple, estratificado, sistemtico). Cuando se incluyen todas las unidades secundarias, se denomina muestreo en conglomerados. El muestreo sistemtico se basa en aplicar alguna regla sistemtica simple, como elegir uno de cada n individuos. En primer lugar, se calcula la constante de muestreo k, dividiendo el tamao de la poblacin candidata por el de la muestra. A continuacin, se extrae la primera unidad al azar entre las k primeras unidades de muestreo y se le suma la constante sucesivamente hasta completar el tamao de la muestra. J. Jimnez Tiene la ventaja de que es ms cmodo y prctico que el muestreo aleatorio simple, y de que no siempre es necesario tener de antemano una lista completa y exhaustiva de toda la poblacin. Adems, cuando la poblacin de referencia est ordenada siguiendo una tendencia conocida (de mayor a menor, de ms viejo a ms joven...), el muestreo sistemtico asegura una cobertura de unidades de todos los tipos. En muchos estudios, bien porque no se dispone de un listado con los miembros que forman la poblacin de estudio o bien porque sta es dinmica, la muestra de sujetos se selecciona por otros mtodos no probabilsticos (por ejemplo, incluyendo consecutivamente a los pacientes que acuden a la consulta y cumplen los criterios de seleccin, o a voluntarios). En estos casos, para poder realizar inferencias vlidas, debe poderse asumir que la muestra seleccionada es repiesentativa de la poblacin de estudio. ESTUDIOS DE CONTRASTE DE HIPOTESIS Principio de comparabilidad En los estudios analticos, adems del principio de representatividad, debe cumplirse el de comparabilidad de los grupos. Estos estudios se basan en que los grupos son comparables por todos los factores pronsticos y en que se ha obtenido la informacin de la misma forma en todos ellos, de manera que las diferencias en los resultados observados puedan atribuirse al factor que se est estudiando. La funcin del grupo control es proporcionar una estimacin del valor de la variable de respuesta en ausencia del factor de estudio. En otras palabras, debe permitir aislar el efecto del factor de estudio del debido a otros factores, por lo que el grupo control debe ser comparable al de estudio en todas aquellas variables que puedan influir sobre la respuesta o su medicin. El proceso de formacin de los grupos depende del tipo de estudio. En los diseos observacionales, se realiza en funcin de la existencia o no de la enfermedad de inters (estudios de casos y controles) o de la presencia o no de la exposicin (estudios de cohortes). En los estudios experimentales, los sujetos son asignados a los diferentes grupos que se desea comparar por un procedimiento aleatorio. Contraste de hiptesis La aplicacin ms frecuente de la inferencia estadstica en investigacin mdica son las llamadas pruebas de contraste de hiptesis o de significacin estadstica. Supongamos que existe inters en comparar dos tratamientos (un diurtico D y el tratamiento estndar E), y determinar cul de ellos es el ms eficaz en el control de las cifras tensionales. Para ello, se disea un ensayo clnico controlado, distribuyendo aleatoriamente una muestra de pacientes hipertensos en dos grupos, cada uno de los cuales recibe uno de los tratamientos. A los tres meses, el porcentaje de individuos controlados en cada grupo es del 70 y 50%, respectivamente. Qu conclusin puede obtenerse a la vista de estos resultados? Mtodos estadsticos Lo que se quiere determinar es hasta qu punto es posible que la diferencia observada sea debida exclusivamente al azar (variaciones del muestreo). Hiptesis nula e hiptesis alternativa La hiptesis que en realidad se va a contrastar estadsticamente es la de que no existen diferencias entre los porcentajes de hipertensos controlados observados en ambos grupos. La prueba de significacin estadstica intentar rechazar esta hiptesis, conocida como hiptesis nula Ho. Si lo consigue, se aceptar la hiptesis alternativa Ha de que existen diferencias entre ambos grupos. El primer paso es, pues, formular la Ho. A continuacin, se calcula, mediante la prueba estadstica ms adecuada, la probabilidad de que los resultados observados puedan ser debidos al azar, en el supuesto de que Ho sea cierta. En otras palabras, la probabilidad de que, a partir de una poblacin de referencia, puedan obtenerse dos muestras que presenten unos porcentajes tan diferentes como los observados. Esta probabilidad es el grado de significacin estadstica, y suele representarse con la letra p. Basndose en su valor, se decide si se rechaza o no Ho. Cuanto menor sea la p, es decir, cuanto menor sea la probabilidad de que el azar pueda haber producido los resultados observados, mayor ser la evidencia en contra de Ho, y, por lo tanto, mayor ser la tendencia a concluir que la diferencia existe en la realidad. El valor de p por debajo del cual se considerar que se dispone de la suficiente evidencia en contra de Ho para rechazarla, conocido como el nivel de significacin estadstica, debe fijarse previamente. De forma arbitraria, y por convenio, suele fijarse este valor en el 5% (0,05). Supongamos que en el ejemplo se obtiene un valor de p de 0,10. Esto significa que, si Ho fuera cierta, la probabilidad de que el azar pueda producir unos resultados como los observados es del lo%, o bien, que existe un 10% de probabilidad de que dos muestras del tamao de las estudiadas obtenidas de una misma poblacin presenten unos porcentajes del 70 y 50% slo por variabilidad aleatoria. Si se haba prefijado el valor 0,05 para el nivel de significacin, dado que el valor de p obtenido es superior, se considerar que la probabilidad de haber obtenido estos resultados por azar es demasiado elevada y que, por tanto, no se dispone de la suficiente evidencia para rechazar la Ho. Se concluye que no se han encontrado diferencias estadsticamente significativas en el porcentaje de pacientes controlados en ambos grupos. No se concluye que ambos grupos son iguales, sino que no se ha encontrado la suficiente evidencia para decir que son diferentes. Supongamos que se hubiera obtenido un valor de p de 0,02. Como este valor es inferior al nivel de significacin del 0,05, se considerar que la diferencia observada es estadsticamente significativa, ya que es poco probable (p2 categoras Ji al cuadrado Q de Cochran Ji al cuadrado Q de Cochran Anlisis de la variancia Cualitativa ordinal Prueba de los signos Prueba de los rangos signados de Wilcoxon Prueba de KruskalWallis Prueba de Friedman Correlacin de Spearman Cuantitativa (* t de Student-Fishei Prueba de Welch t de Student-Fishe: datos apareados Anlisis de la variancia Anlisis de la variancia de medidas repetidas Correlacin de Pearson Regresin linea simple (*) Cuando las pruebas estadsticas aplicables a las variables cuantitativas no cumplen las asunciones necesarias para su uso, se recurre a las pruebas correspondientes como si la variable de respuesta fuera ordinal (pruebas no paramtricas). bles respecto a la otra, se habla de regre- Definir la hiptesis que se va a contrassin lineal simple. tar, precisando si es unilateral o bien bilateral. Tamao de la muestra Establecer el riesgo de cometer un Para realizar el clculo del tamao de la error a que se est dispuesto a aceptar. muestra necesario para comparar dos Habitualmente suele aceptarse un 5%, grupos, deben utilizarse los siguientes y preferiblemente con hiptesis bilateelementos: rales, ya que son ms conservadoras. J. Jimnez Establecer, asimismo, el riesgo que se acepta de cometer un error fl. Habitualmente se sita entre el 5 y el 20%. A menudo, es ms fcil enhentar esta decisin a partir del concepto de poder o potencia estadstica (1-fl), que es la capacidad del estudio para detectar una determinada diferencia. Aceptar un riesgo de cometer un error fl del 20%, significa que, si la diferencia que se busca existe en la realidad, el estudio tiene un 80% de probabilidades de detectarla. Definir la mnima magnitud de la diferencia, efecto o asociacin, que se desea ser capaz de detectar. Debe estar basada en datos de estudios previos o de la literatura que definan el rango de valores esperables, y en la mnima magnitud que se considera de relevancia clnica. Es necesario, tambin, disponer de alguna medida de la variabilidad de la variable de respuesta en la poblacin o grupo de referencia. De estos cinco elementos, slo el ltimo debe ser conocido, ya que los otros cuatro son fijados por el investigador. A continuacin, se aplica la frmula correspondiente (tabla 5). Supongamos un estudio que tiene por objetivo determinar si un nuevo tratamiento T consigue un mayor porcentaje de xitos en las sobreinfecciones respiratorias que el tratamiento estndar E. Lo primero que debe conocerse es el porcentaje de curaciones en pacientes de caractersticas similares a los que van a ser estudiados obtenido con el tratamiento estndar E. Supongamos que esta ciha se sita alrededor del 40% (P1=0,4). El siguiente paso es determinar la diferencia mnima que se desea detectar, es decir, responder a la siguiente pregunta: A partir de qu porcentaje de xitos con el nuevo tratamiento se considerar que ste es mejor que E, y, por lo tanto, se estar dispuesto a modificar la pauta teraputica habitual? Es decir, si el porcentaje de indiTabla 5. Frmulas para el clculo del nmero de sujetos necesarios por grupo en un estudio cuyo objetivo es la comparacin de dos muestras del mismo tamao. COMPARACION DE DOS PROPORCIONES (Variable cualitativa) COMPARACION DE DOS MEDIAS (Variable cuantitativa) N =[2.(Za +ZP)~. s2]/d2 N: Nmero de sujetos necesarios en cada uno de los grupos; ZCL: Valor de Z correspondiente al riesgo CL fijado (cuando a=0,05,Za=1,96 en hiptesis bilateral y Za=1,645 en unilateral); ZB: Valor de Z correspondiente al riesgo $ fijado (cuando $=0,20, ZB=0,842; cuando $=0,10, ZB=1,282; cuando B=0,05, ZB=1,645); P1: Valor de la proporcin que se supone que existe en el grupo de referencia; P2. Valor de la proporcin que se supone que existe en el grupo de estudio; P2-P1: Valor mnimo de la diferencia que se desea detectar (variable cualitativa); P: Media ponderada de las proporciones P1 y P2; s2: Variancia de la distribucin de la variable cuantitativa que se supone que existe en el grupo de referencia;-d: Valor mnimo de la diferencia que se desea detectar (variable cuantitativa). Mtodos estadsticos viduos curados con T es del 41%, puede considerarse que esta diferencia del 1% es un resultado lo suficientemente importante para modificar la pauta terapetica? LO se exigir un mnimo, por ejemplo, del 50% de xitos? La respuesta a esta pregunta depende de muchos factores, tales como la seguridad del frmaco, la facilidad de administracin o el coste, entre otros. Supongamos que los investigadores consideran que, si se cura el 50 % de pacientes con T (P2=0,5), se aceptar como la eleccin terapetica. A continuacin, slo falta determinar los niveles de riesgo de cometer algn tipo de error aleatorio que se est dispuesto a asumir. Supongamos que se acepta el nivel de riesgo a habitual del 5% con una hiptesis bilateral y un riesgo B del 20% (potencia: 1- P=0,80). Aplicando la frmula puede calcularse que son necesarios 387 sujetos por grupo de estudio. Esta cifra indica el nmero de sujetos que deben finalizar el estudio para tener un 80% de probabilidades de detectar una diferencia igual o superior a la fijada, con un nivel de error a del 5%. Por lo tanto, hay que incrementarlo en funcin del nmero de prdidas de seguimiento y de abandonos que se prevea que ocurrirn durante el estudio, aplicando la misma frmula que se ha presentado en el caso de la estimacin de parmetros. Estimacin frente a significacin estadstica En realidad, cuando analizan los resultados de un estudio, los investigadores estn interesados no slo en saber si una diferencia o asociacin es estadstiTabla 6. Clculo del intervalo de confianza (IC) de la diferencia entre dos proporciones. IC DE LA DZFERENCiA DE DOS PROPORCIONES (*) a) MUESTRAS INDEPENDIENTES: (PA - PB) I Z.ESD b) MUESTRAS APAREADAS (PA - Pg) k Z.ESD PA, Pg: Proporciones observadas en las muestras A y B; nA, ng: Nmero de sujetos de las muestras A y B; b, c: Nmero de casos que presentan valores diferentes en ambas mediciones (series apareadas); n: Nmero total de casos; ESD: Error estndar de la diferencia; Z : Valor de la variable normal tipificada correspondiente al valor a, para un nivel de confianza (1-a). (*) Las variables cualitativas no presentan una distribucin normal. Las frmulas de la tabla corresponden a una aproximacin a la normalidad, aplicable cuando todos los productos n.PA, n.(lmPA), n.PB y n.(l-PB) son mayores de 5. J. Jimnez Tabla 7. Clculo del intervalo de confianza (IC) de la diferencia entre dos medias. IC DE LA DIFERENCIA DE DOS MEDIAS (*) a) MUESTRAS INDEPENDIENTES: (mA - mg) I Z.ESD ESD=S -+- J.: ne b) MUESTRAS APAREADAS iiid ' Z.ESmd mA, mg: Medias observadas en las muestras A y B; S*, sg: desviaciones estndar observadas en las muestras A y B; nA, nB: Nmero de sujetos de las muestras A y B; ESD: Error estndar de la diferencia; md: Media de las diferencias de las dos mediciones en cada individuo (series apareadas); ESmd: Error estndar de la media de las diferencias individuales; Z: Valor de la variable normal tipificada correspondiente al valor a, para un nivel de confianza (1-a). (*) El clculo se basa en la distribucin normal. El valor de Z para un IC del 95% es 1,96. Para muestras de tamao inferior a 30 individuos, este valor debe sustituirse por el de la t de Student para (n-1) grados de libertad. Asimismo, el clculo requiere que no existan diferencias significativas entre las desviaciones estndar de ambas muestras. camente significativa, sino tambin en determinar su magnitud. El valor observado en el estudio es la mejor estimacin puntual de dicha magnitud. Si se repitiera el estudio con otras muestras, podran observarse resultados de diferente magnitud. Por tanto, hay que calcular un IC que contenga, con una determinada confianza, la verdadera magnitud de inters. Las tablas 6 y 7 presentan las frmulas para el clculo del IC de la diferencia entre dos proporciones y entre dos medias, respectivamente. Cuando se utiliza como medida del efecto una diferencia, si el IC del 95% incluye el valor 0, que es el valor correspondiente a la Ho de que no existe diferencia entre ambos grupos, se concluir que el resultado no es estadsticamente significativo. Si, por el contrario, el IC del 95% excluye este valor O, se concluir que la diferencia observada es estadsticamente significativa. Adems de saber si la diferencia es o no estadsticamente significativa, el IC permite conocer entre qu lmites es probable que se encuentre la verdadera diferencia, lo que es muy til en la interpretacin de los resultados. Supongamos un estudio que compara la eficacia de dos tratamientos A y B en dos grupos de 30 pacientes. Se observa una diferencia en el porcentaje de xitos del 20% (70% - 50%) a favor del tratamiento B, que no es estadsticamente significativa (p=0,12). El IC del 95% de la diferencia entre los dos tratamientos es 0,2 I 0,24, es decir, de 4% a 44%. La verdadera magnitud de la diferencia est en un intervalo que va desde un 4% a favor del tratamiento A hasta un 44% a favor de B. Dado que una diferencia del O % tambin es posible, no puede descartarse que ste sea su verdadero valor, por lo que la prueba esta- Mtodos estadsticos dstica da un valor no significativo. En cambio, el IC informa adems que tambin son posibles grandes diferencias a favor de B, y que son improbables grandes diferencias a favor de A. Aunque los resultados siguen sin ser concluyentes, se dispone de ms informacin para interpretarlos adecuadamente. El IC cuantifica el resultado encontrado y provee un rango donde es muy probable que se encuentre el valor real que se est buscando. Los IC tienen otra ventaja adicional, y es la de expresar los resultados en las unidades en que se han realizado las mediciones, lo que permite al lector considerar crticamente la relevancia clnica de los mismos. Aunque las pruebas de significacin continan siendo los procedimientos estadsticos utilizados con mayor frecuencia, las ventajas de la utilizacin de los IC en el anlisis e interpretacin de los resultados, tanto si el objetivo es la estimacin de parrnetros como el contraste de una hiptesis, hacen que cada vez ms revistas recomienden a los autores la utilizacin de los mismos. Anlisis multivariante En muchas ocasiones, interesa considerar la influencia de ms de dos variables simultneamente. Ello requiere tcnicas sofisticadas, basadas en modelos matemticos complejos, agrupadas bajo el nombre genrico de anlisis multivariante. Existen mltiples tcnicas estadsticas multivariantes. En investigacin clnica y epidemiolgica las ms utilizadas son las que analizan la relacin entre una variable dependiente (variable de respuesta) y un grupo de variables independientes (factor de estudio y variables a controlar). Estas tcnicas implican la construccin de un modelo matemtico. La eleccin de un modelo u otro depender del diseo empleado en el estudio, la naturaleza de las variables y de las interrelaciones entre el factor de estudio,$ la variable de respuesta y las restantes variables incluidas en el modelo (variables a controlar). Los utilizados con ms frecuencia son la regresin lineal mltiple cuando la variable dependiente es cuantitativa, y la regresin logstica cuando es dicotmica. BIBLIOGRAFIA 1. Altman DG. Practical statistics for medical research. London: Chapman & Hall, 1991. 2. Andersen B. Methodological errors in medical research. Oxford: Blackwell Scientific Publications, 1990. 3. Argimon Palls JM, Jimnez Villa J. Mtodos de investigacih clnica y epidemiolgica. Madrid: Harcourt Internacional, 2000. 4. Armitage P, Berry G. Estadstica para la investigacin biomdica. Barcelona: Doyma, 1992. 5. Campbell MJ, Julious SA, Altrnan DG. Estimating sample size for binary, ordered categorial, and continuous outcomes in two group comparison. BMJ 1995; 311: 1145- 1148. 6. Dawson-Saunders E, Trapp RG. Bioestadstica mdica. Mxico: El Manual Moderno, 1993. 7. Essex-Sorlie D. Medical bioestatistics & epidemiology. East Norwalk: Appleton & Lange, 1995. 8. Everitt BS. Statistical methods for medical investigations. New York: Oxford J. Jimnez University Press, 1989. 9. Fleiss JL. Statistical methods for rates and proportions. 2nd ed. New York: John Wiley & sons, 1981. 10. Florey CV. Sample size for beginners. BMJ 1993; 306: 1181-1184. 11. Gardner MJ, Altman DG. confidence intervals rather than p values: estimation rather than hypotesis testing. BMJ 1986; 292: 746-750. 12. Gardner MJ, Altman DG. Statistics with confidence: confidence intervals and statistical guidelines. Londres: Bristish Medical Journal, 1989. 13. Kelsey JL, Thompson WD, Evans A. Methods in obsewational epidemiology. Nueva York, Oxford University Press; 1986. 14. Kleinbaum D, Kupper L, Morgenstern H. Epidemiologic Research. Belmont, Lifetime Learning Publications 1982. 15. Marrugat J, Vila J, Pavesi M, Sanz F. Estimacin del tamao de la muestra en la investigacin clnica y epidemiolgica. Med Clin (Barc) 1998; 111: 267-76. 16. Martn Andrs A, Luna del Castillo J de D. Bioestadstica para las ciencias de la salud. 2" edicin. Madrid: Norma, 1989. 17. Norman GR, Streiner DL. Bioestadstica. Madrid: MosbyIDoyma Libros, 1996; 18. Plasencia A, Porta M. La calidad de la informacin clnica (11): significacin estadstica. Med Clin (Barc) 1988; 90: 122-126. 19. Porta M, Plasencia A, Sanz F. La calidad de la informacin clnica (111): ~estadsticamente significativo o clnicamente importante? Med Clin (Barc) 1988; 90: 463468. 20. Sahai H, Khurshid A. Formulae and tables for the determination of sample sizes and power in clinical trials for testing differences in proportions for the two-sample design: a review. Stat Med 1996; 15: 1-21. 21. Silva Aycaguer LC. Muestreo para la investigacin en ciencias de la salud. Madrid: Daz de Santos; 1993.