17
.- Variable aleatoria. Concepto. I Antes de definir el concepto de varibale aleatoria, veamos algunos ejemplos (ya estás empezando a comprobar que en estadística sin ejemplos andamos algo perdidos). Ejemplos: Supongamos el experimento consistente en el lanzamiento de tres monedas, y consideremos la variable . Los valores que puede tomar la variable son x = nu ´mero de caras del experimento . x = 0, 1, 2, 3 Sea ahora el experimento consistente en lanzar dos dados y consideremos la varibale . Los valores posible son: x = suma de la cara superior de los dos dados . x = 2, 3, 4, 5, 6, 7, 8, , 9, 10, 11, 12 Elijamos un alumno de la clase y preguntémonos por la varibable {tiempo invertido por el x = alumno en cubrir el trayecto que va desde su casa al instituto}. En este caso la variable no puede x tomar valores discretos, ya que el rango de tiempos es infinito y la distancia entre un tiempo dado y el “siguiente” es infinitamente próxima y por tanto no podemos numerarlos. Pues bien, todas las variables de los ejemplos anteriores son variables aleatorias. Así, Una variable aleatoria es una función que hace corresponder un x número real a cada resultado de un experimento aleatorio. También de los ejemplos anteriores ya habrás podido deducir que existen dos tipos de variables aleatorias: Discretas, cuando la variable aleatoria toma como valores números enteros. Continua, cuando la variable aleatoria puede tomar cualquier valor dentro de un intervalo y no es posible asignar un valor entero a un resultado cualquiera del experimento. A los valores que puede tomar una variable aleatoria se le llama recorrido. En el caso de las tres monedas, por ejemplo, el recorrido son los números . En el caso del 0, 1, 2, 3 tiempo invertido por el alumno sería el intervalo entre el mínimo valor y el máximo. t 1, t 2 Observación. Hay variables discretas que pueden tomar infinitos valores, pero siempre es posible contarlos o numerarlos. Por ejemplo, en el lanzamiento de un dado, podemos preguntarnos por el la variable . En x = nu ´mero de lanzamientos hasta que salga un principio, el número de lanzamientos hasta que salga el resultado esperado puede infinito, pero es posible contarlos. Es, por tanto, una variable discreta. - 19 - TEMA II VARIABLES ALEATORIAS. DISTRIBUCIÓN . BINOMIAL Y NORMAL

TEMA II VARIABLES ALEATORIAS. DISTRIBUCI. ÓN …roble.pntic.mec.es/valm0013/Word Pro - variablealeatoria.pdf · Pues bien, todas las variables de los ejemplos anteriores son variables

Embed Size (px)

Citation preview

.- Variable aleatoria. Concepto.I

Antes de definir el concepto de varibale aleatoria, veamos algunos ejemplos (ya estásempezando a comprobar que en estadística sin ejemplos andamos algo perdidos).

Ejemplos:

� Supongamos el experimento consistente en el lanzamiento de tres monedas, y consideremos la

variable . Los valores que puede tomar la variable son x = numero de caras delexperimento.x = 0, 1, 2, 3

� Sea ahora el experimento consistente en lanzar dos dados y consideremos la varibale

. Los valores posible son: x = suma de la cara superior de los dosdados

.x = 2, 3, 4, 5, 6, 7, 8, , 9, 10, 11, 12

� Elijamos un alumno de la clase y preguntémonos por la varibable {tiempo invertido por elx =alumno en cubrir el trayecto que va desde su casa al instituto}. En este caso la variable no puedextomar valores discretos, ya que el rango de tiempos es infinito y la distancia entre un tiempo dado yel “siguiente” es infinitamente próxima y por tanto no podemos numerarlos.

Pues bien, todas las variables de los ejemplos anteriores son variables aleatorias. Así,

Una variable aleatoria es una función que hace corresponder unxnúmero real a cada resultado de un experimento aleatorio.

También de los ejemplos anteriores ya habrás podido deducir que existen dos tipos devariables aleatorias:

� Discretas, cuando la variable aleatoria toma como valores números enteros.

� Continua, cuando la variable aleatoria puede tomar cualquier valor dentro de unintervalo y no es posible asignar un valor entero a un resultado cualquiera delexperimento.

A los valores que puede tomar una variable aleatoria se le llama recorrido . En el casode las tres monedas, por ejemplo, el recorrido son los números . En el caso del0, 1, 2, 3tiempo invertido por el alumno sería el intervalo entre el mínimo valor y el máximo.t1,t2

Observación. Hay variables discretas que pueden tomar infinitos valores, perosiempre es posible contarlos o numerarlos. Por ejemplo, en el lanzamiento de un dado,podemos preguntarnos por el la variable . Enx = numero de lanzamientos hasta que salga unprincipio, el número de lanzamientos hasta que salga el resultado esperado puede infinito,pero es posible contarlos. Es, por tanto, una variable discreta.

- 19 -

TEMA II VARIABLES ALEATORIAS. DISTRIBUCIÓN.BINOMIAL Y NORMAL

II. Variables discretas. Función de Probabilidad y Función deDistribución.

Lo que viene a continuación es válido sólo para variables discretas. Y referidas a éstaspueden definirse dos funciones que con posterioridad nos servirán para calcular parámetrostales como la media y la desviación típica de una variable aleatoria. Tales funciones son: lafunción de probabilidad y la función de distribución.

Se define función de probabilidad, , de una variablef(x)aleatoria discreta a toda función que asocia a cada resultado delxexperimento su probabilidad de ocurrencia. Es decir:

f(x) = p(x)

Nuevamente confiemos en los ejemplos para entender las ideas.

Supongamos el lanzamiento de las tres monedas y la variable . El recorridox = numero de carasde la variable es y los resultados posibles del experimento son :x x = 0, 1, 2, 3

. E = CCC,CCX,CXC,CXX,XCC,XCX,XXXC,XXX

Si llamamos a probabilidad de que el número de caras sea , entonces, aplicando la regla def(x) xLaplace, es fácil ver que estas probabilidades son:

f(0) = p(0 caras) = 18 f(1) = p(1 cara) = 3

8f(2) = p(2 caras) = 3

8 f(3) = p(3 caras) = 18

Supongamos ahora que un tirador tira dos veces seguidas a una diana y sabemos que la probabilidad deque acierte de cada vez es de 0.6. Consideremos para este experimento la variable aleatoria

, cuyo recorrido es x = numero de aciertos del tirador en los dosdisparos x = 0, 1, 2

Sea ahora la función que asocia a cada valor de la variable su probabilidad de ocurrencia. Veamos,f(x)diagrama de arbol:

1er disparo 2º disparo

AciertoFallo

0,6

0,6

0,4

0,4

0,6

0,4

f(0) = p(0 aciertos) = 0.42 = 0.16

- 20 -

f(1) = p(1 acierto) = 2 $ 0.6$ 0.4= 0.48 f(2) = p(2 aciertos) = 0.62 = 0.36

En ambos casos la función es la función de probabilidad asociada a la variable para cada uno def(x) xlos experimentos aleatorios.

Gráficamente:

1/8

3/8

4/8

2/8

0,16

0,36

0,48

0 1 2 3 0 1 2 aciertoscaras

Se define función de distribución de una variable aleatoriaF(x)discreta a toda función que asocia a cada valor de la variablexsu probabilidad de que ésta tome todos los valores menores oiguales que Es decir:x.

F(x) = p(todos los valores menores o iguales quex

Para el caso de las tres monedas, y siendo la variable aleatoria , esta funciónx = numero de carastoma los valores:

F(0) = p(x [ 0) = 1/8F(1) = p(x [ 1) = p(0) + p(1) = 1/8+ 3/8= 4/8F(2) = p(x [ 2) = p(0) + p(1) + p(2) = 1/8+ 3/8+ 3/8= 7/8F(3) = p(x [ 3) = p(0) + p1) + p(2) + p(3) = 1/8+ 3/8+ 3/8+ 1/8 = 8/8 = 1

Para el caso del tirador, y siendo , la función queda:x = numero de aciertos F(x)

F(0) = p(x [ 0) = 0.16F(1) = p(x [ 1) = p(0) + p(1) = 0.16+ 0.48= 0.64F(2) = p(x [ 2 ) = p(0) + p(1) + p(2) = 0.16+ 0.48+ 0.36= 1

Por último, cuando para una variable aleatoria discreta hemos obtenido su función deprobabilidad y su función de distribución se dice que ha quedado determinada su distribuciónde probabilidad.

Ejercicios:

- 21 -

Determinar la distribución de probabilidad (función de probabilidad y función dedistribución) en cada uno de los siguientes casos. Representar mediante un diagrama de barrasy un polígono de frecuencias los resultados obtenidos.

(a) En una urna hay siete bolas, de las cuales tres son blancas y cuatro negras. Seextraen tres bolas sin reemplazamiento y consideramos la variable aleatoria ”número dex =bolas negras obtenidas entre las tres extraídas”

(b) Lanzamos dos dados y analizamos la variable aleatoria ”suma de lasx =puntuaciones de los dos dados”.

(c) En el lanzamiento de 5 chichetas idénticas sea ”número de ellas que quedaronx =con la punta hacia abajo”. Supongamos que

p( )=0.70 y p( ) =0.30

(d) Supongamos un dado de quinielas (tres unos, dos equis y un dos) y estudiamos lavariable aleatoria ”número de veces que se lanza el dado hasta obtener una equis”x =

III. Parámetros estadísticos: Media, Varianza y Desviación Típica

En primer lugar, se entiende por parámetro estadístico a toda cantidad que puedeobtenerse de los datos de una distribución y que son representativos de alguna propiedad de lamisma. Muchos de estos parámetros te suenan ya: media, moda, mediana, varianza ,desviación típica; de otros, en cambio, seguramente no has oido hablar: momentos ordinariosy centrales, coeficientes de asimetría, de Kurtosis. Pues bien, de todos los parámetros quepueden determinarse de una distribución, dos de ellos resumen una gran parte de lainformación necesaria para su interpretación. Son: su media, como una medida del valorcentral de los datos, y su desviación típica, como medida de lo dispersos que están éstosrespecto del valor medio.

Por cierto, lo de media, varianza y desviación típica, tal vez, te suene raro aquí. Estostérminos suelen asociarse con la estadística descriptiva: media de altura, de pesos, decalificaciones. Verás, sin embargo, que estos conceptos aplicados a un conjunto de datos y auna distribución estadística están ligados de manera muy cercana.

Para mostrarlo, un ejemplo:

Supongamos que hacemos un estudio sobre el número de hijos de 15 familias, obteníendose losresultados de la tabla:

11265ni =numero defamilias43210xi =numero dehijos

Si llamamos al número total de datos (en nuestro caso 15 ), el cálculo del número medio de hijos deNlas 15 familias se realiza, como sabes, de la siguiente manera:

- 22 -

x = � xi $ ni

N = 0 $ 5 + 1 $ 6 + 2 $ 2 + 3 $ 1 + 4 $ 115 = 17

15 = 1, 13 hijos, demedia

Sin embargo, el cálculo de la media puede verse también de otro modo. Supongamos que definimos lavariable aleatoria

. x =”numero de hijos de una de las familias delestudio

El recorrido de esta variable es . y su función de probabilidad, según los datos dex = 0, 1, 2, 3, 4la tabla toma los valores:

f(0) = p(0 hijos) = 5/15= 0.33

f(1) = p(1 hijo ) = 6/15= 0.40

f(2 ) = p(2 hijos) = 2/15= 0.13

f(3) = p(3 hijos) = 1/15= 0.07

f(4) = p(4 hijos) = 1/15= 0.07

Ahora, la expresión que nos da el número medio de hijos puede expresarse en términos deprobabilidad, ya que:

x = � xi $ ni

N = � xi $ni

N = � xi $ f(xi ) = � xi $ p(xi ) = 1, 13 hijos, demedia

Resumiendo, la media de un conjunto de datos y de una distribución de probabilidad tiene un

significado equivalente y su valor es el mismo.

Así:

Llamamos media o esperanza matemática de una distribuciónestadística a la suma de los productos de cada valor de lavariable por su probabilidad de ocurrencia. Se denota por la letragriega .�

(1)� = � xi $ p(xi )

Lo de esperanza matemática proviene de los juegos de azar, ya que la media de unadistribución estadística también puede interpretarse como el promedio de ganancia esperadopor un jugador al apostar.

Llamamos varianza, , de una distribución estadística al�2

valor obtenido a través de la fórmula

(2)�2 = �(xi − �)2 $ p(xi )

O en su versión más práctica para el cálculo -que nodemostraremos-:

�2 = � xi2 $ p(xi ) − �2

- 23 -

Por último

Llamamos desviación típica de una distribución estadística, , a�

la raíz cuadrada de la varianza:

� = varianza= � xi2 $ p(xi ) − �2

Sobre la media nada que decir. La varianza, en cambio, merece un comentario.Observa que su cálculo depende del valor de la diferencia al cuadrado entre cada valor de lavariable y la media de la distribución. Así pues, cuanto más alejados estén los elementosindividuales de la media mayor es la varianza. Por tanto, esta es una medida de lo dispersosque están los datos respecto del valor medio. La varianza, sin embargo, presenta un problemade interpretación, ya que se mide en Para evitar esto y poder darcm2, segundos2, hijos2, etclos resultados en términos de cm, segundos, hijos, etc se introduce la desviación típica comola raíz cuadrada de la varianza. Así, todo cuadra.

Ejercicios.

1. Calcular la media y la varianza de las distribuciones de probabilidad de ejercicio delapartado anterior. Interpretar los resultados.

IV. Distribución Binomial.

En ejercicios anteriores ya has descrito casos de distribución de probabilidad devariables discretas. Algunas de estas distribuciones, por su importancia, tienen nombrespropios -Distribución dicotómica, binomial, geométrica, hipergeométrica, de Poisson-

Por ejemplo, la distribución del ejercicio (d) del apartado II, en la que nos preguntamos por el númerode veces que debemos realizar un experimento hasta obtener el resultado esperado corresponde al tipogeométrica.

Pues bien, probablemente sea la distribución binomial , la que por su relación con elestudio de las proporciones (proporción de jóvenes que acceden a la universidad frente a losque no, proporción de personas que en vacaciones viajan al extranjero frente a las que no,proporción de los que invierten en bolsa frente a los que no, etc) tiene mayor importancia enel ámbito social.

Una distribución de probabilidad se ajusta a los parámetros de una binomial siverifica los siguientes requisistos:

� El experimento consiste en un número determinado de ensayos idénticos e independientes,, cada una de ellos con sólo dos resultados posibles (éxito o fracaso, a favor o en contra,n

cara o cruz).

� La probabilidad de éxito se designa por y la de fracaso por . Y dadas sus características,p qse verifica

- 24 -

p + q = 1 oq = 1 − p

� La variable aleatoria es x = numero de exitos en losn ensayos

Pues bien, su función de probabilidad, es decir, la que da la probabilidad de obtener éxitos de ensayos viene determinada por la siguiente fórmula:x n

f(x) = p(x exitos den ensayos)=

nx

px $ qn−x

donde el término es el llamadao número combinatorio.

nx

= n!

x!(n − x)!

El número medio de éxitos, , y la varianza y desviación típica, , se calculan � �

aplicando las fórmula (1) y (2) -que omitiremos, por resultar los cálculos algo engorrosos- ,llegándose a los siguientes resultados:

Media � = n $ pVarianza �2 = n $ p $ qDesv. típica � = n $ p $ q

Abreviadamente, a las distribuciones binomiales se las designa por .B(n,p)

Una observación muy importante es que en cada uno de los ensayos de unadistribución binomial la probabilidad de éxito y de fracaso no debe cambiar. Por ejemplo, siextraemos 10 estudiantes al azar de una universidad para preguntarles si utilizan el comedoruniversitario, siendo esta proporción, antes de extraer ningún estudiante, del 35 % que sí(éxito) y del 65 % que no (fracaso) y su respuesta ha sido afirmativa, entonces la proporciónde estudiantes de esa universidad que sí y que no utilizan el comedor universitario ha variadoligeramente como consecuencia de la extracción de un estudiante. Siendo rigurosos y, paraque pueda hacerse el estudio a través de un distribución binomial, el individuo extraído debeser reinsertado nuevamente a la población para que tenga la posibilidad de ser ¡elegidonuevamente!... No obstante, cuando la población es muy grande, como es el caso que nosocupa, la variación que se produce al extraer un número reducido de individuos es tanpequeña que apenas tiene incidencia en los resultados que se obtienen y puede omitirse este“rebuscado” procedimiento. Sacamos a los 10 individuos, y ya está.

Ejercicios.

1. Indica si cada una de las siguientes situaciones se ajustan a distribuciones binomiales...Descríbelas y calcula en cada caso su valor medio y su desviación típica. Interpreta losresultados.

(a) Un cazador acierta en el 65 % de los disparos que realiza. Definimos la variablealeatoria ”número de aciertos en los próximos cinco disparos”.x =(b) Un medicamento contra la gripe es efectivo en 8 de cada 10 enfermos. Definimos lavariable aleatoria ”número de enfermos curados en un grupo de 10 enfermos”x =

- 25 -

(c) Consideremos éxito obtener cara al lanzar una moneda. Lanzamos la moneda 7 vecesy consideramos la variable aleatoria: ”número de caras obtenidas en los 7x =lanzamientos”

(d) En una urna en la que hay 7 bolas rojas y 5 negras, extraemos de una vez 3 bolas yconsideramos la variable aleatoria ”número de bolas rojas de las 3 extraídas”x =

(e) La probabilidad de nacimiento de niños varones en España es del 51,7 %, mientrasque la de niñas es del 48,3 %. Consideramos la variable aleatoria ”número dex =varones en una familia con 5 hijos”

(f) En la primera evaluación -sin contar la recuperación- aprobasteis la asignatura dematemáticas 12 alumnos de un total de 22 que estáis en clase. Sea la variable aleatoria

”número de alumnos que aprobaron que las matemáticas de un grupo de 4 alumnos”.x =

2.- a) ¿Cuál es la probabilidad de que el cazador del ejercicio (a) cace al menos una pieza si un día efectuó cinco disparos?

b) ¿Y de que cace exactamente 2 piezas? ¿Y ninguna? -que también puede ser-.

3.- a) ¿Cuál es la probabilidad de que un grupo de diez enfermos del ejercicio (b) a los que se les suministró el medicamento todos estén curados? b) ¿Cuál es la probabilidad de que estén curados más de la mitad de los enfermos?

4.- a) ¿Cuántos niños y niñas (ejercicio (e)) se espera habrá entre los 1500 bebés que nacieron en cierta ciudad el año pasado? b) ¿Cuál es la probabilidad de que en una familia con cinco hijos sólo haya niñas?

5.- Y finalmente...

a) ¿Cuál es la probabilidad de que cuatro de vosotros elegidos al azar por Adolfo hayáis aprobado todos las matemáticas en la primera evaluación? ¿Y al menos uno? b) ¿Podrías hacer previsiones para la segunda evaluación con los datos disponibles?

V. Variables estadísticas continuas. Función Densidad.

Al principio del tema, al introducir el concepto de variable aleatoria, distinguiamosentre variable discreta y continua. Hasta ahora sólo hemos tratado las primeras, las que sólopueden tomar valores discretos (generalmente números enteros), pero no ha aparecido ningunaque pueda tomar cualquier valor dentro de un rango. Y esto es porque el tratamiento para estetipo de variables -tiempos, pesos, alturas, cantidades, etc- es completamente distinto.

Un nuevo ejemplo para ilustrar lo dicho:

Supongamos nuevamente a nuestro alumno, compañero y amigo que con gran perseverancia mide yanota cada dia el tiempo que invierte en el trayecto desde su casa al instituo. Fruto de sus anotaciones observaque este tiempo se encuentra comprendido entre 7 y 12 minutos, es decir en el intervalo .Ahora bien,7, 12¿cuántos tiempos son posibles en ese intervalo?... Te habrás percatado de que la respuesta es: ¡infinitos!. Asípues, a priori, la probabilidad de que se de uno solo de ellos es cero (aplica la regla de Laplace: divide turesultado favorable entre los infinitos posibles y observa que el resultado es cero). Por tanto para la variable

- 26 -

aleatoria ”tiempo invertido en realizar el trayecto desde casa al instituto” no es posible construir una funciónx =de probabilidad, puesto que la probabilidad de que ocurra cada uno de los valores posibles de la variable essiempre nula. Pensarás con razón que algunos de los resultados sí ocurren, los que tiene anotados en su cuadernode tiempos. Y esto es cierto, pero a priori, incluso para esos tiempos la probabilidad de ocurrencia es cero -no mepreguntes, entonces, cómo ocurrieron, podriamos entrar en una interminable discusión sobre el infinito, tal vezinteresante, pero de la misma utilidad que los claustros y reuniones de tutores de este instituto: ninguna, y con elpernicioso efecto secundario de agrandar el ego de quienes las presiden y disminuir en la misma proporción sucapacidad de síntesis-.

¿Cómo obtener entonces los parámetros que caracterizan la distribución, media ydesviación típica, si no disponemos de una función de probabilidad a través de la cuál realizarlos cálculos?

Nuestro amigo diria: ¡fácil!, sumo todos los tiempos que tengo anotados , los divido por el número deanotaciones y ya tengo la media. Y para la desviación típica, elevo al cuadrado cada dato, los sumo, divido elresultado entre el número de anotaciones y le resto el cuadrado de la media; hallo su raíz cuadrada, y ya está. esdecir aplico la fórmula:

� = � xi2 $ ni − �2

en todos los casos vale uno, pues es muy raro que se repita un resultado.ni

Bien, esta forma de proceder es la correcta y sin duda es la única que conduce a losverdaderos resultados de los parámetros media y desviación típica. Pero presenta dosproblemas:

� Si el número de anotaciones fuera muy grande (como suele ocurrir cuando se tratanproblemas reales) el procedimiento no es operativo (imagina por ejemplo sumar las alturasde todos los habitantes de un pais y dividir por el número de habitantes para determinar sualtura media).

� Aunque fuera posible determinar sus parámetros, media y desviación típica, no podríamosutilizarlos para hacer predicciones ni hipótesis sobre sus posibles cambios en el tiempo(este será el tema del próximo capítulo de la estadística)

Así pues se hace necesario construir “algo parecido” a una función de probabilidad.

Razonamos de la siguiente manera: puesto que para un resultado cualquiera de lavariable aleatoria existen infinitos que están muy próximos a él, no tiene sentido tratarloscomo si fueran distintos y así, lo más razonable es meter dentro de un intervalo de la variabletodos aquellos cuyos valores se encuentran entre sus límites. Esto es un histograma.

Por ejemplo, puede que para nuestro compañero y alumno no represente mucha diferencia tardarmedio minuto más o menos en realizar el trayecto desde su casa al instituto, así es que decide partir el intervaloque va de los 7 a los 12 minutos en subintervalos de longitud medio minuto y contar el número de veces cuyostiempos se encuentran en los intervalos construidos. Como valor representativo de cada intervalo puede tomar suvalor central. Supongamos que el resultado es el siguiente:

- 27 -

La línea que une las barras verticales se llama polígono de frecuencias y como verás más adelantetiene su importancia.

El proceso iniciado puede acabar aquí o continuar. Si el número de datos es muygrande ello nos permite estrechar los intervalos. Podemos, además, sustituir la frecuenciaabsoluta en el eje vertical por la relativa o, su equivalente, por la probabilidad de que ocurraun resultado en un intervalo determinado.

Observar que en el eje vertical no hace referencia a la probabilidad de un resultadofconcreto, como ocurria para variable discreta, -esta probabilidad como se dijo al principio escero- sino a la probabilidad por intervalo de la variable. Se trata pues de una densidad deprobabilidad , de la misma manera que hablamos de habitantes por de un país, de kg de km2

grano por hectárea de una explotación agrícola o de nacimientos por cada 1000 habitantescomo índice de crecimiento. Aquí se habla de probababilidad por amplitud de intervalo.

Cuando el número de intervalos es muy grande, y por tanto muy estrechos, elpolígono de frecuencias adopta la forma de una curva que representa en cada punto la alturade la barra correspondiente. Si quitamos estas barras, que ya no son necesarias queda unacurva como la siguiente:

- 28 -

7 7,5 8 8,5 9 9,5 10 10,5 11 11,5 12 t

n

x

f

x

f

A esta y otras curvas obtenidas de esta manera se las llama funciones densidad paravariables continuas, y como tales funciones se las denota por .f(x)

Una aclaración ya mencionada. Las funciones dendisad no representan laprobabilidad de ocurrencia de un valor concreto de la variable, como ya se ha mencionadoesta probabilidad es cero, pero a partir de su forma es posible determinar la probabilidad deque un valor se encuentre entre dos dados, puesto que todas las funciones densidad cumplenlas siguientes dos propiedades:

� El área bajo la curva y el eje entre dos valores nos da la probabilidad de que laX x1 y x2

variable se encuentre entre .x1 y x2

probabilidad de x entrex1 y x2 =p(x1 [ x [ x2) = A

� El área total bajo la curva entre los extremos de la función es 1.

VI. Distribución Normal.

Aunque existen funciones densidad de muy distintas formas, lo cierto es que muchosfenómenos sociales acaban adoptando la forma de funciones teóricas conocidas. Esto es una ventaja,pues al ser conocidas es posible determinar sus parámetros, cuantificar probabilidades y hacerpredicciones.

Entre estas funciones densidad cuya fórmula teórica es conocida, la más importante de todases la llamada distribución Normal o Campana de Gauss. Su importancia se debe no sólo al grannúmero de fenómenos reales para los que es posible tomar como modelo esta distribución(especialmente cualquier variable de carácter cuantitativo de casi todas las grandes poblaciones) sinoal hecho de que otras distribuciones de uso frecuente bajo ciertas condiciones tienden a distribuirsesegún una normal.

Veamos sus características más importantes:

� Su forma es la de una “campana” en la que el valor medio de la varible, , ocupa su valor central.�

Para este valor la función toma el máximo valor. es la desviación típica de la variable. Las dos�

“colas” de la función se aproximan a cero (eje ) cuanto más nos alejamos del valor central.X

- 29 -

� Su fórmula matemática es (Otra vez el número )f(x) = 1� 2�

e− 1

2

x − ��

e = 2, 718...

� El área total bajo su curva es 1 -como para cualquier función densidad-, pero además severifica que:

En el intervalo se encuentra el 68,4 % de los datos.� − �,� + �

En el intervalo se encuentran el 95,4 % de los datos� − 2�,� + 2�

En el intervalo se encuentran el 99,7 % de los datos.� − 3�,� + 3�

Abreviadamente a las distribuciones normales se las designa por .N�,�

Bien. ¿Y para qué sirve?... Vamos a ello.

Supongamos que hacemos un estudio sobre el peso de los niños recién nacidos, y quedichos pesos se distribuyen según una normal de media y desviación típica (es lógico que� �

así sea: habrá un número muy grande de niños cuyos pesos estén próximos al valor medio y amedida que nos alejamos de ese valor, tanto por exceso como por defecto el número irádisminuyendo). Pues bien, a partir de la curva podemos asegurar que el 68,4 % de los reciénnacidos tendrá un peso comprendido entre , y que, por ejemplo, un niño cuyo� − � y � + �peso haya sido superior a es “anormalmente gordo”, puesto que más del 99,7 % de los� + 3�niños dan un peso inferior a esa cantidad. Más aún -y esto es lo más importante- dado el pesode un niño, podemos calcular la proporción de ellos con un peso superior -inferior- alobtenido: para ello, basta dividir el área que queda por encima -por debajo- de ese peso entreel área total de la curva, que como se ha dicho es 1. Pero esto no podemos hacerlodirectamente, antes hay que tipificar la variable .

Un niño da un peso de 4,200 kg, el valor medio establecido en estudios previos fue de3,750 kg ( ) y la desviación típica de 0,420 kg ( ), ajustándose los datos a una distribución� �

normal . ¿Son muchos los niños con un peso igual o superior a 4,200 kg?N(3, 750; 0, 420)Para saberlo situamos este valor en la curva y señalamos el área que queda a su derecha. Larazón entre esta área y la total bajo la curva -que es 1- es precisamente esa proporción.

- 30 -

Sin embargo, estos cálculos no pueden hacerse sobre la distribución de los reciénnacidos pues desconocemos el área a la derecha del valor . Don’t worry!, existex = 4, 200 kguna distribución normal de media , idéntica a cualquier otra distribución normal� = 0 y� = 1pero cuyas áreas están calculadas y recogidas en una tabla para cualquier valor de . Así esxque lo único que debemos hacer es determinar sobre esa distribución , el valorN(0, 1)equivalente a nuestro 4,200 kg, y buscar en la tabla el valor del área correspondiente (hayunas reglas de cálculo que vistes el año pasado y que repasaremos este año). A este proceso sele denomina tipificar la variable .

Si es el valor que queremos tipificar y llamamos al valor de sux = 4, 200 kg zequivalente en la distribución , entonces N(0, 1)

(fórmula que tipifica a ) z =x − �� x

nos da el valor de: z = 4,200 − 3,7500, 420 = 1, 07

el cuál, buscado en la tabla, y aplicando las reglas de cálculo da una proporción de:

p(zm 1, 07) = 1 − 0.8577= 0.1423

Es decir, el 14,23 % de los niños tendrán un peso igual o superior a 4,200 kg

- 31 -

Ejercicios.

1. Las puntuaciones obtenidas en un test de aptitudes aplicado cada año a estudiantesuniversitarios siguen una distribución N(500, 100)

a) ¿Qué porcentaje de estudiantes universitarios se espera que obtengan puntuacionesentre 500 y 675?

b) ¿Qué porcentaje de etudiantes se espera que logran puntuaciones superiores a 630?c) ¿Qué probabilidad hay de que un estudiante elgido al azar tenga una puntuaciónsuperior a 700?

2. Supongamos que la altura de las personas con edades comprendidas entre 20 y 30 años sedistribuye normalmente con media 1,65 metros y desviación típica 0,15 metros.

Si consideramos que una persona es alta si mide más de 1,80 metros, ¿qué número depersonas altas se espera que haya en un grupo de 2.000 individuos con edadescomprendidas entre los 20 y 30 años?

3. Si se multiplica una variable con distribución normal por una constante, se obtiene otravariable con distribución normal, cuyas medias y desviación típica quedan multiplicadas pordicha constante.

xd N�,� entonceskxd N(k�,k�)

Según esto, calcula la probabilidad que tiene una empresa de ingresar por ventas más de20.000 euros, cuyo producto tiene una demanda que sigue una distribución normal

si el precio de venta al públco de cada unidad es de 3,6 euros.N(5.000, 250)

4. Si se suman o restan dos variables aleatorias que presentan distribución normal, se obtieneotra variable aleatoria con distribución normal cuya media es la suma o resta de las medias ycuya varianza es la suma de las varianzas:

xd N�1,�1

yd N�2,�2

d x + yd N(�1 ! �2, �12 + �2

2 )

Una tienda vende dos productos. El primero de ellos tiene una demanda diaria que sedistribuye según una ley normal de media 200 unidades y desviación típica 30, y se vende a 5euros la unidad. El segundo producto tiene una demanda diaria de 60 unidades, con unadesviación típica de 4 unidades, y se vende a 20 euros la unidad.

a) Halla la probabilidad de que un día, las ventas de ambos productos superen los2.370 euros.

b) Halla la probabilidad de que un día las ventas del primer producto sean superiores alas del segundo producto.

- 32 -

VII. Convergencia de la distribución binomial hacia la normal

Son muchas las distribuciones de probabilidad de variable discreta en las que alaumentar el número de ensayos se comportan como una distribución normal. Así, se puedecomprobar que las distribuciones binomiales si es los suficientemente grande y noB(n,p) n pestá próximo a 0 ni a 1, se aproximan a una normal de media y desviación típica� = np

. Es decir:� = npq

Bn,p d Nnp, npq

Generalmente se admite que la aproximación es aceptable cuandon m 30 ,npm 5 y npm 5

La aproximación es tanto mejor cuanto mayor es el número de pruebas y cuanto másnpróximos a 0.5 sea el valor de la probabilidad . p

En las gráficas siguientes se muestra esta aproximación para algunas binomiales. Laslineas verticales son los resultados de la distribución binomial y la curva continua laaproximación de la correspondiente distribución normal.

De ellas se observa que el mejor ajuste se da para la binomial cuyo ajuste aB(30, 0.5),la normal de media es casi� = 30 $ 0.5= 15 y desviacion t�pica� = 30 $ 0.5$ 0.5 = 2, 72perfecto.

Ejercicios

- 33 -

1. El cinco por ciento de las bombillas fabricadas salen defectuosas. Si se extrae una muestrade 2.000 bombillas, halla la probabilidad de que dicha muestra contenga más de 120bombillas defectuosas.

2. Durante cierta epidemia de gripe enferma el 20 % de la población. En un centro escolar con350 alumnos,

a) ¿Cuál es la probabilidad de haya exactamente 50 alumnos que pasen la gripe?b) ¿Y la probabilidad de que haya al menos 40 alumnos?c) ¿Y la probabilidad de que haya entre 40 y 60 alumnos?

3. En un país, la tasa de paro de la población es de 8,5 %. Si se toma una muestra de 50individuos, ¿cuál es la probabilidad de que en la muestra haya un número de parados menor oigual que 4? Efectúa los cálculos mediante la distribución binomial y aproximando mediantela normal. Compara los resultados.

En la misma muestra cuál es la probabilidad de que el número de parados sea superior a 10.

- 34 -

- 35 -