View
216
Download
0
Category
Preview:
Citation preview
8/17/2019 Apuntes Estadistica Descriptiva-2008
1/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
2/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
3/28
El planteamiento y validación de hipótesis basadas en los datos La obtención de modelos de comportamiento de la población basadas en los
datos
En la siguiente figura se ilustran las diferentes partes del proceso que van desde latoma de datos a la elaboración de inferencias estadísticas:
&& ''
(( ))
-4 -2 0 2 40
20
40
60
80
100
120
140
160Histograma de la Poblacion
Clases
F r e c u e n c i a
-4 -2 0 2 40
2
4
6
8
10
12
14
16
Histograma de la Muestra
Clases
F r e c u e n c i a
##$$
%%µµµµµµµµ&&
''((%%σσσσσσσσ))&&
!! %%σσσσσσσσ&&
$$
## %% && ''(( ##%%
))&&
!! ##%%&&
7.2.- Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Un procesode muestreo que nos permite tener datos no contaminados de origen debe ser:
Aleatorio. Es decir, debe ser imposible predecir cual es el siguiente dato de lapoblación a ser tomado en la muestra. Equiprobable. Todos los datos de la población deben tener la misma
probabilidad de ser tomados en la muestra. Esto nos garantiza que no se darámás preferencia a algunos sectores de la población que a otros.
Independiente. La inclusión de un dato en la muestra no debe afectar laprobabilidad de que otro dato sea o no tomado en ella. Esto significa que elmuestreo en general debe ser con reemplazo .
Poblaciones infinitas. Para poblaciones infinitas, el muestreo con o sin reemplazo noproduce diferencias apreciables, ya que el devolver una muestra o no antes de tomar la
siguiente no altera la población. Para propósitos prácticos una población finita muygrande puede considerarse casi infinita.
Ejercicio:
Al efectuar un estudio de las corrientes de carga de los sistemas de alimentación decomputadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on
8/17/2019 Apuntes Estadistica Descriptiva-2008
4/28
Industry App. Julio/Agosto 1990) se detectó que menos del 10% de estas instalacionestenia una corriente elevada del neutro respecto a la corriente nominal.
a) ¿Cual es la población de interés?b) ¿Cual es la muestra?c) Hacer una inferencia sobre la población basada en la muestra.
Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden serCualitativos (o categóricos) estos últimos no tienen interpretación de cantidad, solopueden clasificarse en base a criterios.
Son ejemplos de datos cualitativos: Ocupaciones de los egresados de IngenieríaEléctrica, Empresas dedicadas a la comercialización de circuitos Integrados,- Materialesusados en la construcción, etc.
7.3.- Tablas de Frecuencia e Histograma
Toma de datos.- Como ya se mencionó, los datos con que cuenta la estadística sondatos tomados de una muestra, no de la población total, si se tomaran datos de lapoblación total no habría necesidad de hacer inferencias, ya que se contaría con toda lainformación de la población y en lugar de inferir bastaría con consultar el datocorrespondiente. Sin embargo, en una población muy numerosa es impráctico y costosotomar datos de toda la población, por ello es necesario seleccionar muestras y a partirde los datos de la muestra hacer inferencias.
En la medida de lo posible es recomendable manejar datos cuantitativos, ya que estospermiten una representación más adecuada para extraer información visual. Existe unagran cantidad de herramientas dedicadas a la representación de los datos que nospermiten extraer información visual más rápida que la inspección dato por dato. Estasherramientas se ilustrarán con el siguiente ejemplo:
Ejemplo.
La siguiente es una muestra de las calificaciones de 20 alumnos, obtenidas en un cursoanual de Matemáticas:
3.6 2.4 5.5 6.5 6.4 6.5 6.5 6.6 7.4 6.37.0 8.0 7.0 5.7 2.7 7.6 8.6 5.5 7.8 7.2
Ordenamiento de datos.
El simple ordenamiento de los datos nos permitirá observar algunos comportamientos asimple vista que no son fáciles de obtener con los datos desordenados. Para elejemplo, ordenamos los datos del 0 al 10 como sigue:
8/17/2019 Apuntes Estadistica Descriptiva-2008
5/28
2.4, 2.7, 3.6, 5.5, 5.5, 5.7, 6.0, 6.3, 6.4, 6.5, 6.5, 6.5, 7.0, 7.0, 7.2, 7.4, 7.6, 7.8, 8.0, 8.6
Opcionalmente podemos además hacer una representación gráfica de los datos conrespecto al orden indicando además los que se repiten y cuantas veces lo hacen.
0
1
2
3
4
2.4 2.7 3.6 5.5 5.7 6 6.3 6.4 6.5 7 7.2 7.4 7.6 7.8 8 8.6
Calificación
N o .
D e a l u m n o s
Tanto la lista ordenada como la gráfica anterior nos proporcionan una mayorinformación a simple vista; por ejemplo, es fácil advertir de ambas que:
- La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8- Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.
Diagrama de Tallo y Hojas.
Esta es una de las técnicas más simples para representar los datos y consiste enclasificarlos en renglones de acuerdo a un tallo consistente en el primer dígito,anotando en forma de lista los dígitos siguientes formando las hojas para cada tallo. Deesta manera se obtiene un diagrama en el que la longitud de las ramas nos dice asimple vista en que tallo caen más o menos datos. Para el ejemplo este diagramaquedaría como sigue
Tallo H o j a s2 .4 .73 .65 .5 .5 .76 .3 .4 .5 .5 .5 .67 .0 .0 .2 .4 .6 .88 .0 .6
Tablas de Frecuencia.
La misma información puede ser representada en una Tabla de Frecuencias la cual sepresenta a continuación para el mismo ejemplo:
Calificaciónxi
Frecuenciafi
FrecuenciaAcumulada
FrecuenciaRelativa
Frec. Rel.Acumulada
2.4 1 1 0.05 0.052.7 1 2 0.05 0.10
8/17/2019 Apuntes Estadistica Descriptiva-2008
6/28
3.6 1 3 0.05 0.155.5 2 5 0.10 0.255.7 1 6 0,05 0.36.0 1 7 0.05 0.356.3 1 8 0.05 0.46.4 1 9 0.05 0.456.5 3 12 0.15 0.6
7.0 2 14 0.10 0.77.2 1 15 0.05 0.757.4 1 16 0.05 0.87.6 1 17 0.05 0.857.8 1 18 0.05 0.98.0 1 19 0.05 0.958.6 1 20 0.05 1.0
La frecuencia de un dato es simplemente el número de veces que aparece dichodato.
La frecuencia relativa es el cociente de la frecuencia entre el total de datos.
Así, si el dato xi se repite fi veces en una muestra de n datos:
- Su frecuencia será fi - Su frecuencia relativa será fi /n
La frecuencia relativa también puede expresarse en porcentaje simplementemultiplicándola por 100 y nos indica el porcentaje de veces que aparece el datorespecto al total.
La frecuencia acumulada de un dato será la suma de todas las frecuencias de losdatos menores o iguales a él y la frecuencia relativa acumulada es simplemente lafrecuencia acumulada dividida entre el número total de datos.
Datos Agrupados
Cuando las muestras de datos son muy grandes , la representación anterior puede sermuy complicada o hasta confusa, en este caso conviene agrupar los datos de acuerdoa la definición de clases a las que pertenecen los datos:
Para ello se elige primeramente un intervalo (I) que contenga todos los datos y luego sedivide este intervalo en subintervalos llamados Intervalos de Clase o Clases . A lospuntos medios de estos intervalos se les llama Marcas de clase .
Al número de datos de una clase se le llama Frecuencia de clase y a su cocienteentre n (número de datos de la muestra) se le llama Frecuencia relativa de clase
Ejemplo:
8/17/2019 Apuntes Estadistica Descriptiva-2008
7/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
8/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
9/28
Es decir, *
*
=
=
Ejemplo. Para el caso de las calificaciones: +* =
Un caso más general que la media aritmética es la media ponderada que se calculacomo
*
*
=
=
Donde los coeficientes a i son los "pesos" o ponderaciones que se les da a los diferentesdatos x i .
* Obviamente en el caso particular en que * * = = = = , esta media ponderada se
convierte en la media aritmética.
La Mediana ( ).- Es el número (no necesariamente un dato) para el cual el 50% delos datos son menores o iguales que él.
Ejemplo: Para el caso de estudio. = 6.5
En general la mediana se puede calcular como sigue:
=
+
+ +
, -
, -.
/)* ,'
-- / ,*/ ,
Así, para el ejemplo N=20 (par)
-. =
Media y Mediana de Datos Agrupados
Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. Enel caso de que los datos ya estén agrupados y sea necesario calcular la media y lamediana, ya no es posible hacerlo de manera exacta, sin embargo, una buenaaproximación se puede obtener de la siguiente manera
Media de datos agrupados
*
*
=
=
Donde: Nc = número de clasesXi = marca de la clase i-esimafi = frecuencia relativa de la clase i-esima
* 0 * *
= +10+1
= + 1
8/17/2019 Apuntes Estadistica Descriptiva-2008
10/28
Para el ejemplo de las calificaciones:
- =2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305
Mediana de datos agrupados
-. = (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.)
Donde:IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que está ala mitad de los datos.
Así, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces
-. = 6.2 + (10-7/9.5)*(1.4) = 6.642
La Moda.- Se le llama moda simplemente al dato que más se repite en una muestra.(En datos agrupados corresponde a la marca de clase en la que ocurre el máximo delhistograma)
La moda no siempre es única, por lo que una muestra puede ser unimodal omultimodal dependiendo de si tiene una o varias modas.
Para el ejemplo la moda de los datos sin agrupar es 6.5, sin embargo, si consideramosdatos agrupados, la moda es 6.9
Observación: La moda no siempre es única, así, podemos tener distribuciones de datos
con varias modas, en tal caso se llaman multimodales.
Interpretación geométrica de la media, mediana y moda
Una manera de visualizar de manera geométrica el significado de media, mediana ymoda es considerando el “perfil” del polígono de frecuencias como si fuera un figuraplana, es decir, sin dibujáramos el histograma sobre una lámina plana de materialhomogéneo y lo recortáramos, podemos afirmar lo siguiente:
2 La Moda es el punto más alto de la figura.
2 La Mediana es el punto que divide a la figura en dos áreas iguales.2 La Media es el punto de equilibrio (centro de masa) de la figura.
Esta idea se ilustra en la siguiente figura
8/17/2019 Apuntes Estadistica Descriptiva-2008
11/28
*
* 3
4#
Esto significa que la media es más sensible al “brazo de palanca”, es decir, la media esmás afectada que la mediana por datos muy alejados del centro del histogramallamados “outlayers” o datos atípicos que suelen aparecen debido a errores en la tomade datos, por ello se dice que la mediana es una medida más robusta que la media
Otras medidas de centralización
La media geométrica (Mg).- Esta calcula un “centro” basado en la raíz de orden n delproducto de los datos, es decir,
Mg= * Por ejemplo, para la ubicación de un valor medio “pesimista” para la constante beta deun transitor.
La media armónica (MH).- Esta es el recíproco de la suma de los recíprocos de todoslos datos, es decir,
,-
*
-
*
*-
*
,5 +++=
Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.
La media RMS (MRMS o raíz cuadrática media).- Es la raíz cuadrada de la suma de los
cuadrados de cada dato, dividida entre el número de datos.
)---' ,
* ,*
+++=
Por ejemplo, el valor “medio” de un voltaje de corriente alterna.
7.4.2.- Medidas de posición relativa.
Cuartiles, deciles y percentiles
Los cuartiles, deciles y percentiles son medidas para indicar la posición relativa dealgún dato en particular, sin embargo, también pueden ser utilizadas para indicardispersión
El k-ésimo percentil de un conjunto de datos es el valor (no necesariamente undatgo) para el cual el k% de los datos ordenados son menores o iguales que él(queda a la izquierda de él) y el (100-K)% queda a la derecha.
8/17/2019 Apuntes Estadistica Descriptiva-2008
12/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
13/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
14/28
**
*
' )
−
=
= −
a esta cantidad se le llama la varianza o variancia.
Otra alternativa es la de tomar los valores absolutos para obtener lo que se denominadesviación media:
Desviación media *
*
=
= −
O bien, una medida más usada que la desviación media es la desviación típica odesviación estándar y se define como la raíz cuadrada de la varianza como sigue
Desviación estándar = =
Cálculo de la varianza.- Esta puede ser calculada directamente de la fórmula de sudefinición, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemosobtener
( ) ( ) * * * *
= − = − +− −
( ) *
*
= − +−
( ) *
*
= − +−
Finalmente: ( ) *
*
= −
−
Esta última expresión nos da un método para calcular la varianza que puede resultarmás sencillo en ocasiones, especialmente cuando se calculan por separado la media
y la sumatoria de los cuadrados de los datos .
Ejemplo.
Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma
X i 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
X i 2 5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
X i - - -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.4 0
(X i - - )2 14.5 12.3 6.81 0.5 0.5 0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53 3.2 5.7 52.28
Así, a partir de la tabla, usando la fórmula anterior, y recordando que =6.21,obtenemos
**7
'81+ 9+* ) 61 = − =
8/17/2019 Apuntes Estadistica Descriptiva-2008
15/28
De la tabla también se puede observar que la sumatoria de todas las desviaciones escero, como se esperaba.
Finalmente, usando la fórmula de la definición para la varianza, obtenemos el mismoresultado como se esperaba:
**7
'1) 61 = =
y por lo tanto, la desviación estándar es S=1.65876
7.5.- Variables normalizadas
Toda muestra de datos X i con media conocida y varianza conocida S2 puede
convertirse en una muestra Z i con media cero y varianza 1, simplemente haciendo elsiguiente cambio de variable (para cada dato Xi):
−=
Así, todo conjunto de datos con media cero y una varianza uno, se dice que es unconjunto de datos normalizados.
Así, para nuestro ejemplo:
Z i = X i−6.21
1.65876
si le aplicamos la transformación a cada uno de los datos, obtenemos la siguiente
muestra (Zi) con media cero y varianza 1:
Xi 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6
Zi -2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48 0.48 0.6 0.72 0.84 0.96 1.08 1.4
Otra manera de interpretar la normalización anterior es como una medida de ladistancia de un dato Xi respecto a la media en términos o unidades de desviación
típica S.
Así, para el ejemplo, si Xi = 2.4 , Zi = -2.3 significaría que el dato 2.4 está a 2.3
desviaciones típicas a la izquierda de la media.
7.6.- Otras medidas
Asimetría o Sesgo.- En la práctica, las distribuciones de frecuencia casi nunca sonsimétricas. Al grado de asimetría se le llama sesgo. Es muy conveniente tener unamedida de dicha asimetría, dicha medida se puede calcular como sigue
8/17/2019 Apuntes Estadistica Descriptiva-2008
16/28
Sesgo =
8
*
*
=
−
o bien, Sesgo = 8
*
*
=
es decir, Sesgo = promedio de los datos normalizados Zi3
Sin embargo, el cálculo anterior puede ser muy "dispendioso", un cálculo aproximadomás sencillo puede hacerse como sigue:
Sesgo( )8
−≈
Una propiedad interesante del sesgo es que si la distribución de datos es simétrica,el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, elsesgo puede ser cero aunque la distribución no sea simétrica
Para ilustrar de manera geométrica el significado del sesgo, en las siguientes figuras semuestra el caso de una distribución con sesgo positivo y otra con sesgo negativo:(obsérvese que en general la media siempre es atraída más que la mediana por la coladel histograma)
Sesgo positivo Sesgo negativo
Curtosis, cuartosis o picudés
Una manera de medir el grado de "picudés" del polígono de frecuencia es mediante lacurtosis, la cual se calcula como sigue
Curtosis =
:
*
*8
=
−−
es decir, :
*
*8
=
−
8/17/2019 Apuntes Estadistica Descriptiva-2008
17/28
O bien, Curtosis = promedio de las Zi
4- 3
En la siguiente figura se muestran dos distribuciones que tienen una varianza y unsesgo muy parecido pero tienen una curtosis diferente.
Observe que una distribución que tienen extremos que se extienden mucho se les llamadistribuciones Leptocúrticas y aquellas que se terminan bruscamente se les llamaplatocúrticas . Una distribución que tenga una curtosis “normal” se le llama mesocúrtica .
7.7.- Momentos de Datos Estadísticos
Los momentos de datos estadísticos son una generalización de las medidas devarianza, sesgo y picudés. De manera concreta un momento de enésimo orden sepuede calcular como momento simple o como un momento central (o respecto a lamedia) y expresa como
Momento central de orden n=*
*
=
−
y el momento simple de enésimo orden
Momento simple de orden n=*
*
=
En general, a las medidas de la forma*
*
=
se les denomina momentos de orden n
de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picudés.
7.8.- Comparación entre dos muestras de datos. Covarianza y Correlación.
Los estadísticos descritos en las secciones anteriores se calculan para una solamuestra de datos, por lo cual no pueden ser utilizados para establecer relaciones entredos muestras de datos o entre datos de dos variables distintas. A continuación sedescriben algunos estadísticos que permiten establecer relaciones entre dos muestrasde datos:
La Covarianza (cov(X,Y) o ), Este estadístico se obtiene a partir de la muestra
datos de una población bidimensional (dos variables de interés: x , y ), o bien, a partir de
dos muestras de datos del mismo tamaño: , mediante la fórmula:
8/17/2019 Apuntes Estadistica Descriptiva-2008
18/28
( )( ) −−= Donde son las medias de las variables X, Y respectivamente. En forma similar a
como se procedió con la varianza se puede obtener la siguiente fórmula alternativa queen ocasiones puede ser más sencilla de calcular:
−=
Correlación (r). Mientras que la covarianza expresa, en cierto modo, el grado dedependencia entre las dos muestras de datos, sin embargo tiene el inconveniente deque su valor depende de las unidades en que se expresen las variables. Para evitaresto se recurre a otro parámetro denominado coeficiente de correlación o simplementecorrelación, el cual se define como sigue
−=
−=
=
Es decir, la correlación entre las variables X, Y es la covarianza de las variablesnormalizadas X’, Y’ . De la definición se puede obtener directamente la fórmulaequivalente
=
El valor del coeficiente de correlación varía entre –1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relación entre las variables x e y .
Cuando |r | es cercano a 1, la correlación es fuerte, lo que significa que las variacionesde una de las variables repercuten fuertemente en la otra, esto significa que sigraficamos la muestra Y contra X obtendremos puntos aproximadamente sobre unalínea recta. Mientras que si |r | es próximo a 0, la correlación es muy débil y lasvariables están muy poco relacionadas y en este caso la grafica de Y contra X pareceuna nube de puntos dispersos.
Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia deFísica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemáticas y por Y a los de física, en la siguiente tabla se muestran dichos datos y loscálculos intermedios para obtener cov(X,Y) y r .
Suma
X i 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
X i 2 5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
X i - - -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.39 0.00
8/17/2019 Apuntes Estadistica Descriptiva-2008
19/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
20/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
21/28
Bii=2.95, por lo que existen dos datos menores que esta barrera y se consideraránatípicos por lo tanto el bigote izquierdo se extenderá hasta el tercer dato X3=3.6
Bis=9.75 que es superior al dato máximo, por lo cual el bigote derecho se prolongarásolo hasta Xmax=8.6 el diagrama de caja y bigotes correspondiente queda como semuestra en la parte inferior de la siguiente figura
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
7
7.5
8
8.5
9
9.5
10
Matemáticas
Física
En el mismo diagrama anterior se muestra el diagrama de caja para los datos de lamateria de física en la parte superior. Algunas comparaciones saltan a la vista:
Las calificaciones de Física son más dispersas que las de mátemáticas El promedio general de Física es más alto que en matemáticas En física todos los alumnos están dentro de rangos “normales”, mientras que en
matemática hay dos alumnos excepcionalmente bajos de calificación en relación alresto del grupo.
Diagramas de Pareto
Es una variante del histograma que se utiliza para priorizar la importancia de las causasque generan problemas de acuerdo a la frecuencia con que se presentan. El nombre dePareto fue dado en honor al economista italiano Wilfredo Pareto (1848-1923) quienrealizó un estudio sobre la distribución de la riqueza, en el cual descubrió que la minoríade la población poseía la mayor parte de la riqueza y la mayoría de la población poseíala menor parte de la riqueza. El Dr. Joseph Juran, uno de los pioneros del control decalidad aplicó este concepto a la calidad, obteniéndose lo que hoy se conoce como laregla 80/20. Según este concepto, si se tiene un problema con muchas causas,podemos decir que el 20% de las causas producen el 80 % del problema y el 80 % delas causas solo producen el 20 % del problema.
Los diagramas de Pareto son una herramienta sencilla pero poderosa en el control de lacalidad, ya que permiten identificar visualmente en una sola revisión las minorías decaracterísticas vitales a las que es importante prestar atención y de esta manera utilizartodos los recursos necesarios para llevar a cabo una acción de mejora sin malgastaresfuerzos ya que con el análisis descartamos las mayorías triviales.Algunos ejemplos de tales minorías vitales serían:
8/17/2019 Apuntes Estadistica Descriptiva-2008
22/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
23/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
24/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
25/28
El modelo más simple es una línea recta que pase por el origen: * = , sin embargo,
es demasiado simple para la mayoría de los casos. Un modelo ligeramente máscompleto es una recta que no necesariamente pase por el origen:
= + ,
donde los parámetros a ajustar son m =pendiente de la recta, b =ordenada al origen.
Como es de suponerse, la relación y = mx + b no va a cumplirse exactamente.Las distancias verticales entre el valor observado y el valor dado por la rectapara cada valor de x reciben el nombre de residuos, y se suelen denotar por e i .La expresión teórica del modelo matemático será, por lo tanto:
++=
Se acostumbra por simplicidad suponer que e i es una variable aleatoria Normal con
media cero y varianza conocida σ .
Cálculo por mínimos cuadrados de la pendiente y la ordenada al origen:
Estrategia: La estrategia utilizada para buscar la recta que “mejor” se ajuste a los datosexperimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la
diferencia o error entre cada ordenada predicha por la recta B = + y la ordenada
obtenida experimentalmente , esta diferencia se denota como , es decir,
B = − = + −
En la siguiente figura se ilustra esta diferencia:
99
9
9
9
9
99
9
9
9
9
9
3>0*
+
>
B
+
Una primera idea sería minimizar la suma total de los errores , pero como algunos
son positivos y otros son negativos, la suma podría ser muy pequeña aún si existenerrores de gran magnitud, por ello se busca más bien:
Minimizar la suma de los cuadrados de los errores: *
=
=
La minimización se hace respecto a los parámetros del modelo f( ). En el caso lineal:
( )
* *
= =
= = + −
8/17/2019 Apuntes Estadistica Descriptiva-2008
26/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
27/28
8/17/2019 Apuntes Estadistica Descriptiva-2008
28/28
Aplicando los cálculos anteriores a este caso, resulta: !"# = , $"% = ,
&"$' = , && = , de donde m=0.98 , b=103.35 , por lo que el modelo de
regresión lineal queda
!&'! (%' +=
En la siguiente figura se muestra, superpuesta al diagrama de dispersión, la recta deregresión de mínimos cuadrados correspondientes.
100
110
120
130
140
150
160
170
180
190
10 20 30 40 50 60 70 80Edad
T e n s i ó n
Recommended