tema 6 correlaciÓn y regresiÓn lineal simple...modelos de regresión no lineal 3 estadística i...
TRANSCRIPT
TEMA 6
CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
2
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Índice
Introducción
Diagrama de dispersión
Covarianza y coeficiente de correlación lineal
Modelo de regresión lineal
Estimación: método de los mínimos cuadrados
Bondad del ajuste: coeficiente de determinación
Predicción
Modelos de regresión no lineal
3
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Cuando dos conjuntos de datos no muestran ningún tipo de relación, osea son independientes, el estudio conjunto carece de interés.
Sin embargo, en la observación de un buen número de fenómenos enEconomía y, debido a las múltiples interacciones, ocurre que se tiende adetectar algún tipo de asociación entre los valores observados de dos ovarias características. Por ejemplo, los valores del ahorro de una familiaes previsible que esté relacionado, de algún modo, con el valor de surenta disponible. O, en una empresa, por ejemplo los resultados deventas mensuales, posiblemente estarán asociados con el monto de lainversión realizada en publicidad.
Cuando es posible predecir con total exactitud los valores que seobservan de una variable en función de los que ha adoptado otra uotras, a través de una función, se da un tipo de dependenciadenominada funcional.
Introducción 4
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Cuando, sin llegar a la dependencia funcional, los datos observadosevidencian algún grado de asociación entre ellos, diremos que existeDEPENDENCIA ESTADÍSTICA entre las dos variables y su análisis es elobjetivo de este tema.
En el análisis de la DEPENDENCIA ESTADÍSTICA, se abordan dosobjetivos complementarios
1. La determinación o ajuste de una función que describa elcomportamiento (los valores y sus variaciones) de una variable através de los valores de otra/s variable. De este objetivo se encargala llamada Teoría de la Regresión.
2. El análisis cuantitativo de la intensidad de la dependencia, es decirel grado de asociación. (¿En qué medida las ventas observadas estándependiendo de los datos relativos a la inversión en publicidad realizada?).Este es el objetivo de la Teoría de la Correlación.
Introducción
5
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Un diagrama de dispersión es un tipo de diagramamatemático que utiliza las coordenadas cartesianas paramostrar los valores de dos variables para un conjunto deindividuos.
E tEst díadí tistica II 1º1º GAGADEDE TTema 66: CCor lrel iacióón Ry Regr iesióón lilin leal isi lmple
individuos.
Diagrama de dispersión 6
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
10
20
30
40
50
60
70
80
90
100
150 155 160 165 170 175 180 185 190 195 200
Peso
(en
Kg)
Estatura (en cms)
Diagrama de dispersión
7
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Tasa de natalidad (por 1.000 habitantes)
6050403020100
Habit
antes
en ci
udad
es (%
)
120
100
80
60
40
20
0
Diagrama de dispersión del % de habitantes que viven en ciudades respecto de la tasa de natalidad en una muestra de 100 países
Diagrama de dispersión 8
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Relación lineal Directa
Sin relación
Relación lineal Inversa
EEstEst díadíadí ististicaca III 1º1º1º GAGAGADEDEDE TTeTemama 66:6: CCorCorre
Sin relación
Diagrama de dispersión
9
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
DIAGRAMA DE DISPERSIÓNDisposiciones de diagramas de dispersión
Relación lineal Relación no lineal
Relación lineal Directa Sin relación Relación lineal Inversa
10
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Definición: Se define la Covarianza entre dos variables como:
Para cuantificar la intensidad de la asociación se utilizan unoscoeficientes, denominados Coeficientes de Correlación que están ligadosa una magnitud clave en éste tema que se denomina Covarianza. LaCovarianza es una medida de la variabilidad común de dos variables(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento dela otra)
= 1= 1Fórmula
abreviada
Covarianza
11
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Interpretación gráfica de la Covarianza
×
Covarianza 12
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
?
Covarianza
13
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Ejercicio: Los directivos de una empresa multinacional de cosméticosquieren analizar la relación entre los Beneficios netos anuales (Y) ylos Gastos en Publicidad anuales (X) para varios productoscomercializados. Para ello se han recogido los datos históricos que semuestran en la siguiente tabla:
Determina el valor y signo de la Covarianza
Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20
10 10,9 25
Covarianza 14
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €
Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20
10 10,9 25Suma 60,8 81
Covarianza
15
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €= = 445,5610 6,08 = 7,59 = = 156510 8,1 = 90,89
Año X (millones €) Y (millones €) xi^2 yi^21 2 -6 4 362 2,8 -3 7,84 93 3,9 0 15,21 04 4,2 3 17,64 95 5,8 6 33,64 366 6,2 9 38,44 817 7,5 12 56,25 1448 8,2 15 67,24 2259 9,3 20 86,49 400
10 10,9 25 118,81 625Suma 60,8 81 445,56 1565
Covarianza 16
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €= = 445,5610 6,08 = 7,59 = = 156510 8,1 = 90,89= = 754,310 6,08 8,1 = ,
Año X (millones €) Y (millones €) xi^2 yi^2 xi*yi1 2 -6 4 36 -122 2,8 -3 7,84 9 -8,43 3,9 0 15,21 0 04 4,2 3 17,64 9 12,65 5,8 6 33,64 36 34,86 6,2 9 38,44 81 55,87 7,5 12 56,25 144 908 8,2 15 67,24 225 1239 9,3 20 86,49 400 186
10 10,9 25 118,81 625 272,5Suma 60,8 81 445,56 1565 754,3
Relación lineal directa
Covarianza
17
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Propiedades de la Covarianza
La covarianza depende de las unidades de medida
La covarianza es invariante por cambios de origen pero node escala = += + , = ( , )
Matriz de varianzas y covarianzas
=
Covarianza 18
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Se utiliza un coeficiente adimensional asociado con lacovarianza para medir la intensidad de la asociación y sudirección
Intensidad de la asociación lineal
Covarianza
19
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Coeficiente de Correlación lineal r de Pearson
Mide el grado de asociación lineal entre dos variablescuantitativas, en términos relativos, respecto de la dispersión delas propias variables.
Propiedadesi. Tiene el mismo signo que la Covarianzaii. Es adimensionaliii. Varía entre -1 y 1iv. Si existe una relación lineal perfecta (funcional) entre
las dos variable, su valor es 1 ó -1v. Es invariante ante transformaciones lineales de las
variables, salvo el signo
=
Coeficiente de Correlación 20
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
XY
X Y
SrS S
Usualmente, se exigen valores de |r| superiores a 0.75 como medida de un
grado de dependencia lineal importante entre las variables X e Y
Coeficiente de Correlación
21
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Ejercicio: Los directivos de una empresa multinacional decosméticos quieren analizar la relación entre la variableBeneficios netos anuales (Y) y Gastos en Publicidad (X) paravarios productos comercializados. Para ello se han recogido losdatos históricos que se recogen en la siguiente tabla:
Cuantifica y determina, en base a los datos, el grado de asociación lineal entre las variables X e Y.
Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20
10 10,9 25
Coeficiente de Correlación 22
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
x = 6,08 y = 8,1= 7,59 = 90,89= 26,182
Año X (millones €) Y (millones €) xi^2 yi^2 xi*yi1 2 -6 4 36 -122 2,8 -3 7,84 9 -8,43 3,9 0 15,21 0 04 4,2 3 17,64 9 12,65 5,8 6 33,64 36 34,86 6,2 9 38,44 81 55,87 7,5 12 56,25 144 908 8,2 15 67,24 225 1239 9,3 20 86,49 400 186
10 10,9 25 118,81 625 272,5Suma 60,8 81 445,56 1565 754,3
= · = 26,1822,75 · 9,53 = ,= 7,59 = 2,75 = 90,89 = 9,53
Relación lineal directa muy fuerte
Coeficiente de Correlación
23
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
-10
-5
0
5
10
15
20
25
30
0 2 4 6 8 10 12
Ben
efic
ios
anua
les
(mill
ones
€)
Gastos en publicidad (millones €)
RELACIÓN ENTRE EL BENEFICIO NETO Y EL GASTO EN PUBLICIDAD
= 26.182 = 0.9969
Coeficiente de Correlación 24
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Relación con la independencia:Si dos variables X e Y son estadísticamente independientes
se cumple que son incorreladas rXY=0
Definición Se dice que X e Y son Incorreladas si rXY=0 (SXY=0)
El contrario no es cierto. Salvo en algunos casos particulares,dos variables pueden tener correlación nula y sin embargo, noser independientes.
Numéricamente, existen contraejemplos que locorroboranGráficamente ocurre que pueden darse otrasasociaciones, de tipo no lineal, cuya disposición particularhaga que se anule la covarianza.
Coeficiente de Correlación
25
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Correlación: Cuarteto de AscombeI II III IV
X1 Y1 X2 Y2 X3 Y3 X4 Y410 8,04 10 9,14 10 7,46 8 6,588 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,7 8 7,719 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,4714 9,96 14 8,1 14 8,84 8 7,046 7,24 6 6,13 6 6,08 8 5,254 4,26 4 3,1 4 5,39 19 12,5
12 10,8 12 9,13 12 8,15 8 5,567 4,82 7 7,26 7 6,42 8 7,915 5,68 5 4,74 5 5,73 8 6,89
Media 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50Varianza 10,00 3,75 10,00 3,75 10,00 3,75 10,00 3,75
r 0,82 0,82 0,82 0,82
26
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y1
X1
Y2
X2
Y3
X3
Y4
X4
Correlación: Cuarteto de Ascombe
27
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La TEORÍA DE REGRESIÓN tiene por objeto describirfuncionalmente la relación entre dos variables.
En la medida en que los valores, o en general el comportamientode una variable Y está influenciado –en un grado importante- y dealguna forma –desconocida- por los valores de una segundavariable X, la teoría de la regresión formula , a través de unafunción apropiada, la dependencia Y=f(X) y evalúa su validez.
Como quiera que la relación formal no va a ser exacta, sino unaaproximación en la que se habrán omitido otras variables deimportancia secundaria, los modelos de regresión van a incluir untérmino adicional de error, que reflejará los factores restantesque inciden en la variable de forma secundaria y que,individualmente no resulten relevantes.
Modelo de Regresión 28
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Dos variables:Y: % Fracaso escolarX: Renta per cápita
Otras variables que podrían estar relacionadas:índices de desempleo / población sin estudios / tasas de inmigración
¿Y = f(X)?Y
X
Modelo de Regresión
29
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
El Análisis de Regresión se aplica en dos etapas o pasos:
PASO 1: SELECCIÓN DEL MODELO Se trata de decidir el tipo defunción (curva) que mejor se adapta a la disposición de los datos,es decir, que mejor explica los valores observados de la variable Ypara cada valor de la variable X.
PASO 2: ESTIMACIÓN O AJUSTE Una vez elegida la funciónmatemática para la relación a través de su ecuación, se obtieneaquélla que se sitúa más próxima globalmente al conjunto dedatos observados.
En esta fase suele ser de gran utilidad la representación gráfica por la disposición sugerida por la nube de puntos como orientación para la elección.
En definitiva, se requiere establecer un criterio, en base al cual, deducir y calcular los coeficientes o parámetros de la función que nos dará el ajuste de la ecuación de regresión.
Modelo de Regresión 30
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
¿Cómo influye en la estatura de un hijo, la estatura de su progenitor?
Ejemplo…
?
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
1,7
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,66 1,68 1,7 1,72 1,74 1,76 1,78 1,8 1,82
Y=Es
tatu
ra H
ijo
X=Estatura del padre
Modelo de Regresión
31
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Formalmente, un modelo de Regresión Simple General se representa mediante una ecuación:
Variable Explicativa o Exógena
Términode error
Para
Modelo de Regresión Lineal Simple
a, b constantes
= +Variable Dependiente o
Endógena
Función de Regresión
= += + +
Modelo de Regresión Lineal 32
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Modelo de Regresión Lineal Simple ó Recta de Regresión
El parámetro b, la pendiente de la recta,se denomina Coeficiente de Regresión.
Su valor se interpreta como el incremento –en general la variación- de la variabledependiente para un aumento unitario dela variable explicativa. Por ello, en el ámbitode determinadas variables económicas seinterpreta con la llamada PropensiónMarginal
El parámetro a es la ordenada en elorigen y representa el valor de la variabledependiente cuando la independiente tomael valor cero.
= + +, son constantes
o –blede
bitose
ión
elble
Modelo de Regresión Lineal
33
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
En tal caso, debemos contemplar larecta como una aproximaciónformal y el problema del ajustecomo la selección de la recta entérminos de su proximidad global alos puntos
El objetivo es estimar, en base a los datos, los coeficientes a y b,que completan la ecuación del modelo.
Interesa, en primer lugar, realizar una aproximación intuitivapara identificar la disposición lineal. Para ello, se utiliza la nubede puntos. Si la dependencia fuera exacta,
las observaciones se situarían a lolargo de una determinada recta.
En general, las observacionesno se alinearán, sino que formanla nube de puntos
= +
Modelo de Regresión Lineal 34
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Para medir la proximidad de la recta a la nube de puntos, para cadavalor observado de la variable X, xi debemos contemplar dos valoresde Y
i) el observadoii) el “teórico” dado por la ecuación de la recta
La diferencia entre el valor observado y el valor teórico es elresiduo o error
Sus valores recogen las fluctuaciones de los valores de la variableque no quedan explicadas por su relación con la variable X
= += +
=
Modelo de Regresión LinealPara medir la proximidad de la recta a la nube de puntos, para cadavalor observado de la variable X, xi debemos contemplar dos valoresde Y
i) el observadoii) el “teórico” dado por la ecuación de la recta
La diferencia entre el valor observado y el valor teórico es elresiduo o error
Sus valores recogen las fluctuaciones de los valores de la variableque no quedan explicadas por su relación con la variable X
35
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Parece razonable obtener como valor para loa parámetros desconocidos,aquellas que generen unos residuos, globalmente más pequeños
Inconveniente: Al sumar los residuos positivosy negativos, la suma total proporciona unasíntesis errónea acerca de la proximidad.
Medidas globales del tamaño de los errores o residuos:
Una primera alternativa de síntesis sería la suma, o la media
Una segunda alternativa de síntesis sería medir su intensidad sin signo (valor absoluto)
Inconveniente, no se presta aoperaciones algebraicas, enparticular para derivar
ei=
= =
= =
Modelo de Regresión Lineal 36
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La medida de síntesis que supera los inconvenientes de las anterioresse basa, en la suma -o el promedio- de los residuos al cuadrado:
Criterio de Mínimos Cuadrados
El ajuste de la recta, en base a éste, consiste en determinar loscoeficientes que hacen mínimo el error cuadrático medio, dando lugar alcriterio más conocido, denominado Criterio de mínimos-cuadrados
Minimizar ECM (a,b) =
Obtener el ajuste se resolverácomo un problema de optimización:
Datos (Constantes)
Parámetros (Variables)
= = = 1 = 1Error Cuadrático Medio
=min, +
Modelo de Regresión Lineal
37
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
2 2
1
1
i ii
ii
x y x yNb
x xN
2,
X
YX
SS
Su solución, es decir, los valores de a y b son los que minimizan elECM. Formalmente, sus expresiones se despejan del sistema:
Derivando con respecto de cada una de las dos variables (a,b) eigualando a 0 para obtener los puntos críticos, se obtiene unsistema de 2 ecuaciones:
Ecuaciones Normales
de la Regresión
=
ii
ii
iií
ii
ii
xbxayx
xbaNy
2·
Modelo de Regresión Lineal 38
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Alternativamente, la recta de Regresión de Y sobre X puedeescribirse utilizando la forma punto-pendiente en la forma:
Recta de Regresión mínimo-cuadrática de Y sobre X
– Coeficiente de regresión de Y sobre X
| = | | == | + |
|
= ( )
Modelo de Regresión Lineal
39
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La recta de Regresión de X sobre Y en la forma punto-pendientequeda:
– Coeficiente de regresión de X sobre Y
Recta de Regresión mínimo-cuadrática de X sobre Y
PROPIEDAD: Las rectas de regresión de X sobre Y, y de Y sobres X se cortan en el centro de gravedad
= ( )
= | + || = || = |
,,
Modelo de Regresión Lineal 40
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
Estima mediante el criterio de mínimos cuadrados una recta queexplique la estatura de un hijo como una función lineal de la estatura desu progenitor
Determina los errores o residuos del modelo.
Ejemplo…
Y Estatura Hijo X Estatura Padre
¿ = + ? ¿ ?
Modelo de Regresión Lineal
41
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Recta de regresión…
Elementos necesariospara el cálculo
| = | | == | + |
::::
Modelo de Regresión Lineal 42
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
,
1.731.750.03580.02410.0008
x
y
x y
xySSS
61,0b
7,0a
Estatura hijo
Estatura padre= 0,7 + 0,61
Modelo de Regresión Lineal
43
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
¿Cuál sería el error cometido para cada hijo?= 0,7 + 0,= 0,7 + 0,61xi yi ^yi ei=yi-^yi
1.7 1.74 1.7317 0.0083
1.77 1.78 1.7743 0.0056
1.68 1.72 1.7195 0.0005
1.75 1.77 1.7621 0.0078
1.8 1.78 1.7926 -0.0127
1.75 1.77 1.7621 0.0078
1.69 1.71 1.7256 -0.0156
1.72 1.76 1.7439 0.0161
1.71 1.73 1.7378 -0.0078
1.73 1.74 1.7500 -0.0100
Total 17.30 17.50 17.4996 0.0000
Media 1.73 1.75 1.7500 0.0000
Modelo de Regresión Lineal 44
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Si el coeficiente de regresión, b, esnegativo, la nube de puntos estáconfigurada de modo que disminuyenlos valores de Y al aumentar los de X.Relación lineal inversa
Si el coeficiente de regresión b espositivo, la nube de puntos tiene unadisposición tal que aumentan losvalores de Y al aumentar los de X.Relación lineal directa
Propiedades de los Coeficientes
El coeficiente de regresión b es invariante por cambio de origen,pero no es invariante frente a cambios de unidades o de escala.
Modelo de Regresión Lineal
45
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Se comprueba fácilmente, que la media de los residuosobtenidos utilizando el criterio de mínimos cuadrados, es cero
Como consecuencia, la media de los valores teóricos del modelo lineal, coincide con la media de la variable
Se comprueba fácilmente queb fá l
Propiedades de los residuos mínimo-cuadráticos
= 1 = 0
= 1 =
xi yi ^yi ei=yi-^yi
1.7 1.74 1.7317 0.00831.77 1.78 1.7743 0.00561.68 1.72 1.7195 0.00051.75 1.77 1.7621 0.00781.8 1.78 1.7926 -0.0127
1.75 1.77 1.7621 0.00781.69 1.71 1.7256 -0.01561.72 1.76 1.7439 0.01611.71 1.73 1.7378 -0.00781.73 1.74 1.7500 -0.0100
Total 17.30 17.50 17.4996 0.0000
Media 1.73 1.75 1.7500 0.0000
Modelo de Regresión Lineal 46
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Hemos estimado una recta, pero ¿es bueno su ajuste a los datos? ¿describe la relación entre X e Y? ¿es útil para predecir?
Modelo de Regresión Lineal
47
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Una vez que se ha ajustado una ecuación para un modelo deregresión, es necesario evaluar la adecuación del ajuste, es decir,si el modelo describe “bien” la relación de dependencia; es loque se denomina Bondad de Ajuste
Para ello, utilizaremos una medida numérica que nos indique lacercanía del modelo a los datos…
Las medidas para cuantificar la bondad del ajuste realizado sebasan en el valor de los residuos o errores del ajuste
Cuando los residuos sean globalmente pequeños, el ajuste serábueno y la línea tendrá una representatividad aceptable
¿Cómo medir el tamaño de los residuos deforma global?
Regresión Lineal: Bondad de ajuste 48
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Varianza Residual
La magnitud global de los errores se aproxima promediandoéstos, al cuadrado –sin signo- y se denomina VarianzaResidual. Va a ser la medida clave en la que basar el grado debondad del ajuste realizado.
Cuanto menor (mayor) sea la varianza residual mejor (peor)será el ajuste, en tanto que más próximos (distantes) estaránlos valores teóricos a los observados.
Inconveniente: La magnitud de la varianza residual está en función dela magnitud de los datos y de sus unidades de medida
= 1 = 1
Regresión Lineal: Bondad de ajuste
49
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Coeficiente de Determinación General R2
AjustePerfecto
Ajuste Pésimo
Para relativizar la varianza residual se divide por la varianza deY, dando lugar aun coeficiente: = 1
Se cumple que: 0 1= 1 = 0 = 0 == 0 =
Regresión Lineal: Bondad de ajuste
OBSERVACIÓN: mide el porcentaje de varianzaresidual (que no está explicada por su relación con la variableexplicativa) respecto de la varianza de la variable endógena.
Es Invariante ante cambios de origen y escala
1
50
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Varianza Residual y Varianza Explicada por la regresión
Varianza explicada por la regresión
En regresión lineal
Porcentaje de varianza de Yexplicada por la regresión
Varianza de las predicciones
Varianza Explicada
= 1 1 = 1== 1 =
==
Regresión Lineal: Bondad de ajuste
51
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
En el caso particular de la regresión lineal, el coeficiente dedeterminación general adopta una expresión propia, más sencilla.
De las expresiones de los coeficientes de mínimos cuadrados de laregresión lineal a y b, sustituyendo en la expresión de la varianzaresidual, se obtiene el denominado coeficiente de determinaciónlineal:
Coeficiente de DETERMINACIÓN LINEAL
=Observación: El coeficiente de determinación lineal es elcuadrado del coeficiente de correlación lineal, asociado a lacorrelación y definido como:
YX
XY
SSSr
Regresión Lineal: Bondad de ajuste 52
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Observaciones
Propiedades
El signo de r coincide con el de la covarianzaSi r = 0 variables Incorreladas (no existe relación lineal
entre variables)Si r > 0 relación lineal directa ( + fuerte cuanto más
próxima sea a su valor 1 y si r = 1 la relación lineal esdeterminística)
Si r < 0 relación lineal inversa (+ intensa cuando máspróximo sea su valor a -1 y si r = -1 la relación lineal esdeterminística)
0 1Regresión Lineal: Bondad de ajuste
53
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y
X
Y
X
Y
X
Y
X
Y
X
Y
X
X/Y
Y/XY
X
Y
X
X/Y
Y/X
Y
X
Y
X
Y
X
Y
X
Y
X
Y
X X/Y
Y/X
Y
X
Y
X X/Y
Y/X
Y
X
Y
X
Y
X
Y
X
El coeficiente r-Pearson y la recta de regresión
r=1r=0r=-1
0<r<1-1<r<0
Regresión Lineal: Bondad de ajuste 54
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
XY
X Y
SrS S
Usualmente, se exigen valores de |r| superiores a 0.75 como medida de un
grado de dependencia lineal importante entre las variables X e Y
Regresión Lineal: Bondad de ajuste
55
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
I II III IVX1 Y1 X2 Y2 X3 Y3 X4 Y410 8,04 10 9,14 10 7,46 8 6,588 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,7 8 7,719 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,4714 9,96 14 8,1 14 8,84 8 7,046 7,24 6 6,13 6 6,08 8 5,254 4,26 4 3,1 4 5,39 19 12,5
12 10,8 12 9,13 12 8,15 8 5,567 4,82 7 7,26 7 6,42 8 7,915 5,68 5 4,74 5 5,73 8 6,89
Media 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50Varianza 10,00 3,75 10,00 3,75 10,00 3,75 10,00 3,75
r 0,82 0,82 0,82 0,82a 3,00 3,00 3,00 3,00b 0,50 0,50 0,50 0,50
Cuarteto de Ascombe 56
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y1
X1
Y2
X2
Y3
X3
Y4
X4
Cuarteto de AscombeImportancia del gráfico de DISPERSIÓN
57
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
Evalúa la bondad del ajuste de la recta ajustada en base al criterio demínimos cuadrados.
Ejemplo
Y Estatura Hijo X Estatura Padre
= 0,7 + 0,61 y= 0,7 + 0,61
Regresión Lineal: Bondad de ajuste 58
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simplesimplppppppppppppppp e
Dos vías…
0,00080006,00013,0
75,173,122
XY
YX
SSSyx
= 1 = 0,000104= 0,0006= 1 = 0,81 = 0.90xi yi ^yi ei=yi-^yi ei
2
1,7 1,74 1,7317 0,0083 0,00007
1,77 1,78 1,7743 0,0056 0,00003
1,68 1,72 1,7195 0,0005 0,00000
1,75 1,77 1,7621 0,0078 0,00006
1,8 1,78 1,7926 -0,0127 0,00016
1,75 1,77 1,7621 0,0078 0,00006
1,69 1,71 1,7256 -0,0156 0,00024
1,72 1,76 1,7439 0,0161 0,00026
1,71 1,73 1,7378 -0,0078 0,00006
1,73 1,74 1,7500 -0,0100 0,00010
Total 17,30 17,50 17,4996 0,0000 0,00104
Media 1,73 1,75 1,7500 0,0000 0,000104
0.90XY
X Y
SrS S
Regresión Lineal: Bondad de ajuste
59
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
0,00820,0056
0,0004
0,0077
-0,0127
0,0077
-0,0157
0,0160
-0,0079-0,0101
-0,020
-0,015
-0,010
-0,005
0,000
0,005
0,010
0,015
0,020
1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80
Resi
udos
Valores teóricos
El diagrama de dispersión de los residuos (e ) sobre los valores teóricos (y ) no debe mostrar ningún
patrón
Regresión Lineal: Bondad de ajuste 60
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Ejercicio: Se han observado en 10 familias los ingresos y sus gastos mensuales que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)
Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650
500
600
700
800
900
1000
1100
1000 1200 1400 1600 1800
Gas
to m
ensu
al (
Y)
Ingreso mensual (X)
Relación entre el gasto y el ingreso de las familias
Regresión Lineal: Bondad de ajuste
61
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y=68,28+0,55*XR2=0,935
500
600
700
800
900
1000
1100
1000 1100 1200 1300 1400 1500 1600 1700 1800
GA
STO
S M
ENSU
AL
(Y)
INGRESO MENSUAL (X)
Ajuste lineal a la relación entre el gasto y el ingreso familiar
Ejercicio: Se han observado en 10 familias los ingresos y sus gasto mensual, que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)
Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650
Regresión Lineal: Bondad de ajuste 62
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
El gráfico de residuos muestra un patrón,indicando que hay correlación con los valoresteóricos que no debería darse en el casolineal.Por tanto, aunque el valor de r2 es alto, elmodelo lineal no captura la estructura dedependencia de los datos.
-60,00
-50,00
-40,00
-30,00
-20,00
-10,00
0,00
10,00
20,00
30,00
600 700 800 900 1000 1100 1200
Res
iduo
s
Valores Teóricos
Y X Y^ Resid.630 1120 682,16 -52,16730 1200 726,01 3,99800 1310 786,30 13,70900 1470 874,00 26,00900 1500 890,44 9,56
1000 1750 1027,47 -27,47880 1400 835,63 44,37965 1700 1000,07 -35,07935 1600 945,25 -10,25
1000 1650 972,66 27,34
Regresión Lineal: Bondad de ajuste
63
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Más ejemplos en los que se observa un patrón en el gráfico de residuos
-5
0
5
10
15
20
25
0 3 6 9 12 15 18 21
Y=-3,53+1,04*Xr2=0,918
-3
-2
-1
0
1
2
3
4
5
-3 0 3 6 9 12 15 18
Res
iduo
s
Valores teóricos
Regresión Lineal: Bondad de ajuste 64
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
0
0,2
0,4
0,6
0,8
1
1,2
0 3 6 9 12 15 18 21
Y=-0,0004+0,05*Xr2=0,980
-0,15-0,1
-0,050
0,050,1
0,150,2
-0,01 0,19 0,39 0,59 0,79 0,99
Res
iduo
s
Valores teóricos
-0,2
0
0,2
0,4
0,6
0,8
1
1,2
0 3 6 9 12 15 18 21
Y=-0,02+0,05*Xr2=0,956
-0,1
-0,05
0
0,05
0,1
-0,01 0,19 0,39 0,59 0,79 0,99
Res
iduo
s
Valores teóricos
Regresión Lineal: Bondad de ajuste
65
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
En un gran número de aplicaciones prácticas de la regresión entrevariables socio-económicas, el objetivo último consiste en la Predicción,que no es sino la obtención de una previsión teórica de la variable deinterés, sustentada en el modelo formal.
Una vez que el modelo de regresión –la función de regresión y susparámetros- se ha ajustado para representar la forma de la dependenciade Y respecto de X en base a los datos observados, la valoración del lavariable dependiente para un valor concreto de la variable explicativa, seobtiene a través de la ecuación del modelo de regresión.El valor teórico es el que denominamos Predicción.
Así, para predecir el valor de Y para un valor de la variable explicativa= basta con sustituir enla ecuación del modelo =En el caso particular de la regresión lineal
= ( )= | + |
Regresión lineal: Predicción 66
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Si el valor para el cual se utiliza el modelo xh está dentro del rangode valores observados de X, se dice que estamos Interpolando.Cuando ese valor de interés se encuentra fuera del rango deobservaciones con las que se ha realizado el ajuste, se dice que seestá Extrapolando.
Al extrapolar es importante tener presente que lafiabilidad de la predicción será menor, en tanto que elcarácter lineal de la relación existente entre X e Y puede nodarse fuera del rango de los valores observados.
Regresión lineal: Predicción
67
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La función de regresión linealestimada es:
Y = 0,70 + 0,61 Xcon r2 = 0,81
a)¿Cuál es la altura estimada para unhijo cuyo padre mide 1,75 m de alto?b)¿Y para un hijo cuyo padre mide1,90 m?c)¿Son fiables estas predicciones?
Ejemplo…
Y Estatura hijoX Estatura padre
elacióón Ry Regr iesióón lilin leal isi lmple
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
Regresión lineal: Predicción 68
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Altura estimada para el hijo #1:Y = 0,70 + 0,61 x 1,75 =1,77 mFiable
• El ajuste es bueno: r2 alto y elgráfico de residuos no muestraningún patrón
• Interpolación: 1,75m es un valorcontenido en el rango deestaturas de padre consideradasen el conjunto de datos utilizado
Ejemplo…
Y Estatura hijoX Estatura padre
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
l ió R ió li l i l
Regresión lineal: Predicción
69
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Altura estimada para el hijo #2:Y = 0,70 + 0,61 x 1,90 =1,86 m• No fiable porque se trata de
una extrapolación: 1,90m NOes un valor contenido en elrango de estaturas de padreconsideradas en el conjunto dedatos utilizado (min = 1,68m ymax = 1,8m)
Ejemplo…
Y Estatura hijoX Estatura padre
Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74
orrelación Regresión lineal simple
Regresión lineal: Predicción 70
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La existencia de una fuerte asociación o correlación lineal entrevariables no IMPLICA la existencia de una relación causal entreellas,Ingresos y gastos de las familias
Relación espúrea: Situación en donde dos o más variables estánestadísticamente relacionadas pero no tienen relación decausalidad entre ellas en realidad (no tienen ninguna conexiónlógica). En muchas ocasiones hay una tercera variable que explicaambas.
Ejemplos:Altura e ingresos de las personasNúmero de tías solteras y proporción de calcio en los huesos de losindividuosVentas de helados y número de lipotimias en una ciudadMás ejemplos en: http://www.correlated.org/
Regresión lineal: limitaciones
71
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
La forma de la asociación entre algunasvariables Y=f(X) reflejadas endeterminadas disposiciones del diagramade dispersión, sugieren que la función deregresión f(x) es de tipo No Lineal.Puede responder a otro tipo de funciónmatemática, ya sea de tipo polinómico,potencial, exponencial....al....potencial, exponenciacia
Modelos de Regresión No Lineales 72
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
No obstante, existen funciones matemáticas no lineales con laparticularidad de que sus ecuaciones se pueden “reformular”,en forma de una ecuación lineal, eso sí, entre otras variables. Esteproceso se conoce como linealización y conlleva realizar uncambio de variable.
Para estimar la ecuación de la regresión de este tipo de funciones,es posible proceder en base a una regresión de tipo lineal entre lasvariables transformadas. Así, las expresiones de los estimadores demínimos cuadrados del modelo lineal, sí pueden utilizarse para, deforma indirecta ajustar la regresión No Lineal formulada.
Para establecer otras funciones para la forma de dependenciade tipo no lineal, el procedimiento de ajuste en base al criterio deajuste de mínimos cuadrados requiere adaptar la expresión delError Cuadrático Medio a la correspondiente ecuación y sucorrespondiente optimización
Modelos de Regresión No Lineales
73
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
'
1 con '
y
bY a Y A BXX
XX
A a B bbBaA
XXBXAYXbaY
yln'con
'ln
bBaAYYXX
XbaYBXAYaXY b
ylnln';ln'con
lnlnln''
bBaAYYXX
bXaYBXAYaeY bX
ylnln';'con
lnln''
Regresión Hiperbólica: Regresión Logarítmica:
Regresión Exponencial:Regresión Potencial:
Modelos de Regresión No Lineales 74
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Ejercicio: Se han observado en 10 familias los ingresos y sus gastos mensuales que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)
Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650
500
600
700
800
900
1000
1100
1000 1100 1200 1300 1400 1500 1600 1700 1800
Gast
os m
ensu
ales
(Y)
Ingresos mensuales (X)
Modelos de Regresión No Lineales
75
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y=68.28+0.55*Xr2=0.935
Antes: Hemos ajustado un modelo linealR2 es alto…..
Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650
500
600
700
800
900
1000
1100
1000 1100 1200 1300 1400 1500 1600 1700 1800
Gast
os m
ensu
ales
(Y)
Ingresos mensuales (X)
Modelos de Regresión No Lineales 76
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Antes: …pero el gráfico de residuos muestra un claro patrón!!
Y X Y^ Residuos630 1120 682,16 -52,16730 1200 726,01 3,99800 1310 786,30 13,70900 1470 874,00 26,00900 1500 890,44 9,561000 1750 1027,47 -27,47880 1400 835,63 44,37965 1700 1000,07 -35,07935 1600 945,25 -10,251000 1650 972,66 27,34
-60,00
-50,00
-40,00
-30,00
-20,00
-10,00
0,00
10,00
20,00
30,00
600 700 800 900 1000 1100 1200
RESI
DU
OS
VALORES TEÓRICOS
Modelos de Regresión No Lineales
77
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
El modelo de Regresión Lineal Simple es el modelo básico, apesar de lo cual su utilidad es amplia ya que, algunasregresiones de tipo no lineal pueden llegar a serlo mediantetransformaciones
Recordar…..
Queremos ajustar la regresión:
Regresión linealentre Y, X´ | =
| = |= + += 1
= + 1 +
Ahora:vamos a ajustar un modelo no lineal -> Modelo de regresión
hiperbólica (Y = a+b/X)
Modelos de Regresión No Lineales 78
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Familia Y X X´=1/X X´^2=(1/X)^2 Y^2 XÝ=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844
10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069Media 874 0,00069
87410
87401
1
N
iiy
Ny 0069,0
100069,0111
11
N
i i
N
ii xN
xN
x
Modelos de Regresión No Lineales
79
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844
10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,00069 4,92E-07 776965 0,5952
1,04E-08 13089 -0,0115
= 1 = 4,92 × 10 0,00069 = 1,04 × 10
Modelos de Regresión No Lineales 80
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844
10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,00069 4,92E-07 776965 0,5952
1,04E-08 13089 -0,0115
= 1 = 0,592 × 0,00069 = 0,0115
Modelos de Regresión No Lineales
81
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844
10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,001 4,92E-07 776965 0,5952
1,04E-08 13089 -0,0115
| = = 0,01151,04 × 10 = 1,11 × 10= = 874 + 1,11 × 10 0,0069 = 1643,05= 1643,05 1,11 × 10
Modelos de Regresión No Lineales 82
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
500
600
700
800
900
1000
1100
1000 1100 1200 1300 1400 1500 1600 1700 1800
Gast
os m
ensu
ales
(Y)
Ingresos mensuales (X)= 1643,05 1,11 × 10
Modelos de Regresión No Lineales
83
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
= 1 = 779695 874 = 13089= 1 = 345.80 = 1 = 1 345.8013089 = 0.9736= 0.9867
Familia Y X 1/X 1/X^2 Y^2 Y/X Y^ Residuos Residuos^21 630 1120 0,0009 7,97E-07 396900 0,5625 653,85 -23,85 568,952 730 1200 0,0008 6,94E-07 532900 0,6083 719,80 10,20 104,063 800 1310 0,0008 5,83E-07 640000 0,6107 797,32 2,68 7,164 900 1470 0,0007 4,63E-07 810000 0,6122 889,38 10,62 112,895 900 1500 0,0007 4,44E-07 810000 0,6000 904,45 -4,45 19,796 1000 1750 0,0006 3,27E-07 1000000 0,5714 1009,96 -9,96 99,257 880 1400 0,0007 5,10E-07 774400 0,6286 851,69 28,31 801,378 965 1700 0,0006 3,46E-07 931225 0,5676 991,34 -26,34 693,929 935 1600 0,0006 3,91E-07 874225 0,5844 950,61 -15,61 243,7010 1000 1650 0,0006 3,67E-07 1000000 0,6061 971,59 28,41 806,91
Total 8740 0,0069 4,92E-06 7769650 5,9518 0,00 3458,01Media 874 0,001 4,92E-07 776965 0,5952 345,80
1,04E-08 13089 -0,0115
Modelos de Regresión No Lineales 84
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Y X Y^ Residuos
630 1120 653,85 -23,85730 1200 719,80 10,20800 1310 797,32 2,68900 1470 889,38 10,62900 1500 904,45 -4,451000 1750 1009,96 -9,96880 1400 851,69 28,31965 1700 991,34 -26,34935 1600 950,61 -15,611000 1650 971,59 28,41
-30,00
-20,00
-10,00
0,00
10,00
20,00
30,00
40,00
600,00 700,00 800,00 900,00 1000,00 1100,00
Resid
uos
Valores teóricos (Y^)
Modelos de Regresión No Lineales
85
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Regresión No Lineal: Interpretación
0
1000
2000
3000
4000
5000
0 5 10
Coeficiente de determinación (en términos relativos)Desviación típica del residual (términos absolutos)
Valor y signo del coeficientede regresión bForma de la curva estimadaEl coeficiente a es unaestimación de Y para un valorconcreto de X. Su validez esdudosa para unaextrapolación, tanto máscuanto mayor sea el grado deésta.
86
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Nombre Ecuación a b
Lineal = + Valor de predicho para
x= 0 Incremento esperado sobre cuando seincrementa en 1
Exponencial = Valor de predicho para
x= 0Incremento esperado sobre en términosrelativos cuando se incrementa en 1. Elmodelo suele estar asociado a fenómenos enlos que se dan leyes de rendimientosmarginales crecientes
Logarítmico = + Valor de predicho para
x= 1Incremento esperado sobre cuando seincrementa en 1 unidad porcentual. El modelosuele estar asociado a fenómenos en los que sedan leyes de rendimientos marginalesdecrecientes
Potencial = Valor de predicho para
x= 1 Elasticidad de respecto a
Hiperbólico = + Valor asintótico de
cuando
El modelo suele estar asociado a fenómenos enlos que se dan leyes de rendimientosmarginales decrecientes con valores asintóticosy determina el ritmo al que se alcanza dicholímite
Coeficientes Regresión : Interpretación
87
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
7
9
11
13
15
17
19
21
0 2 4 6 8
La desviación típica residual del modelo determina su validez en el
contexto del problema. Dicha validez requiere de un conocimiento
específico por parte del analista del mismo, así como de los propósitos y consecuencias o decisiones que se
adoptarían en base al estudio.
0% % -- 50 %0%% 0 %55Ajuste malo
50% % -- 75 %50%% 75 %77Ajuste medioo
75% % -- 100 %oo
75%7 % 00 %11Ajuste bueno
Bondad de ajuste: Interpretación 88
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
1. ¿Cuál es la variable dependiente del modelo? ¿Y la variableindependiente o explicativa?2. ¿Qué tipo y grado de asociación sugieren los datos?3. Ajusta la recta de mínimos-cuadrados. Interpreta los coeficientesobtenidos4. ¿Cuál sería el volumen de ventas si se reduce a la mitad el gastoen publicidad para 2009. ¿Y si se aumenta a 80.000.000€? ¿Sonfiables estas predicciones?
Gastos enAño Ventas publicidad2000 300 302001 400 402002 800 502003 1150 602004 950 60
Gastos enAño Ventas publicidad2005 1000 622006 1100 652007 1250 702008 1450 722009 1300 75
Ejercicio Completo Analizar la asociación entre las ventas y los gastosen publicidad (expresadas en millones de euros).
Regresión: Ajuste Lineal
89
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
1. Tratamos de explicar las Ventas, variable dependiente como función dela inversión en publicidad (variable controlable y explicativa)
2. El diagrama de dispersión sugiere la existencia de una relaciónaproximadamente lineal entre las variables.
0
200
400
600
800
1000
1200
1400
1600
25 35 45 55 65 75
Vent
as (M
illon
es d
e €)
Gastos en Publicidad (Millones de €)
Regresión: Ajuste Lineal 90
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
2. La correlación lineal entre ambas variables es muy alta, ya que el coeficiente de correlación lineal vale r = 0.972
Gasto enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y2000 300 30 90000 900 90002001 400 40 160000 1600 160002002 800 50 640000 2500 400002003 1150 60 1322500 3600 690002004 950 60 902500 3600 570002005 1000 62 1000000 3844 620002006 1100 65 1210000 4225 715002007 1250 70 1562500 4900 875002008 1450 72 2102500 5184 1044002009 1300 75 1690000 5625 97500Total 9700 584 10680000 35978 613900 r^2 0,9449
Media 970 58,4 1068000 3597,8 61390 r 0,9721127100 187,24 4742Var Y Var X Cov X Y
Regresión: Ajuste Lineal
91
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y2000 300 30 90000 900 90002001 400 40 160000 1600 160002002 800 50 640000 2500 400002003 1150 60 1322500 3600 690002004 950 60 902500 3600 570002005 1000 62 1000000 3844 620002006 1100 65 1210000 4225 715002007 1250 70 1562500 4900 875002008 1450 72 2102500 5184 1044002009 1300 75 1690000 5625 97500
Total 9700 584 10680000 35978 613900 r^2 0,94488Media 970 58,4 1068000 3597,8 61390 r 0,97205
127100 187,24 4742 b 25,326Var Y Var X Cov X Y a -509,026= 509,03 + 25, ( )
Regresión: Ajuste Lineal 92
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
3. La ecuación de la recta estimada es: (i) Al incrementarse en un millón de euros los gastos en publicidad, las
ventas se incrementarán en 25,3 millones de euros (a=25,3).(ii) El porcentaje de variabilidad del valor de las ventas que no está
explicado por el gasto en publicidad es del 5,5% (r2=0,945 )
0
200
400
600
800
1000
1200
1400
1600
25 35 45 55 65 75
Ven
tas
(mill
. de
euro
s)
Gastos en publicidad (mill. de euros)
= 509,03 + 25, ( )Regresión: Ajuste Lineal
93
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
4. El ajuste es bueno puesto que los residuos no muestran ningún patrón y r^2 tiene un
valor alto.
Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y Y Teóricos Residuos
2000 300 30 90000 900 9000 250,75 49,25232001 400 40 160000 1600 16000 504,01 -104,00562002 800 50 640000 2500 40000 757,26 42,73662003 1150 60 1322500 3600 69000 1010,52 139,47872004 950 60 902500 3600 57000 1010,52 -60,52132005 1000 62 1000000 3844 62000 1061,17 -61,17282006 1100 65 1210000 4225 71500 1137,15 -37,15022007 1250 70 1562500 4900 87500 1263,78 -13,77912008 1450 72 2102500 5184 104400 1314,43 135,56932009 1300 75 1690000 5625 97500 1390,41 -90,4080
r^2 0,9449r 0,9721b 25,326a -509,026
EE tEstEstEst dídíadíadíadí itistististicacaca IIIII 1º1º1º1º1 GAGAGAGAGADEDEDEDEDE TTTeTeTemamama 666:6:6: CCCorCorCor llrelrelrel iiaciaciacióóónónón yyy R
2009 1300 75 1690000 5625
Regresión: Ajuste Lineal 94
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y Y Teóricos Residuos2000 300 30 90000 900 9000 250,75 49,252001 400 40 160000 1600 16000 504,01 -104,012002 800 50 640000 2500 40000 757,26 42,742003 1150 60 1322500 3600 69000 1010,52 139,482004 950 60 902500 3600 57000 1010,52 -60,522005 1000 62 1000000 3844 62000 1061,17 -61,172006 1100 65 1210000 4225 71500 1137,15 -37,152007 1250 70 1562500 4900 87500 1263,78 -13,782008 1450 72 2102500 5184 104400 1314,43 135,572009 1300 75 1690000 5625 97500 1390,41 -90,41Total 9700 584 10680000 35978 613900 r^2 0,945
Media 970 58,4 1068000 3597,8 61390 r 0,972127100 187,24 4742 b 25,326Var Y Var X Cov X Y a -509,026
Pred 37,5 440,69= 509,03 + 25,3 × 37,5 = 440,69= 509,03 + 25,3 × 80 = 1517,04 Interpolación -> FiableExtrapolación -> No fiable
Regresión: Ajuste Lineal
95
Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple
Mapa Conceptual