tema 6 correlaciÓn y regresiÓn lineal simple...modelos de regresión no lineal 3 estadística i...

24
TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE 2 Estadística I GADE Tema 6: Correlación y Regresión lineal simple Índice Introducción Diagrama de dispersión Covarianza y coeficiente de correlación lineal Modelo de regresión lineal Estimación: método de los mínimos cuadrados Bondad del ajuste: coeficiente de determinación Predicción Modelos de regresión no lineal 3 Estadística I GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos no muestran ningún tipo de relación, o sea son independientes, el estudio conjunto carece de interés. Sin embargo, en la observación de un buen número de fenómenos en Economía y, debido a las múltiples interacciones, ocurre que se tiende a detectar algún tipo de asociación entre los valores observados de dos o varias características. Por ejemplo, los valores del ahorro de una familia es previsible que esté relacionado, de algún modo, con el valor de su renta disponible. O, en una empresa, por ejemplo los resultados de ventas mensuales, posiblemente estarán asociados con el monto de la inversión realizada en publicidad. Cuando es posible predecir con total exactitud los valores que se observan de una variable en función de los que ha adoptado otra u otras, a través de una función, se da un tipo de dependencia denominada funcional. Introducción 4 Estadística I GADE Tema 6: Correlación y Regresión lineal simple 9 Cuando, sin llegar a la dependencia funcional, los datos observados evidencian algún grado de asociación entre ellos, diremos que existe DEPENDENCIA ESTADÍSTICA entre las dos variables y su análisis es el objetivo de este tema. En el análisis de la DEPENDENCIA ESTADÍSTICA, se abordan dos objetivos complementarios 1. La determinación o ajuste de una función que describa el comportamiento (los valores y sus variaciones) de una variable a través de los valores de otra/s variable. De este objetivo se encarga la llamada Teoría de la Regresión. 2. El análisis cuantitativo de la intensidad de la dependencia, es decir el grado de asociación. (¿En qué medida las ventas observadas están dependiendo de los datos relativos a la inversión en publicidad realizada?). Este es el objetivo de la Teoría de la Correlación. Introducción

Upload: others

Post on 14-Aug-2020

20 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

TEMA 6

CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

2

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Índice

Introducción

Diagrama de dispersión

Covarianza y coeficiente de correlación lineal

Modelo de regresión lineal

Estimación: método de los mínimos cuadrados

Bondad del ajuste: coeficiente de determinación

Predicción

Modelos de regresión no lineal

3

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Cuando dos conjuntos de datos no muestran ningún tipo de relación, osea son independientes, el estudio conjunto carece de interés.

Sin embargo, en la observación de un buen número de fenómenos enEconomía y, debido a las múltiples interacciones, ocurre que se tiende adetectar algún tipo de asociación entre los valores observados de dos ovarias características. Por ejemplo, los valores del ahorro de una familiaes previsible que esté relacionado, de algún modo, con el valor de surenta disponible. O, en una empresa, por ejemplo los resultados deventas mensuales, posiblemente estarán asociados con el monto de lainversión realizada en publicidad.

Cuando es posible predecir con total exactitud los valores que seobservan de una variable en función de los que ha adoptado otra uotras, a través de una función, se da un tipo de dependenciadenominada funcional.

Introducción 4

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Cuando, sin llegar a la dependencia funcional, los datos observadosevidencian algún grado de asociación entre ellos, diremos que existeDEPENDENCIA ESTADÍSTICA entre las dos variables y su análisis es elobjetivo de este tema.

En el análisis de la DEPENDENCIA ESTADÍSTICA, se abordan dosobjetivos complementarios

1. La determinación o ajuste de una función que describa elcomportamiento (los valores y sus variaciones) de una variable através de los valores de otra/s variable. De este objetivo se encargala llamada Teoría de la Regresión.

2. El análisis cuantitativo de la intensidad de la dependencia, es decirel grado de asociación. (¿En qué medida las ventas observadas estándependiendo de los datos relativos a la inversión en publicidad realizada?).Este es el objetivo de la Teoría de la Correlación.

Introducción

Page 2: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

5

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Un diagrama de dispersión es un tipo de diagramamatemático que utiliza las coordenadas cartesianas paramostrar los valores de dos variables para un conjunto deindividuos.

E tEst díadí tistica II 1º1º GAGADEDE TTema 66: CCor lrel iacióón Ry Regr iesióón lilin leal isi lmple

individuos.

Diagrama de dispersión 6

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

10

20

30

40

50

60

70

80

90

100

150 155 160 165 170 175 180 185 190 195 200

Peso

(en

Kg)

Estatura (en cms)

Diagrama de dispersión

7

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Tasa de natalidad (por 1.000 habitantes)

6050403020100

Habit

antes

en ci

udad

es (%

)

120

100

80

60

40

20

0

Diagrama de dispersión del % de habitantes que viven en ciudades respecto de la tasa de natalidad en una muestra de 100 países

Diagrama de dispersión 8

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Relación lineal Directa

Sin relación

Relación lineal Inversa

EEstEst díadíadí ististicaca III 1º1º1º GAGAGADEDEDE TTeTemama 66:6: CCorCorre

Sin relación

Diagrama de dispersión

Page 3: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

9

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

DIAGRAMA DE DISPERSIÓNDisposiciones de diagramas de dispersión

Relación lineal Relación no lineal

Relación lineal Directa Sin relación Relación lineal Inversa

10

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Definición: Se define la Covarianza entre dos variables como:

Para cuantificar la intensidad de la asociación se utilizan unoscoeficientes, denominados Coeficientes de Correlación que están ligadosa una magnitud clave en éste tema que se denomina Covarianza. LaCovarianza es una medida de la variabilidad común de dos variables(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento dela otra)

= 1= 1Fórmula

abreviada

Covarianza

11

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Interpretación gráfica de la Covarianza

×

Covarianza 12

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

?

Covarianza

Page 4: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

13

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Ejercicio: Los directivos de una empresa multinacional de cosméticosquieren analizar la relación entre los Beneficios netos anuales (Y) ylos Gastos en Publicidad anuales (X) para varios productoscomercializados. Para ello se han recogido los datos históricos que semuestran en la siguiente tabla:

Determina el valor y signo de la Covarianza

Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20

10 10,9 25

Covarianza 14

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €

Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20

10 10,9 25Suma 60,8 81

Covarianza

15

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €= = 445,5610 6,08 = 7,59 = = 156510 8,1 = 90,89

Año X (millones €) Y (millones €) xi^2 yi^21 2 -6 4 362 2,8 -3 7,84 93 3,9 0 15,21 04 4,2 3 17,64 95 5,8 6 33,64 366 6,2 9 38,44 817 7,5 12 56,25 1448 8,2 15 67,24 2259 9,3 20 86,49 400

10 10,9 25 118,81 625Suma 60,8 81 445,56 1565

Covarianza 16

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

x = N = 60,810 = 6,08 millones € y = N = 8110 = 8,1 millones €= = 445,5610 6,08 = 7,59 = = 156510 8,1 = 90,89= = 754,310 6,08 8,1 = ,

Año X (millones €) Y (millones €) xi^2 yi^2 xi*yi1 2 -6 4 36 -122 2,8 -3 7,84 9 -8,43 3,9 0 15,21 0 04 4,2 3 17,64 9 12,65 5,8 6 33,64 36 34,86 6,2 9 38,44 81 55,87 7,5 12 56,25 144 908 8,2 15 67,24 225 1239 9,3 20 86,49 400 186

10 10,9 25 118,81 625 272,5Suma 60,8 81 445,56 1565 754,3

Relación lineal directa

Covarianza

Page 5: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

17

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Propiedades de la Covarianza

La covarianza depende de las unidades de medida

La covarianza es invariante por cambios de origen pero node escala = += + , = ( , )

Matriz de varianzas y covarianzas

=

Covarianza 18

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Se utiliza un coeficiente adimensional asociado con lacovarianza para medir la intensidad de la asociación y sudirección

Intensidad de la asociación lineal

Covarianza

19

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Coeficiente de Correlación lineal r de Pearson

Mide el grado de asociación lineal entre dos variablescuantitativas, en términos relativos, respecto de la dispersión delas propias variables.

Propiedadesi. Tiene el mismo signo que la Covarianzaii. Es adimensionaliii. Varía entre -1 y 1iv. Si existe una relación lineal perfecta (funcional) entre

las dos variable, su valor es 1 ó -1v. Es invariante ante transformaciones lineales de las

variables, salvo el signo

=

Coeficiente de Correlación 20

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

XY

X Y

SrS S

Usualmente, se exigen valores de |r| superiores a 0.75 como medida de un

grado de dependencia lineal importante entre las variables X e Y

Coeficiente de Correlación

Page 6: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

21

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Ejercicio: Los directivos de una empresa multinacional decosméticos quieren analizar la relación entre la variableBeneficios netos anuales (Y) y Gastos en Publicidad (X) paravarios productos comercializados. Para ello se han recogido losdatos históricos que se recogen en la siguiente tabla:

Cuantifica y determina, en base a los datos, el grado de asociación lineal entre las variables X e Y.

Año X (millones €) Y (millones €)1 2 -62 2,8 -33 3,9 04 4,2 35 5,8 66 6,2 97 7,5 128 8,2 159 9,3 20

10 10,9 25

Coeficiente de Correlación 22

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

x = 6,08 y = 8,1= 7,59 = 90,89= 26,182

Año X (millones €) Y (millones €) xi^2 yi^2 xi*yi1 2 -6 4 36 -122 2,8 -3 7,84 9 -8,43 3,9 0 15,21 0 04 4,2 3 17,64 9 12,65 5,8 6 33,64 36 34,86 6,2 9 38,44 81 55,87 7,5 12 56,25 144 908 8,2 15 67,24 225 1239 9,3 20 86,49 400 186

10 10,9 25 118,81 625 272,5Suma 60,8 81 445,56 1565 754,3

= · = 26,1822,75 · 9,53 = ,= 7,59 = 2,75 = 90,89 = 9,53

Relación lineal directa muy fuerte

Coeficiente de Correlación

23

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

-10

-5

0

5

10

15

20

25

30

0 2 4 6 8 10 12

Ben

efic

ios

anua

les

(mill

ones

€)

Gastos en publicidad (millones €)

RELACIÓN ENTRE EL BENEFICIO NETO Y EL GASTO EN PUBLICIDAD

= 26.182 = 0.9969

Coeficiente de Correlación 24

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Relación con la independencia:Si dos variables X e Y son estadísticamente independientes

se cumple que son incorreladas rXY=0

Definición Se dice que X e Y son Incorreladas si rXY=0 (SXY=0)

El contrario no es cierto. Salvo en algunos casos particulares,dos variables pueden tener correlación nula y sin embargo, noser independientes.

Numéricamente, existen contraejemplos que locorroboranGráficamente ocurre que pueden darse otrasasociaciones, de tipo no lineal, cuya disposición particularhaga que se anule la covarianza.

Coeficiente de Correlación

Page 7: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

25

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Correlación: Cuarteto de AscombeI II III IV

X1 Y1 X2 Y2 X3 Y3 X4 Y410 8,04 10 9,14 10 7,46 8 6,588 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,7 8 7,719 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,4714 9,96 14 8,1 14 8,84 8 7,046 7,24 6 6,13 6 6,08 8 5,254 4,26 4 3,1 4 5,39 19 12,5

12 10,8 12 9,13 12 8,15 8 5,567 4,82 7 7,26 7 6,42 8 7,915 5,68 5 4,74 5 5,73 8 6,89

Media 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50Varianza 10,00 3,75 10,00 3,75 10,00 3,75 10,00 3,75

r 0,82 0,82 0,82 0,82

26

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y1

X1

Y2

X2

Y3

X3

Y4

X4

Correlación: Cuarteto de Ascombe

27

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La TEORÍA DE REGRESIÓN tiene por objeto describirfuncionalmente la relación entre dos variables.

En la medida en que los valores, o en general el comportamientode una variable Y está influenciado –en un grado importante- y dealguna forma –desconocida- por los valores de una segundavariable X, la teoría de la regresión formula , a través de unafunción apropiada, la dependencia Y=f(X) y evalúa su validez.

Como quiera que la relación formal no va a ser exacta, sino unaaproximación en la que se habrán omitido otras variables deimportancia secundaria, los modelos de regresión van a incluir untérmino adicional de error, que reflejará los factores restantesque inciden en la variable de forma secundaria y que,individualmente no resulten relevantes.

Modelo de Regresión 28

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Dos variables:Y: % Fracaso escolarX: Renta per cápita

Otras variables que podrían estar relacionadas:índices de desempleo / población sin estudios / tasas de inmigración

¿Y = f(X)?Y

X

Modelo de Regresión

Page 8: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

29

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

El Análisis de Regresión se aplica en dos etapas o pasos:

PASO 1: SELECCIÓN DEL MODELO Se trata de decidir el tipo defunción (curva) que mejor se adapta a la disposición de los datos,es decir, que mejor explica los valores observados de la variable Ypara cada valor de la variable X.

PASO 2: ESTIMACIÓN O AJUSTE Una vez elegida la funciónmatemática para la relación a través de su ecuación, se obtieneaquélla que se sitúa más próxima globalmente al conjunto dedatos observados.

En esta fase suele ser de gran utilidad la representación gráfica por la disposición sugerida por la nube de puntos como orientación para la elección.

En definitiva, se requiere establecer un criterio, en base al cual, deducir y calcular los coeficientes o parámetros de la función que nos dará el ajuste de la ecuación de regresión.

Modelo de Regresión 30

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

¿Cómo influye en la estatura de un hijo, la estatura de su progenitor?

Ejemplo…

?

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

1,7

1,71

1,72

1,73

1,74

1,75

1,76

1,77

1,78

1,79

1,66 1,68 1,7 1,72 1,74 1,76 1,78 1,8 1,82

Y=Es

tatu

ra H

ijo

X=Estatura del padre

Modelo de Regresión

31

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Formalmente, un modelo de Regresión Simple General se representa mediante una ecuación:

Variable Explicativa o Exógena

Términode error

Para

Modelo de Regresión Lineal Simple

a, b constantes

= +Variable Dependiente o

Endógena

Función de Regresión

= += + +

Modelo de Regresión Lineal 32

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Modelo de Regresión Lineal Simple ó Recta de Regresión

El parámetro b, la pendiente de la recta,se denomina Coeficiente de Regresión.

Su valor se interpreta como el incremento –en general la variación- de la variabledependiente para un aumento unitario dela variable explicativa. Por ello, en el ámbitode determinadas variables económicas seinterpreta con la llamada PropensiónMarginal

El parámetro a es la ordenada en elorigen y representa el valor de la variabledependiente cuando la independiente tomael valor cero.

= + +, son constantes

o –blede

bitose

ión

elble

Modelo de Regresión Lineal

Page 9: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

33

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

En tal caso, debemos contemplar larecta como una aproximaciónformal y el problema del ajustecomo la selección de la recta entérminos de su proximidad global alos puntos

El objetivo es estimar, en base a los datos, los coeficientes a y b,que completan la ecuación del modelo.

Interesa, en primer lugar, realizar una aproximación intuitivapara identificar la disposición lineal. Para ello, se utiliza la nubede puntos. Si la dependencia fuera exacta,

las observaciones se situarían a lolargo de una determinada recta.

En general, las observacionesno se alinearán, sino que formanla nube de puntos

= +

Modelo de Regresión Lineal 34

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Para medir la proximidad de la recta a la nube de puntos, para cadavalor observado de la variable X, xi debemos contemplar dos valoresde Y

i) el observadoii) el “teórico” dado por la ecuación de la recta

La diferencia entre el valor observado y el valor teórico es elresiduo o error

Sus valores recogen las fluctuaciones de los valores de la variableque no quedan explicadas por su relación con la variable X

= += +

=

Modelo de Regresión LinealPara medir la proximidad de la recta a la nube de puntos, para cadavalor observado de la variable X, xi debemos contemplar dos valoresde Y

i) el observadoii) el “teórico” dado por la ecuación de la recta

La diferencia entre el valor observado y el valor teórico es elresiduo o error

Sus valores recogen las fluctuaciones de los valores de la variableque no quedan explicadas por su relación con la variable X

35

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Parece razonable obtener como valor para loa parámetros desconocidos,aquellas que generen unos residuos, globalmente más pequeños

Inconveniente: Al sumar los residuos positivosy negativos, la suma total proporciona unasíntesis errónea acerca de la proximidad.

Medidas globales del tamaño de los errores o residuos:

Una primera alternativa de síntesis sería la suma, o la media

Una segunda alternativa de síntesis sería medir su intensidad sin signo (valor absoluto)

Inconveniente, no se presta aoperaciones algebraicas, enparticular para derivar

ei=

= =

= =

Modelo de Regresión Lineal 36

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La medida de síntesis que supera los inconvenientes de las anterioresse basa, en la suma -o el promedio- de los residuos al cuadrado:

Criterio de Mínimos Cuadrados

El ajuste de la recta, en base a éste, consiste en determinar loscoeficientes que hacen mínimo el error cuadrático medio, dando lugar alcriterio más conocido, denominado Criterio de mínimos-cuadrados

Minimizar ECM (a,b) =

Obtener el ajuste se resolverácomo un problema de optimización:

Datos (Constantes)

Parámetros (Variables)

= = = 1 = 1Error Cuadrático Medio

=min, +

Modelo de Regresión Lineal

Page 10: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

37

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

2 2

1

1

i ii

ii

x y x yNb

x xN

2,

X

YX

SS

Su solución, es decir, los valores de a y b son los que minimizan elECM. Formalmente, sus expresiones se despejan del sistema:

Derivando con respecto de cada una de las dos variables (a,b) eigualando a 0 para obtener los puntos críticos, se obtiene unsistema de 2 ecuaciones:

Ecuaciones Normales

de la Regresión

=

ii

ii

iií

ii

ii

xbxayx

xbaNy

Modelo de Regresión Lineal 38

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Alternativamente, la recta de Regresión de Y sobre X puedeescribirse utilizando la forma punto-pendiente en la forma:

Recta de Regresión mínimo-cuadrática de Y sobre X

– Coeficiente de regresión de Y sobre X

| = | | == | + |

|

= ( )

Modelo de Regresión Lineal

39

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La recta de Regresión de X sobre Y en la forma punto-pendientequeda:

– Coeficiente de regresión de X sobre Y

Recta de Regresión mínimo-cuadrática de X sobre Y

PROPIEDAD: Las rectas de regresión de X sobre Y, y de Y sobres X se cortan en el centro de gravedad

= ( )

= | + || = || = |

,,

Modelo de Regresión Lineal 40

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

Estima mediante el criterio de mínimos cuadrados una recta queexplique la estatura de un hijo como una función lineal de la estatura desu progenitor

Determina los errores o residuos del modelo.

Ejemplo…

Y Estatura Hijo X Estatura Padre

¿ = + ? ¿ ?

Modelo de Regresión Lineal

Page 11: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

41

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Recta de regresión…

Elementos necesariospara el cálculo

| = | | == | + |

::::

Modelo de Regresión Lineal 42

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

,

1.731.750.03580.02410.0008

x

y

x y

xySSS

61,0b

7,0a

Estatura hijo

Estatura padre= 0,7 + 0,61

Modelo de Regresión Lineal

43

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

¿Cuál sería el error cometido para cada hijo?= 0,7 + 0,= 0,7 + 0,61xi yi ^yi ei=yi-^yi

1.7 1.74 1.7317 0.0083

1.77 1.78 1.7743 0.0056

1.68 1.72 1.7195 0.0005

1.75 1.77 1.7621 0.0078

1.8 1.78 1.7926 -0.0127

1.75 1.77 1.7621 0.0078

1.69 1.71 1.7256 -0.0156

1.72 1.76 1.7439 0.0161

1.71 1.73 1.7378 -0.0078

1.73 1.74 1.7500 -0.0100

Total 17.30 17.50 17.4996 0.0000

Media 1.73 1.75 1.7500 0.0000

Modelo de Regresión Lineal 44

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Si el coeficiente de regresión, b, esnegativo, la nube de puntos estáconfigurada de modo que disminuyenlos valores de Y al aumentar los de X.Relación lineal inversa

Si el coeficiente de regresión b espositivo, la nube de puntos tiene unadisposición tal que aumentan losvalores de Y al aumentar los de X.Relación lineal directa

Propiedades de los Coeficientes

El coeficiente de regresión b es invariante por cambio de origen,pero no es invariante frente a cambios de unidades o de escala.

Modelo de Regresión Lineal

Page 12: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

45

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Se comprueba fácilmente, que la media de los residuosobtenidos utilizando el criterio de mínimos cuadrados, es cero

Como consecuencia, la media de los valores teóricos del modelo lineal, coincide con la media de la variable

Se comprueba fácilmente queb fá l

Propiedades de los residuos mínimo-cuadráticos

= 1 = 0

= 1 =

xi yi ^yi ei=yi-^yi

1.7 1.74 1.7317 0.00831.77 1.78 1.7743 0.00561.68 1.72 1.7195 0.00051.75 1.77 1.7621 0.00781.8 1.78 1.7926 -0.0127

1.75 1.77 1.7621 0.00781.69 1.71 1.7256 -0.01561.72 1.76 1.7439 0.01611.71 1.73 1.7378 -0.00781.73 1.74 1.7500 -0.0100

Total 17.30 17.50 17.4996 0.0000

Media 1.73 1.75 1.7500 0.0000

Modelo de Regresión Lineal 46

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Hemos estimado una recta, pero ¿es bueno su ajuste a los datos? ¿describe la relación entre X e Y? ¿es útil para predecir?

Modelo de Regresión Lineal

47

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Una vez que se ha ajustado una ecuación para un modelo deregresión, es necesario evaluar la adecuación del ajuste, es decir,si el modelo describe “bien” la relación de dependencia; es loque se denomina Bondad de Ajuste

Para ello, utilizaremos una medida numérica que nos indique lacercanía del modelo a los datos…

Las medidas para cuantificar la bondad del ajuste realizado sebasan en el valor de los residuos o errores del ajuste

Cuando los residuos sean globalmente pequeños, el ajuste serábueno y la línea tendrá una representatividad aceptable

¿Cómo medir el tamaño de los residuos deforma global?

Regresión Lineal: Bondad de ajuste 48

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Varianza Residual

La magnitud global de los errores se aproxima promediandoéstos, al cuadrado –sin signo- y se denomina VarianzaResidual. Va a ser la medida clave en la que basar el grado debondad del ajuste realizado.

Cuanto menor (mayor) sea la varianza residual mejor (peor)será el ajuste, en tanto que más próximos (distantes) estaránlos valores teóricos a los observados.

Inconveniente: La magnitud de la varianza residual está en función dela magnitud de los datos y de sus unidades de medida

= 1 = 1

Regresión Lineal: Bondad de ajuste

Page 13: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

49

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Coeficiente de Determinación General R2

AjustePerfecto

Ajuste Pésimo

Para relativizar la varianza residual se divide por la varianza deY, dando lugar aun coeficiente: = 1

Se cumple que: 0 1= 1 = 0 = 0 == 0 =

Regresión Lineal: Bondad de ajuste

OBSERVACIÓN: mide el porcentaje de varianzaresidual (que no está explicada por su relación con la variableexplicativa) respecto de la varianza de la variable endógena.

Es Invariante ante cambios de origen y escala

1

50

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Varianza Residual y Varianza Explicada por la regresión

Varianza explicada por la regresión

En regresión lineal

Porcentaje de varianza de Yexplicada por la regresión

Varianza de las predicciones

Varianza Explicada

= 1 1 = 1== 1 =

==

Regresión Lineal: Bondad de ajuste

51

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

En el caso particular de la regresión lineal, el coeficiente dedeterminación general adopta una expresión propia, más sencilla.

De las expresiones de los coeficientes de mínimos cuadrados de laregresión lineal a y b, sustituyendo en la expresión de la varianzaresidual, se obtiene el denominado coeficiente de determinaciónlineal:

Coeficiente de DETERMINACIÓN LINEAL

=Observación: El coeficiente de determinación lineal es elcuadrado del coeficiente de correlación lineal, asociado a lacorrelación y definido como:

YX

XY

SSSr

Regresión Lineal: Bondad de ajuste 52

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Observaciones

Propiedades

El signo de r coincide con el de la covarianzaSi r = 0 variables Incorreladas (no existe relación lineal

entre variables)Si r > 0 relación lineal directa ( + fuerte cuanto más

próxima sea a su valor 1 y si r = 1 la relación lineal esdeterminística)

Si r < 0 relación lineal inversa (+ intensa cuando máspróximo sea su valor a -1 y si r = -1 la relación lineal esdeterminística)

0 1Regresión Lineal: Bondad de ajuste

Page 14: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

53

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y

X

Y

X

Y

X

Y

X

Y

X

Y

X

X/Y

Y/XY

X

Y

X

X/Y

Y/X

Y

X

Y

X

Y

X

Y

X

Y

X

Y

X X/Y

Y/X

Y

X

Y

X X/Y

Y/X

Y

X

Y

X

Y

X

Y

X

El coeficiente r-Pearson y la recta de regresión

r=1r=0r=-1

0<r<1-1<r<0

Regresión Lineal: Bondad de ajuste 54

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

XY

X Y

SrS S

Usualmente, se exigen valores de |r| superiores a 0.75 como medida de un

grado de dependencia lineal importante entre las variables X e Y

Regresión Lineal: Bondad de ajuste

55

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

I II III IVX1 Y1 X2 Y2 X3 Y3 X4 Y410 8,04 10 9,14 10 7,46 8 6,588 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,7 8 7,719 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,4714 9,96 14 8,1 14 8,84 8 7,046 7,24 6 6,13 6 6,08 8 5,254 4,26 4 3,1 4 5,39 19 12,5

12 10,8 12 9,13 12 8,15 8 5,567 4,82 7 7,26 7 6,42 8 7,915 5,68 5 4,74 5 5,73 8 6,89

Media 9,00 7,50 9,00 7,50 9,00 7,50 9,00 7,50Varianza 10,00 3,75 10,00 3,75 10,00 3,75 10,00 3,75

r 0,82 0,82 0,82 0,82a 3,00 3,00 3,00 3,00b 0,50 0,50 0,50 0,50

Cuarteto de Ascombe 56

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y1

X1

Y2

X2

Y3

X3

Y4

X4

Cuarteto de AscombeImportancia del gráfico de DISPERSIÓN

Page 15: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

57

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

Evalúa la bondad del ajuste de la recta ajustada en base al criterio demínimos cuadrados.

Ejemplo

Y Estatura Hijo X Estatura Padre

= 0,7 + 0,61 y= 0,7 + 0,61

Regresión Lineal: Bondad de ajuste 58

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simplesimplppppppppppppppp e

Dos vías…

0,00080006,00013,0

75,173,122

XY

YX

SSSyx

= 1 = 0,000104= 0,0006= 1 = 0,81 = 0.90xi yi ^yi ei=yi-^yi ei

2

1,7 1,74 1,7317 0,0083 0,00007

1,77 1,78 1,7743 0,0056 0,00003

1,68 1,72 1,7195 0,0005 0,00000

1,75 1,77 1,7621 0,0078 0,00006

1,8 1,78 1,7926 -0,0127 0,00016

1,75 1,77 1,7621 0,0078 0,00006

1,69 1,71 1,7256 -0,0156 0,00024

1,72 1,76 1,7439 0,0161 0,00026

1,71 1,73 1,7378 -0,0078 0,00006

1,73 1,74 1,7500 -0,0100 0,00010

Total 17,30 17,50 17,4996 0,0000 0,00104

Media 1,73 1,75 1,7500 0,0000 0,000104

0.90XY

X Y

SrS S

Regresión Lineal: Bondad de ajuste

59

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

0,00820,0056

0,0004

0,0077

-0,0127

0,0077

-0,0157

0,0160

-0,0079-0,0101

-0,020

-0,015

-0,010

-0,005

0,000

0,005

0,010

0,015

0,020

1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80

Resi

udos

Valores teóricos

El diagrama de dispersión de los residuos (e ) sobre los valores teóricos (y ) no debe mostrar ningún

patrón

Regresión Lineal: Bondad de ajuste 60

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Ejercicio: Se han observado en 10 familias los ingresos y sus gastos mensuales que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)

Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650

500

600

700

800

900

1000

1100

1000 1200 1400 1600 1800

Gas

to m

ensu

al (

Y)

Ingreso mensual (X)

Relación entre el gasto y el ingreso de las familias

Regresión Lineal: Bondad de ajuste

Page 16: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

61

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y=68,28+0,55*XR2=0,935

500

600

700

800

900

1000

1100

1000 1100 1200 1300 1400 1500 1600 1700 1800

GA

STO

S M

ENSU

AL

(Y)

INGRESO MENSUAL (X)

Ajuste lineal a la relación entre el gasto y el ingreso familiar

Ejercicio: Se han observado en 10 familias los ingresos y sus gasto mensual, que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)

Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650

Regresión Lineal: Bondad de ajuste 62

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

El gráfico de residuos muestra un patrón,indicando que hay correlación con los valoresteóricos que no debería darse en el casolineal.Por tanto, aunque el valor de r2 es alto, elmodelo lineal no captura la estructura dedependencia de los datos.

-60,00

-50,00

-40,00

-30,00

-20,00

-10,00

0,00

10,00

20,00

30,00

600 700 800 900 1000 1100 1200

Res

iduo

s

Valores Teóricos

Y X Y^ Resid.630 1120 682,16 -52,16730 1200 726,01 3,99800 1310 786,30 13,70900 1470 874,00 26,00900 1500 890,44 9,56

1000 1750 1027,47 -27,47880 1400 835,63 44,37965 1700 1000,07 -35,07935 1600 945,25 -10,25

1000 1650 972,66 27,34

Regresión Lineal: Bondad de ajuste

63

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Más ejemplos en los que se observa un patrón en el gráfico de residuos

-5

0

5

10

15

20

25

0 3 6 9 12 15 18 21

Y=-3,53+1,04*Xr2=0,918

-3

-2

-1

0

1

2

3

4

5

-3 0 3 6 9 12 15 18

Res

iduo

s

Valores teóricos

Regresión Lineal: Bondad de ajuste 64

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

0

0,2

0,4

0,6

0,8

1

1,2

0 3 6 9 12 15 18 21

Y=-0,0004+0,05*Xr2=0,980

-0,15-0,1

-0,050

0,050,1

0,150,2

-0,01 0,19 0,39 0,59 0,79 0,99

Res

iduo

s

Valores teóricos

-0,2

0

0,2

0,4

0,6

0,8

1

1,2

0 3 6 9 12 15 18 21

Y=-0,02+0,05*Xr2=0,956

-0,1

-0,05

0

0,05

0,1

-0,01 0,19 0,39 0,59 0,79 0,99

Res

iduo

s

Valores teóricos

Regresión Lineal: Bondad de ajuste

Page 17: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

65

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

En un gran número de aplicaciones prácticas de la regresión entrevariables socio-económicas, el objetivo último consiste en la Predicción,que no es sino la obtención de una previsión teórica de la variable deinterés, sustentada en el modelo formal.

Una vez que el modelo de regresión –la función de regresión y susparámetros- se ha ajustado para representar la forma de la dependenciade Y respecto de X en base a los datos observados, la valoración del lavariable dependiente para un valor concreto de la variable explicativa, seobtiene a través de la ecuación del modelo de regresión.El valor teórico es el que denominamos Predicción.

Así, para predecir el valor de Y para un valor de la variable explicativa= basta con sustituir enla ecuación del modelo =En el caso particular de la regresión lineal

= ( )= | + |

Regresión lineal: Predicción 66

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Si el valor para el cual se utiliza el modelo xh está dentro del rangode valores observados de X, se dice que estamos Interpolando.Cuando ese valor de interés se encuentra fuera del rango deobservaciones con las que se ha realizado el ajuste, se dice que seestá Extrapolando.

Al extrapolar es importante tener presente que lafiabilidad de la predicción será menor, en tanto que elcarácter lineal de la relación existente entre X e Y puede nodarse fuera del rango de los valores observados.

Regresión lineal: Predicción

67

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La función de regresión linealestimada es:

Y = 0,70 + 0,61 Xcon r2 = 0,81

a)¿Cuál es la altura estimada para unhijo cuyo padre mide 1,75 m de alto?b)¿Y para un hijo cuyo padre mide1,90 m?c)¿Son fiables estas predicciones?

Ejemplo…

Y Estatura hijoX Estatura padre

elacióón Ry Regr iesióón lilin leal isi lmple

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

Regresión lineal: Predicción 68

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Altura estimada para el hijo #1:Y = 0,70 + 0,61 x 1,75 =1,77 mFiable

• El ajuste es bueno: r2 alto y elgráfico de residuos no muestraningún patrón

• Interpolación: 1,75m es un valorcontenido en el rango deestaturas de padre consideradasen el conjunto de datos utilizado

Ejemplo…

Y Estatura hijoX Estatura padre

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

l ió R ió li l i l

Regresión lineal: Predicción

Page 18: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

69

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Altura estimada para el hijo #2:Y = 0,70 + 0,61 x 1,90 =1,86 m• No fiable porque se trata de

una extrapolación: 1,90m NOes un valor contenido en elrango de estaturas de padreconsideradas en el conjunto dedatos utilizado (min = 1,68m ymax = 1,8m)

Ejemplo…

Y Estatura hijoX Estatura padre

Estatura Padre 1,70 1,77 1,68 1,75 1,80 1,75 1,69 1,72 1,71 1,73Estatura Hijo 1,74 1,78 1,72 1,77 1,78 1,77 1,71 1,76 1,73 1,74

orrelación Regresión lineal simple

Regresión lineal: Predicción 70

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La existencia de una fuerte asociación o correlación lineal entrevariables no IMPLICA la existencia de una relación causal entreellas,Ingresos y gastos de las familias

Relación espúrea: Situación en donde dos o más variables estánestadísticamente relacionadas pero no tienen relación decausalidad entre ellas en realidad (no tienen ninguna conexiónlógica). En muchas ocasiones hay una tercera variable que explicaambas.

Ejemplos:Altura e ingresos de las personasNúmero de tías solteras y proporción de calcio en los huesos de losindividuosVentas de helados y número de lipotimias en una ciudadMás ejemplos en: http://www.correlated.org/

Regresión lineal: limitaciones

71

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

La forma de la asociación entre algunasvariables Y=f(X) reflejadas endeterminadas disposiciones del diagramade dispersión, sugieren que la función deregresión f(x) es de tipo No Lineal.Puede responder a otro tipo de funciónmatemática, ya sea de tipo polinómico,potencial, exponencial....al....potencial, exponenciacia

Modelos de Regresión No Lineales 72

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

No obstante, existen funciones matemáticas no lineales con laparticularidad de que sus ecuaciones se pueden “reformular”,en forma de una ecuación lineal, eso sí, entre otras variables. Esteproceso se conoce como linealización y conlleva realizar uncambio de variable.

Para estimar la ecuación de la regresión de este tipo de funciones,es posible proceder en base a una regresión de tipo lineal entre lasvariables transformadas. Así, las expresiones de los estimadores demínimos cuadrados del modelo lineal, sí pueden utilizarse para, deforma indirecta ajustar la regresión No Lineal formulada.

Para establecer otras funciones para la forma de dependenciade tipo no lineal, el procedimiento de ajuste en base al criterio deajuste de mínimos cuadrados requiere adaptar la expresión delError Cuadrático Medio a la correspondiente ecuación y sucorrespondiente optimización

Modelos de Regresión No Lineales

Page 19: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

73

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

'

1 con '

y

bY a Y A BXX

XX

A a B bbBaA

XXBXAYXbaY

yln'con

'ln

bBaAYYXX

XbaYBXAYaXY b

ylnln';ln'con

lnlnln''

bBaAYYXX

bXaYBXAYaeY bX

ylnln';'con

lnln''

Regresión Hiperbólica: Regresión Logarítmica:

Regresión Exponencial:Regresión Potencial:

Modelos de Regresión No Lineales 74

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Ejercicio: Se han observado en 10 familias los ingresos y sus gastos mensuales que se presentan en la tabla.X : Ingreso mensual (en €)Y : Gasto mensual (en €)

Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650

500

600

700

800

900

1000

1100

1000 1100 1200 1300 1400 1500 1600 1700 1800

Gast

os m

ensu

ales

(Y)

Ingresos mensuales (X)

Modelos de Regresión No Lineales

75

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y=68.28+0.55*Xr2=0.935

Antes: Hemos ajustado un modelo linealR2 es alto…..

Y X630 1120730 1200800 1310900 1470900 15001000 1750880 1400965 1700935 16001000 1650

500

600

700

800

900

1000

1100

1000 1100 1200 1300 1400 1500 1600 1700 1800

Gast

os m

ensu

ales

(Y)

Ingresos mensuales (X)

Modelos de Regresión No Lineales 76

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Antes: …pero el gráfico de residuos muestra un claro patrón!!

Y X Y^ Residuos630 1120 682,16 -52,16730 1200 726,01 3,99800 1310 786,30 13,70900 1470 874,00 26,00900 1500 890,44 9,561000 1750 1027,47 -27,47880 1400 835,63 44,37965 1700 1000,07 -35,07935 1600 945,25 -10,251000 1650 972,66 27,34

-60,00

-50,00

-40,00

-30,00

-20,00

-10,00

0,00

10,00

20,00

30,00

600 700 800 900 1000 1100 1200

RESI

DU

OS

VALORES TEÓRICOS

Modelos de Regresión No Lineales

Page 20: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

77

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

El modelo de Regresión Lineal Simple es el modelo básico, apesar de lo cual su utilidad es amplia ya que, algunasregresiones de tipo no lineal pueden llegar a serlo mediantetransformaciones

Recordar…..

Queremos ajustar la regresión:

Regresión linealentre Y, X´ | =

| = |= + += 1

= + 1 +

Ahora:vamos a ajustar un modelo no lineal -> Modelo de regresión

hiperbólica (Y = a+b/X)

Modelos de Regresión No Lineales 78

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Familia Y X X´=1/X X´^2=(1/X)^2 Y^2 XÝ=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844

10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069Media 874 0,00069

87410

87401

1

N

iiy

Ny 0069,0

100069,0111

11

N

i i

N

ii xN

xN

x

Modelos de Regresión No Lineales

79

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844

10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,00069 4,92E-07 776965 0,5952

1,04E-08 13089 -0,0115

= 1 = 4,92 × 10 0,00069 = 1,04 × 10

Modelos de Regresión No Lineales 80

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844

10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,00069 4,92E-07 776965 0,5952

1,04E-08 13089 -0,0115

= 1 = 0,592 × 0,00069 = 0,0115

Modelos de Regresión No Lineales

Page 21: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

81

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Familia Y X X´=1/X X´^ 2=(1/X)^2 Y^2 X´Y=Y/X1 630 1120 0,0009 7,97E-07 396900 0,56252 730 1200 0,0008 6,94E-07 532900 0,60833 800 1310 0,0008 5,83E-07 640000 0,61074 900 1470 0,0007 4,63E-07 810000 0,61225 900 1500 0,0007 4,44E-07 810000 0,60006 1000 1750 0,0006 3,27E-07 1000000 0,57147 880 1400 0,0007 5,10E-07 774400 0,62868 965 1700 0,0006 3,46E-07 931225 0,56769 935 1600 0,0006 3,91E-07 874225 0,5844

10 1000 1650 0,0006 3,67E-07 1000000 0,6061Total 8740 0,0069 4,92E-06 7769650 5,9518Media 874 0,001 4,92E-07 776965 0,5952

1,04E-08 13089 -0,0115

| = = 0,01151,04 × 10 = 1,11 × 10= = 874 + 1,11 × 10 0,0069 = 1643,05= 1643,05 1,11 × 10

Modelos de Regresión No Lineales 82

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

500

600

700

800

900

1000

1100

1000 1100 1200 1300 1400 1500 1600 1700 1800

Gast

os m

ensu

ales

(Y)

Ingresos mensuales (X)= 1643,05 1,11 × 10

Modelos de Regresión No Lineales

83

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

= 1 = 779695 874 = 13089= 1 = 345.80 = 1 = 1 345.8013089 = 0.9736= 0.9867

Familia Y X 1/X 1/X^2 Y^2 Y/X Y^ Residuos Residuos^21 630 1120 0,0009 7,97E-07 396900 0,5625 653,85 -23,85 568,952 730 1200 0,0008 6,94E-07 532900 0,6083 719,80 10,20 104,063 800 1310 0,0008 5,83E-07 640000 0,6107 797,32 2,68 7,164 900 1470 0,0007 4,63E-07 810000 0,6122 889,38 10,62 112,895 900 1500 0,0007 4,44E-07 810000 0,6000 904,45 -4,45 19,796 1000 1750 0,0006 3,27E-07 1000000 0,5714 1009,96 -9,96 99,257 880 1400 0,0007 5,10E-07 774400 0,6286 851,69 28,31 801,378 965 1700 0,0006 3,46E-07 931225 0,5676 991,34 -26,34 693,929 935 1600 0,0006 3,91E-07 874225 0,5844 950,61 -15,61 243,7010 1000 1650 0,0006 3,67E-07 1000000 0,6061 971,59 28,41 806,91

Total 8740 0,0069 4,92E-06 7769650 5,9518 0,00 3458,01Media 874 0,001 4,92E-07 776965 0,5952 345,80

1,04E-08 13089 -0,0115

Modelos de Regresión No Lineales 84

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Y X Y^ Residuos

630 1120 653,85 -23,85730 1200 719,80 10,20800 1310 797,32 2,68900 1470 889,38 10,62900 1500 904,45 -4,451000 1750 1009,96 -9,96880 1400 851,69 28,31965 1700 991,34 -26,34935 1600 950,61 -15,611000 1650 971,59 28,41

-30,00

-20,00

-10,00

0,00

10,00

20,00

30,00

40,00

600,00 700,00 800,00 900,00 1000,00 1100,00

Resid

uos

Valores teóricos (Y^)

Modelos de Regresión No Lineales

Page 22: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

85

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Regresión No Lineal: Interpretación

0

1000

2000

3000

4000

5000

0 5 10

Coeficiente de determinación (en términos relativos)Desviación típica del residual (términos absolutos)

Valor y signo del coeficientede regresión bForma de la curva estimadaEl coeficiente a es unaestimación de Y para un valorconcreto de X. Su validez esdudosa para unaextrapolación, tanto máscuanto mayor sea el grado deésta.

86

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Nombre Ecuación a b

Lineal = + Valor de predicho para

x= 0 Incremento esperado sobre cuando seincrementa en 1

Exponencial = Valor de predicho para

x= 0Incremento esperado sobre en términosrelativos cuando se incrementa en 1. Elmodelo suele estar asociado a fenómenos enlos que se dan leyes de rendimientosmarginales crecientes

Logarítmico = + Valor de predicho para

x= 1Incremento esperado sobre cuando seincrementa en 1 unidad porcentual. El modelosuele estar asociado a fenómenos en los que sedan leyes de rendimientos marginalesdecrecientes

Potencial = Valor de predicho para

x= 1 Elasticidad de respecto a

Hiperbólico = + Valor asintótico de

cuando

El modelo suele estar asociado a fenómenos enlos que se dan leyes de rendimientosmarginales decrecientes con valores asintóticosy determina el ritmo al que se alcanza dicholímite

Coeficientes Regresión : Interpretación

87

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

7

9

11

13

15

17

19

21

0 2 4 6 8

La desviación típica residual del modelo determina su validez en el

contexto del problema. Dicha validez requiere de un conocimiento

específico por parte del analista del mismo, así como de los propósitos y consecuencias o decisiones que se

adoptarían en base al estudio.

0% % -- 50 %0%% 0 %55Ajuste malo

50% % -- 75 %50%% 75 %77Ajuste medioo

75% % -- 100 %oo

75%7 % 00 %11Ajuste bueno

Bondad de ajuste: Interpretación 88

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

1. ¿Cuál es la variable dependiente del modelo? ¿Y la variableindependiente o explicativa?2. ¿Qué tipo y grado de asociación sugieren los datos?3. Ajusta la recta de mínimos-cuadrados. Interpreta los coeficientesobtenidos4. ¿Cuál sería el volumen de ventas si se reduce a la mitad el gastoen publicidad para 2009. ¿Y si se aumenta a 80.000.000€? ¿Sonfiables estas predicciones?

Gastos enAño Ventas publicidad2000 300 302001 400 402002 800 502003 1150 602004 950 60

Gastos enAño Ventas publicidad2005 1000 622006 1100 652007 1250 702008 1450 722009 1300 75

Ejercicio Completo Analizar la asociación entre las ventas y los gastosen publicidad (expresadas en millones de euros).

Regresión: Ajuste Lineal

Page 23: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

89

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

1. Tratamos de explicar las Ventas, variable dependiente como función dela inversión en publicidad (variable controlable y explicativa)

2. El diagrama de dispersión sugiere la existencia de una relaciónaproximadamente lineal entre las variables.

0

200

400

600

800

1000

1200

1400

1600

25 35 45 55 65 75

Vent

as (M

illon

es d

e €)

Gastos en Publicidad (Millones de €)

Regresión: Ajuste Lineal 90

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

2. La correlación lineal entre ambas variables es muy alta, ya que el coeficiente de correlación lineal vale r = 0.972

Gasto enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y2000 300 30 90000 900 90002001 400 40 160000 1600 160002002 800 50 640000 2500 400002003 1150 60 1322500 3600 690002004 950 60 902500 3600 570002005 1000 62 1000000 3844 620002006 1100 65 1210000 4225 715002007 1250 70 1562500 4900 875002008 1450 72 2102500 5184 1044002009 1300 75 1690000 5625 97500Total 9700 584 10680000 35978 613900 r^2 0,9449

Media 970 58,4 1068000 3597,8 61390 r 0,9721127100 187,24 4742Var Y Var X Cov X Y

Regresión: Ajuste Lineal

91

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y2000 300 30 90000 900 90002001 400 40 160000 1600 160002002 800 50 640000 2500 400002003 1150 60 1322500 3600 690002004 950 60 902500 3600 570002005 1000 62 1000000 3844 620002006 1100 65 1210000 4225 715002007 1250 70 1562500 4900 875002008 1450 72 2102500 5184 1044002009 1300 75 1690000 5625 97500

Total 9700 584 10680000 35978 613900 r^2 0,94488Media 970 58,4 1068000 3597,8 61390 r 0,97205

127100 187,24 4742 b 25,326Var Y Var X Cov X Y a -509,026= 509,03 + 25, ( )

Regresión: Ajuste Lineal 92

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

3. La ecuación de la recta estimada es: (i) Al incrementarse en un millón de euros los gastos en publicidad, las

ventas se incrementarán en 25,3 millones de euros (a=25,3).(ii) El porcentaje de variabilidad del valor de las ventas que no está

explicado por el gasto en publicidad es del 5,5% (r2=0,945 )

0

200

400

600

800

1000

1200

1400

1600

25 35 45 55 65 75

Ven

tas

(mill

. de

euro

s)

Gastos en publicidad (mill. de euros)

= 509,03 + 25, ( )Regresión: Ajuste Lineal

Page 24: TEMA 6 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE...Modelos de regresión no lineal 3 Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple Cuando dos conjuntos de datos

93

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

4. El ajuste es bueno puesto que los residuos no muestran ningún patrón y r^2 tiene un

valor alto.

Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y Y Teóricos Residuos

2000 300 30 90000 900 9000 250,75 49,25232001 400 40 160000 1600 16000 504,01 -104,00562002 800 50 640000 2500 40000 757,26 42,73662003 1150 60 1322500 3600 69000 1010,52 139,47872004 950 60 902500 3600 57000 1010,52 -60,52132005 1000 62 1000000 3844 62000 1061,17 -61,17282006 1100 65 1210000 4225 71500 1137,15 -37,15022007 1250 70 1562500 4900 87500 1263,78 -13,77912008 1450 72 2102500 5184 104400 1314,43 135,56932009 1300 75 1690000 5625 97500 1390,41 -90,4080

r^2 0,9449r 0,9721b 25,326a -509,026

EE tEstEstEst dídíadíadíadí itistististicacaca IIIII 1º1º1º1º1 GAGAGAGAGADEDEDEDEDE TTTeTeTemamama 666:6:6: CCCorCorCor llrelrelrel iiaciaciacióóónónón yyy R

2009 1300 75 1690000 5625

Regresión: Ajuste Lineal 94

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Gastos enAño Ventas (Y) publicidad (X) Y^2 X^2 X*Y Y Teóricos Residuos2000 300 30 90000 900 9000 250,75 49,252001 400 40 160000 1600 16000 504,01 -104,012002 800 50 640000 2500 40000 757,26 42,742003 1150 60 1322500 3600 69000 1010,52 139,482004 950 60 902500 3600 57000 1010,52 -60,522005 1000 62 1000000 3844 62000 1061,17 -61,172006 1100 65 1210000 4225 71500 1137,15 -37,152007 1250 70 1562500 4900 87500 1263,78 -13,782008 1450 72 2102500 5184 104400 1314,43 135,572009 1300 75 1690000 5625 97500 1390,41 -90,41Total 9700 584 10680000 35978 613900 r^2 0,945

Media 970 58,4 1068000 3597,8 61390 r 0,972127100 187,24 4742 b 25,326Var Y Var X Cov X Y a -509,026

Pred 37,5 440,69= 509,03 + 25,3 × 37,5 = 440,69= 509,03 + 25,3 × 80 = 1517,04 Interpolación -> FiableExtrapolación -> No fiable

Regresión: Ajuste Lineal

95

Estadística I 1º GADE Tema 6: Correlación y Regresión lineal simple

Mapa Conceptual