Download - Regresion Lineal y Correlacion
REGRESION LINEAL Y
CORRELACION
PALACION PALACIOS, Daniel SANCHEZ HUAMAN, Henry
OSORIO TELLO , Jonathan CUBA ATENCIO, Misael
MINAYA ALAYA ,Luis
El diagrama de dispersión se obtiene representando cada observación
(xi, yi) como un punto en el plano cartesiano XY.
Diagramas de dispersión y curvas de regresión
El diagrama de dispersión puede presentar formas diversas:
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: elindividuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de alturay 56 kg de peso, etc., tal como se ve en la tabla siguiente:
La regresión es un método de análisis de los datos de la realidad económica que sirve para poner en evidencia las relaciones que existen entre diversas variables.
Una línea recta denominado regresión lineal, que se usa en el laboratorio en varias situaciones:
Para calcular la velocidad en una experiencia de movimiento rectilíneo .
Para calcular la constante elástica de un muelle, colocando pesas en un platillo que cuelga de su extremo libre y midiendo la deformación del muelle .
ETC.
Regresión Lineal
En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Donde : β0 es la intersección o término "constante", Las βi son los parámetros respectivos a cada variable
independiente. P es el número de parámetros independientes a tener en cuenta
en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
Regresión Lineal
Formulas Empleadas
Regresión Lineal SimpleAhora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable Y (efecto). Además, se sabe que esa relación es de tipo lineal, dentro del rango de los datos. Estableceremos un modelo para explicar la caiisa (Y) en términos el efecto (X), del tipo siguiente:
Donde:para t = 1,2,..., n
En que B1 y B2 son dos cantidades fijas (parámetros del modelo) y los Ut son cantidades aleatorias que representan las diferencias entre lo que postula el modelo a y lo que realmente se observa,
Por esa razón a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviación standard común σ
Ejemplo 1Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.Para determinar la recta de regresión, calculamos la covarianza maestral Sxy, la varianza maestral y las medias y
Diagrama de Dispersión
Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo), folios y una calculadora
elemental. Nada mas. En las pr¶acticas era su¯ciente con introducir los datos
relativos a x y a y. Sin embargo, para hacer las cosas sin ordenador hay que trabajar un poquito
m¶as. Por ese motivo vamos a hacer ejercicios con pocos datos.
Ejercicio 2:
Solución:X =Media de xY =Media de ySxy = Sumatoria de XY =Sxy/n – X*YSx = Sumatoria de X =Sx / n - x2 2 2
Ejercicio 3:El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)obtenido en mecanografía de ocho estudiantes que siguieron el programa y elnúmero de semanas que hace que lo siguen:
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables es lineal con pendiente positiva, de manera que cuantas más semanas pasan, mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de regresión.A partir de la tabla de cálculos siguiente:
ANALISIS DE REGRESIÓN Y DE
CORRELACIÓN
Regresión y Correlación Análisis de regresión y correlación Relación entre variables Ajuste de curvas El método de los mínimos cuadrados: Relaciones lineales y no lineales Error típico de estimación Coeficiente de Correlación
Regresión y Correlación Recta de regresión y el coeficiente de
correlación lineal
DIAGRAMA DE DISPERSIÓN
CURVA DE APROXIMACIÓN
RELACIÓN LINEAL
RELACIÓN NO LINEAL
Ajuste de curvas Diagrama de dispersión Curva de aproximación Relación lineal Relación no lineal Curva de ajuste
Ecuaciones de curvas de aproximación Linea recta Parábola Curva cúbica Curva cuártica Curva de grado n Hipérbola Exponencial Geométrica
El método de los mínimos cuadrados:
Y = m X + b
COEFICIENTE DE CORRELACIÓN
Medidas de Correlación Cualitativa ( observación directa sobre el
diagrama de dispersión) Cuantitativa ( dispersión de los datos
alrededor de las curvas o rectas)
¿Qué relación hay entre LxA de una hoja con su area?
Relación entre LxA y el área de las hojas del árbol A
0
2
4
6
8
10
12
14
16
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
Are
a d
e l
a h
oja
Examina la relación
Relacion entre LxA y el area de las hojas del arbol A
0
2
4
6
8
10
12
14
16
4 6 8 10 12 14 16 18 20 22 24 26
Largo x Ancho de la hoja
Are
a d
e la
ho
ja
x
y++
- +
- - + -
yy i xxi
Coeficiente de correlación
yx
xy
n
ii
n
ii
i
n
ii
ss
s
yyxx
yyxxr
1
2
1
2
1
)()(
)()(
0)()(1
yyxx i
n
ii
Si la pendiente de la recta es positiva esperamos que :
0)(
)()(
1
2
1
n
ii
i
n
ii
xx
yyxxmya que
Coeficiente de correlación
Significado de la correlación
n
ii
n
ii
n
ii
n
ii
i
n
ii
yy
xx
m
yyxx
yyxxr
1
2
1
2
1
2
1
2
1
)(
)(
)()(
)()(
El coeficiente de correlación y la pendiente tienen el mismo signo.
r es una medida de la dependencia estadística (numérica) lineal de la variables x, y.
Ejemplos de correlación
r cerca de 0r > 0
r < 0
No hay relación lineal
Propiedades de r
r > 0 si y solo si m > 0
-1 =< r <= 1
r cerca de 1 indica dependencia lineal creciente fuerte
r cerca de 0 indica no hay dependencia estadística lineal
r cerca de -1 indica dependencia lineal decreciente fuerte
Propiedades de r x, y pueden estar correlacionadas, pero no
quiere decir que x causa y o que y causa a x.
x, y pueden ser dependientes, pero su coeficiente de correlación puede ser 0:
Ejemplo:◦ x = -1, 0, 1 y = x2 r = 0◦ (la dependencia entre x , y NO es lineal)
Dependientes pero no correlacionadas
-1 10
1
X
Y
numerador de r = (-1).33 + (0)0 + (1).33 = 0
Coeficiente de correlaciónEs la raíz cuadrada del coeficiente de
determinación:
SST
SSESST
SST
SSRRr
2
Referencias Mann: Sec. 13. 6, 13.7
◦ probs: 59-67, 75-77, 80, 81,
Weiss: Sec. 13.4◦ probs: 75, 77, 79, 82, 85
Datos en hoja de Excel
Correlacion formula
r=1 (ó 0,99<r<=1)Dependencia funcional
directaExacta
0< r< 1Dependencia aleatoria
directa
Muy fuerte r de 0,9 a 0,99 Fuerte r de 0,7 a 0,9
Moderada r de 0,4 a 0,7
Débil r de 0,2 a 0,4
Muy Débil r de 0 a 0,2
r=0X,Y aleatoriamente
independientesNula
-1 < r < 0Dependencia aleatoria
inversa entre X, Y
Muy Débil r de -0,2 a 0 Débil r de -0,4 a -0,2
Moderada r de -0,7 a -0,4
Fuerte r de -0,9 a -0,7
Muy Fuerte r de -0,99 a -0,9
r=-1 (ó -1<=r < -0,99)Dependencia funcional
InversaExacta
Ejercicio
xi yi xi ·yi xi2 yi
2
2 1 2 4 13 3 9 9 94 2 8 16 44 4 16 16 165 4 20 25 166 4 24 36 166 6 36 36 367 4 28 49 167 6 42 49 368 7 56 64 4910 9 90 100 8110 10 100 100 10072 60 431 504 380
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10
Física 1 3 2 4 4 4 6 4 6 7 9 10
ANÁLISIS DE DATOS EN SPSS
Datos Iniciales
Notas C.Int Horas
8 120 4
7 125 3
6 100 3
8 115 4
7 120 4
4 95 2
3 80 2
1 80 1
6 100 3
5 90 3
Partimos de la información obtenida de una muestra de 10 elementos de una determinada distribución. Las variables sometidas a observación son:
• Notas Obtenidas
• Coeficiente de Inteligencia
• Horas de Estudio
Objetivos Iniciales:
¿ Entendemos que las notas que saca un estudiante depende de las horas de estudio de dedicación a la asignatura o del Coeficiente de Inteligencia que tenga ? Ó ¿ de Ambas variables ?A partir de aquí nos planteamos, en primer lugar, realizar un análisis de regresión.
El primer paso es realizar el análisis por el
método introducir las dos variables
simultáneamente
Matriz de Correlación
Planteamiento de que existe o no asociación lineal entre las variables
Ho : el coeficiente de correlación lineal es cero.
Si el p-valor asociado es menor que se rechaza la hip. Nula
1,000 ,900 ,959
,900 1,000 ,819
,959 ,819 1,000
, ,000 ,000
,000 , ,002
,000 ,002 ,
10 10 10
10 10 10
10 10 10
NOTAS
CI
HORAS
NOTAS
CI
HORAS
NOTAS
CI
HORAS
Correlaciónde Pearson
Sig.(unilateral)
N
NOTAS CI HORAS
Correlaciones
HORAS, CIa , IntroducirModelo1
Variablesintroducidas
Variableseliminadas Método
Variables introducidas/eliminadasb
Todas las variables solicitadas introducidasa.
Variable dependiente: NOTASb.
Nos indica las variables introducidas y el método utilizado
Análisis de la Varianza
,979a ,959 ,947 ,5244Modelo1
RR
cuadrado
Rcuadradocorregida
Error típ.de la
estimación
Resumen del modelo
Variables predictoras: (Constante), HORAS, CIa.
Raíz cuadrada de la varianza residual
Coeficiente de determinación corregido. Depende del numero de variables y numero de elementos.
44,575 2 22,287 81,036 ,000a
1,925 7 ,275
46,500 9
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVAb
Variables predictoras: (Constante), HORAS, CIa.
Variable dependiente: NOTASb.
K-1n-k
n-1
SCR= Suma de los cuadrados de la regresión
SCE= Suma de los cuadrados de los errores
)/(
)1/(
knSCE
kSCRF
La Hipótesis nula: La ecuación de regresión muestral no explica un porcentaje significativo de la varianza de la variable
Cuanto mayor sea F mas se explica que se queda por explicar
CoeficientesIChorasNotas .047,053,181,3
-3,815 1,261 -3,025 ,019
4,731E-02 ,018 ,348 2,594 ,036
1,540 ,307 ,674 5,023 ,002
(Constante)
CI
HORAS
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientes
estandarizados
t Sig.
Coeficientesa
Variable dependiente: NOTASa.
Coeficientes Coeficientes de regresión
estandarizado
y
x
S
S1
Valor tB/error típico
Cuanto mayor sea mas se explica de la variable dependiente
Al igual que en otros contrastes se rechazara la variable si se acepta que el coeficiente es igual a cero.
Ganancias
4%
HORAS
92%
4%
77%
15%COEF. INTEL
81%
R2 = 96 %
¿Que aporta cada una de los regresores a la explicación de la variable dependiente?
Ganancias
Método Introducir por bloques 1º horas, 2º C.Int.
,959a ,919 ,909 ,6870
,979b ,959 ,947 ,5244
Modelo1
2
RR
cuadrado
Rcuadradocorregida
Error típ.de la
estimación
Resumen del modelo
Variables predictoras: (Constante), HORASa.
Variables predictoras: (Constante), HORAS, CIb.
42,725 1 42,725 90,536 ,000a
3,775 8 ,472
46,500 9
44,575 2 22,287 81,036 ,000b
1,925 7 ,275
46,500 9
Regresión
Residual
Total
Regresión
Residual
Total
Modelo1
2
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVAc
Variables predictoras: (Constante), HORASa.
Variables predictoras: (Constante), HORAS, CIb.
Variable dependiente: NOTASc.
-,854 ,702 -1,216 ,259
2,191 ,230 ,959 9,515 ,000
-3,815 1,261 -3,025 ,019
1,540 ,307 ,674 5,023 ,002
4,731E-02 ,018 ,348 2,594 ,036
(Constante)
HORAS
(Constante)
HORAS
CI
Modelo1
2
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientes
estandarizados
t Sig.
Coeficientesa
Variable dependiente: NOTASa.
Método Introducir por bloques 1º C.Int, 2º Horas.
,900a ,809 ,786 1,0527
,979b ,959 ,947 ,5244
Modelo1
2
RR
cuadrado
Rcuadradocorregida
Error típ.de la
estimación
Resumen del modelo
Variables predictoras: (Constante), CIa.
Variables predictoras: (Constante), CI, HORASb.
37,634 1 37,634 33,960 ,000a
8,866 8 1,108
46,500 9
44,575 2 22,287 81,036 ,000b
1,925 7 ,275
46,500 9
Regresión
Residual
Total
Regresión
Residual
Total
Modelo1
2
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVAc
Variables predictoras: (Constante), CIa.
Variables predictoras: (Constante), CI, HORASb.
Variable dependiente: NOTASc.
-7,045 2,178 -3,234 ,012
,122 ,021 ,900 5,827 ,000
-3,815 1,261 -3,025 ,019
4,731E-02 ,018 ,348 2,594 ,036
1,540 ,307 ,674 5,023 ,002
(Constante)
CI
(Constante)
CI
HORAS
Modelo1
2
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientes
estandarizados
t Sig.
Coeficientesa
Variable dependiente: NOTASa.
Método por Pasos
• Método que se utiliza para la obtención semiautomatica del modelo de regresión. A través de la selección de cada una de las variables
• Se irán introduciendo las variables a partir de aquella que tenga mayor correlación.
• Se establece criterios de entrada y salida
• PIN probabilidad de entrada
• POUT probabilidad de salida (siempre es mayor que la probabilidad de entrada
• El criterio de aceptación de la variable es que se rechace la hipótesis nula de que el coeficiente sea igual a cero
Método por Pasos
Vari abl es i nt roduci das/ el i mi nadasa
HO RAS ,Por pasos ( cr it er io: Pr obabilidad de F para ent r ar<= , 050, Probabilidad de F para salir >= , 100) .
CI ,Por pasos ( cr it er io: Pr obabilidad de F para ent r ar<= , 050, Probabilidad de F para salir >= , 100) .
Modelo1
2
Var iablesint roducidas
Var iableseliminadas Mét odo
Var iable dependient e: NO TASa.
Re s um e n de l m ode lo
,9 5 9 a ,9 1 9 ,9 0 9 ,6 8 7 0
,9 7 9 b ,9 5 9 ,9 4 7 ,5 2 4 4
Mo d e lo1
2
R R c u a d ra d oR c u a d ra d oc o rre g id a
Erro r típ . d e lae s ti ma c ió n
Va ri a b le s p re d ic to ra s : (Co n s ta n te ), HORASa .
Va ri a b le s p re d ic to ra s : (Co n s ta n te ), HORAS, CIb .
Coef i ci entesa
- , 854 , 702 -1, 216 , 259
2, 191 , 230 , 959 9, 515 , 000
-3, 815 1, 261 -3, 025 , 019
1, 540 , 307 , 674 5, 023 , 002
4, 731E-02 , 018 , 348 2, 594 , 036
(Const ant e)
HORAS
(Const ant e)
HORAS
CI
Modelo1
2
B Er ror t í p.
Coef icient es noest andar izados
Bet a
Coef icientes
est andar izados
t Sig.
Var iable dependient e: NOTASa.
Vari abl es excl ui dasb
, 348a 2, 594 , 036 , 700 , 329CIModelo1
Bet a dent r o t Sig.Cor r elación
parcial Toler ancia
Est adí st icos decolinealidad
Var iables pr edict oras en el modelo: (Const ant e) , HO RASa.
Var iable dependient e: NO TASb.
Indicador de la colinealidad existente entre las variables.
Tolerancia = ( 1-R2)
Si el valor de la tolerancia es próximo a 0, la variable será casi una combinación lineal de las restantes.