regresion lineal ii mario briones l. mv, msc. 2005

Post on 02-Feb-2016

239 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

REGRESION LINEAL II

Mario Briones L.MV, MSc.

2005

Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto

Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.

Observaron que los niños tenían mayor incidencia de leucemia.

Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al

gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la

revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

Errores comunes respecto a la correlación Se debe tener cuidado de evitar

concluir que la correlación implica causalidad Variables ocultas

No utilizar tasas o promedios Pérdida de variación entre individuos

Supuesto de linearidad de la relación

Pautas para utilizar la ecuación de regresión Si no existe una correlación lineal

significativa, no utilice la ecuación de regresión para hacer predicciones

En la formulación de predicciones (valores predichos de Y), no efectuar estas predicciones fuera del ámbito de valores observados de X

y = 2,4721x + 16,311

020406080

100120140160

0 10 20 30

días de edad

pe

so

en

gra

mo

sRelación entre la edad en días y el peso en gramos, en perdices(Notoprocta perdicaria)

y = 2,4721x + 16,311

050

100150200250300350400

0 50 100 150

días de edad

pe

so

en

gra

mo

sRelación entre la edad en días y el peso en gramos, en perdices(Notoprocta perdicaria)

Pautas para utilizar la ecuación de regresión Una ecuación de regresión basada

en datos viejos no necesariamente sigue siendo válida en el presente

No se deben efectuar predicciones para una población diferente de aquella desde la cual se extrajo la muestra de datos.

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8

valores de X

va

lore

s d

e Y

Promedio de Y

Desviación totalY- Y

Y= b0+b1X^

Desviación explicada

Y-Y^

Desviación no explicada

Y-Y^

Error estándar de la regresión

El error estándar de una regresión lineal es una medida de la desviación de los puntos de datos a partir de la línea de regresión

2

)( 2

n

yyEEregresión

Error estándar de la regresión Fórmula equivalente:

210

2

n

XYbYbYEEregresión

estatura (pulgadas) peso (libras) XY53 80 4240,0

67,5 344 23220,072 416 29952,072 348 25056,0

73,5 262 19257,068,5 360 24660,073 332 24236,037 34 1258,0

suma 516,5 2176 151879

suma2 34525,75 728520

b0b1

error estándar

-351,669,66

66,60

Error estándar de la regresiónEjemplo de cálculo

Error de los estimadores b0 y b1

También es posible determinar un error estándar para la pendiente y para la constante, de modo que es posible construir intervalos de confianza para estos estimadores.

Error de los estimadores b0 y b1

Al calcular el intervalo de confianza de una probabilidad dada (ej.95%) para la pendiente de la recta, es posible comprobar directamente la hipótesis nula respecto de este estimador:

H0: la pendiente es igual a cero

HA: la pendiente es distinta de cero

Error de los estimadores b0 y b1

Si con un nivel de probabilidad predeterminado se puede decir que la pendiente de una ecuación de regresión lineal es diferente de cero, entonces la regresión puede considerarse significativa (significativamente diferente de cero)

Error de los estimadores b0 y b1

Al ser diferente de cero, la pendiente indica una relación “real” entre la variable X y la variable Y.

Puede interpretarse como “un efecto significativo” de la varianza de X sobre la varianza de Y

y = -0,0882x + 733,72

R2 = 0,0213

480

530

580

630

680

730

780

830

350 400 450 500 550 600 650 700 750 800 850

notas Enseñanza Media

Pu

nta

je P

AA

Mat

emát

icas

y = -3,6081x + 7863,3

R2 = 0,1295

500

550

600

650

700

750

800

1970 1975 1980 1985 1990 1995 2000 2005

año de egreso de la enseñanza media

pu

nta

je e

n la

PA

A M

ate

tic

as

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltiple0,359927926Coeficiente de determinación R 2̂0,129548112R 2̂ ajustado 0,128722256Error típico 46,13564205Observaciones 1056

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F

Regresión 1 333887,427 333887,427 156,865315 1,1939E-33Residuos 1054 2243436,33 2128,49747Total 1055 2577323,76

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Intercepción 7863,250796 573,574772 13,7091992 1,7529E-39 6737,77284 8988,72875Agno Egreso -3,608128092 0,28808357 -12,5245884 1,1939E-33 -4,17341045 -3,04284573

Coeficiente de determinación

Al elevar al cuadrado el coeficiente de correlación lineal de Pearson se obtiene el COEFICIENTE DE DETERMINACIÓN, que indica, en proporción, la magnitud de la varianza total de Y que es explicada por la varianza de X

top related