est. iferencial regresion lineal.docx

19
Ingeniería Industrial Estadística Inferencial Luis Enrique Calderón Munguía Regresión Lineal Simple y Múltiple º Vargas Villalobos Joseph Michell º Osornio Escamilla José Pablo Apatzingán Michoacán a martes 16 de diciembre del 2014 Instituto Tecnológico

Upload: michell-vargas

Post on 18-Jan-2016

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EST. IFERENCIAL REGRESION LINEAL.docx

Ingeniería Industrial

Estadística Inferencial

Luis Enrique Calderón Munguía

Regresión Lineal Simple y Múltiple

º Vargas Villalobos Joseph Michell

º Osornio Escamilla José Pablo

Apatzingán Michoacán a martes 16 de diciembre del 2014

Instituto Tecnológico Superior de Apatzingán.

Page 2: EST. IFERENCIAL REGRESION LINEAL.docx

5.1 Regresión Lineal SimpleTiene como objeto estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Y x y, según lo establecido, se tendrá

De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictor e Y i la variable respuesta que le corresponde, entonces.

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

: Variable dependiente, explicada o regresando.

: Variables explicativas, independientes o regresores.

: Parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 3: EST. IFERENCIAL REGRESION LINEAL.docx

Donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 4: EST. IFERENCIAL REGRESION LINEAL.docx

5.1.1 prueba de hipótesis en la regresión lineal simple.

Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo de regresión, debe hacerse la suposición adicional de que

Termino del error εi esta normalmente distribuido. Por lo tanto, se supone que los errores εi son NID (0,σ2). Después se pueden probar es

Suposiciones mediante el análisis de residuos.

Supongamos que el experimentador desea probar la hipótesis de que la pendiente es igual a un cierto valor, por ejemplo β1,0. Las hipótesis.

Apropiadas son:

En donde se ha especificado la hipótesis alterna de dos extremos. Ahora bien, como las εi son NID (0,σ2) se concluye que las y i son NID(β0 + β

σ2). Por lo tanto, es una combinación lineal de variables aleatorias independientes normalmente distribuidas. En consecuencia, es N(

σ2/Sxx). Además es independiente de MSE. Entonces, como resultado de la suposición de normalidad, la estadística:

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 5: EST. IFERENCIAL REGRESION LINEAL.docx

5.1.2 Calidad del Ajuste en Regresión Lineal Simple

La gráfica de dispersión de los puntos nos da una primera impresión del tipo de relación que pudiera haber entre las variables

• Existen dos medidas principales que nos indican qué tan adecuadamente representa un modelo lineal la relación entre Y y X

• Una de ellas sirve para valorar el grado de relación lineal entre X y Y. Se trata del coeficiente de correlación

La otra se interpreta como el porcentaje de la variabilidad en Y que está explicada por X. Es el coeficiente de determinación

Debe notarse que para que estas dos medidas tengan sentido, X debe ser también una variable aleatoria normal.

Regla para interpretar los valores

Una regla general para interpretar los valores de R muy desagregada

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 6: EST. IFERENCIAL REGRESION LINEAL.docx

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 7: EST. IFERENCIAL REGRESION LINEAL.docx

5.1.3 Estimacion y Prediccion por Intervalo en Regresion Lineal Simple.

Para la construcción de los intervalos de confianza para los coeficientes de

regresión se debe asumir que los errores son normalmente distribuidos,

independientes con y Este supuesto hace que variable sea también una variable normal ya que es una función de una variable

normal, con y varianza .

Debido a que el estimador de mínimos cuadrados es una función de

entonces es normalmente distribuido con:

Debido

Entonces la distribución marginal de cualquier coeficiente de regresión es normal con

Donde es el elemento de la matriz . Luego

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 8: EST. IFERENCIAL REGRESION LINEAL.docx

Es una cantidad pivotal para la construcción del intervalo de confianza

para cuya distribución de probabilidad es con grados de

libertad. Donde obtenido de la tabla de Anova. Por tanto un

intervalo de confianza del por ciento para el coeficiente de

regresión , , es

Ejemplo:

Los intervalos de confianza del 95% para los parámetros son:

Parámetro Estimado Error estándar Límite inferior Límite superior

-94,552 9,96343 -120,164 -68,9402

2,80155 0,300978 2,02786 3,57524

1,07268 0,0932349 0,833014 1,31235

5.2 Regresión Lineal Múltiple.

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 9: EST. IFERENCIAL REGRESION LINEAL.docx

En el capítulo anterior se ha estudiado el modelo de regresión lineal simple, donde se analizaba la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y). En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas. Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple.

Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen en la variable dependiente Y. En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinación lineal de los valores de una o más variables explicativas y un término aleatorio:

Y=b+ b x b x b x u = 0 + 1 ⋅ 1 + 2 ⋅ 2 + ... + k ⋅ k +

Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la varianza residual.

Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresión tenemos un plano:

Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así sucesivamente.

5.2.2 Pruebas de Hipótesis en Regresión Lineal Múltiple

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 10: EST. IFERENCIAL REGRESION LINEAL.docx

En la regresión lineal múltiple tratamos de determinar la relación existente entre la variable dependiente (Y) y dos o más variables independientes ( X1, X2, X3, ..., XK ) también llamadas variables regresoras. En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables independientes en conjunto. La relación entre las variables regresoras y la variable dependiente se establece mediante el modelo general de regresión lineal múltiple:

Y=β0+β1X1+β2X 2+β3X3+¿⋅¿+ βk Xk

Donde

b0, b1, b2, ..., bk son los parámetros del modelo ( se tienen k variables independientes y p parámetros ).

En este caso b0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y (al haber más de dos variables independientes la relación queda representada por medio de un hiperplano).

En general bi representa el cambio esperado en Y por cada incremento unitario en Xi, siempre y cuando las demás variables independientes permanezcan constantes.

Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasión sólo dos variables independientes. Quedará al lector utilizar más de dos variables independientes para futuras aplicaciones.

Al utilizar dos variables independientes, el modelo general de regresión lineal múltiple queda representado por:

Y=β0+β1X1+β2X 2

Dónde:

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 11: EST. IFERENCIAL REGRESION LINEAL.docx

X1

X2

Y

22110 XXY

b0 representa el punto donde el plano corta al eje Y (ahora la relación entre las dos variables independientes y Y está representada por un plano).

b1 representa el cambio esperado en Y por cada incremento unitario en X 1, siempre y cuando X2 permanezca constante.

b2 representa el cambio esperado en Y por cada incremento unitario en X 2, siempre y cuando X1 permanezca constante.

Esta figura muestra la relación entre las variables independientes

5.2.3 Intervalos de Confianza y Predicción en Regresión Múltiple.

Se pueden también estimar los parámetros del modelo mediante intervalos de confianza.

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 12: EST. IFERENCIAL REGRESION LINEAL.docx

Para cualquier parámetro, el intervalo de confianza de (1 – ) 100% está dado por la siguiente expresión:

β̂ j−tα2, n−p

√MSE⋅C jj≤β j≤ β̂ j+tα2, n−p

√MSE⋅C jj

para j = 0, 1, 2, ..., k

En cuanto a las conclusiones de los resultados obtenidos en los intervalos de confianza se aplica un criterio semejante al empleado en la regresión lineal simple.

Como 0 indica un punto donde el plano cortará al eje Y, la conclusión del intervalo correspondiente no debe presentar problema alguno a la hora del planteamiento.

Algo diferente resulta a la hora de concluir los intervalos de confianza para los demás parámetros:

Siempre y cuando j ≠ 0, las conclusiones para cualquier intervalo de confianza, de acuerdo al resultado obtenido, serán las siguientes:

Si el intervalo de confianza para j resulta −a≤β j≤−b , concluiremos que por cada incremento en Xj la variable dependiente disminuirá, en promedio, por lo menos b y a lo mucho a veces; siempre y cuando las demás variables independientes permanezcan constantes.

Si el intervalo de confianza para j resulta a≤β j≤b , concluiremos que por cada incremento en Xj la variable dependiente aumentará, en promedio, por lo menos a y a lo mucho b veces; siempre y cuando las demás variables independientes permanezcan constantes.

5.3 Regresión no Lineal.

En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo:

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 13: EST. IFERENCIAL REGRESION LINEAL.docx

Basado en datos multidimensionales , , donde es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función toma la forma:

La función es no lineal en función de pero lineal en función de los parámetros desconocidos , , y . Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos variables predictores y . Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos.

5.4 Ejercicios de resultados de prueba de hipótesis en regresión lineal múltiple

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 14: EST. IFERENCIAL REGRESION LINEAL.docx

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 15: EST. IFERENCIAL REGRESION LINEAL.docx

Apatzingán Michoacán a martes 16 de diciembre del 2014

Page 16: EST. IFERENCIAL REGRESION LINEAL.docx

Apatzingán Michoacán a martes 16 de diciembre del 2014