regresion lineal simple

Upload: alejandro-mees

Post on 10-Jan-2016

20 views

Category:

Documents


0 download

DESCRIPTION

Regresión lineal simple ptt

TRANSCRIPT

  • Tema 7: Regresin Simple y Mltiple

  • EJEMPLO:Aproxima bien el nmero de prstamos que efecta una biblioteca a lo largo de su primer ao de vida.Nos dicen que la frmulaSi damos valores a la variable Das (n das transcurridos desde la apertura de la biblioteca

  • Si dos variables X e Y est relacionadas mediante una expresin del tipo Y=a+bX, la grfica que relaciona los valores de X e Y es una lnea recta, y se dice que Y=a+bX es la ecuacin de dicha recta; el recproco es cierto, es decir, si la grfica que relaciona X e Y es una recta, entre ambas existe una relacin del tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una relacin de tipo lineal.En la realidad, no nos encontramos frmulas tan redondas, pero s nos encontramos fenmenos que pueden aproximarse por ellas.

  • EJEMPLO: Supongamos que una bibliotecaproporcion los siguientes datos, a lo largo de su primer ao de vida

    DasN prestamos5252032354050396547805195561105413569150721657618077195862109023598250102265105280110295113310120

  • APROXIMADAMENTE,En este caso, diramos que las variables N prstamos y Das estnlinealmente correlacionadas, y que lo de arriba es la ecuacin de la recta de regresin de N prstamos sobre Das.Para qu nos sirve? (1) para conocer leyes empricas; (2) para predecir el valor de una cierta variable

  • PROBLEMAS: Dadas dos variables X e Y, continuas

    1.- [Correlacin] Existe una cierta relacin entre ellas, o por el contrario son independientes? En el primer caso, hablamos de que entre X e Y hay correlacin; en el segundo, decimos que son incorreladas

    2.- [Correlacin lineal] Suponiendo que entre X e Y hay correlacin, estn linealmente correlacionadas, es decir, funciona suficientemente bien un modelo del tipo Y = a+bX para predecir Y a partir de X? Cules son los ptimos valores para a y b, es decir, los que producen mejores esti- maciones?

    3.- [Otros tipos de correlacin] Hay algn modelo mejor que el lineal que permita estimar Y a partir de X? Por ejemplo,Cuadrtico: Y=a+bX+bX2Exponencial: Y=a bxOtro ejemplo (Leyes bibliomtricas)

  • Curva logstica del crecimiento de la informacin

  • 1. Distribuciones bidimensionales. Correlacin.Cuando en una poblacin registramos simultneamente los valores de dos variables X e Y, decimos que estamos ante una distribucin BIDIMENSIONAL (PIZARRA: distribuciones marginales) Los datos relativos a una distribucin bidimensional se pueden representar grficamente mediante una NUBE DE PUNTOS, o DIAGRAMA DE DISPERSION (PIZARRA) Si la nube de puntos se ajusta aproximadamente a una curva, diremos que las variables estn correlacionadas, es decir, que existe una cierta relacin entre ellas (y buscaremos cul es la expresin, la frmula que mejor aproxima una de ellas partir de la otra); en caso contrario, decimos que las variables son incorreladas, es decir, que no tienen relacin.

  • Hay correlacinIncorreladas

  • Adems de la inspeccin de la nube de puntos, hay mtodos ms exactos para evaluar la existencia o no de correlacin.

  • Si la nube de puntos parece ajustarse en torno a alguna curva (es decir, si hay correlacin), la forma de dicha curva nos indica el tipo de correlacin. Si la nube de puntos parece agruparse en torno a una recta, diremos que hay correlacin lineal, o que las variables estn linealmente correlacionadas.

  • Si las variables estn linealmente correlacionadas, entonces tiene sentido buscar la recta que mejor se ajusta a la nube de puntos, es decir, la recta que globalmente est ms cerca del conjunto de puntos. Si nuestra intencin al hacer eso es la de estimar Y a partirde X, entonces encontrar dicha recta es equivalente a encontrar la mejor aproximacin Y=a+bX(RECTA DE REGRESION DE Y SOBRE X)Cmo tomar a, b para que la aproximacin seaptima?

  • 2. Regresin lineal sobre un conjunto de puntos.PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinarsi las variables X e Y estn o no linealmente correlacionadas, y la fuerza de dicha correlacin lineal.PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,determinar la recta de regresin de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.

  • PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinarsi las variables X e Y estn o no linealmente correlacionadas, y la fuerza de dicha correlacin lineal. Nube de puntos. Coeficiente de correlacin lineal de Pearson. (PIZARRA) Coeficiente de correlacin lineal de Spearman. Coeficiente de determinacin R-cuadrado % de variabilidad explicada.

  • PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,determinar la recta de regresin de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.(Ecuacin recta de regresin de Y sobre X)Conocida la recta de regresin, podemos estimar los valores de Ycorrespondientes a distintos valores de X. Valor predicho, o estimado

  • :valor real

  • Valor predicho:

  • Valor predicho:Residuo: diferenciaentre el valor realy el valor predicho

  • StatgraphicsR-cuadrado Coeficiente de Determinacin % de variabilidadexplicada (PIZARRA)

  • 3. El modelo de regresin lineal.Sabemos decidir si, aproximadamente, un conjunto (xi,yi) de puntos(datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esosdatos son una MUESTRA de una poblacinSIGUE SIENDO APROXIMADAMENTE VALIDO Y=a+bX cuando tomamos NO una muestra (xi,yi), sino cuando consideramosTODA LA POBLACION? Qu queremos decir por aproximadamente?

  • Modelo de regresin lineal:Y: variable explicadaX: regresorresiduoDecimos que dos variables (poblacionales!) estn linealmente correlacionadas, si:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.2+ 4+ 5= Residuos siguen una normal N(0,)

  • La varianza de los residuos no depende de xi (homocedasticidad)

  • Modelo de regresin lineal:Y: variable explicadaX: regresorresiduoHiptesis bsicas:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.2, 4 y 5 pueden contrastarte guardando los residuos, y procediendocomo en otras ocasiones.

  • Modelo de regresin lineal:Y: variable explicadaX: regresorresiduoHiptesis bsicas:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.3 lo contrastaremos con los grficos de residuos,y comprobando que no haya residuos atpicos.

  • Homocedasticidadaceptable

  • Modelo de regresin lineal:Y: variable explicadaX: regresorresiduoHiptesis bsicas:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.Cmo CONTRASTAR?

  • a.- Inspeccin del diagrama de dispersin, valores de los coeficientes de correlacin de Pearson y Spearman (si el ajuste no funciona bien para la muestra, difcilmente lo har para la poblacin).

    b.- Contraste tipo ANOVA sobre la existencia o no de correlacin lineal. COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente de la recta de regresin.

    c.- Cmo podemos estar seguros de que, en la poblacin, los coeficien- tes de Pearson y Spearman no seran 0 (en cuyo caso, no habra correlacin lineal)? Contraste de hiptesis. Cmo CONTRASTAR?(Explicacin: PIZARRA)

  • - Eliminacin de parmetros (simplificacin del modelo): Si aceptamos el contraste H0: a=0, entonces la recta de regresinque obtenemos es y = bx (una frmula ms sencilla): se dice entoncesque hemos simplificado nuestro modelo.

  • Y: variable explicadaX: regresorresiduo1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.Qu hacer si falla alguna hiptesis? (algunas ideas sobre esto)(APUNTES)Statgraphics

  • 4. El modelo de regresin mltiple.PROBLEMA: Hemos recogido datos sobre usuarios de mediana edadde una biblioteca en la que adems se realizan actividades tanto para nios como para adolescentes y adultos, y estamos interesados en analizar cules son las variables que determinan el nivel de satisfaccin de sus usuarios; las variables recogidas son: aficin a la lectura, al cine, a la msica, nmero de hijos, renta y, por supuesto, nivel de satisfac-cin.

  • Hoja1

    Aficion_lecturaNum_hijosAficion_cineAficion_musicarenta_mensNivel_estudiosAficion_TVSatisfaccion

    40351200444

    30341500543

    51411800355

    22131000223

    41531300344

    31341900143

    53451300455

    30231200443

    31411600254

    13211400212

    40541700344

    50552500455

    52441100535

    52531400345

    21141800433

    42542000455

    33241500433

    11231000222

    21221300333

    10251600442

    51441800344

    22331200444

    41551700254

    41431500544

    52451100555

    Hoja2

    Hoja3

  • El modelo de regresin simple es, a priori, poco realista (parece poco probable que el nivel de satisfaccin dependa de una nica variable, ms bien lo natural es que en l intervengan varias variables). En con-secuencia, ensayamos no con sino con Y=a+bXY=a+b1X1+ +bnXnVariable respuesta(en nuestro caso,nivel de satisfaccin)regresores

  • Por ejemplo, en el problema anterior, la frmula a la que llegaremoses:Aqu, Y=Satisfaccin, X1=Aficin_cine, X2=Aficion_lectura, etc.Sirve para: predecir. detectar influencias (qu variables tienen ms poder sobre la variable que nos interesa, etc.)

  • Modelo de regresin mltiple:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.6. Las variables x1, x2, etc. no estn linealmente correlacionadas entre s.residuo

  • Modelo de regresin mltiple:1.2. Los residuos tienen media 0.3. La varianza de los residuos no depende de xi (homocedasticidad)4. Los residuos son normales.5. Los residuos son aleatorios.6. Las variables x1, x2, etc. no estn linealmente correlacionadas entre s.2+ 4+ 5= Residuos siguen una normal N(0,)residuo