regresión y correlación lineal simple

6
 INTRODUCCIÓN Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres influyen significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos padres presentan una determinada estatura. Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos  Dosis de fertilizantes aplicadas y rendimiento del cultivo.  La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observa dos en dichas parcelas.  Relación entre tamaño de un lote de producción y horas  hombres utilizadas para realizarlo. Distinguiremos entre relaciones funcionales y relaciones estadísticas REGRESIÓN 1. Introducción  Estudio conjunto de dos variables  Relación entre las variables  Regresión lineal  Historia del concepto de regresión lineal 2. Definición Consiste en la medición del “grado de dependencia” de una variable dependiente Y sobre una variable independiente (o de regresión) X. La variable independiente es manipulada por el experimentador. Es decir, el experimentador decide qué valores tomará la variable independiente, mientras los valores de la variable dependiente están determinados por la relación, si existe, entre ambas variables. Ejemplo: Y = f(x)  Es una ecuación que define la relación lineal entre dos variables donde una variable depende de la otra variable.  Se puede decir que Y depende de X. Y = f(X) Como Y depende de X, entonces: Y es la variable dependiente, explicativa o de predicción . X es la variable independiente o variable respuesta. 3. Ejemplo

Upload: diego-yahir-lazaro

Post on 07-Oct-2015

25 views

Category:

Documents


0 download

DESCRIPTION

regresión y correlacion

TRANSCRIPT

  • INTRODUCCIN

    Uno de los aspectos ms relevantes de la Estadstica es el anlisis de la relacin o dependencia

    entre variables. Frecuentemente resulta de inters conocer el efecto que una o varias variables

    pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a

    partir de otra. Por ejemplo, supongamos que la altura de los padres influyen significativamente en la

    de los hijos. Podramos estar interesados en estimar la altura media de los hijos cuyos padres

    presentan una determinada estatura.

    Muchas veces las decisiones se basan en la relacin entre dos o ms variables.Ejemplos

    Dosis de fertilizantes aplicadas y rendimiento del cultivo.

    La relacin entre la radiacin que reciben los sensores con la que se predicen los

    rendimientos por parcelas con los rendimientos reales observados en dichas parcelas.

    Relacin entre tamao de un lote de produccin y horas hombres utilizadas para realizarlo.

    Distinguiremos entre relaciones funcionales y relaciones estadsticas

    REGRESIN

    1. Introduccin

    Estudio conjunto de dos variables

    Relacin entre las variables

    Regresin lineal

    Historia del concepto de regresin lineal

    2. Definicin

    Consiste en la medicin del grado de dependencia de una variable dependiente Y sobre una

    variable independiente (o de regresin) X. La variable independiente es manipulada por el

    experimentador. Es decir, el experimentador decide qu valores tomar la variable independiente,

    mientras los valores de la variable dependiente estn determinados por la relacin, si existe, entre

    ambas variables.

    Ejemplo: Y = f(x)

    Es una ecuacin que define la relacin lineal entre dos variables donde una variable

    depende de la otra variable.

    Se puede decir que Y depende de X. Y = f(X) Como Y depende de X, entonces: Y es la

    variable dependiente, explicativa o de prediccin . X es la variable independiente o variable

    respuesta.

    3. Ejemplo

  • Si un investigador mide el grado de dependencia del ritmo cardaco en ciertos animales

    sometindolos a temperaturas especficas tales como: 10C, 20C, 30C. En este caso, la

    Temperatura no es una variable aleatoria porque los valores de T son establecidos por el

    investigador. El ritmo cardaco, por su parte, si es una VA ya que no est bajo el control del

    investigador.

    Considrese el diagrama de Dispersin siguiente donde Y representa el Ritmo Cardaco de un cierto

    animal y X la Temperatura a la cual es sometido dicho animal bajo ciertas condiciones.

    Un anlisis a este diagrama de dispersin indica que, si bien una curva no pasa exactamente por

    todos los puntos, existe una evidencia fuerte de que los puntos estn dispersos de manera aleatoria

    alrededor de una lnea recta. Por consiguiente, es razonable suponer que la media de la VA Y est

    relacionada con X por la siguiente relacin lineal:

    Donde:

    - 0,1, reciben el nombre de Coeficientes de Regresin, los cuales son parmetros que deben

    estimarse a partir de datos muestrales.

    La manera apropiada para generalizar este hecho, con un modelo Probabilstica Lineal es suponer

    que el valor esperado de Y es una funcin lineal de X, pero que para una valor fijo de X, el valor real

    de Y est determinado por el valor medio de la funcin (el modelo lineal) ms un trmino que

    representa un error aleatorio, por ejemplo:

  • Este modelo recibe el nombre de MODELO DE REGRESIN LINEAL SIMPLE, ya que solo tiene

    una variable independiente o regresor.

    4. Mtodo de mnimos cuadrados

    5. 6. Supngase ahora que se tienen n pares de observaciones (x1, y1); (x2, y2);;(xn, yn). En

    el siguiente grfico puede observarse una representacin grfica de dispersin de los

    datos observados y un candidato para la recta de Regresin. Las estimaciones de

    deben dar como resultado una lnea que, en algn sentido, se ajuste mejor

    a los datos.

    El Mtodo de Mnimos Cuadrados: consiste en estimar los coeficientes de

    regresin ( ) de modo que se minimice la suma de los cuadrados de las distancias verticales que hay entre cada valor observado y la recta de regresin estimada.

    Entonces, la recta de regresin estimada o ajustada, es:

    Las estimaciones de mnimos cuadrados de loa ordenada al origen y la pendiente del modelo de Regresin Lineal Simple son:

    7. El modelo de regresin lineal simple

    n pares de la forma (xi,yi)

    Objetivo: valores aproximados de Y a partir de X

  • X: variable independiente o explicativa

    Y: variable dependiente o respuesta (a explicar)

    pendiente

    intercepto

    regresin de escoeficient y

    1

    0

    10

    10

    iii uxy

    CORRELACIN

    1. Definicin

    Consiste en determinar el grado de asociacin (interdependencia) entre dos variable. En la

    Correlacin se est interesado en saber si dos variables covaran, es decir, si varan juntas.

    2. Nube de puntos o diagrama de dispersin.

    a. Correlacin directa: Sobre la nube de puntos puede trazarse una recta que se

    ajuste a ellos lo mejor posible, La recta correspondiente a la nube de llamada recta

    de puntos de la distribucin es una recta creciente. regresin.

    b. Correlacin inversa

  • c. Correlacin nula: En este caso se dice que las La recta correspondiente a la

    variables son encorraladas y la nube de puntos de la distribucin es nube de puntos

    tiene una forma una recta decreciente. redondeada. Llamado tambin ajuste de

    curvas es una ecuacin dada en un grafico,dependiendo del grado de correlacin

    que mas se ajuste al conjuntode datos.

    3. Coeficiente De Correlacin

    El Coeficiente de Correlacin (r): requiere variables medidas en escala de intervaloso de

    proporcin, que Vara entre -1 y 1.

    Valores de -1 1 indican correlacin perfecta.

  • Valor igual a 0 indica ausencia de correlacin.

    Valores negativos indican una relacin lineal inversa

    Valores positivos indican una relacin lineal directa

    Frmula para el coeficente de correlacin (r) Pearson

    2222 )()())(()(

    YYnXXn

    YXXYnr

    4. Ejemplo

    Un investigador desea determinar la asociacin entre la biomasa marina y la cantidad de clorofila. El

    investigador por tanto, saca repetidas muestras de agua de un lugar de muestreo en un lago y mide

    la cantidad de clorofila y la biomasa en cada muestra repetida. En esta situacin el investigador no

    tiene control sobre una u otra variable, puesto que ambosvalores encontrados en las muestras

    sernlos que la naturaleza provee. Por ello, estas variables son aleatorias y la correlacin es el

    procedimiento estadstico adecuado.

    Conceptos bsicos

    1. Regresin: Es un procedimiento estadstico que estudia la relacin funcional entre

    variables.Con el objeto de predecir una en funcin de la/s otra/s.

    2. Correlacin: Un grupo de tcnicas estadsticas usadas para medir la intensidad de la relacin

    entre dos variables

    3. Diagrama de Dispersin: Es un grfico que muestra la intensidad y el sentido de la relacin

    entre dos variables de inters.

    4. Variable dependiente (respuesta, predicha, endgena): es la variable que se desea predecir

    o estimar

    5. Variables independientes (predictoras, explicativas exgenas). Son las variables que

    proveen las bases para estimar.

    6. Regresin simple: interviene una sola variable independiente

    7. Regresin mltiple: intervienen dos o ms variables independientes.

    8. Regresin lineal: la funcin es una combinacin lineal de los parmetros.

    9. Regresin no lineal: la funcin que relaciona los parmetros no es una combinacin lineal