unidad 9 correlación y regresión lineal simple · análisis de correlación ... la próxima...
TRANSCRIPT
Unidad Temática 3:
Estadística Analítica
Unidad 9
Correlación y Regresión
Lineal Simple
Análisis de Correlación
➢ Tiene el propósito de medir el grado de asociación
observado entre dos variables cuantitativas continuas o
discretas.
➢Prueba si el valor de correlación pudo haber sido obtenido
únicamente por azar o existe realmente asociación.
➢ No se distingue entre variables. Es más bien un estudio
exploratorio.
➢ No implica necesariamente una relación causa-efecto.
➢ Cuando se analiza una correlación, se debe estar muy
atento para no atribuir equivocadamente una simple
asociación a una relación causa-efecto.
Creado por Karl Pearson en 1920.
Estadística Analítica
CORRELACIÓN LINEAL SIMPLE
• “Indica la fuerza y la dirección de una relación lineal
proporcional entre dos variables cuantitativas. Es decir, si
los valores de una de ellas varían sistemáticamente con
respecto a los de la otra”.
• Permitiendo expresar si existe una relación funcional
entre dos variables cuantitativas, el tipo de relación
existente y llegar a conocer con que precisión se
relacionan entre sí.
“Los métodos de regresión se usan para determinar la
mejor relación funcional entre las variables” (Ostle, 1970).
REGRESIÓN LINEAL SIMPLE
Regresión Lineal
OBJETIVOS
Permite determinar si dos variables se asocian entre sí y
en que sentido se da dicha asociación.
Si los valores de una variable pueden ser utilizados con
el objeto de poder predecir los valores de la otra variable.
Con el propósito de cubrir estos objetivos, tendremos
que echar mano a algún tipo de función matemática:
Función Lineal
Correlación Lineal
Aplicaciones y ejemplos rápidos:
▪ Estimar si existe relación entre el peso corporal y el
perímetro su perímetro torácico de novillos.
▪ Concentración de sustancias tóxicas en la carne y
absorbancia.
▪ Crecimiento de bacterias y factores de crecimiento en
el medio de cultivo.
▪ Actividad de una enzima y pH del medio de cultivo.
▪ Consumo de alimento balanceado y peso corporal en
pollos para carne.
• Relación entre consumo de alimento balanceado y
peso corporal en pollos.
Tomado: Steel & Torrie, (1992) Cap. 10 .
iXi = Peso
(lb)
Yi =
Consumo
1 4,6 87,1
2 5,1 93,1
3 4,8 89,8
4 4,4 91,4
5 5,9 99,5
6 4,7 92,1
7 5,1 95,5
8 5,2 99,3
9 4,9 93,4
10 5,1 94,4
85
90
95
100
105
4 4,5 5 5,5 6
Eje de Y = Consumo
Eje de X = Peso
Diagrama de dispersión
X
Y
Análisis de Correlación
➢ Su valor puede variar entre -1 a 1, y el valor cero significa
ausencia total de correlación.
➢ El signo (+) o (-), indica si existe una relación directa o
inversamente proporcional, respectivamente.
➢ El coeficiente de correlación se calcula como el cociente
de la covariancia entre las variables estudiadas, sobre la raíz
cuadrada del producto de las variancias de X e Y.
ANÁLISIS DE REGRESIÓN
Reconocida la dispersión que se configura en los datos
observados, busca encontrar algún modelo o función
que se ajuste a la variación observada. Para ello
podemos echar mano al: ajuste por función lineal,
cuadrática, logarítmica, etc.
Con los datos que tienen un comportamiento aleatorio
como los observados en el ejemplo del consumo de los
pollos, estimaremos un modelo de ajuste por el Método
de Regresión Lineal o ajuste de curvas, para ello
utilizaremos el Método de los Mínimos Cuadrados en
la próxima clase.
Análisis de Correlación
➢ El coeficiente de correlación de Pearson lo designaremos
con la letra “r” o “R” y queda configurado en la siguiente
ecuación:
( )( )
( ) ( )
−−
−−=
22XXiYYi
XXiYYiR
➢ El numerador se denomina suma de productos cruzados y
corresponde a la covarianza de ambas variables.
➢ El denominador corresponde a la suma de cuadrados de la
varianza de las variables de manera independiente.
CALCULOS
Eje de Y = Consumo de balanceado
Eje de X = Peso corporal pollos
i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy)
1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624
2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058
3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804
4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644
5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464
6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144
7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304
8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584
9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144
10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984
n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812
Análisis de Correlación
( )( )818,0
536,161,135
812,11==R
➢ Remplazando valores tendremos:
➢ ¿Cuál es el significado de este valor obtenido?
Existe una fuerte relación lineal positiva entre ambas variables,
es decir, cuando los valores de una variable aumentan también
lo hacen los de la otra.
Análisis de Correlación
( )( )
2)-(n2
t
2
1
0=
−
−
−=
n
R
rt
➢ Prueba de hipótesis para “r”:
Ho) R = 0
H1) R ǂ 0
➢ Conclusión: Si rechazo la Ho) concluimos que ambas
variables se correlacionan linealmente entre sí, ya que el
coeficiente de “r” es distinto de cero.
MÉTODO DE AJUSTE DE LA RELACIÓN
▪ Reconocida la dispersión podemos buscar algún
modelo o función que permita explicar la variación
observada.
▪ El ajuste puede se por función lineal, cuadrática,
logarítmica, etc.
▪ Con los datos que tienen un comportamiento aleatorio
como los observados en el ejemplo del consumo de
los pollos, estimaremos un modelo de ajuste por el
Método de Regresión Lineal o ajuste de curvas,
para ello utilizaremos el Método de los Mínimos
Cuadrados.
▪ Debemos considerar una variable como independiente
y a la otra como dependiente o respuesta.
MÉTODO DE LOS MÍNIMOS CUADRADOS
▪ “Minimiza la suma de los cuadrados de las desviaciones de
los puntos observados con respecto a la recta”.
▪ …en la Recta ajustada, Y = a + bX, donde “a” y “b” se
denominan coeficientes de regresión, la recta se llama
recta de regresión, y la función es la ecuación de
regresión.
Ŷ = β0 + β1X
▪ Para estimar los coeficientes de regresión, echaremos
mano a la suma de los productos cruzados de las
desviaciones de las observaciones respecto de sus
medias.
CALCULO DE LOS COEFICIENTES
=21
x
xy
▪ Cálculo del coeficiente , pendiente de la recta (1):
−−=n
YYXXxy ))((
▪ Cálculo de la suma de productos (covariancia):
▪ Cálculo de la suma de cuadrados de la variable Xi, o
variancia de X:
−=n
XXx 22 )(
CALCULOS
Eje de Y = Consumo de balanceado
Eje de X = Peso corporal pollos
i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy)
1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624
2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058
3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804
4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644
5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464
6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144
7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304
8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584
9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144
10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984
n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812
( )( )818,0
536,161,135
812,11==R
CALCULO DE LOS COEFICIENTES
69,7536,1
812,111 ==
▪ Cálculo del coeficiente , pendiente de la recta:
▪ Cálculo de la ordenada al origen:
XY 10 += 01 =− XY
XY 10 −= ( )
26,55
98,4*69,756,93
0
0
=
−=
• Tablas: Cálculos Recta de regresión por Y-estimado
iPeso
Xi
Consumo
(lbs) YiŶ
1 4,6 87,1 90,634
2 5,1 93,1 94,479
3 4,8 89,8 92,172
4 4,4 91,4 89,096
5 5,9 99,5 100,631
6 4,7 92,1 91,403
7 5,1 95,5 94,479
8 5,2 99,3 95,248
9 4,9 93,4 92,941
10 5,1 94,4 94,479
n = 10 X = 4,98 Y = 93,56
iXY 10ˆ +=
iXY 69,726,55ˆ +=
• Gráfico: Diagrama de dispersión
85
90
95
100
105
4 4,5 5 5,5 6
85
90
95
100
105
4 4,5 5 5,5 6
Ŷ = 55,26 + 7,69X
Y = a + bX Ŷ = 0 + 1 X
Modelo lineal ajustado
Recta de regresión: es una
línea recta que pasa a
través de los puntos que
minimiza la suma de los
cuadrados de las diferencias
entre los datos reales y los
puntos ajustados.