analisis de correlacion modificado
TRANSCRIPT
![Page 1: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/1.jpg)
UNIVERSIDAD DE SANUNIVERSIDAD DE SANMARTIN DE PORRESMARTIN DE PORRES
BIOESTADISTICABIOESTADISTICA20052005Prof.: DR. LUIS ROBLE ALEMANDR. LUIS ROBLE ALEMAN
Análisis de Regresión
y Correlación
![Page 2: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/2.jpg)
1. Introducción
En ciencias de la salud y en otras áreas con mucha frecuencia conviene saber algo de la fuerza o intensidad de la relación entre variables como: edad y presión arterial, remuneración mensual y rendimiento en el trabajo, talla y peso, ingreso familiar y gastos médicos, edad y frecuencia cardiaca, edad y talla, etc; observar que estos ejemplos involucran variables numéricas medidas en escala de intervalo o de razón.
![Page 3: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/3.jpg)
Cuando tanto X como Y son variables aleatorias, se tiene lo que se conoce como modelo de correlación. Típicamente, bajo el modelo de correlación se selecciona una muestra probabilística de unidades de asociación (que pueden ser personas, lugares, animales, puntos en el tiempo o cualquier otro elemento) luego, de cada una de las unidades se toma una medida de X y una medida de Y.
![Page 4: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/4.jpg)
Una correlación puede ser positiva (cuando, por ejemplo tanto X como Y aumentan), o negativa (cuando por ejemplo, al aumentar una variable la otra disminuye). Por otra parte, si la variación de X y la variación de Y no se corresponden en absoluto, entonces no existe ninguna asociación y por tanto, ninguna correlación, entre las dos variables.
![Page 5: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/5.jpg)
2. Diagrama de puntos
Para iniciar un análisis de correlación (y también el de regresión) se elabora el diagrama de puntos o de dispersión, el cual proporciona un indicio, no sólo de la forma de la relación entre las variables, sino también del grado de correlación. Dicho gráfico permite representar, con un punto en el plano cartesiano, cada par ordenado (X,Y). Así por ejemplo:
![Page 6: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/6.jpg)
Diagrama de dispersión
X
YXi Yi
X1 Y1
X2 Y2
. . .
Xn Yn
0
![Page 7: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/7.jpg)
3. Coeficiente de correlación de Pearson
Para determinar el grado de correlación entre las variables X e Y en la población que es objeto de estudio, se utiliza el coeficiente de correlación de Pearson (Rho), denotado por . El recorrido de está entre –1 y 1.
Para estimar el parámetro , se recurre a una muestra aleatoria de n unidades . De cada una de ellas, se determinan los valores: (x1, y1), (x2, y2),..., (xn, yn).
![Page 8: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/8.jpg)
El estimador del parámetro , es el coeficiente de correlación muestral r, definido como:
El rango para r es:
r2 = coeficiente de determinación
-1 r 1
![Page 9: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/9.jpg)
Guía para la interpretación de r:
Valor de r Interpretación
0.00 Ausencia de correlación lineal
± 0.1 a ± 0.19 Correlación lineal insignificante
± 0.2 a ± 0.39 Correlación lineal baja-leve
± 0.4 a ± 0.69 Correlación lineal moderada
± 0.7 a ± 0.99 Correlación lineal alta a muy alta
± 1.0 Función lineal perfecta
![Page 10: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/10.jpg)
4. Significación estadística de r Para evaluar la significación estadística de r, se tiene
que contrastar la siguiente hipótesis: Ho: =0
H1: 0 La estadística de prueba es:
t0 sigue una distribución t de Student con (n-2) grados de libertad, si Ho es verdadera.
2x0r12n
r=t 2x0r12n
r=t
![Page 11: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/11.jpg)
Ejemplo 1: Se tomó información en cuanto a la talla
(cm) y peso (Kg) de 10 alumnos del primer año de medicina el día 11 de setiembre del 2005.
TALLA
(cm) X
150
155 180160
170 165185
175
160
165
PESO(kg)
Y 55 50 85 65 75 60 80 70 65 60
![Page 12: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/12.jpg)
Se desea:a. Obtener el diagrama de puntosb. Calcular el coeficiente de correlación
de Pearson e interpretar el valorc. Determinar la significación estadística
del coeficiente de correlación de Pearson (r)
d. Obtener e interpretar el coeficiente de determinación
![Page 13: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/13.jpg)
Solución:a. Diagrama de puntos:
0
20
40
60
80
100
120 160 200
x
y
![Page 14: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/14.jpg)
b. Coeficiente de correlación: De los datos, obtenemos lo siguiente:
n = 10 Σx=1665 Σy=665 Σxy=111700 Σx2=278325
Σy2=45325ΣxΣy=1107225 (Σx)2=2772225
(Σy)2=442225 nΣxy=1117000 nΣx2=2783250
nΣy2=453250
Reemplazando en la fórmula, tenemos:
![Page 15: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/15.jpg)
1117000 - 1107225r = ________________________________
(2783250-2772225)(453250-442225)
9775r = ________________ = 0.886621315
(11025)(11025)
r 0.89
Interpretación: Existe una alta correlación lineal directa
entre las dos variables
![Page 16: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/16.jpg)
c. Significación estadística de r Ho: =0
H1: 0
to = 5.52
![Page 17: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/17.jpg)
to = t(10-2) = t(8) = 5.52
Valor de p: p < 0,001 Por consiguiente, se rechaza la hipótesis nula y se concluye que el coeficiente de correlación obtenido es estadísticamente significativo. Hay una relación positiva entre talla y peso.
d. Coeficiente de determinación: r2 = (0,89)2 = 0,79 = 79%
El 79 % de la variabilidad total de los pesos de los alumnos está siendo explicada por la relación lineal existente entre talla y peso.
![Page 18: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/18.jpg)
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.
![Page 19: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/19.jpg)
Regresión Lineal Simple
•Para resolver el problema tenemos que AJUSTAR una línea entre los puntos observados, a fin de usarla para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (variable independiente).
•Para cada valor de X hay una subpoblación de valores Y.
•Cada subpoblación de los valores de Y tiene distribución normal.
![Page 20: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/20.jpg)
Línea de Regresión
Como todos los puntos no están exactamente sobre una línea recta, se cometen errores en el ajuste.
![Page 21: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/21.jpg)
Línea de Regresión
Suposiciones de regresión y correlación• a) Normalidad: los valores de Y estarán
distribuidos normalmente a cada valor de X.
• b) Homoscedasticidad: la variación alrededor de la línea de regresión será constante para todos los valores de X.
• c) Independencia de error: el error (diferenciaresidual entre un valor observado y uno
estimado de Y) sea independientemente de cada valor de X.
• d) Linealidad: la relación entre las variables es lineal.
![Page 22: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/22.jpg)
Estimadores Mínimo-Cuadráticos
![Page 23: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/23.jpg)
Ejemplo 2
Se tiene una relación de 33 pacientes de los cuales se registró la presión sistólica. Se desea conducir un estudio para determinar la relación entre la edad de los pacientes y la presión registrada
Paciente
Edad
PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
![Page 24: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/24.jpg)
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.
![Page 25: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/25.jpg)
Regresión Lineal Simple
•Para resolver el problema tenemos que AJUSTAR una línea entre los puntos observados, a fin de usarla para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (variable independiente).
•Para cada valor de X hay una subpoblación de valores Y.
•Cada subpoblación de los valores de Y tiene distribución normal.
![Page 26: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/26.jpg)
Línea de Regresión
Como todos los puntos no están exactamente sobre una línea recta, se cometen errores en el ajuste.
![Page 27: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/27.jpg)
Línea de Regresión
Suposiciones de regresión y correlación• a) Normalidad: los valores de Y estarán
distribuidos normalmente a cada valor de X.
• b) Homoscedasticidad: la variación alrededor de la línea de regresión será constante para todos los valores de X.
• c) Independencia de error: el error (diferenciaresidual entre un valor observado y uno
estimado de Y) sea independientemente de cada valor de X.
• d) Linealidad: la relación entre las variables es lineal.
![Page 28: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/28.jpg)
Estimadores Mínimo-Cuadráticos
![Page 29: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/29.jpg)
Ejemplo 2
Se tiene una relación de 33 pacientes de los cuales se registró la presión sistólica. Se desea conducir un estudio para determinar la relación entre la edad de los pacientes y la presión registrada
Paciente
Edad
PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
![Page 30: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/30.jpg)
Diagrama de Dispersión
Según el diagrama de dispersión, se espera una relación positiva o directa entre ambas variables.
Modelo de regresión:
y = a + b x
![Page 31: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/31.jpg)
Cálculos Estadísticos
Variable dependiente: la presión sistólica Variable independiente: la edad n = 33 Σx = 1542 (sumatoria de las edades) Σy = 4575 (sumatoria de las presiones) Σxy = 223.144 (productos cruzados) Σx2 = 79.176 Σy2 = 656.481
Σ(x – )2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6 Σ(y – )2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6 Σ(x – ) (y – ) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7
x = 46,73 y = 138,64
x
x
yy
![Page 32: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/32.jpg)
Estimación de la Recta de Regresión
Por consiguiente el modelo de Regresión Estimado es:
2
(x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad
(x - x)
y = a + bx
a = y - b
x = 138,64 - (1,22)(46,73) = 81,54
y = 81,54 + 1,22 x
![Page 33: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/33.jpg)
Que significa:
• Por cada año de incremento en la edad la presión aumenta en promedio en 1,22 mmHg.
• Es importante interpretar los resultados obtenidos en función de las unidades en que se encuentran expresadas nuestras variables en estudio (y).
![Page 34: Analisis de Correlacion Modificado](https://reader034.vdocumento.com/reader034/viewer/2022052411/5571f1fe49795947648befe2/html5/thumbnails/34.jpg)