análisis descriptivo y presentación de datos en dos variables · características del coeficiente...
TRANSCRIPT
Análisis Descriptivo y Presentación de Datos en Dos Variables
Análisis de Correlación Lineal y Regresión LinealSPSS & Excel
Prof. Gaspar Torres RiveraMath. 298
Supuestos:
� La muestra de datos bivariados (x, y) representa una muestra aleatoria� Los pares ordenados provienen de una Distribución Binomial Bivariable, para
cualquier valor fijo de x, los valores correspondientes de y tengan una distribuciónen forma de campana, y que para cualquier valor fijo de y los valores de x tenganuna distribución en forma de campana).
Coeficiente de correlación lineal producto momento de Pearson (Karl Pearson 1857-1936)(rxy) mide la intensidad de la relación lineal entre los valores x y y de una muestra.El valor de “r” siempre está entre -1 y +1. El valor de “r” no cambia si todos los El valor de “r” siempre está entre -1 y +1. El valor de “r” no cambia si todos los valores de cualquier de las variables se convierten a una escala diferente. No es un problema de causa-efecto. Existen modelos de correlación no lineal:
� Cuadráticas� Exponencial� Logarítmicas� Trigonométricas, entre otras
Tipo de correlación� Negativa� Positiva� Cero
Magnitud de la correlación (+/-)
� Alta 0.85-0.99� Moderada 0.50-0.84� Baja 0.00-0.49
( ) ( )[ ] ( ) ( )[ ]))(()(∑ ∑∑−
=yxxyn
r( ) ( )[ ] ( ) ( )[ ]2222
∑∑∑∑
∑ ∑∑
−−=
yynxxnrxy
Propiedades del coeficiente de correlación lineal r
� El valor de r está entre -1 y +1. Incluye a los valores -1 y +1.
� La relación de las variables es directa y lineal.
� Las variables tienen que estar en términos de intervalo/razón.
� El valor de r no cambia si todos los valores de cualquiera de las variablesse convierten a una escala diferente.
� El valor de r no cambia si escogemos x o y.
yxxy rr =� El valor de r no cambia si escogemos x o y.
� Concepto de normalidad
Errores comunes respecto a la correlación
� Debemos tener cuidado de evitar concluir que la correlación implica causalidad.
� Otra fuente de error potencial son los datos basados en tasas o promedios.
� Un tercer error tiene que ver con la propiedad linear (Otras correlaciones)
Características del coeficiente de correlación line al r
� En las variables correlacionadas, éstas no son identificadas como independiente o dependiente porque el investigador mide una relación entre dos variables.
� La causalidad no implica correlación. Ex. Núm. nacimiento de bebés y el número de cigüeñas.
� El coeficiente de correlación lineal es medido en relaciones lineales.� La correlación tiene dos componentes: fortaleza y dirección.� Una correlación de cero (0) no es un indicador de no relación.
yxxy rr = yxxy
Ejemplos de casos de correlación:
� Si la dosis de Heparin aumenta, entonces el “Partial Thronboplain Time (PTT)” aumenta.
� Si el nivel de oxígeno atmosférico disminuye, entonces el nivel de hemoglobina de la sangre aumenta.
� Si el nivel de concentración de aspirina aumenta, entonces la agregación de “platolet” disminuye.
� Al aumentar la dosis de “Dopamine Hydrochloride”, tiende aumentar el nivel de presión sanguínea del paciente.
Ejemplo #1
Los datos que siguen pertenecen al residuo de Cl (partes por millón) que hay en una piscina en diversos momentos después de que se ha tratado con sustancias químicas.El tiempo de tratamiento se mide en términos de horas.
Observación X (horas) Y Residuo Cl (ppm)
X2 Y2 X Y
1 2 1.8
2 4 1.52 4 1.5
3 6 1.4
4 8 1.1
5 10 0.9
Σ x = Σ y = Σ x2 = Σ y2 = Σ x y =
Conteste las siguientes:
� Calcular
∑
∑ ∑
∑ ∑
==⋅
=
=
22
nyx
yx
yx
∑ ∑
∑
==
==⋅
22 )()( yx
nyx
� Calcular el coeficiente de correlación lineal de Pearson ( )xyr
� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.
� Calcular los promedios y las desviaciones estándar yx ssyx ,,,
Magnitud de la correlación (+/-)
� Alta 0.85-0.99� Moderada 0.50-0.84� Baja 0.00-0.49
( ) ( )[ ] ( ) ( )[ ]2222
))(()(
∑∑∑∑
∑ ∑∑
−−
−=
yynxxn
yxxynrxy
99.09918.0 −≈−=xyr
( ) ( )[ ] ( ) ( )[ ]∑∑∑∑ −− yynxxn
Correlations
1.000 -.992**
. .001
5 5
-.992** 1.000
.001 .
5 5
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
tiempo de tratamiento
residuo de Cloro
tiempo detratamiento
residuode Cloro
Correlation is significant at the 0.01 level (2-tailed).**.
Diagrama de Dispersión
Es una gráfica de datos (x ,y) pareados con un eje de x (horizontal) y un eje de y vertical.
Nota:
00.1+== yyxx rr
EjemploSuponer que los siguientes datos representan a pacientes con “emphysema” conlas variables: núm. de años que el paciente está fumando e inhalando y el el porcentaje de disminución en la capacidad pulmonar (%).
Paciente Tiempo fumando (años)
Disminución Capacidad
Pulmonar (%) 1 25 55 2 36 60 3 22 50 4 15 30 4 15 30 5 48 75 6 39 70 7 42 70 8 31 55 9 28 30 10 33 35
Conteste las siguientes:
� Calcular
∑
∑ ∑
∑ ∑
==⋅
=
=
22
nyx
yx
yx
∑ ∑
∑
==
==⋅
22 )()( yx
nyx
� Calcular el coeficiente de correlación lineal de Pearson ( )xyr
� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.
� Calcular los promedios y las desviaciones estándar yx ssyx ,,,
( ) ( )[ ] ( ) ( )[ ]( ) ( )( )
( ) ( )[ ] ( ) ( )[ ]
[ ][ ] [ ][ ]114801148011480
53030600103191105310
5303191805510
))(())(
22
2222
===
=−−
−
=−−
−=
∑∑∑∑
∑ ∑∑
yynxxn
yxxynrxy
[ ][ ] [ ][ ]
774.083.14835
11480
22010190011480
25100876911480
28090030600010176111053011480
≈=
===−−
Por lo tanto existe correlación lineal moderada positiva entre el tiempo que lleva Fumando y la disminución de la capacidad pulmonar de los pacientes con“emphysema”
Ejemplo
En el artículo “A Multistate Analysis of Active Life Expectancy”, dos de las variables estudiadas fueron la edad actual de un paciente y su expectativade vida (tiempo restante por vivir).
Paciente Edad (años) Expectativa de vida (años)
1 83 6.2 2 65 16.4 2 65 16.4 3 67 15.2 4 69 13.6 5 71 12.2 6 73 11.2 7 75 10.2 8 77 9.1 9 79 8.4 10 81 7.2
( ) ( )[ ] ( ) ( )[ ]( ) ( )( )
( ) ( )[ ] ( ) ( )[ ]7.10994.1306107405509010
7.1097407.793310
))(())(
22
2222
=−−
−
=−−
−=
∑∑∑∑
∑ ∑∑
yynxxn
yxxynrxy
( ) ( )[ ] ( ) ( )[ ]
[ ][ ] 996.038.1848
18413416523
184131.10353300
1841
7.10994.1306107405509010
−=−=−=−
−−
Por lo tanto existe correlación lineal alta negativa entre la edad y la expectativa dede vida de los pacientes.
Conteste las siguientes:
� Calcular
∑
∑ ∑
∑ ∑
==⋅
=
=
22
nyx
yx
yx
∑ ∑
∑
==
==⋅
22 )()( yx
nyx
� Calcular el coeficiente de correlación lineal de Pearson ( )xyr
� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.
� Calcular los promedios y las desviaciones estándar yx ssyx ,,,
Caso Calidad Educación
Calidad de Vida
A 10 10 B 13 12 C 18 15 D 20 18 E 15 10 F 11 9
Ejemplo:
F 11 9 G 12 11 H 6 8 I 9 13 J 8 5
Calidad Educativa (1=Bajo a 20=Alto)Calidad de Vida (Escala que incluye salud, tasa de desempleo, entre otras)
Conteste las siguientes:
� Calcular
∑
∑ ∑
∑ ∑
==⋅
=
=
22
nyx
yx
yx
∑ ∑
∑
==
==⋅
22 )()( yx
nyx
� Calcular el coeficiente de correlación lineal de Pearson ( )xyr
� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.
� Calcular los promedios y las desviaciones estándar yx ssyx ,,,
Caso Edad (años) Núm. de respuestas irrelevantes
A 2 12 B 4 13 C 5 9 D 6 7
Ejemplo: Un psicólogo experimental asevera que mientras más grande(cronológicamente) sea un niño, las respuestas de éste en un experimentocontrolado son menos irrelevantes. Para investigar su afirmación se reunieronlos siguientes datos:
D 6 7 E 6 12 F 7 8 G 9 6 H 9 9 I 10 7 J 12 5
Conteste las siguientes:
� Calcular
∑
∑ ∑
∑ ∑
==⋅
=
=
22
nyx
yx
yx
∑ ∑
∑
==
==⋅
22 )()( yx
nyx
� Calcular el coeficiente de correlación lineal de Pearson ( )xyr
� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.
� Calcular los promedios y las desviaciones estándar yx ssyx ,,,
Regresión Lineal
El análisis de regresión lineal busca la ecuación de la recta que describe mejor la relación entre las dos variables. Una aplicación de esta ecuación es hacer predicciones. � Predecir el éxito que tendrá un estudiante en la universidad a base de los resultados que obtuvo en los estudios secundarios.
La relación entre estas dos variables es una expresión algebraica que describe la relación matemática entre las dos variables. la relación matemática entre las dos variables.
Ejemplos de Modelos o Ecuaciones de Predicción:� Lineal� Cuadrática� Exponencial� Logarítmica� Otras
Si un modelo de línea recta parece idóneo, entonces la recta de mejor ajuste se encuentra aplicando el Método de Mínimo de Cuadrados.
La ecuación de la recta de mejor ajuste es determinada por su pendiente (B) y su ordenada (A).
( ) ( )( )( ) ( )
( )n
xByA
xxn
yxxynBdondexBAy
∑∑
∑∑
∑∑∑
−=
−
−=⋅+=
∧,22
B es la pendiente de la recta de regresión lineal y A es el intercepto de “y” o B es la pendiente de la recta de regresión lineal y A es el intercepto de “y” o corte del eje de “y” por la recta.
Al hacer predicciones a base de la recta de mejor ajuste, es necesario observar las siguientes propiedades:� La ecuación debe usarse para hacer predicciones sólo acerca de la población de la cual se extrajo la muestra.� La ecuación debe usarse sólo dentro del dominio muestral de la variable de entrada. � Si la muestra fue medida en el año 1994, no espere que los resultados sean válidos para 1929 o 2040.
OLS: Método de los Mínimos Cuadrados
� En los modelos siguientes los errores describen los efectos de todos los factores no considerados.
� Tienen una media de 0 y varianza constante.� Normalidad, independencia y linealidad (supuestos matemáticos y significancia
de la regresión.� Residuales son las discrepancias entre el modelo y los datos empíricos que
pretenden ajustar al mismo.
"outliers"deDetección
� es el porcentaje de varianza de la variable dependiente que es explicado (contexto experimental) o compartido por las variables. No es causa-efecto.
xBAajustemejordectaRe
exBAyMuestra
xyPoblación
y +=
++=++=
∧
εβα
( )100R2
( )( )
x
2i
i
2i
'ii
sxx
D:)SPSS(sMahalanobideciatanDis
,0N~EdondeyyE
"outliers"deDetección
−=
=−= σµ
OLS: Método de los Mínimos Cuadrados
� ( )( )( )∑
∑−−
= 2
2/2
2
yy
yyR
totaliaciónvaralicadaexpiaciónvarderazónlaes100R
Ejemplos
� Construir la ecuación de regresión lineal para cada ejemplo dado en clase.
� Construir el Diagrama de Dispersión para cada ejemplo dado en clase.
� Trazar la recta de mejor ajuste sobre el Diagrama de Dispersión para cada ejemplo dado en clase. Utiliza el programa de computadoras Excel.
Intercepto de “y” (Corte en el eje de y)
( )ppm
n
xByA 2=
−= ∑∑
Pendiente de la recta de mejor ajuste
( ) ( )( )( ) ( ) 11.022
−=−
−=
∑∑
∑∑∑xxn
yxxynB ( ) ( )2 − ∑∑ xxn
Ecuación de Regresión Lineal
( )xy
xy
xBAy
11.02
11.02
−=
−+=
⋅+=
∧
∧
∧
( )
( ) ppmxy
ppmxy
90.01011.0211.02
78.1211.0211.02
=−=−=
=−=−=
∧
∧
Valores Esperados o Teóricos (y)
( )( )90.0,10
78.1,2
Pares ordenados
Model Summary
.992a .984 .978 5.164E-02Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), tiempo de tratamientoa.
Coefficients a
Unstandardized
Standardized
Coefficien
ANOVAb
.484 1 .484 181.500 .001a
8.000E-03 3 2.667E-03
.492 4
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), tiempo de tratamientoa.
Dependent Variable: residuo de Clorob.
2.000 .054 36.927 .000
-.110 .008 -.992 -13.472 .001
(Constant)
tiempo de tratamiento
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Coefficients
t Sig.
Dependent Variable: residuo de Cloroa.
Relación entre el tiempo de tratamiento de la pisci na y el residuo de Cl después de diversos momentos
y = -0.11x + 21.0
1.2
1.4
1.6
1.8
2.0
Res
iduo
de
Cl
y = -0.11x + 2
R 2 = 0.9837
0.0
0.2
0.4
0.6
0.8
1.0
0 2 4 6 8 10 12
Tiempo (horas)
Res
iduo
de
Cl
Residuo de Cl Lineal (Residuo de Cl)
¿Qué significa B?
Ex. Un análisis de regresión lineal relaciona el peso en libras y la estatura en pulgadas muestra la ecuación:
xy 50.130 +−=∧
Esto indica que si la estatura de un paciente es aumentadapor 1 pulgada, el peso promedio esperado es aumentado por5 libras o sea la razón 1:5.
¿Qué significa A?
)Md(Incomexand)average(Tuition
;Income0719.00.119
y
y
==
∗+=∧
∧