correlacion
TRANSCRIPT
INSTITUTO TECNOLOGICO DEL ALTIPLANO DE TLAXCALAESTADÍSTICA
ING. VICTOR HUGO RAMIREZ EVANGELISTA
ALUMNA:
EVA BASTIDA TERREROS
ING. AGRONOMIA
Correlación
CORRELACIÓN NO LINEAL
COEFICIENTE DE DETERMINACIÓN
correlación
CORRELACIÓN La correlación trata de establecer la
relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
TIPOS DE CORRELACIÓN
1ºCorrelación directa
2º Correlación inversa
3º Correlación nula
TIPOS DE CORRELACION
1ºCORRELACIÓN DIRECTA
La correlación directa se da cuando al aumentar una de las variables la otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta creciente.
2º CORRELACIÓN INVERSA
La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.
3º CORRELACIÓN NULA
La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
GRADO DE CORRELACIÓN
El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:
1. CORRELACIÓN FUERTE
La correlación será fuerte cuanto más cerca estén los puntos de la recta.
2. CORRELACIÓN DÉBIL3. CORRELACIÓN NULA La correlación será débil cuanto más
separados estén los puntos de la recta.
GRADOS DE CORRELACIÓN
a. Correlación fuerte: cuanto más se aproximan los puntos a la recta.
a. Positivab. Negativa
b. Correlación débil: cuando los puntos se separan de la recta
c. Correlación nula: No hay asociación
EJERCICIO
Haga clic en el icono para agregar una imagen
CORRELACIÓN. La correlación es la forma numérica en
la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente.
Para poder entender esta relación tendremos que analizarlo en forma gráfica:
Si tenemos los datos que se presentan en la tabla y consideramos que la edad determina el peso de las personas entonces podremos observar la siguiente gráfica:
Donde los puntos representan cada uno de los pares ordenados y la línea podría ser una recta que represente la tendencia de los datos, que en otras palabras podría decirse que se observa que a mayor edad mayor peso
La correlación se puede explicar con la pendiente de esa recta estimada y de esta forma nos podemos dar cuenta que también existe el caso en el que al crecer la variable independiente decrezca la variable dependiente. En aquellas rectas estimadas cuya pendiente sea cero entonces podremos decir que no existe correlación.
0
20
40
60
80
100
0 20 40 60
edades
pesos
Así en estadística podremos calcular la correlación para datos no agrupados con la siguiente formula.
2
11
2
2
11
2
1 11
*
n
ii
n
ii
n
ii
n
ii
n
i
n
ii
n
iiii
yynxxn
yxyxnr
En donde:R = coeficiente de correlación N = número de pares ordenadosX = variable independienteY = variable independiente
Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:
Ahora podemos observar que:
Edad (x) Peso (y) X2 Y2 X* Y
15 60 225 3600 900
30 75 900 5625 2250
18 67 324 4489 1206
42 80 1764 6400 3360
28 60 784 3600 1680
19 65 361 4225 1235
31 92 961 8464 2852
183 499 5319 36403 13483
65638606.02)499(36403*72)183(5319*7
)499*183(13483*7
2
11
22
11
2
1 1*
1
n
i iyn
i iynn
i ixn
i ixn
n
i
n
i iyn
i ixiyixnr
Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente manera: y que para entenderlo mejor se debe obtener el coeficiente de determinación que se obtiene con “ r “ cuadrada, ya que este representa el porcentaje que se explica “ y ” mediante los datos de “ x ”. En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, esta muy cerca de 1 y que el porcentaje de datos que explican a “ y “ es (0.65638606)2= 0.430842 o sea el 43.08 %
En el caso de que fueran datos agrupados tendremos lo siguiente:
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al menos una calculadora con regresión para datos agrupados.
De cualquier forma aquí tambien estamos evaluando numéricamente si existe relación entre dos variables y lo haremos con la siguiente ecuación.
2
11
22
11
2
1 111*
k
iiy
k
iiy
l
iix
l
iix
l
i
k
iiy
l
iixii
k
j
yfyfnxfxfn
yfxfyxfnr
En donde podemos encontrar k como el número de clases para la variable "y" y l para el número de clases de "x".
También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que representan las frecuencias de cada una de las variables.
Para entender el uso de esta formula usaremos un ejemplo:
Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "día anáhuac"
La sustitución de la fórmula es la siguiente:
Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y la estatura, es decir, que a mayor estatura mayor peso.
En muchas ocasiones el resultado de la correlación es negativo y lo que debemos pensar es que la relación de las variables involucradas en el calculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:
Correlación no lineal
Si X y Y son las dos variables en cuestión, un diagrama de dispersión muestra la localización de los puntos (X,Y) sobre un sistema rectangular de coordenadas. Si todos los puntos del diagrama de dispersión parecen estar en una recta la correlación se llama lineal. En tales casos, una ecuación lineal es adecuada a efectos de regresión o estimación
0.5 1 1.5 2 2.5 3 3.50
2
4
6
a) Correlación lineal positiva
0 0.5 1 1.5 2 2.5 3 3.5 40
0.51
1.52
2.53
3.5
b) Correlación lineal negativa
Coeficiente de correlación
El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables.
El coeficiente de correlación lineal se expresa mediante la letra r.
COEFICIENTE DE CORRELACIÓN
El Coeficiente de Correlación es un valor cuantitativo de la relación entre dos o más variables.
La coeficiente de correlación puede variar desde -1.00 hasta 1.00.La correlación de proporcionalidad directa o positiva se establece con los valores+1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe relación entre las variables cuando el coeficiente es de 0.00.
PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN
1. El coeficiente de correlación no varía al hacerlo la escala de medición.
Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1. −1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables
EJEMPLO:
EJERCICIO
Haga clic en el icono para agregar una imagen
EJEMPLO: Las notas de 12 alumnos de una clase
en Matemáticas y Física son las siguientes:
Mate
máti
cas
2 3 4 4 5 6 6 7 7 8 10 10
Físic
a1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlación de la distribución e interpretarlo.
x i y i x i ·y i x i2 y i
2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1º Hallamos las medias aritméticas.
2º Calculamos la covarianza.
3º Calculamos las desviaciones típicas.
4º Aplicamos la fórmula del coeficiente de correlación lineal.
Al ser el coeficiente de correlación positivo, la correlación es directa.
Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.
Los valores de dos variables y y x se distribuyen según la tabla siguiente:
Y/X 0 2 4
1 2 1 3
2 1 4 2
3 2 5 0
Determinar el coeficiente de correlación.
Convertimos la tabla de doble entrada en tabla simple.xi yi fi
xi · fi
xi2 · fi
yi · fi
yi2
· fi
xi · yi · fi
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76
Al ser el coeficiente de correlación negativo, la correlación es inversa. Como coeficiente de correlación está muy próximo a 0 la correlación es muy débil