regresiÓn y correlaciÓn lineal
Post on 20-Jul-2015
181 Views
Preview:
TRANSCRIPT
INSTITUTO UNIVERSITARIO POLITÉCNICO
“SANTIAGO MARIÑO”
SAIA – ARAURE
ESTADISTICAS
PARTICIPANTE
JESÚS PAREDES
ARAURE, JULIO 2014
Consiste en emplear métodos que permitendeterminar la relación funcional entre dos omas variables donde una depende de la otra.
Comprende el intento de desarrollar una línearecta o ecuación matemática lineal quedescribe la reacción entre dos variables.
Puede utilizadas de diversas formas:
Se emplean en situaciones en la que las dos variables midenaproximadamente lo mismo, pero en las que una variable esrelativamente costosa, o, por el contrario, es poco interesantetrabajar con ella, mientras que con la otra variable no ocurre lomismo.
Para explicar los valores de una variable en término de otra. Esdecir se puede intuir una relación de causa y efecto entre dosvariables. El análisis de regresión únicamente indica qué relaciónmatemática podría haber, de existir una.
La finalidad de una ecuación de regresión seria estimar losvalores de una variable con base en los valores conocidos de laotra.
Cuando la relación funcional entre las variables dependiente y eindependiente x es una línea recta se tiene una regresión lineal simpleexpresada por la siguiente ecuación
y = a + bx + Ɛ
Donde a y b son valores que se determina a partir de los datos de la
muestra;
a : Altura de la recta en x= 0
b : Pendiente de la línea recta
y : Es la que se habrá de predecir
x : Es la variable predictora
Ɛ : Es el error
MÉTODOS DE MÍNIMOS CUADRADOS
El procedimiento mas utilizado por adaptar una recta aun conjunto de
punto.
La recta resultante presenta 2 característica importantes
Es nula la suma desviaciones verticales en los puntos a partir de la
recta
Es mínima la suma de los cuadrados de dicha desviaciones
Σ
(yi – yc)2
Donde Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados
con el valor correspondientes x para yi
MÉTODOS DE MÍNIMOS CUADRADOS
Los valores de a y b para la recta es Yc = a + bx que
minimiza la suma de los cuadrados de la desviación
“ecuaciones normales “
Σy = na + (Σx)
Σxy= a (Σx) +b (Σx2)
En las que n es el número de pares de observaciones.
Evaluando las cantidades Σx, Σy, etc. Se puede resolver
estas dos ecuaciones simultáneamente para determinar a
b. la ecuaciones puede despejarse.
MÉTODOS DE MÍNIMOS CUADRADOS
n(Σxy)- (Σx)(Σy)
n(Σx2)-(Σx)2
Σy – b Σx
n
b=
a=
Los supuestos para el análisis de regresión son como:
1. Existen datos de medición para a x y z.
2. La variable dependiente es una variable aleatoria.
3. Para cada valor de x, existe una distribución condicional
de la qué es de naturaleza normal
4. La desviación estándar de toda las distribuciones
condicionales son iguales
El error estándar de estimación
La determinante primaria de la exactitud es el
grado de dispersión de la población: cuanto mas
dispersa este, menor será la exactitud de la
estimación. El grado de dispersión en la población
se puede estimar a partir del grado de dispersión
en las observaciones de la muestra con respecto a
la línea de regresión calculada, utilizando la
formula.
Su objetivo es determinar la consistencia de una
relación entre observaciones por partes.
EL termino “correlación “significa relación mutua,
ye que indica el grado en el que los valores de
una variable se relacionan con los valores de otra.
Se considera tres técnicas de correlación uno para
datos de medición, otro para datos jerarquizados y
el último para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relación entre dos variables continuas
se resume mediante un coeficiente de correlación
que se conoce como “r de Pearson “en honor del
gran matemático Kart Pearson, quien ideó este
método. Esta técnica es valida mientras si es
posible establecer ciertos supuestos bastante
estrictos.
Tales supuestos son los siguientes:
1. Tanto x como y son variables continuas
aleatorias. Es decir, a diferencia del análisis de
referencia de regresión, no es aceptable
seleccionar ciertos valores de x, y después
medir y; tanto y como x deben de variar
libremente.
2. La distribución conjunta de frecuencia es
normal. Esto recibe el nombre de distribución
normal divariada.
El coeficiente de relación presenta dos
propiedades que establecen la naturaleza de
una relación entre dos variables.
Una es su signo (+ o -) y la otra, es su
magnitud. El signo es igual al de la pendiente
de una recta que podría “ajustarse” a los datos
si estos se graficaran en un diagrama de
dispersión
La magnitud de r indica cuan cerca esta de la
“recta” tales puntos.
Método para calcular r
Dado que los cálculos necesarios pueden requerir
mucho tiempo especialmente cuando se resta las
medias del grupo de cada observación se elevan a
cuadrado esas diferencias. Existe una versión, la
cual simplifica los cálculos:
Intervalo de confianza para la correlación de la
población
El valor del coeficiente de correlación de la muestra se
puede utilizar como un estimado de la correlación
verdadera de población ρ existen varios métodos para
obtener un método de confianza para ρ pero quizás la
forma mas directa es usar un diagrama.
Si se examina el diagrama se observara que el intervalo de
los valores potenciales (no conocidos) ρ se indica a lo largo
de la escala vertical los posibles valores r de la muestra se
indica en la escala inferior una serie de curvas representan
tamaño de muestras seleccionadas
Datos jerarquizados de: r Spearman
Es una técnica no paramétrica que utiliza para medir
la fuerza de una relación por pares de 2 variables
cuando los datos se encuentran en forma
jerarquizados.
El objeto de calcular un coeficiente de correlación
estos ejemplos es determinar el grado en el que dos
conjuntos de jerarquización concuerdan o no. Esta
técnica también se puede extender a calificaciones u
otro tipo de medición si estas se convierten a rangos.
Datos jerarquizados de: r Spearman
Esta técnica también se puede extender a
calificaciones u otro tipo de medición si estas se
convierten a rangos.
Datos jerarquizados de: r Spearman
Las medidas del grado de concordancia son sol
cuadrados de las diferencias entre los dos conjuntos
de rangos: si la suma de éstos es pequeña, esto
significa que hay acuerdo; si la suma es grande, esto
indica lo contrario. EL calculo real de la correlación
comprende la formula.
Datos jerarquizados de: r Spearman
Donde n es el número de observaciones y ∑d2 es
la suma de los cuadrados de la diferencia entre los
rangos.
El coeficiente de correlación de jerarquía obtenido
recibe el nombre de r Spearman. La suma de la
diferencia es cero. Esto no sirve como una
comprobación útil de los cálculos aunque no es
necesaria en la fórmula.
El procedimiento es como el siguiente:
1. Obtener la diferencia en rango para cada par
de observaciones
2. Como comprobaciones, verificar que la
diferencias se sumen a 0
3. elevar el cuadrado la diferencias
4. sumar los cuadrados de la diferencia para
obtener ∑d2
5. Calcular rsp
Si el valor rsp es pequeño para situaciones
en donde n es mayor que 10, la hipótesis nula de
rsp = 0 puede ser probada utilizándola la fórmula
top related