laboratorio 12 teoria

29
UNIVERSIDAD PRIVADA ANTENOR ORREGO FACULTAD DE CIENCIAS ECONOMICAS DOCENTE: MSc. SELENE YENGLE DEL CASTILLO ESTADÍSTICA APLICADA A LA TOMA DE DECIONES REGRESION Y CORRELACION LINEAL SIMPLE

Upload: josephpm

Post on 16-Feb-2016

225 views

Category:

Documents


0 download

DESCRIPTION

estudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestriaestudiantes de maestria

TRANSCRIPT

Page 1: Laboratorio 12 Teoria

UNIVERSIDAD PRIVADA ANTENOR ORREGOFACULTAD DE CIENCIAS ECONOMICAS

DOCENTE: MSc. SELENE YENGLE DEL CASTILLO

ESTADÍSTICA APLICADA A LA TOMA DE DECIONES

REGRESION Y CORRELACION LINEAL

SIMPLE

Page 2: Laboratorio 12 Teoria

Análisis de regresión

lineal En lo social:

Para predecir un amplio rango de

fenómenos

Comenzando por:

Medidas económicas,

hasta diferentes

aspectos del comportamiento humano

Se adapta a una amplia variedad de situaciones

Para estudiar:

Relación entre variables

Técnica estadística: Clases de regresión lineal

CLASES

Regresión lineal simple

Regresión lineal múltiple

utilizada

Page 3: Laboratorio 12 Teoria

IMPORTANCIA DE LA REGRESIÓN Y CORRELACIÓN

La regresión lineal va muy de la mano de las ciencias economicas ya que sus modelos se pueden utilizar para diferentes fines: descripción de datos, estimación de parámetros por métodos de regresión al ajustar un modelo a los datos que se obtienen en un experimento, predicción y estimación de la variable respuesta útiles para la programación de actividades y correcciones en un proceso determinando; y control cuando se utiliza una ecuación de estimación.

Por ejemplo:En bastantes estudios se plantean hipótesis sobre la relación entre 2 variables (hipótesis bivariadas) y, más concretamente, sobre la existencia de influencia (o efecto) de una variable sobre otra -por ejemplo, en una investigación se podría hipotetizar la influencia de la inteligencia emocional sobre la conducta solidaria. En estos casos se habla de una variable explicativa que se conjetura que es la causa de una variable de respuesta.

Page 4: Laboratorio 12 Teoria

En la literatura aparece cierta diversidad en la forma en que estos dos tipos de variables son nombrados, tal como: Variable explicativa Variable independiente (VI) Variable predictora Variable X

Variable de respuesta Variable dependiente (VD) Variable criterio Variable Y

Page 5: Laboratorio 12 Teoria

REGRESIÓN LINEAL SIMPLEEs cuando una variable independiente ejerce influencia sobre otra variable dependiente.

FORMA GENERAL DE LA ECUACION DE REGRESIÒN SIMPLE

Y’=a+bx

Donde:• Y’ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionador de X.• «a» es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X=0, es decir, donde la recta de regresión cruza el eje Y.• «b» es la pendiente de la recta, o el cambio promedio en Y’ por unidad de cambio en la variable independiente X.• X es cualquier valor seleccionado de la variable independiente.

X es cualquier valor seleccionado de la variable independiente. En general, los valores de a y b en la ecuación de regresión se denominan coeficientes de regresión estimados, o también coeficientes de regresión.

• Variable dependiente: la variable que se pronostica o estima. • Variable independiente: la variable que proporciona la base para la estimación. Es la

variable predictora.

b: Pendiente de la línea de regresiónDonde:X es el valor de la variable independiente.Y es el valor de la variable dependiente.n es el numero de elementos en la muestra.

Page 6: Laboratorio 12 Teoria

QUÉ ES UN GRAFICO DE DISPERSION?Se trata de una representación gráfica del grado de relación entre dos variables cuantitativas.

Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.

DIAGRAMA DE

DISPERSION

IMPACTO VISUAL Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo.

COMUNICACIÓN Simplifica el análisis de situaciones numéricas complejas.

GUÍA EN LA INVESTIGACIÓN El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización.

CARACTERISTICAS

Page 7: Laboratorio 12 Teoria

• El coeficiente de correlación ( r ) es una medida de la intensidad de la relación (asociación) entre dos variables.

• Requiere datos con escala de intervalo o de razón (variables).

• Puede tomar valores entre -1.00 y 1.00. • Valores de -1.00 o 1.00 indican correlación

fuerte y perfecta. • Valores cercanos a 0.0 indican correlación

débil. • Valores negativos indican una relación

inversa y valores positivos indican una relación directa.

NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN.

Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión.

•COEFICIENTE DE CORRELACIÓN, R

Page 8: Laboratorio 12 Teoria

La recta correspondiente a la nube del puntos de la distribución es una recta creciente.

En este caso se dice que las variables son encorraladas y la nube de puntos tiene una forma redondeada.

La recta correspondiente a la de la distribución es una recta decreciente.

Correlación directa Correlación inversa Correlación nula

Page 9: Laboratorio 12 Teoria

Correlación negativa perfecta Correlación positiva perfecta

Correlación no lineal

Page 10: Laboratorio 12 Teoria

TAMBIÉN SE PUEDE CALCULA EL COEFICIENTE DE CORRELACIÓN “R” UTILIZANDO LAS MEDIAS ARITMÉTICAS DE LAS VARIABLES

n = es el número de pares de observaciones.∑X = es la suma de los valores de la variable X.∑Y = es la suma de los valores de la variable Y.(∑X2) = es la suma de los cuadrados de los valores de la variable X.(∑X)2 = es el cuadrado de la suma de los valores de la variable X.(∑Y2) = es la suma de los cuadrados de los valores de la variable Y.(∑Y)2 = es el cuadrado de la suma de los valores de la variable Y.∑XY = suma de los productos de X y Y.

MODELOS

LÍNEA RECTA y= a+bx

CALCULA EL COEFICIENTE DE CORRELACIÓN “R” SIN UTILIZAR MEDIAS ARITMÉTICAS DE LAS VARIABLES

FORMULAS QUE NOS PERMITEN HALLAR EL COEFICIENTE DE CORRELACIÓN “R” DE PEARSON

614.0

)636()606,51(8)900,4(000,150,3(8)636)(900,4()200,397(8

)()(

))(()(

22

2222

YYnXXn

YXXYnR

Page 11: Laboratorio 12 Teoria

 Regla para la interpretacion del valor del coeficiente de correlacion "r":

r=0 la correlación es nula.  

rϵ < 0 a 0.20> la correlación es positiva pero casi nula  

rϵ < -0.20 a 0 > la correlacion es negativa (inversa) pero casi nula  

rϵ < 0.20 a 0.40> la correlacion es positiva y baja  

rϵ < -0.20 a -0.40 > la correlación es negativa (inversa) y baja  

rϵ < 0.40 a 0.70> la correlación es positiva y buena o significativa  

rϵ < -0.40 a -0.70 > la correlación es negativa (inversa) y buena o significativa

rϵ < 0.70 a 1 > la correlación es positiva y muy buena o muy significativa

rϵ < -0.70 a -1 > la correlación es negativa (inversa) y muy buena o muy significativa

r =1 la correlación es perfecta positiva  

r = -1 la correlación es perfecta y negativa(inversa)  

Page 12: Laboratorio 12 Teoria

Mide la dispersión de los valores observados alrededor de la recta de regresión.

• Fórmulas usadas para calcular el error estándar:

El error de estándar de estimación sirve para mostrar la semejanza que existe en concepto y calculo entre la desviación estándar y el error estándar de estimación.

ERROR ESTÁNDAR DE LA ESTIMACION

La desviación estándar se basa es los cuadrados de las desviaciones respecto a la media, mientras que el error estándar de estimación se basa en los en los cuadrados de las desviaciones respecto a la línea de regresión. Si la suma de los cuadrados de las desviaciones es pequeña esto significa que la línea de regresión es representativa de los datos. Si los cuadrados son grandes, entonces la recta de regresión puede no representar a los datos.

n: numero de la muestraX: total de xy : total ya : ordenada de la y en la muestrab: pendiente de la muestra

SX.Y

Page 13: Laboratorio 12 Teoria

Regresión lineal múltiple

• Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

• El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple, con la única diferencia de que aparecen más variables explicativas.

Page 14: Laboratorio 12 Teoria

CALCULOS NECESARIOS PARA DETERMINAR LA ECUACIÓN DE REGRESION LINEAL SIMPLE DE

MINIMOS CUADRADOS

En la empresa COPIER SALES OF AMÉRICA, la gerente de ventas recopilo información respecto al numero de llamadas telefónicas hechas y la cantidad de copiadoras vendidas, para una muestra de 10 representantes de ventas. A la señorita Madeleine, gerente de esa área, le gustaría ofrecer información especifica referente a la relación entre el numero de llamadas y la cantidad de productos vendidos. Utilice el método de mínimos cuadrados para determinar la ecuación lineal.

EJEMPLO

Page 15: Laboratorio 12 Teoria

Representantes de ventas

Llamadas de ventas (X)

Copiadoras vendidas (Y) X² Y² XY

CINTHIA 20 30 400 900 600CAROLINA 40 60 1600 3600 2400JOSE LUIS 20 40 400 1600 800CARLOS 30 60 900 3600 1800

MILAGROS 10 30 100 900 300MALENA 10 40 100 1600 400BRYAN 20 40 400 1600 800ANGEL 20 50 400 2500 1000

BEATRIZ 20 30 400 900 600ANTONIO 30 70 900 4900 2100

TOTAL 220 450 5600 22100 10800

Page 16: Laboratorio 12 Teoria

b=

b=

b=

b=b= 1.1842

Encontrando «b»: Luego «a»:

a=

a=

a= a= 18.9476

Por tanto, la ecuación de regresión es:

Y’ = a+b (x)

Y’ = 18.9476 + 1.1842(x)

Page 17: Laboratorio 12 Teoria

Y’=18.9476+1.1842(X)Y’=18.9476+1.1842(20)Y’=42.6316

valor b=1.1842 , significa que para cada llamada adicional que realizan los representantes de ventas pueden esperar aumentar en casi 1.2 el numero de copiadoras vendidas.

El valor a=18.9476 es el punto donde la ecuación cruza el eje Y. Una traducción literal es que si no se hacen llamadas, esto es, X=0, se venderán 18.9476 copiadoras. Obsérvese que X=0 se encuentra fuera del intervalo de valores incluidos en la muestra, las llamadas a clientes fueron de 10 a 40, así que los cálculos deben hacerse dentro de esa gama de valores.

DE MODO QUE SI UN VENDEDOR HACE 20 LLAMADAS TELEFÓNICAS, PUEDE ESPERARSE QUE VENDA :

Page 18: Laboratorio 12 Teoria
Page 19: Laboratorio 12 Teoria

ANÁLISIS DE CORRELACIÓN

Sirve para medir la adecuación del modelo hallado (bondad del ajuste de la recta de regresión al conjunto de observaciones), en el caso de tener una variable dependiente y varias independientes.

Dicha medida nos la da el coeficiente de determinación R2 , que verifica 0 ≤ R2 ≤ 1.

Cuanto más cercano a uno sea su valor, mayor es el grado de asociación lineal que existe entre la variable dependiente y las independientes o predictoras.

Nos mide la proporción de la variación total de las observaciones que se explican mediante la ecuación (recta) de regresión

Page 20: Laboratorio 12 Teoria

Ejemplo• Juan Escobedo, presidente de la Biblioteca UPAO, se ocupa de estudiar el costo de los libros

de texto para los estudiantes de Arquitectura. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente existentes en la librería. Dibujar un diagrama de dispersión. Comprobar el coeficiente de correlación.

Libro Páginas Precio ($)Intr. a la Historia de la arquitectura 500 84Análisis estructural 700 75Arte de proyectar 800 99Arquitectura. Forma, espacio y orden 600 72Arquitectura sostenible 400 69Arquitectura e Interiores En Madera 500 81La cuidad moderna 600 63Color, espacio y estilo 800 93

Page 21: Laboratorio 12 Teoria

350 400 450 500 550 600 650 700 750 800 85060

70

80

90

100

Series1; 84

75

99

7269

81

63

93

Páginas de libros

Prec

io d

e lib

ros

(en

$)

DIAGRAMA DE DISPERSION:

Construya un diagrama de dispersión

Page 22: Laboratorio 12 Teoria

Calcule el coeficiente de correlación

Libro Páginas Precio ($) X Y XY X2 Y2

Intr. a la Historia Arq. 500 84 42,000 250,000 7,056Ánalisis Estr. 700 75 52,500 490,000 5,625Arte de Proyectar 800 99 79,200 640,000 9,801Arq. Forma espacio y orden 600 72 43,200 360,000 5,184Arq. sostenible 400 69 27,600 160,000 4,761Arq. e interiores en madera 500 81 40,500 250,000 6,561La cuidad moderna 600 63 37,800 360,000 3,969Color, espacio y estilo 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606

Page 23: Laboratorio 12 Teoria

Sustituyendo en la formula los valores encontrados y realizando los cálculos obtenemos:

614.0

)636()606,51(8)900,4(000,150,3(8)636)(900,4()200,397(8

)()(

))(()(

22

2222

YYnXXn

YXXYnR

El coeficiente de correlación de 0.614 indica una relación muy intensa entre la cantidad de páginas y el precio de los libros.

Page 24: Laboratorio 12 Teoria

COEFICIENTE DE DETERMINACION

• R2 toma cualquier valor entre cero y uno.• R2 = 1: El modelo se ajusta perfectamente a los

datos.• R2 = 0 : El modelo NO se ajusta perfectamente

a los datos..

• La Bondad de Ajuste en un modelo de Regresión se mide utilizando el coeficiente R2.

• R2 mide la proporción de la variación en y que es que es explicada por la variación de x.

Page 25: Laboratorio 12 Teoria

• Coeficiente de Determinación: Es el cuadrado del valor del coeficiente de correlación (r).

El coeficiente de determinación se simboliza por “R2” y toma valores entre 0 y 1.

R2 = ( r )2 = (0.614)2 = 0.37 37% de la variación en los precios fue debido a la variación en las páginas de los libros.

• Coeficiente de No Determinación: 1- R2 = 1-0.37 = 0.63 63% de la variación en los precios no fue debido a la variación en las páginas de los libros.

Calcule e interprete los coeficientes de determinación y no determinación.

Page 26: Laboratorio 12 Teoria

Ejemplo

Desarrolle una ecuación de regresión para la información dada en el ejemplo anterior que se puede utilizar para estimar el precio de venta basado en el número de páginas.

05143.)900,4()000,150,3(8)636)(900,4()200,397(8

2

b

0.488900,405143.0

8636

a

La ecuación de regresión es: Y' = 48.0 + .05143X• La ecuación cruza al eje Y en $48. Un libro sin las páginas costaría $48.• La pendiente de la línea es .05143. El costo de cada página adicional es de cinco

céntimos.• El signo del valor de b y el signo del valor de r serán siempre iguales.

Page 27: Laboratorio 12 Teoria

Podemos utilizar la ecuación de regresión para estimar valores de Y. El precio de venta estimado de un libro de 800 páginas es $89.14, encontrado por

14.89)800(05143.00.4805143.00.48

XY

DIAGRAMA DE DISPERSION:

350 400 450 500 550 600 650 700 750 800 85060

70

80

90

100

f(x) = 0.0514285714285714 x + 48R² = 0.376847290640394

PrecioLinear (Precio)

Páginas de libros

Prec

io d

e lib

ros

(en

$)

Page 28: Laboratorio 12 Teoria

El error estándar de estimación

El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.

Las fórmulas que se utilizan para comprobar el error estándar son:

2

2

.

nXYbYaYs xy

EN EL EJEMPLO ANTERIOR:Encuentre el error estándar de estimación para el

problema que implica el número de páginas en un libro y el precio de venta.

408.1028

)200,397(05143.0)636(48606,51

2

2

.

n

XYbYaYs xy

Page 29: Laboratorio 12 Teoria