tema 4

28
Estadística General Lic. MBA Juan Luis Guzmán H . 1 Tema Nº 4 AJUSTE DE CURVAS, REGRESIÓN Y CORRELACIÓN En la práctica se encuentra a menudo que se dan relaciones entre dos o más variables. Por ejemplo los pesos de las personas dependen en cierta manera de sus alturas, las circunferencias de los círculos dependen de los radios y la presión de una masa de gas depende de su volumen y de su temperatura. Para esto es deseable expresar esta relación de variables en forma matemática, determinando una ecuación que relacione a las variables. DIAGRAMA DE DISPERSIÓN.- Se llama así a los datos de una tabla en cuyas columnas se presentan datos de variables relacionadas entre si, expresados como puntos en el plano coordenado. Estos puntos están representados en sistema de ejes coordenados: un eje horizontal denominado también eje de abscisas y el eje vertical o Eje de ordenadas. Todo punto en el plano se expresa como (X,Y). En forma general un punto conocido se designa por (Xi,Yi). Al conjunto de puntos en el plano se llama también Nube de puntos. La relación que presentan estas variables es de dependencia, es decir la ocurrencia de la una depende de la otra. Ejemplo.- La siguiente tabla muestra la producción de cereales en toneladas métricas en los últimos 5 años: Tiempo - Años Producción Ton. M3 X Y 1 14 2 33 3 20 4 41 5 52

Upload: hugogcaballeroa4846

Post on 25-Jun-2015

682 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

1

Tema Nº 4 AJUSTE DE CURVAS, REGRESIÓN Y CORRELACIÓN En la práctica se encuentra a menudo que se dan relaciones entre dos o más variables. Por ejemplo los pesos de las personas dependen en cierta manera de sus alturas, las circunferencias de los círculos dependen de los radios y la presión de una masa de gas depende de su volumen y de su temperatura. Para esto es deseable expresar esta relación de variables en forma matemática, determinando una ecuación que relacione a las variables. DIAGRAMA DE DISPERSIÓN.- Se llama así a los datos de una tabla en cuyas columnas se presentan datos de variables relacionadas entre si, expresados como puntos en el plano coordenado. Estos puntos están representados en sistema de ejes coordenados: un eje horizontal denominado también eje de abscisas y el eje vertical o Eje de ordenadas. Todo punto en el plano se expresa como (X,Y). En forma general un punto conocido se designa por (Xi,Yi). Al conjunto de puntos en el plano se llama también Nube de puntos. La relación que presentan estas variables es de dependencia, es decir la ocurrencia de la una depende de la otra. Ejemplo.- La siguiente tabla muestra la producción de cereales en toneladas métricas en los últimos 5 años:

Tiempo - Años

Producción Ton. M3

X Y 1 14 2 33 3 20 4 41 5 52

Page 2: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

2

Gráfico de dispersión

0

5

10

15

20

25

0 1 2 3 4 5 6 7 8 9

Tiempo - años

To

nel

adas

M3

En este ejemplo la variable tiempo X es independiente y la variable Y es una variable dependiente. Es decir, la variable Y = Producción esta sujeta o depende del tiempo. Buenos tiempos, buena producción y en malos tiempos, mala producción. AJUSTE DE CURVAS.- Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren valores correspondientes de las variables. El siguiente paso es marcar los puntos (X1,Y1), (X2Y2, (X3Y3,…., (XnYn), sobre un sistema de coordenadas rectangulares. A partir del diagrama de dispersión es posible con frecuencia visualizar una curva suave que aproxima los datos. Tal curva se llama una curva aproximante. En el gráfico anterior los datos parecen aproximarse a una curva no lineal más que a una línea recta. El problema de hallar ecuaciones de curvas aproximantes que se ajusten a un conjunto de datos se llama Ajuste de Curvas. ECUACIONES DE CURVAS APROXIMANTES.- Varios tipos de curvas aproximantes y sus ecuaciones se presentan en la lista adjunta para facilitar posteriores referencias. Todas las letras excepto X e Y representan constantes. Las variables X e Y se llaman variable independiente y dependiente, respectivamente. Aunque estos papeles se pueden intercambiar. 1. Línea recta Y = a + bX 2. Parábola o curva Cuadrática Y = a + bX + cX2

3. Curva cúbica Y = a + bX + cX2 + dX3 4. Curva Cuártica Y = a + bX + cX2 + dX3 + eX4 5. Curva de grado n Y = a + bX + cX2 + ……+nXn

Page 3: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

3

La parte derecha de las ecuaciones anteriores se llaman polinomios de grado uno, dos, tres, cuatro y n, respectivamente. Las funciones definidas por las cuatro primeras ecuaciones se llaman a veces funciones lineal, cuadrática, cúbica y cuártica, respectivamente. También presentamos otras curvas de las muchas ecuaciones que se utilizan frecuentemente: 6. Hipérbola Y = 1 . a + bX 7. Curva exponencial Y = abX 8. Curva geométrica Y = aXb 9. Curva exponencial Modificada Y = abX + g 10. Curva geométrica Modificada Y = aXb + g 11. Curva de Gompertz Y = pqbX 12. Curva de Gompertz Modificada Y = pqbX + h 13. Curva logística Y = 1 . abX +g ó Y = a + b(log X) + c(log X)2 Para decidir que curva utilizar es útil obtener diagramas de dispersión de variables transformadas. Por ejemplo si un diagrama de dispersión de log Y versus X indica una relación lineal, la ecuación tiene la forma 7, mientras que si log Y versus log X es lineal, la ecuación tiene la forma (8). Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras.

AJUSTE DE CURVAS A MANO.- A menudo puede recurrirse a la intuición personal a la hora de dibujar una curva que ajuste un conjunto de datos. Esto se conoce como Método de Ajuste

Page 4: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

4

de Curvas a Mano. Si el tipo de ecuación de esa curva es conocido, es posible conocer las constantes de esa ecuación, eligiendo tantos puntos de la curva como constantes haya en la ecuación. Por ejemplo, si la curva es una recta, son necesarios dos puntos, si es una parábola son precisos tres puntos. El método tiene la desventaja de que diferentes observadores obtendrán distintas curvas y ecuaciones. CURVA AJUSTADA “A MANO”

0

5

10

15

20

25

0 1 2 3 4 5 6 7 8 9

Tiempo - años

To

nel

adas

M3

REGRESIÓN LINEAL SIMPLE.- La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada. Cuando los puntos de un Diagrama de dispersión tratan de expresar la tendencia de una recta, se llama Regresión Lineal Simple. En base a la ecuación de la recta se puede pronosticar el comportamiento de las variables a futuro. La Ecuación de la recta se la expresa de la siguiente manera: Y = a + bX Donde: X = Variable independiente Y = Variable dependiente a = Ordenada en el origen b = Pendiente de la recta El parámetro a, nos indica cuánto vale Y cuando X = 0. El parámetro b, nos indica cuánto aumenta Y por cada aumento de una unidad en X.

Page 5: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

5

Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una serie de observaciones sobre de las variables Y y X. Estas estimaciones se obtienen por medio de métodos que los iremos conociendo a continuación. MÉTODO DE LOS DOS PUNTOS.- Este método es bastante sencillo y consiste en tomar dos pares de valores de una serie de datos y luego reemplazarlos en la ecuación de la recta obteniendo por el método de igualación o sustitución los valores de a y b. Ejemplo.- Dada la siguiente tabla de valores:

X Y 4 2 5 6 9 12 10 14 12 16

Tomando los valores (4,2) y (5,6), tendríamos: 2 = a + 4b (-1) 6 = a + 5b -2 = -a – 4b 6 = a + 5b 4 = b Reemplazando en la ecuación el valor de b: 2 = a + 4(4) 2 = a + 16 a = - 14 Luego la ecuación de la recta sería: Y = - 14 + 4X Estimando valores: Para X = 4 Para X = 5 Yest = -14 + 4*4 Yest = -14 + 4*5 Yest = -14 +16 Yest = -14 + 20 Yest = 2 Yest = 6

Page 6: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

6

Tomando los valores (4,2) y (12,16), tendríamos: 2 = a + 4b (-1) 16 = a + 12b -2 = -a – 4b 16 = a + 12b 14 = 8b b = 14/8 = 7/4 = 1,75 Reemplazando en la ecuación el valor de b: 2 = a + 4(1,75) 2 = a + 7 a = -5 Luego la ecuación de la recta sería: Y = - 5 + 1,75X Estimando valores: Para X = 4 Para X = 5 Yest = -5 + 1,75*4 Yest = -5 + 1,75*5 Yest = -5 + 7 Yest = -5 + 8,75 Yest = 2 Yest = 3,75 TIPOS DE REGRESIÓN:

REGRESIÓN LINEAL SIMPLE Cuando a los puntos de un Diagrama de dispersión se trata de expresarlos por una Recta, se llama Regresión Lineal Simple. De acuerdo al Diagrama de dispersión, donde se ubicaron todos los puntos conocidos, se aprecia que es posible insertar una Recta que estará razonablemente cercana a todos los puntos. Es decir que es posible representar a todos los puntos por la Ecuación de una Recta. Cuando se presenta un Diagrama de dispersión de este tipo se dice que hay una Relación Lineal. Su ecuación debe ser de la forma: Y = a + bX

Y su gráfica será:

Page 7: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

7

REGRESIÓN LINEAL MÚLTIPLE

Si las variables son tres o más y se trata de expresarlas por una Ecuación lineal de varias variables, se llama Regresión Lineal Múltiple. En el caso de tres variables, de acuerdo al Diagrama de dispersión en el espacio, se trata de hallar la ecuación de un Plano, como se muestra en la gráfica. La ecuación a obtenerse en este caso debe ser de la forma: Y = a + bX1 + c X2 Y su gráfica:

REGRESIÓN NO LINEAL Cuando a los puntos de un Diagrama de dispersión se trata de expresarlos por una ecuación de una curva cualquiera, se efectúa él análisis de Regresión No Lineal. Por ejemplo si un conjunto de pares de datos muestran un Diagrama de dispersión como el indicado en la siguiente gráfica:

La Recta (L), no está muy cercana a todos los puntos, siendo preferible

Page 8: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

8

insertar una Curva (C) como mejor aproximación a todos los puntos. Cuando se presenta un Diagrama de dispersión de este tipo se dice que hay una Relación No Lineal. Su ecuación será la siguiente: Y = a + bX1 + cX2

2

MÉTODO DE LOS MÍNIMOS CUADRADOS.- Con la finalidad de evitar juicios individuales en la estimación de rectas, curvas, parábolas u otras curvas de aproximación, es necesario hacer un ajuste en la serie de datos para obtener mejores definiciones de los modelos (ecuaciones) que representen a estos datos. Cuando se tiene un Diagrama de dispersión, es decir un conjunto de puntos en el Plano, se entiende por ajustar los puntos a una Curva o Recta, el obtener la ecuación de la Curva o Recta que más se aproxime a todos los puntos. El caso ideal sería el de hallar una ecuación que contenga a todos los puntos del Diagrama de dispersión. Lo que en la práctica es prácticamente imposible. Para ajustar un Diagrama de dispersión a una Recta o Curva de manera que esta represente en lo posible a todo el conjunto de datos, se emplea el método matemático llamado de Mínimos Cuadrados.

Suponiendo que un Diagrama de dispersión es el indicado en la gráfica y que se lo está ajustando a la curva insertada. Los puntos del Diagrama de dispersión en forma general se expresan por: (X¡,Y¡). Para cierto valor de X por ejemplo X1 entre su valor correspondiente Y1 con respecto al valor de la curva ya obtenida existirá una diferencia D1.

Page 9: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

9

En algunos casos las diferencias serán positivas (D1, D3), en otros casos negativa (D2). Una medida de la separación entre puntos y curva obtenida será: S = D1

2 + D22 + D3

2 + ..... + DN2

Los cuadrados hacen que todas las diferencias sean positivas. Se debe procurar que S sea lo más pequeña posible ya que ello significará una mejor aproximación. Obviamente si S. es grande significará menor aproximación. Una curva que se ajuste de acuerdo al criterio de que S se mas pequeña, se llama curva de Mínimos cuadrados, porque se está considerando el mínimos del cuadrado de la desviación S. Si se ajusta una Recta con el criterio de que S se más pequeña, se llama Recta de Mínimos cuadrados. De esta manera la recta posee una mejor aproximación a todos los puntos del diagrama de dispersión. REGRESIÓN LINEAL SIMPLE.- La recta Y = a + bX que posee el mínimo valor de S, con respecto a los puntos de un diagrama de dispersión, es aquella de constantes a, b que provienen de un sistema llamado Sistema Normal de Ecuaciones: ∑ Y = a N + b ∑ X ∑XY = a ∑ X + b ∑ X2 Usando conceptos del Cálculo Infinitesimal al minimizar S se obtiene las Ecuaciones del Sistema Normal de Ecuaciones. En la práctica pueden utilizarse las siguientes expresiones derivadas de las anteriores ecuaciones, para la obtención de la ecuación de la recta: a = ∑Y ∑X2 - ∑X ∑XY N ∑X2 – (∑X2) b = N ∑XY - ∑X ∑Y N ∑X2 – (∑X2) Ejercicio Regresión Lineal Simple.- Estimar la Ecuación de regresión de los siguientes datos referidos a los años (X) y al número de proyectos de un

Page 10: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

10

Ingeniero Comercial a lo largo de su primeros 5 años. Calcular cuantos proyectos el año 3.5 y el año 6.

X Y

1 14 2 33 3 20 4 41 5 52

15 160

En base a estos datos y siguiendo el método de las ecuaciones normales (I y II) ó el método simplificado, precisamos calcular los valores de XY y X2.

X Y XY X2 1 14 14 1 2 33 66 4 3 20 60 9 4 41 164 16 5 52 260 25 15 160 564 55

Por el método de las ecuaciones normales: 160 = a5 + b15 564 = a15 + b55

160,00 = 5a + b15 Mult. -3 (1) 564,00 = 15a + 55b

(2) -480,00 = -15a - 45b 564,00 = 15a + 55b 84,00 = 10b

b = 84 / 10 b = 8,40

Reemplazando el valor de b en la Ecuación Normal (1)

160 = 5a + 8,40 * 15 160 = 5a + 126

a = 34 / 5 a = 6,8

Luego la ecuación de la recta sería:

Y = 6,8 + 8,4X

Resumiendo: a = 6,80 b = 8,40

Page 11: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

11

Por el método abreviado: a = (160*55) – (15*564) = 6,80 (5*55) – (15)2 b = (5*564) – (15*160) = 8,40 (5*55) – (15)2

Por el método gráfico, usando Excel:

Regresion Lineal

y = 8,4x + 6,8

0,00

20,00

40,00

60,00

0 2 4 6

X

Y

Línea de Tendencia

Calculando el valor de Y para el año 3.5 (Interpolación): Y = 6,8 + 8,4 * 3.5 Y = 36,20 Calculando el valor de Y para el año 6 (Extrapolación): Y = 6,8 + 8,4 * 6 Y = 57,20 REGRESIÓN LINEAL MÚLTIPLE.- Para el caso en que precise establecer una relación entre más de dos variables, se debe aplicar el procedimiento llamado regresión múltiple. Si la relación es lineal se llamará regresión lineal múltiple. Si se establece una expresión de regresión lineal múltiple de la variable dependiente Y en términos de las variables independientes X1, X2,…,Xn, se obtendrá la ecuación: Y = a + bX1 + c X2 + ……. + nXn

Page 12: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

12

Para obtener el valor de los coeficientes de: a, b, …., n, se emplean las ecuaciones normales que serán equivalentes a las ecuaciones normales empleadas para el caso de regresión lineal simple. Por ejemplo si se trata de establecer una regresión de la variable dependiente Y en términos de dos variables independientes X1 y X2. La ecuación de regresión y sus ecuaciones normales son: Y = a + bX1 + cX2 Ecuación de regresión ∑ Y = a N + b ∑X1 + c ∑X2 Ecuaciones ∑X1Y = a ∑X1 + b ∑ X1

2 + c ∑X1X2 Normales ∑X2Y = a ∑X2 + b ∑ X1X2 + c ∑X2

2

Ejercicio Regresión Lineal Múltiple.- Estimar la Ecuación de regresión de los siguientes datos expresados en la tabla:

Y X1 X2

16 0 1 34 2 3

38 4 5 32 6 5

72 7 7 66 8 9

El problema consiste en determinar el valor de los parámetros a, b y c.

Para ello encontraremos los valores de: X12, X2

2, X1X2, X1Y y X2Y.

Y X1 X2 X1Y X12 X1X2 X2Y X2

2 16 0 1 0 0 0 16 1 34 2 3 68 4 6 102 9 38 4 5 152 16 20 190 25 32 6 5 192 36 30 160 25 72 7 7 504 49 49 504 49 66 8 9 528 64 72 594 81

258 27 30 1444 169 177 1566 190

Las ecuaciones normales serían: 258 = a6 + b27 + c30 1444 = a27 + b169 + c177 1566 = a30 + b177 + c190 Resolviendo el sistema (por sumas y restas o álgebra matricial), tendríamos:

Page 13: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

13

a = 7 b = -2 c = 9 La ecuación de regresión: Y = 7 – 2X1 + 9X2 Regresión No Lineal.- Si la relación entre las variables dependientes e independientes es no lineal, se llamará regresión no lineal. Existen varias de este tipo. Regresión Cuadrática.- Para logar la correlación de una curva de segundo grado, debe obtenerse la ecuación de regresión: Y = a + bX + cX2 En este tipo de regresión, el problema consiste en determinar el valor de los parámetros a, b y c. Para ello utilizamos las ecuaciones normales: ∑ Y = a N + b ∑X + c ∑X2

Ecuaciones ∑XY = a ∑X + b ∑X2 + c ∑X3

Normales ∑X2Y = a ∑X2 + b ∑ X3 + c ∑X4

Ejercicio Regresión Cuadrática.- Estimar la Ecuación de regresión de los siguientes datos expresados en la tabla:

Y X 5 1

3 2 2 3

4 4 6 5

10 6 18 7

Para ello encontraremos los valores de: X2, X3, X4, XY y X2Y.

Y X X2 X3 X4 XY X2Y 5 1 1 1 1 5 5 3 2 4 8 16 6 12 2 3 9 27 81 6 18

Page 14: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

14

4 4 16 64 256 16 64 6 5 25 125 625 30 150 10 6 36 216 1.296 60 36018 7 49 343 2.401 126 882 48 28 140 784 4.676 249 1.491

Las ecuaciones normales serían: 40 = a7 + b28 + c140 249 = a28 + b140 + c784 1491 = a140 + b784 + c4676 Resolviendo el sistema, tendríamos: a = 9,4286 b = -5,1071 c = 0,8929 La ecuación de regresión: Y = 9,4286 – 5,1071X + 0,8929X2 Por el método gráfico, usando Excel:

Regresión Cuadrática

y = 0,8929x2 - 5,1071x + 9,4286

0

5

10

15

20

0 2 4 6 8

X

Y

Regresión Exponencial.- Para logar la correlación exponencial, debe obtenerse la ecuación de regresión: Y = a e bX En este tipo de regresión, el problema consiste en determinar el valor de los parámetros a y b. Para ello se aplica Logaritmos naturales o neperianos (por la presencia del número e, base de los logaritmos neperianos). Aplicando propiedades de los logaritmos:

Page 15: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

15

Y = a e bX Ecuación de ajuste exponencial Ln Y = Ln(aebx) Aplicando logaritmos naturales en ambos miembros Ln Y = Ln a + Ln(ebx) Aplicando propiedad de logaritmo de un producto Ln Y = Ln a + bxLne Aplicando propiedad de logaritmo de una potencia Ln Y = Ln a + bx Considerando que Lne = 1 V = A + bX Realizando cambios en las variables : V = LnY y A = Lna Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = A + bX, donde V es la variable independiente. Ahora ya es posible aplicar los mismos procedimientos anteriores (de regresión lineal simple). Ecuaciones normales – regresión lineal simple: ∑ Y = aN + b ∑X ∑XY = a∑X + b∑X2 Ecuaciones normales – regresión exponencial: ∑ V = AN + b ∑X ∑XV = A∑X + b∑X2 Es preciso tomar en cuenta la diferencia entre “a” y “A”. Ejercicio Regresión Exponencial.- Estimar la Ecuación de regresión de los siguientes datos expresados en la tabla:

Y X 8,5 1 10,2 2 12,8 3 15,6 4 19,1 5

Para ello encontraremos los valores de: V = Ln Y, X2 y XV.

Y X1 V = Ln Y X2 XV 8,5 1 2,1401 1 2,1401 10,2 2 2,3224 4 4,6448 12,8 3 2,5494 9 7,6483 15,6 4 2,7473 16 10,9891

Page 16: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

16

19,1 5 2,9497 25 14,748466,2 15 12,7089 55 40,1707

Por el método de las ecuaciones normales: 12,7089 = A5 + b15 40,1707 = A15 + b55 Resolviendo el sistema mediante sumas: A = 1,9285 b = 0,2044 Por el método abreviado: A = (12,7089*55) – (15*40,1707) = 1,9285 (5*55) – (15)2 b = (5*40,1707) – (15*12,7089) = 0,2044 (5*55) – (15)2

Una vez conocidos los valores de A y b, se obtiene la ecuación de la recta, pero luego es imprescindible llevar a la forma exponencial: V = A + bX Ecuación de la recta

V = 1,9285 + 0,2044X Luego: si V = Ln Y A = Ln a a = eA entonces: e1,9285 = 6,8794 Ln Y = Ln 6,8794 + 0,2044X La expresión 0,2044X, puede escribirse como Ln(e0,2044X) Ln Y = Ln 6,8794 + Ln(e0,2044X) Por propiedad de la suma de Ln.

Ln Y = Ln[6,8794 *(e0,2044X)] Simplificando logaritmos Y = 6,8794 e0,2044X

Por el método gráfico, usando Excel:

Page 17: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

17

Regresión Exponencial

y = 6,8794e0,2044x

05

10152025

0 2 4 6

x

y

Regresión Potencial. Para logar la correlación exponencial, debe obtenerse la ecuación de regresión: Y = a X b En este tipo de regresión, el problema consiste en determinar el valor de los parámetros a y b. Para ello se aplica Logaritmos decimales o naturales, en nuestro caso utilizaremos los decimales. Aplicando propiedades de los logaritmos: Y = a X b Ecuación de ajuste potencial Log Y = Log(aXb) Aplicando logaritmos decimales en ambos miembros Log Y = Log a + Log(Xb) Aplicando propiedad de logaritmo de un producto Log Y = Log a + b Log X Aplicando propiedad de logaritmo de una potencia Realizando cambios en las variables : V = Log Y ; U = Log X y A = Log a V = A + bU Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = A + bU, donde V es la variable dependiente. Ahora ya es posible aplicar los mismos procedimientos anteriores (de regresión lineal simple). Ecuaciones normales – regresión lineal simple: ∑ Y = aN + b ∑X ∑XY = a∑X + b∑X2 Ecuaciones normales – regresión potencial: ∑ V = AN + b ∑U ∑UV = A∑U + b∑U2 Es preciso tomar en cuenta la diferencia entre “a” y “A”. Ejercicio Regresión Potencial.- Estimar la Ecuación de regresión de los siguientes datos expresados en la tabla:

Page 18: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

18

Y X1 19 1 12 2

360 3 980 4 1100 5

Para ello encontraremos los valores de: V = Log Y, U = Log X, U2 y UV.

Y X U = Log

X V = Log

Y U2 UV 19 1 0,0000 1,2788 0,0000 0,0000 12 2 0,3010 1,0792 0,0906 0,3249

360 3 0,4771 2,5563 0,2276 1,2197 980 4 0,6021 2,9912 0,3625 1,8009 1100 5 0,6990 3,0414 0,4886 2,1258 2471 15 2,0792 10,9469 1,1693 5,4713

Por el método de las ecuaciones normales: 10,9469 = A5 + b2.0792 5,4713 = A2.0792 + b1.1693 Resolviendo el sistema mediante sumas: A = 0,9349 b = 3,0167 Por el método abreviado: A = (10,9468*1,1693) – (2,0792*5,4713) = 0,9349 (5*1,1693) – (2,0792)2 b = (5*5,4713) – (2,0792*10,9468) = 3,0167 (5*1,1693) – (2,0792)2

Una vez conocidos los valores de A y b, se obtiene la ecuación de la recta, pero luego es imprescindible llevar a la forma potencial: V = A + bU Ecuación de la recta

V = 0,9349 + 3,0167U Luego: si V = Log Y U = Log X A = Log a a = 10A entonces: 100,9349 = 8,6085 Log Y = Log 8,6085 + 3,0167 Log X La expresión 3,0167X, puede escribirse como

Page 19: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

19

Log(X3,0167) Log Y = Log 8,6085 + Log(X3,0167) Por propiedad de la suma de Log.

Log Y = Log[8,6085 *(X3,0167) Simplificando logaritmos Y = 8,6085 X3,0167

Por el método gráfico, usando Excel:

Regresió Potencial

y = 8,6088x3,0166

0

500

1000

1500

0 2 4 6

x

y

Regresión Hiperbólica.- Para logar la correlación hiperbólica, debe obtenerse la ecuación de regresión: Y = 1 . a + bX En este tipo de regresión, el problema consiste en determinar el valor de los parámetros a y b. Para ello se aplicaremos un artificio matemático de sustitución de variables: Y = 1 . Ecuación de ajuste potencial a + bX a + bX = 1 . Realizando cambios de variables: Y V = 1 / Y V = a + b X Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = a + bX, donde V es la variable dependiente. Ahora ya es posible aplicar los mismos procedimientos anteriores (de regresión lineal simple). Ecuaciones normales – regresión lineal simple: ∑ Y = aN + b ∑X

Page 20: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

20

∑XY = a∑X + b∑X2 Ecuaciones normales – regresión hiperbólica: ∑ V = AN + b ∑X ∑XV = A∑X + b∑X2 Ejercicio Regresión Hiperbólica.- Estimar la Ecuación de regresión de los siguientes datos expresados en la tabla:

Y X 0,50 0,02 0,40 0,04 0,40 0,06 0,33 0,08 0,25 0,10 0,20 0,12 2,08 0,42

Para ello encontraremos los valores de: V = 1 / Y, X2 y XV.

Y X V = 1/Y X2 XV 0,50 0,02 2,0000 0,0004 0,0400 0,40 0,04 2,5000 0,0016 0,10000,40 0,06 2,5000 0,0036 0,1500 0,33 0,08 3,0303 0,0064 0,2424 0,25 0,10 4,0000 0,0100 0,4000 0,20 0,12 5,0000 0,0144 0,6000 2,08 0,42 19,0303 0,0364 1,5324

Por el método de las ecuaciones normales: 19,0303 = a6 + b0,42 1,5324 = a0,42 + b0,034 Resolviendo el sistema mediante sumas: a = 1,1689 b = 28,6113 Por el método abreviado: a = (19,0303*0,0364) – (0,42*1,5324) = 1,1689 (6*0,0364) – 0,1764 b = (6*1,5324) – (0,42*19,0303) = 28,6113 (6*0,0364) – 0,1764

Una vez conocidos los valores de a y b, se obtiene la ecuación de la recta, pero

Page 21: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

21

luego es imprescindible sustituir la variable V: V = a + bX Ecuación de la recta

V = 1,1689 + 28,6113X Luego: si V = 1 / Y 1 / Y = 1,1689 + 28,6113X Y = 1 . 1,1689 + 28,6113X Por el método gráfico, usando Excel:

REGRESION HIPERBÓLICA

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14

CORRELACIÓN El análisis de correlación trata de establecer el grado de relación entre dos variables, es decir se trata de medir cuan dependiente es una variable de la otra. Se entiende que existe correlación entre dos variables, cuando es evidente que al variar una de ellas, también se produce una variación de la otra. Cuando se trata de la relación entre dos variables se llama correlación simple. A la relación entre tres o más variables se llama correlación múltiple. Cuando la relación entre dos variables se la representa por una recta se llama correlación lineal. Si la relación se la representa por una curva cualquiera (No una recta), se tiene la correlación no lineal.

Page 22: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

22

Para entender mejor el concepto de correlación se verá previamente el coeficiente de estimación, el que se onceptualiza de la manera siguiente: COEFICIENTE DE ESTIMACIÓN.- Calcula el error típico de Y. En otras palabras mide lamagnitud del error cometido al calcular un valor para Y respecto de un valor de X de acuerdo a una ecuación de Regresión. Al coeficiente de estimación se lo denomina también Error típico XY o error típico de estimación. Siendo Y la variable dependiente de una ecuación de regresión, el coeficiente de estimación simple se define como: SYX = √ ∑(Y – Yest)2 N-2 Donde: Y es la variable dependiente (inicial). Yest es el valor obtenido de Y partiendo de su ecuación. N el número de datos Con este coeficiente podemos advertir que valores más altos, significan una mayor lejanía de los puntos de regresión respecto a la recta. Una variante del coeficiente de estimación es el coeficiente de estimación poblacional, que se define como: SPYX = √ ∑(Y – Yest)2 N Ejemplo.- Calcular los coeficiente de estimación de la siguiente tabla, SYX y Szx, comparando los resultados de ambos estimaciones y graficando las mismas.

X Y Z

2 40 35 4 80 85 6 75 75 8 135 140 10 120 115

30 450 450

Las ecuaciones de regresión estimadas serían:

Page 23: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

23

Y = 25,5 + 10,75X Z = 25,5 + 10,75X Y los datos completos:

X Y Z Yest (Y - Yest) (Y - Yest)2 Zest (Z -

Zest) (Z -

Zest)2

2 40 35 47,0 -7,00 49,00 47 -12 144,00 4 80 85 68,5 11,50 132,25 69 17 272,25

6 75 75 90,0 -15,00 225,00 90 -15 225,00 8 135 140 111,5 23,50 552,25 112 29 812,25 10 120 115 133,0 -13,00 169,00 133 -18 324,00

30 450 450 450,0 0,00 1.127,50 450 0 1.777,50

Sus gráficas:

Estimación Y

y = 10,75x + 25,5

0

50

100

150

0 5 10 15

X

Y

Estimación Z

y = 10,75x + 25,5

0

50

100

150

0 5 10 15

X

Z

Sus coeficientes estimados:

S YX = 19,39

S YX = 24,34 Lo que significa que los datos de Z respecto de X tienen mayor lejanía que los puntos de regresión de Y respecto a la recta.

Page 24: Tema 4

Estadística General Lic. MBA Juan Luis Guzmán H.

24

Tipos de correlación.- CORRELACIÓN NEGATIVA PERFECTA

CORRELACIÓN POSITIVA PERFECTA

0 1 2 3 4 5 6 7 8 9 10 X

10 9 8 7 6 5 Y 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10 X

10 9 8 7 6 5 Y 4 3 2 1 0

Page 25: Tema 4

LLiicc.. MMBBAA JJuuaann LLuuiiss GGuuzzmmáánn HH.. -- EESSTTAADDÍÍSSTTIICCAA II

- 25 -

- 25 -

AUSENCIA DE CORRELACIÓN

CORRELACIÓN FUERTE Y POSITIVA

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 Y 5 4 3 2 1 0

X

Page 26: Tema 4

LLiicc.. MMBBAA JJuuaann LLuuiiss GGuuzzmmáánn HH.. -- EESSTTAADDÍÍSSTTIICCAA II

- 26 -

- 26 -

9999 En la primera gráfica se muestra una relación inversa entre las variables X e Y. La variable Y depende del valor que tome X. Cuando el valor de X es alto Y vale muy poco y a la inversa cuando X tiene un valor muy bajo Y tiene un alto valor. En este caso la recta que se ajusta al gráfico tendrá pendiente negativa. En la segunda gráfica se muestra una relación directa entre las variables X e Y. La variable Y depende del valor que tome X. Cuando el valor de X es alto Y vale también muy alto y a la inversa cuando X tiene un valor muy bajo Y tiene un valor también bajo. En este caso la recta que se ajusta al gráfico tendrá pendiente positiva. En la tercera gráfica se advierte que no hay una tendencia definida a ninguna recta o curva. Por lo tanto no existe correlación. En la última grafica se advierte una muy fuerte correlación directa entre X e Y. COEFICIENTE DE CORRELACIÓN.-

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

Page 27: Tema 4

LLiicc.. MMBBAA JJuuaann LLuuiiss GGuuzzmmáánn HH.. -- EESSTTAADDÍÍSSTTIICCAA II

- 27 -

- 27 -

Se usa para medir el grado de correlación entre variables. Si entre las variables X e Y, logra establecerse una relación funcional de la forma Y = f(X). Considerando que Y es el valor inicial y conocido de la variables dependiente, siendo Y su media aritmética. Yest es el valor que se calcula de acuerdo a la relación funcional. Entonces se llama Coeficiente de de correlación a: COEFICIENTE DE CORRELACIÓN LINEAL.- r = +- √ Variación explicada = +- √ ∑(Yest – Y)2 = COVxy Variación total ∑(Yest – Y)2 σx σy r = COVxy = (∑ (X – X) (Y – Y))/N) .

σx σy √(∑(X-X)2)/N √(∑(X-X)2)/N El coeficiente de correlación lineal varía en el intervalo de -1 hasta 1, es decir -1 ≤ r ≤ 1. Un coeficiente muy cercano a 1 o a -1 indica que hay una alta

correlación. Un coeficiente positivo significa que a medida que crece la

variable, también crece la otra. Un coeficiente negativo significa que a medida que crece una

de las variables, decrece la otra. Un coeficiente de cero o muy cercano a cero significa ausencia

de correlación. Usualmente se aplica la siguiente escala de r, para estimar una correlación.

-1 -0,7 0 0,7 1

Correlación CorrelaciónAlta Alta Negativa Correlación baja Positiva

Page 28: Tema 4

LLiicc.. MMBBAA JJuuaann LLuuiiss GGuuzzmmáánn HH.. -- EESSTTAADDÍÍSSTTIICCAA II

- 28 -

- 28 -

Ejemplo.- Calcular el coeficiente de correlación lineal de la siguiente tabla:

X Y

14 140 16 160 18 170 20 175 22 175 90 820

Para esto será necesario conocer los siguientes valores: COVxy = (∑ (X – X) (Y – Y)) N