petro leo estad

20
- 1 - ESTADISTICA TECNICA SUPERIOR TP Nº REGRESION MULTIPLE Grupo: - Cuneo Federico - Carrillo Santiago - Scoponi Agustín Guido

Upload: agustin-scoponi

Post on 15-Jul-2016

215 views

Category:

Documents


1 download

DESCRIPTION

estadis regresion

TRANSCRIPT

Page 1: Petro Leo estad

- 1 -

ESTADISTICA TECNICA SUPERIOR

TP Nº

REGRESION MULTIPLE

Grupo:

- Cuneo Federico - Carrillo Santiago - Scoponi Agustín Guido

Page 2: Petro Leo estad

- 2 -

Introducción: Vamos a estimar la producción de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se utilizaran cuatro variables de predicción las cuales fueron dadas por una empresa ya que se piensa que son las que tienen mayor influencia en el proceso. X1: La gravedad del petróleo crudo , 0API X2: La presión de vapor del petróleo crudo, Psi X3: El punto de 10% ASTM para el petróleo crudo, 0F X4: El punto final ASTM para la gasolina , 0F. A continuación se describen las variables de predicción y sus parámetros. Lo primero que aclararemos es que ASTM es un organismo de normalización de los Estados Unidos de América. Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10% ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final para la gasolina es la temperatura para la cual se ha evaporado todo el líquido. Se realizara un estudio para ver que también describen este modelo, observar si hay alguna relación entre las variables y si la encontramos eliminarla para evitar la colinealidad. Nos ayudaremos con el programa ETS el cual esta preparado para analizar regresiones. A continuación se exponen los datos que nos fueron dados para realizar este análisis.

Page 3: Petro Leo estad

- 3 -

Y X1 X2 X3 X4

6,9 38,4 6,1 220 235

14,4 40,3 4,8 231 307

7,4 40 6,1 217 212

8,5 31,8 0,2 316 365

8 40,8 3,5 210 218

2,8 41,3 1,8 267 235

5 38,1 1,2 274 285

12,2 50,8 8,6 190 205

10 32,2 5,2 236 267

15,2 38,4 6,1 220 300

26,8 40,3 4,8 231 367

14 32,2 2,4 284 351

14,7 31,8 0,2 316 379

6,4 41,3 1,8 267 275

17,6 38,1 1,2 274 365

22,3 50,8 8,6 190 375

24,8 32,2 5,2 236 360

26 38,4 6,1 220 365

34,9 40,3 4,8 231 395

18,2 40 6,1 217 272

23,2 32,2 2,4 284 424

18 31,8 0,2 316 428

13,1 40,8 3,5 210 273

16,1 41,3 1,8 267 358

32,1 38,1 1,2 274 444

34,7 50,8 8,6 190 345

31,7 32,2 5,2 236 402

33,6 38,4 6,1 220 410

30,4 40 6,1 217 340

26,6 40,8 3,5 210 347

27,8 41,3 1,8 267 416

45,7 50,8 8,6 190 407

Page 4: Petro Leo estad

- 4 -

Comienzo del análisis: Cargamos los datos proporcionados al ETS.

Page 5: Petro Leo estad

- 5 -

Una vez hecho esto se correrá el programa y con este obtendremos la matriz de correlaciones.

Y también nos proporcionara los distintos tipos de modelos que se pueden armar mediante las cuatro variables predictorias. Mediante diferentes tipos de

Page 6: Petro Leo estad

- 6 -

Nos ayudaremos con diferentes indicadores para poder elegir el modelo que mas se ajuste a nuestro problema. Criterios estadísticos a utilizar en el análisis: Coeficiente de determinación múltiple, R2, y R2 ajustado, son algunas medidas habituales en el análisis de regresión, denotando el porcentaje de varianza justificado por las variables independientes. El R2 ajustado tiene en cuenta el tamaño del conjunto de datos, y su valor es ligeramente inferior al de su correspondiente R2

El R2 es un criterio de valoración de la capacidad de explicación de los modelos de regresión, y representa el porcentaje de la varianza justificado por la variable independiente Si todas las observaciones están en la línea de regresión, el valor de R2 es 1, y si no hay relación lineal entre las variables dependiente e independiente, el valor de R2 es 0. El coeficiente R2 es una medida de la relación lineal entre dos variables. A medida que su valor es mayor, el ajuste de la recta a los datos es mejor, puesto que la variación explicada es mayor; así, el desajuste provocado por la sustitución de los valores observados por los predichos es menor. Se toma por lo general que: R2 ≥ 0.90 podremos decir que el modelo es predictivo y explicativo 0.5 ≤ R2 < 0.90 podremos decir que el modelo es explicativo. Si el R2 es menor que 0.50 el modelo será descartado. Uno trata de buscar que los modelos sean predictivos y explicativos. Matriz de correlación:

Page 7: Petro Leo estad

- 7 -

Como dijimos antes vamos a utilizar esta matriz. En esta los elementos Rij son los coeficientes de correlación entre las variables X1, X2, X3 y X4. Cualquier Rij elevado en valor absoluto (0.9 o superior) de un elemento no diagonal de esta matriz, será una indicación de que las variables involucradas superponen información y por lo tanto, una de ellas podría eliminarse. El determinante de la matriz de correlaciones cumple con: 0 < DET < 1 Corresponde 0 a multicolinealidad perfecta y 1 a la ausencia absoluta de multicolinealidad, denominada ortogonalidad, que solo se presenta en experimentos diseñados. Los valores del DET cercanos a 0 son indicaciones de multicolinealidad en un grado que puede ser severo. El umbral es DET < 0.1 , sospecharemos que hay multicolinealidad es nuestros datos, mayor cuando mas cercano a 0 este dicho indicador PRESS : La sigla PRESS significa prediction sum of squares, o sea suma de cuadrados de predicción y es una medida de la capacidad predictiva del modelo. Obviamente a menor PRESS, el modeleo dará mejores pronósticos. Para que los cálculos del PRESS sean más sencillos se utilizan los residuos de este, que están directamente relacionados con los residuos ordinarios. VIF:

Page 8: Petro Leo estad

- 8 -

Factor de inflación de varianza (VIF). (VIF del ingles, variance inflation factors). Este factor se usa para revisar los problemas de multicolinealidad , es decir, cuando las variables regresoras están altamente correlacionadas entre si.

Si un R2i es alto, significa que la variable Xi provoca multicolinealidad pues está relacionada linealmente con otras y esto redunda en un VIF alto. Si un VIF es mayor que 10 (o sea R2i 0,9) implica que la variable correspondiente es perturbadora en lo que a la multicolinealidad respecta. Si hay una o mas variables con VIF mayores que 10, convendrá eliminar la que tiene el VIF mayor y ver si asi se resuelve el problema de la multicolinealidad. CP:

Para modelos completo, con las K variables explicativas , el CP es igual a P. Para un modelo incompleto, pero que puede ser optimo , el CP será distinto de P, por lo general , mayor. Ahora , si el CP es mucho mayor que P, tomándose como umbral a 5P, entonces significa que el modelo esta muy incompleto y que hay información esencial contenida en variables del sistema no incluidas en el modelo. El CP puede ser útil para descartar modelos pobres. Por ejemplo , cuando tenemos muchas variables explicativas, podemos simplificar el análisis , descartando todos los modelos cuyos CP sea muy elevado. Nostros usaremos CP/P y si CP/P > > > 1 diremos que el modelo no es bueno. Parsimonia: En la selección del mejor modelo de Regresión Múltiple deberá tener importancia prioritaria la sencillez del mismo, dada por el menor numero de variables explicativas, o sea parámetros desconocidos. Análisis:

Page 9: Petro Leo estad

- 9 -

Una vez presentados los criterios a utilizar y cargados los datos al programa nos disponemos a realizar el análisis. Primero vamos a analizar el problema con todas las variables explicativas , esto nos da 15 modelos posibles que podrían explicar y hasta predecir el problema. Procedemos a revisar los modelos mediante los criterios ya explicados. 1)Primero ponemos para que nos ordene los modelos que tengan un mayor R2 .

Vemos que los primeros cuatro modelos están con un R2 ajustado cercano a 0.9 y eso nos dice que el modelo es explicativo. El modelo que se encuentra primero “E3;E4” se podría llegar a decir que es explicativo y predictivo por su cercano valor a 0.9 pero lo consideraremos como explicativo solamente para ser mas rigurosos con en análisis. Por lo tanto se observa que aplicando el criterio de R2 ajustado solo modelos se podrían considerar cuatro modelos se podrían considerar. 2) Procedemos a poner en orden decreciente el CP/P.

Recordando que los modelos con CP/P que son mas grande que el valor “1” no son buenos modelos, se ve que esos cuatros modelos cumplen con este criterio. Son los mismos cuatro que cumplían con el criterio de R2 ajustado .

Page 10: Petro Leo estad

- 10 -

3) Aplicamos el criterio del DET. Descartaremos los modelos que tengan un DET< 0.1. El programa viene con un opción para poder descartar los modelos que cumplen con esa condición ahorrándonos tiempo a nosotros.

Como se puede observar de los 15 modelos iniciales quedan 13 modelos. Y uno de los modelos que se descarto fue “E1;E2;E3;E4” el cual según los otros criterios era aceptable para este no. Después de estos procesos nos estamos quedando con tres modelos :

4) Utilizaremos el criterio del VIF.Vamos a pedir que el VIF>10.

Page 11: Petro Leo estad

- 11 -

Se puede observar que ningún modelo fue descartado del análisis, asi que el criterio no nos ayudo. 5) Criterio PRESS. El PRESS es una poderosa herramienta , vamos a ordenar los modelos de menor a mayor y nos quedaremos con los que tengan el menor PRESS.

Observamos que los modelos “E3;E4” y “E2;E3;E4” son los que menor PRESS tienen. Podríamos decir que el modelo “E3;E4” es mejor que el modelo “E2;E3;E4” pero para no cometer errores vamos a tomarlo en cuenta. También podríamos fijarnos si los modelos “E3” ; “E4” por si solos pueden servirnos, uno busca siempre tener la menor cantidad de variables y que mejor que poder explicar y hasta predecir con un modelo con usa sola variable. Empezamos con “E3” : Hacemos que el problema realice los cálculos para este modelo:

Page 12: Petro Leo estad

- 12 -

Nos encontramos con un R2 ajustado muy bajo este modelo no es explicativo y mucho menos predictivo. Queda totalmente descartado.

Page 13: Petro Leo estad

- 13 -

Vemos que pasa con “E4” :

Podemos observar que el valor de es superior al 0,50 y por definición podríamos decir que el modelo es explicativo. Pero no lo vamos a tomar ya que supera el valor de 0.50 y los otros modelos analizados anteriormente casi son modelos predictivos lo cual nos dejaría tener mucha mas información. Finalización:

Page 14: Petro Leo estad

- 14 -

Pasaremos a revisar los dos modelos que quedaron como candidatos para explicar el problema. Empezaremos con el modelo “E2;E3;E4”.

En este modelo quedo descartada la variable X1 la cual media la gravedad del petróleo crudo. La cual depende de la variable X3 ya que la gravedad medida en grados API depende del tipo de crudo (liviano, medio, pesado). Se observa que los coeficientes son b2=0.135 , b3=-0.177, b4=0.147. Pero notamos que el b2 es no significativo tiene un alfa=0.83 por lo que queda descartado del modelo. Quedándonos que b3 y b4. Ahora analicemos que nos dicen estos valores: 1) El valor de b3=-0,1769. O sea por cada grado F adicional en que aumenta 10% ASTM de la gasolina, se estima que la producción de petróleo crudo disminuye en 0,1769. Esto nos indica que tendríamos que cambiar el punto donde se extrae la muestra para intentar mejorar la producción. 2) El valor de b4=0.1471 nos dice que estos nos favorece para la producción del combustible. O sea por cada grado F adicional en que aumenta el punto final ATSM de la gasolina, se estima que la producción de petróleo crudo aumenta en 0,1471. Esto lo podemos dejar asi ya que nos favorece.

Page 15: Petro Leo estad

- 15 -

El otro modelo “E3;E4” tiene el mismo análisis que el anterior.

Lo que podemos observar es que el b3 es un poco mayor en valor absoluto lo que empeoraría la muestra de combustible final pero no es muy grande asi que no nos vamos a preocupar. Con lo que nos quedaríamos con este modelo para explicar el problema.

Page 16: Petro Leo estad

- 16 -

Supuestos: La ecuación teórica seria

Y= β0 + β3 X3 + β4 X4 + ε Y= variables aleatoria la cual se trata de explicar. X= variables explicativas. Usadas para explicar la variables y ε= ruido o error El ruido o error “ε” toma en cuenta todos los errores que no tuvimos en cuenta.

Ahora que nosotros tenemos el modelo para nuestro caso por ultimo y para que este se

pueda utilizar tendremos que ver si verifica cuatros supuestos.

Page 17: Petro Leo estad

- 17 -

1) V εi = σ2

Mediante el Excel realizamos un diagrama de dispersión y con él, nos ayudamos para ver si encontrábamos heterocedasticidad.

No se nota nada raro en el diagrama que de indicios de heterocedasticidad como una especie de embudo o alguna forma rara. Por lo tanto podemos decir que es homocedastica cumpliendo con el supuesto.

Y E 22,24 -15,34 20,82 -6,42 22,55 -15,15 13,79 -5,29 23,32 -15,32 18,07 -15,27 17,42 -12,42 25,52 -13,32 20,49 -10,49 21,87 -6,67 20,39 6,41 15,98 -1,98 12,63 2,07

17,9 -11,5 16,68 0,92 24,49 -2,19

20 4,8 21,4 4,6 20,1 14,8

22,04 -3,84 15,26 7,94 12,01 5,99 23,03 -9,93 17,43 -1,33 15,83 16,27 23,24 11,46 19,77 11,93 21,07 12,53 21,46 8,94 22,26 4,34 16,86 10,94 22,13 23,57

Y vs E

-20

-15

-10

-5

0

5

10

15

20

25

30

0 5 10 15 20 25 30

E

Y

Page 18: Petro Leo estad

- 18 -

2) εi independientes Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los residuos. El estadístico de Durbin-Watson proporciona información sobre el grado de independencia existente entre ellos:

Nuevamente con ayuda del Excel calculamos el valor del estadístico y el mismo nos da un valor de d= 0,71724478. Como el mismo es mayor que 0 y menor que 4 como se pide, quedando demostrado este supuesto. 3) εi deben seguir una distribución Normal. Mediante el programa Movac vamos a demostrar que los residuos siguen una distribución Normal. Cargamos los datos en el mismo

Page 19: Petro Leo estad

- 19 -

Vemos que los mismo se ajustan bien a la distribución Normal.

Tiene el R más alto y el valor de Lver mas bajo. Y es el único que pasa la prueba de Kolmorov-Smirnov que el programa Movac utiliza para verificar. Con todo lo anteriormente dicho, el grafico y al ver que pasa todas las demás pruebas podemos confirmar que los residuos siguen una distribución Normal. 4) E εi = 0 Este queda demostrado por los demás supuestos. Por lo tanto podemos afirmar que los supuestos se cumplen y que podemos realizar la regresión para este modelo.

Page 20: Petro Leo estad

- 20 -

Conclusión Como dijimos nos quedaremos con el modelo “E3;E4” el cual tiene las variables X3,X4. El modelo tiene menor número de variables , la mitad de las que se tenía al comenzar, siendo más sencillo que el modelo completo(Principio de Parsimonia). Los valores de b3=-01857 y b4=0.1477 con valores de alfa=0 para ambos casos diciendo que son valores significativos. Nos queda como ecuación : Y=14.9997-0.1857 * X3 + 0.1447 * X4 . El modelo es explicativo y no es predictivo. En un futuro se podrían buscar diferentes puntos de extracción para intentar mejorar la producción de combustible.