práctica de ajuste de distribuciones - est.uc3m.es · desmarcamos en opciones ajustes de...

6
1 Grados en Ingeniería en Tecnologías Industriales, Ingeniería Eléctrica, Ingeniería en Electrónica Industrial y Automática e Ingeniería Mecánica Práctica de ajuste de distribuciones Fichero de datos: datosajuste.sf3 1. OBJETIVO Se trata de ajustar modelos de distribución a datos reales. Una vez que hayamos hecho esto, podremos utilizar las propiedades de la función de densidad o distribución para calcular proba- bilidades. 2. DATOS El fichero contiene datos de cuatro variables: Peso: Peso en kg de 117 estudiantes de ingeniería. Alturas: Altura en cm de 60 personas. Espera autobuses: Tiempo de espera al llegar a una parada de autobús en hora punta. Beneficios sucursales : Beneficios antes de impuestos (€) de 130 sucursales de una enti- dad bancaria. 3. AJUSTE DE DISTRIBUCIONES Para realizar el ajuste de la variable peso seleccionamos las opciones: DESCRIBIR / AJUSTE DE DISTRIBUCIONES / AJUSTE DE DATOS NO CENSURADOS

Upload: lamhuong

Post on 02-Jul-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

1

Grados en Ingeniería en Tecnologías Industriales,

Ingeniería Eléctrica,

Ingeniería en Electrónica Industrial y Automática

e Ingeniería Mecánica

Práctica de ajuste de distribuciones

Fichero de datos: datosajuste.sf3

1. OBJETIVO Se trata de ajustar modelos de distribución a datos reales. Una vez que hayamos hecho esto, podremos utilizar las propiedades de la función de densidad o distribución para calcular proba-bilidades.

2. DATOS El fichero contiene datos de cuatro variables:

Peso: Peso en kg de 117 estudiantes de ingeniería.

Alturas: Altura en cm de 60 personas.

Espera autobuses: Tiempo de espera al llegar a una parada de autobús en hora punta.

Beneficios sucursales : Beneficios antes de impuestos (€) de 130 sucursales de una enti-dad bancaria.

3. AJUSTE DE DISTRIBUCIONES

Para realizar el ajuste de la variable peso seleccionamos las opciones: DESCRIBIR / AJUSTE DE DISTRIBUCIONES / AJUSTE DE DATOS NO CENSURADOS

Page 2: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

2

Y llegamos al siguiente cuadro de diálogo, donde introducimos la variable peso.

Tras aceptar, el pro-grama nos presenta el ya conocido con-junto de distribucio-nes, para escoger el modelo al que que-remos ajustar los da-tos. Por defecto, Statgraphics® ajusta los datos a una distribución normal.

Mantenemos la opción de distribución normal, y pasamos a un nuevo cuadro de diálogo (Tablas y Gráficos) con las diversas opciones de análisis:

Manteniendo las opciones por defecto, llegamos al siguiente resultado:

A B

C D

Page 3: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

3

La ventana A muestra el número y rango de los datos, y la distribución teórica ajustada: una normal de media 69.1709 y desviación típica 10.8503. La ventana B (traza de densidad) dibuja una función de densidad a partir de los datos de la mues-tra. Esta función sigue exactamente la distribución de nuestros datos, pero suavizada. La ventana D es el histograma de los datos al que se superpone la función de densidad de la distribución teórica, en este caso la N(69.17, 10.852). Visualmente, la curva parece ajustarse bas-tante bien al histograma. Sin embargo, el programa ha dividido los datos en 21 clases, lo que

resulta excesivo para una muestra de 117 datos. Puesto que √117 = 10.816, un histograma de 11 o 12 clases parece más razonable.

Efectivamente parece haber un buen ajuste, pero la simple obser-vación visual no es suficiente para decidir si el modelo es adecuado. Para ello debemos utilizar los test de bondad de ajuste. La ventana C presenta el primero de ellos, el de Kolmogorov-Smir-nov. El criterio para valorar la bon-dad del ajuste es el p-valor (que se estudiará con detalle más ade-lante). Indica la probabilidad de en-contrar una muestra más desfavo-

rable que la que tenemos si los datos proceden de la distribución elegida, en este caso, la N(69.17, 10.852) estimada. Cuanto más pequeño sea el p-valor, más improbable será que nuestros datos se ajusten a la distribución elegida. En nuestro caso, puede observarse que el p-valor obtenido es superior a 0.05, con lo que no rechazaríamos la hipótesis de que los datos son normales.

Sin embargo, no es un test especialmente potente, por lo que habitualmente utiliza-remos el de la Chi-cuadrado. Para acceder a él abrimos con el botón derecho del ratón las Opciones de Ventana de las pruebas de bondad de ajuste El primer lugar aparece el test de la Chi-cuadrado (o prueba Chi-cuadrada), con la opción usar clases equiprobables marcada por defecto. Esta opción aumenta la preci-sión del test en muestras muy grandes, pero en muestras relativamente pequeñas conduce a la existencia de clases vacías que pueden invalidar el test. Así, pues, marca-

mos la opción Chi-cuadrada, pero desmarcamos usar clases equiprobables.

Page 4: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

4

El resultado obtenido si hacemos 12 clases en el histograma es el siguiente: Con un p-valor de 0,484767, no rechazaríamos la hipótesis de que los datos son normales. Vamos a ajustar ahora a nuestros datos una distribución triangular. Para ello volvemos al cuadro de diálogo Opciones Ajustes de Distribuciones mediante el segundo botón de la barra sobre la ventana de ajustes:

Si no desmarcamos la distribución normal, el programa añade el análisis actual al anterior, con lo que podemos comparar las funciones de densidad y los p-valores.

Gráficamente, el resultado sería:

Con lo que observamos que la nueva distribución (en rojo)

presenta un peor ajuste. Los p-valores son:

En estadística se habla a veces de una manera algo especial: en lu-

gar de decir “aceptamos que los datos son normales”, decimos “no rechaza-

mos que los datos son normales”. La conclusión es la misma.

Page 5: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

5

Como son menores de 0.05, rechazamos que los datos provengan de una distribución triangular. 3. CÁLCULO DE PROBABILIDADES CON LA DISTRIBUCIÓN AJUSTADA Una vez ajustada la distribución, podemos usar su función de densidad para calcular cualquier probabilidad. En nuestro caso, con una N(69.17, 10.852), queremos calcular la probabilidad de que un estu-diante pese menos de 50 kg. Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, para quedarnos solo con la normal, y accedemos al cuadro de diálogo de tablas y gráficos

Marcamos “Áreas de Cola” y “Valores Críticos” en las op-ciones de análisis.

“Áreas de Cola” nos proporciona la probabilidad de que un individuo pese más (o menos) que ciertos valores críticos. Para introducir los valores de interés vamos con el botón derecho del ratón a Opciones de Ventana. Pongamos 55, 65, 75, 85 y 95, y obtendremos el siguiente resul-tado

Es decir: * P(Peso< 55)=0.096 * P(Peso< 65)=0.350 * P(Peso< 75)=0.704 * P(Peso< 85)=0.928 * P(Peso< 95)=0.991

Page 6: Práctica de ajuste de distribuciones - est.uc3m.es · Desmarcamos en Opciones Ajustes de Distribuciones la distribución de valores extremos, ... valores críticos introducimos probabilidades,

6

A la inversa, en la ventana valores críticos introducimos probabilidades, para obtener los valores que dejan a su izquierda esa probabilidad. El programa proporciona las siguientes por defecto,

que se pueden cambiar, como siempre, mediante las Opciones de Ventana. En este caso, sólo el 1% inferior pesa 43,93 kg o me-nos; el 10% pesa 55,27 kg o menos, etcétera.

La dirección:

http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm

Tiene una completa lista de las distribuciones habitualmente utilizadas en Ingeniería y sus fórmulas.

Esta dirección pertenece al NIST (National Institute of Standards and Technology) cuya página princi-

pal (Handbook de Estadística) es:

http://www.itl.nist.gov/div898/handbook/index.htm