estadística i guión de la práctica 2 probabilidad y …...1 estadística i guión de la práctica...
TRANSCRIPT
1
Estadística I
Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística
1. Simulación de las variables aleatorias
En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para
simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los
pasos para simular valores de variables aleatorias son iguales para todo tipo de variables.
Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado
Análisis de Datos:
Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función
aparece la siguiente ventana:
Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1.
Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra.
Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o
bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal).
Parámetros: introducir los parámetros de la distribución.
Iniciar con: dejamos en blanco.
Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y
le damos algún nombre, según la distribución que seleccionamos.
2
1.1. Variables aleatorias discretas: Bernoulli y Binomial
1.1.1. En primer lugar, simulamos una muestra de n = 50 observaciones de una distribución Bernoulli:
. Abrimos la ventana de simulación de una variable aleatoria, como hemos visto
antes, rellenamos los siguientes campos y pulsamos Aceptar:
En la columna A tenemos una muestra aleatoria simple de una distribución Bernoulli con parámetro p =
0.4. Sabemos, que y , entonces y .
Calculamos la media y varianza muestrales usando las funciones de Excel PROMEDIO y VAR,
comparamos con los valores verdaderos:
Importante: cada alumno tendrá resultados diferentes porque los valores simulados son aleatorios.
1.1.2. Siguiendo los mismos pasos simulamos una muestra de n = 100 de una distribución Binomial:
.
3
Calculamos la media y varianza verdaderos y comparamos con la media y varianza muestrales:
1.2. Variables aleatorias continuas: Normal
Queremos generar una muestra de n = 20 de una Normal: , donde y . Seguimos
los mismos pasos que antes, calculamos la media y desviación típica muestrales:
¿Están los valores estimados cerca de los valores verdaderos? ¿Qué pasaría si en vez de n = 20,
tuviéramos n = 1000?
2. Estimación puntual y ajuste
2.1. Gráfica Cuantil – Cuantil (QQ - plot) para una distribución Normal
Usamos los mismos datos que hemos generado antes de una Normal . Primero, insertamos
una fila arriba del todo para los nombres de las columnas. Después, seleccionamos todos los datos y
ordenamos de menor a mayor a través del menú Datos y obtenemos la siguiente vista:
El siguiente paso sería calcular los cuantiles muestrales con las observaciones, pero antes tenemos que
asignar el rango a cada observación. Nos posicionamos en la celda B2 y escribimos 1, eso significa que el
número en A2 es la primera observación. En B3 introducimos la formula =B2+1 y copiamos la formula
hasta el final. Finalmente, podemos calcular los cuantiles muestrales en la tercera columna. Nos
posicionamos en la celda C2 e introducimos la formula =(B2-0.5)/20 (recordad que 20 es el tamaño
4
muestral). Copiamos esta fórmula hasta el final. Para comprobar si los cuantiles están bien, podemos
calcular que la mediana debería ocupar la posición (20+1)/2=10.5, entre 10 y 11. Como podemos ver, el
Q50% aparece justo entre las posiciones 10 y 11.
Finalmente, tenemos que calcular los valores de nuestra distribución Normal estimada, asociados con
cada cuantil: , donde y se corresponden a la media y desviación típica muestrales. Antes de
hacerlo, calculamos los z-scores, que son los valores de una distribución Normal estándar, asociados con
cada cuantil. Nos posicionamos en la celda D2, introducimos la siguiente función de Excel
=DISTR.NORM.ESTAND.INV(C2), y copiamos la formula hasta el final. Para convertir estos z-scores a los
valores asociados con la muestra original, hay que hacer la operación inversa, es decir la estandarización
inversa: multiplicar cada z-score por la desviación típica muestral y sumar la media estimada de X (lo
vamos a llamar x-scores):
Tenemos toda la información necesaria para dibujar un QQ – plot. Antes de hacerlo, hay que copiar la
columna A de datos originales a la derecha de la columna E de x-scores, porque así Excel reconoce mejor
qué datos son del eje x, y cuáles son del eje y.
Seleccionamos las dos columnas y vamos al menú Insertar, Dispersión, donde seleccionamos el tipo de
gráfico que queremos (sólo puntos):
5
Para cambiar el tamaño o estilo de los puntos, hay que posicionarse encima de los puntos, botón
derecho, Dar formato a serie de datos…, Opciones de marcador.
Si los datos han sido realmente generados por la distribución considerada, entonces los puntos del
gráfico deben disponerse a lo largo de una línea recta. Para introducir esta línea, copiamos en la
columna G los X-scores, seleccionamos las tres columnas y hacemos otra vez: Insertar, Dispersión… Así
Excel dibuja no solo los puntos de nuestra distribución generada, sino, también los puntos que
corresponden a la línea recta (ojo: al copiar y pegar la columna X-scores, se copian las formulas,
así que en el Pegado Especial, que aparece pulsando botón derecho del ratón, tenemos que elegir Sólo
Valores).
Cuando aparece el siguiente gráfico, cambiamos el estilo de los puntos de X-score para que aparezca una
línea recta: nos posicionamos encima de los puntos, botón derecho, Dar formato a series de datos,
Opciones de marcador: ninguno, Color de línea: Línea Sólida.
6
Finalmente obtenemos el siguiente gráfico:
Como podemos ver, los puntos del gráfico se disponen a lo largo de la línea recta. Eso significa que la distribución se
ajusta muy bien.
2.2. Ajuste gráfico: histograma de área unitaria y curva de densidad
Usamos los mismos datos anteriores (generación de una Normal ). Para la ilustración del
ejemplo se generan de nuevo 20 observaciones de una Normal . Para construir el
histograma, tal y como se explicó en el laboratorio 1, se necesita disponer de los siguientes datos:
Número de observaciones (n): 20
Valor mínimo: -3,470255928 _ Considerar -3,4
Valor máximo: 3,70535465 _ Considerar 3,8
Rango: 7,2
Número de clases: 20^(1/2)= 4,472135955 _ 4 ó 5 clases.
Los pasos a seguir serían los siguientes:
1.- Supongamos que se van a utilizar 5 clases. Siguiendo los pasos explicados en el laboratorio 1, se establece la longitud de los intervalos (rango / número de clases = 1,44) y los límites superiores de las clases empezando por el valor mínimo y luego sumando al límite anterior la amplitud.
2.- Una vez obtenidos los límites superiores de las clases hacemos el histograma seleccionando Análisis de datos en la pestaña Datos; Histograma y pulsando Aceptar. De esta manera obtenemos la frecuencia absoluta de cada intervalo.
7
3.- Se calculan las frecuencias relativas asociadas a cada intervalo (frecuencia relativa -fi- = frecuencia absoluta / n).
4.- Para lograr un histograma de área unitaria (o histograma de área 1), es decir, un histograma que encierra un área total igual a 1, es necesario dividir las frecuencias relativas por la amplitud de los intervalos (fi/ai) obteniéndose así la altura de las barras.
De esta forma se grafica el histograma de área unitaria. Para ello, se cambian los datos de la columna de frecuencias absolutas por las alturas para conseguir un histograma de área unitaria. También quitamos el espacio entre barras.
8
5.- Una vez obtenido el histograma de área unitaria se puede añadir la curva de densidad de la normal.
Para realizar la gráfica de la N(,), los valores del eje OX se obtienen como el punto central entre un valor y el siguiente (es decir, se calculan como el límite inferior más la mitad de la amplitud).
6.- Sobre estos valores se calcula el valor de la densidad de la normal y se añade al gráfico. Es necesario calcular la media y desviación típica de los valores simulados. Para ello se pueden utilizar, por ejemplo, las funciones estadísticas PROMEDIO y DESVEST.
La densidad se calcularía utilizando la función DISTR.NORM
DISTR.NORM(“punto central”;PROMEDIO(A$2:A$21);DESVEST(A$2:A$21);0)
Para añadir la curva al gráfica, hay que posicionarse encima del gráfico, botón derecho, Seleccionar datos, Agregar, nombre de la serie (por ejemplo, curva) y valores de la serie (seleccionamos la probabilidad –densidad- de la normal). De esta forma añade las barras correspondientes a las densidades en otro color.
Con el fin de que se dibuje como una curva, hay que posicionarse encima de las barras de las densidades, botón derecho, Cambiar tipo de gráfico, Líneas (seleccionamos un tipo de línea sin puntos).
9
3. Intervalos de confianza
Para calcular un intervalo de confianza puede utilizarse la función INTERVALO.CONFIANZA
INTERVALO.CONFIANZA
Devuelve el intervalo de confianza para la media μ de una población con distribución normal.
Alfa: es el nivel de significación usado para calcular el nivel de confianza. El nivel de confianza es
igual a 100*(1 - alfa)%, es decir, un alfa de 0,05 indica un nivel de confianza del 95%.
Desv_estándar: desviación estándar de la población para el rango de datos. Se presupone conocida.
Tamaño: es el tamaño de la muestra.
El intervalo de confianza para la media poblacional, dado el nivel de significación, se calcula sumándole a
la media muestral el valor calculado con esta fórmula obteniendo así el límite superior del intervalo y
restándole el mismo valor para obtener el límite inferior del intervalo.
10
Ejemplo
Para estimar la calificación media de una determinada asignatura en una Universidad se ha obtenido una
muestra de 35 expedientes de alumnos que la han cursado. Se sabe por otros cursos que la calificación
de dicha asignatura puede aproximarse mediante una distribución Normal, N(,), y que, además, la
desviación típica de las calificaciones de dicha asignatura en esa Universidad es de 2,41 puntos. Sabiendo
que la calificación media de la muestra obtenida ha sido de 5,02, se pide calcular:
a) El intervalo de confianza para la media con un nivel del 90% de confianza
INTERVALO.CONFIANZA(0.1;2,41;35) = 0,67005473
Por tanto, el intervalo será: 5,02 – 0,67005473 ; 5,02 + 0,67005473
(4,34994527; 5,69005473)
b) El intervalo de confianza para la media con un nivel del 95% de confianza
INTERVALO.CONFIANZA(0.05;2,41;35) = 0,67005473
Por tanto, el intervalo será: 5,02 – 0,787905522 ; 5,02 + 0,787905522
(4,232094478; 5,807905522)
11
4. Ejercicio para entregar al final de clase.
4.1. Simula una variable aleatoria de tamaño n = 150 de la distribución Uniforme X U(3,12) , calcula la
media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 1.
4.2. Simula una variable aleatoria de tamaño n = 50 de la distribución Normal X N(4,2) .
a. Calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en
la Tabla 2.
b. Dibuja el QQ – plot (sólo en Excel) de estos datos y comenta los resultados.
c. Dibuja el histograma de área uno y ajústalo a la curva de densidad
d. Calcula el intervalo de confianza para la media con un nivel del 98% considerando una muestra
aleatoria de tamaño = 250.
12
Respuestas del apartado 4. Nombre y Apellidos:____________________________________________________________ NIU:_____________________Grado:___________________________________Grupo______
Tabla 1. Resultados de n = 150, X U(3,12)
X Estimada Verdadera
Media
Varianza
Desviación típica
Tabla 2. Resultados de n = 50, X N(4,2)
X Estimada Verdadera
Media
Varianza
Desviación típica
Comenta los resultados del QQ – plot:
_______________________________________________________________________________________________
______________________________________________________________________________________________
_______________________________________________________________________________________________
_______________________________________________________________________________________________
Intervalo de confianza para con un nivel del 98% considerando un tamaño muestral de 250.
Escribe la función de Excel y el resultado:
INTERVALO.CONFIANZA( ; ; ; ) = Por tanto, el intervalo de confianza será ( , ).