matchillerato.files.wordpress.com€¦  · web viewinferencia estadÍstica. introducciÓn. para...

8
INFERENCIA ESTADÍSTICA INTRODUCCIÓN Para determinar una característica desconocida de una población como, por ejemplo, la altura media, sueldo medio, proporción de número de hipotecas, …no podemos realizar un estudio estadístico descriptivo de toda la población. No podemos medir a toda la población, ni preguntar a todos su sueldo ni si tienen o no una hipoteca suscrita. La inferencia estadística nos va a permitir estimar características de una población a partir de la información obtenida de una parte representativa de la población. A partir de una muestra inferimos resultados a la población. Cuando nos referimos a un valor representativo de la población, hablaremos de parámetros y cuando nos refiramos a un valor representativo de la muestra hablaremos de estadístico. Si el estadístico de la muestra sirve para aproximar el parámetro de la población también se le puede llamar estimador. La estadística descriptiva nos permite realizar el estudio de una característica de una muestra de la población, a través del cálculo de algunos estadísticos como: la media muestral ( ), la desviación típica muestral ( ) o la proporción ( ) La notación que emplearemos para referirnos a los parámetros de la población serán las letras griegas , para la media y para la desviación típica y p para la proporción. ¿Cuál es el modo de proceder, entonces? Partimos de una población y seleccionamos una muestra X 1 de modo aleatorio de tamaño n. Determinamos la media, o la proporción . Si seleccionamos otra muestra diferente X 2 , del mismo tamaño, la media y la proporción obtenidas serán diferentes, y . Con cada muestra que tomemos obtendremos unos estadísticos diferentes y estudiaremos cómo se distribuyen esos diferentes valores. En ambos casos veremos que la distribución de la media muestral y de la proporción muestral siguen una distribución normal. ESTADÍSTICA DESCRIPTIVA Se ha preguntado a 30 alumnos sobre el número de teléfonos móviles que tiene en su casa obteniendo los siguientes resultados: 1 3 2 5 4 4 2 3 3 3 3 4 2 5 3 2 3 4 4 3 3 2 4 2 3 3 4 3 4 4 Distribuimos los datos en una tabla de frecuencias y hallamos la media y la desviación: x i f i x i · f i x i 2 · f i 1 1 1 1 2 6 12 24 3 12 36 108 4 9 36 144 5 2 10 50 30 95 327

Upload: others

Post on 20-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la

INFERENCIA ESTADÍSTICAINTRODUCCIÓNPara determinar una característica desconocida de una población como, por ejemplo, la altura media, sueldo medio, proporción de número de hipotecas, …no podemos realizar un estudio estadístico descriptivo de toda la población. No podemos medir a toda la población, ni preguntar a todos su sueldo ni si tienen o no una hipoteca suscrita.

La inferencia estadística nos va a permitir estimar características de una población a partir de la información obtenida de una parte representativa de la población. A partir de una muestra inferimos resultados a la población.

Cuando nos referimos a un valor representativo de la población, hablaremos de parámetros y cuando nos refiramos a un valor representativo de la muestra hablaremos de estadístico. Si el estadístico de la muestra sirve para aproximar el parámetro de la población también se le puede llamar estimador.

La estadística descriptiva nos permite realizar el estudio de una característica de una muestra de la población, a través del

cálculo de algunos estadísticos como: la media muestral ( ), la desviación típica muestral ( ) o la proporción ( )

La notación que emplearemos para referirnos a los parámetros de la población serán las letras griegas , para la media y para la desviación típica y p para la proporción.

¿Cuál es el modo de proceder, entonces?

Partimos de una población y seleccionamos una muestra X1 de modo aleatorio de tamaño n. Determinamos la media, o la

proporción .

Si seleccionamos otra muestra diferente X2, del mismo tamaño, la media y la proporción obtenidas serán diferentes, y .

Con cada muestra que tomemos obtendremos unos estadísticos diferentes y estudiaremos cómo se distribuyen esos diferentes valores.

En ambos casos veremos que la distribución de la media muestral y de la proporción muestral siguen una distribución normal.

ESTADÍSTICA DESCRIPTIVA Se ha preguntado a 30 alumnos sobre el número de teléfonos móviles que tiene en su casa obteniendo los siguientes resultados:

1 3 2 5 4 4 2 3 3 3 3 4 2 5 3

2 3 4 4 3 3 2 4 2 3 3 4 3 4 4

Distribuimos los datos en una tabla de frecuencias y hallamos la media y la desviación:

xi fi xi · fi xi2 · fi

1 1 1 1

2 6 12 24

3 12 36 108

4 9 36 144

5 2 10 50

30 95 327

DISTRIBUCIÓN DE PROBABILIDAD. DISTRIBUCIÓN NORMALSe llama variable aleatoria a toda función definida en el espacio muestral de un experimento aleatorio, que asocia a cada elemento del espacio un número real.

Ejemplo: El espacio muestral del experimento que consiste en extraer, sin reemplazamiento, dos bolas de una urna que contiene 5 bolas rojas y 3 negras es E = {RR, RN, NN}. La función que asocia a cada elemento del espacio muestral el “número de bolas rojas obtenidas” puede tomar los valores reales 0, 1 y 2.

Esta función es una variable aleatoria cuyo recorrido es el conjunto finito {0, 1, 2}.

Ejemplo: Se selecciona al azar un alumno de segundo de bachillerato. La función que asocia a cada elemento del espacio muestral su estatura, puedo tomar infinitos valores dentro de un intervalo. Por ejemplo [150, 200]

El primer caso se trata de una v.a. discreta y el segundo de una v.a. continua.

Page 2: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la

Las variables continuas pueden tomar cualquier valor en un intervalo de la recta real, por ello no tiene sentido calcular la probabilidad de un valor concreto, pero si determinar la probabilidad de que la variable tome valores dentro de un intervalo determinado.Ejemplo: Se ha tomado la tensión sistólica a 500 pacientes y se han representado los datos en un histograma de frecuencias relativas, siendo la longitud de los intervalos 10 (figura 1). Después se toma la tensión a 500 pacientes más y se representan los datos en un histograma donde la amplitud de los intervalos es 5 (figura 2)

Estas gráficas representan las distribuciones de observaciones procedentes de variables aleatorias continuas.

Si se aumenta el número de observaciones y se disminuyen las longitudes de los intervalos de clase, el polígono de frecuencias tiende a una curva continua f que se denomina función de densidad de la variable X.

Las alturas de los rectángulos en los histogramas eran valores mayores o iguales que cero, luego se cumple f(x) ≥ 0 para todo x. El área de cada uno de los histogramas que representaban las frecuencias era 1, luego el área de la figura que la función de densidad determina con el eje de abscisas es también 1.

La distribución de probabilidad de una variable aleatoria continua X viene dada por una función, denominada función de densidad, que permite el cálculo de probabilidades relacionado con la variable.

Se dice que una función, f(x), definida sobre la recta real es función de densidad de una variable aleatoria continua X si cumple las dos condiciones siguientes:

f(x) ≥ 0, para todo x número real.

El área limitada por la gráfica y el eje de abscisas es 1.

Cálculo de probabilidades de una variable aleatoria continua. Función de distribución

Si f(x) es la función de densidad de la variable aleatoria X, la probabilidad de que la variable tome un valor del intervalo [a, b] de la recta real es el área comprendida bajo la gráfica de la función de densidad, el eje de abscisas (OX) y las rectas verticales x = a y x = b.

La probabilidad de que una variable aleatoria continua X tome un valor concreto es 0.

Para calcular probabilidades de variables continuas utilizaremos las integrales.

Distribución normalUno de los patrones que más aparece en la práctica es la distribución normal. Muchas variables continuas siguen esta distribución: pesos, alturas, concentración de glucosa en sangre, las notas en una determinada materia, errores de medición en cualquier magnitud….La proporción es tan elevada, que en un principio se llegó a pensar que todas las variables continuas seguían esta distribución, de ahí que se le llame normalUna variable aleatoria continua X sigue una distribución normal de media y desviación típica , y se designa por N(, ), si se cumplen las siguientes condiciones:1ª La variable recorre toda la recta real; es decir, (, +).2ª La función de densidad, que es la expresión en términos de ecuación matemática de la curva de Gauss, es

f(x) = donde: e = 2,7182..., constante: base de los logaritmos neperianos.

= 3,1415, ..., constante.x = abscisa, valor cualquiera de un punto de intervalo. = media de la variable aleatoria X (parámetro). = desviación típica de la variable aleatoria X (parámetro).f(x) = ordenada de la curva.

Distribución normal estándar

95 105

115

125

135

145

155

165

175

185

0

0.1

0.2

0.3

92.5

102.5

112.5

122.5

132.5

142.5

152.5

162.5

172.5

182.5

0

0.05

0.1

0.15

Page 3: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la

De las infinitas distribuciones N(, ), tiene especial interés la distribución N(0, 1); es decir, aquella que tiene por media el valor cero ( = 0) y por desviación típica la unidad ( = 1). Esta distribución se llama ley normal estándar, o bien distribución normal reducida.

La función de densidad para = 0 y = 1 es f(x) = La distribución N(0, 1) se encuentra tabulada, lo cual permite un cálculo rápido de las probabilidades asociada a esta distribución. Una variable X que sigue una distribución N (, ), puede transformarse en otra variable Z que siga una distribución N(0, 1). Esta transformación se conoce con el nombre de tipificación de la variable.

Uso de tablasLas probabilidades correspondientes a una variable Z con distribución N(0, 1) pueden hallarse utilizando las tablas que proporcionan la probabilidad de que una variable tome un valor menor que cierta cantidad, es decir, P(Z ≤ a) con a > 0. Cálculo de p(Z ≤ a)Esta probabilidad se obtiene directamente de la tabla. Se redondea “a” a dos cifras decimales, y se seleccionan en el margen izquierdo de la tabla la fila correspondiente a las unidades y décimas, y en el margen superior la columna que corresponde a las centésimas. El valor que está en la intersección de la fila y la columna es la probabilidad buscada.Ejemplo: P(Z ≤ 1,12)Marcamos la fila correspondiente al valor 1,1 y la columna que corresponde a 0,02. La intersección es 0,8686, por tanto P(Z ≤ 1,12) = 0,8686Para calcular la probabilidad P(Z ≤ a), con a negativo no puede hacerse directamente con la tabla. Pero teniendo en cuenta la simetría de la función de densidad, y que el área encerrada por la curva es 1, resulta:P(Z ≤ a) = P(Z > -a) = 1 – P(Z ≤ -a)Ejemplo: P(Z < 1,12) = P(Z > 1,12) =1 P(Z < 1,12) = 1 0,8686 = 0,1314Cálculo de P(Z > a)

Estas probabilidades no aparecen en la tabla, pero pueden deducirse de ella.

P(Z >a ) = 1 – P(Z ≤ a)

Ejemplo: P(Z > –1,12) = 1 – P(Z ≤ –1,12) = 1 – ( 1 – P( z ≤ 1,12)) = p(Z ≤ 1,12) = 0,8686

Cálculo de P(a ≤ Z ≤ b)

La probabilidad pedida es igual al área sombreada. Su valor se obtiene restando al área mayor la menor.

P(a ≤ Z ≤ b) = P(Z ≤ b) – P(Z ≤ a)

Si tanto a como b fuesen números negativos, teniendo en cuenta la simetría de la curva, se tiene:

P(a ≤ Z ≤ b)= P(–b ≤ Z ≤ –a)

Ejemplos: P(1,43 ≤ Z ≤ 2,26)= P(Z ≤ 2,26) – P(Z ≤ 1,43) = 0,9981 – 0,9236 = 0,0745

P(0,53 < Z 2,46) = P(Z 2,46) P(Z 0,53) = P(Z 2,46) P(Z > 0,53) = P(Z 2,46) (1 P(Z 0,53)) =

= 0,9931 (1 0,7019) = 0,695

Ejemplo Una variable X sigue una distribución normal de media 5 y desviación típica 1,2. Tipifica la variable X y calcula con ayuda de la tabla las siguientes probabilidades P(X 4) y P(4 X 6)

La variable Z = sigue una distribución N(0, 1)

Page 4: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la

Intervalo que corresponde a una probabilidad fijada

En ocasiones lo que interesa no es calcular la probabilidad de un intervalo, sino encontrar un intervalo que tenga una cierta probabilidad, es decir lo que se quiere hallar es el valor de a que cumple P(Z ≤ a) = p, para una probabilidad p fijada.

Si p > 0,5, el valor de a se obtiene directamente de la tabla.

Si p ≤ 0,5, el valor de a no aparece en la tabla. Entonces se utiliza que 1 – p = p(Z ≤ -a). Se busca en la tabla –a y el valor de a buscado es su opuesto.

Ejemplo: Para , encontramos directamente el valor en la tabla: a = 1,66

Ejemplo: Si X es una variable normal N(2; 0,75) encuentra a tal que P(X ≤ a) = 0,15

Como en la tabla no aparece 0,15, se busca el valor correspondiente a 1 – 0,15 = 0,85 que es 1,04.

Ejemplo. La duración de un artículo sigue una distribución normal de medía 500 días y desviación 50 días. La garantía del artículo cubre los primeros 400 días. ¿Cuál es la probabilidad de que el artículo se estropee en los primeros 500 días y fuera del periodo de garantía?

Sea X la variable que mide la duración del artículo, X sigue una distribución N(μ = 500, = 50)

Intervalo característico

Si X es una variable que sigue una distribución N(0, 1), se llama intervalo característico correspondiente a una probabilidad p

a un intervalo centrado en la media, tal que la probabilidad de que x pertenezca a dicho intervalo es p.

Si dentro del intervalo hay un área (probabilidad) de p; fuera de él habrá una probabilidad de 1 – p. Por simetría, en cada una

de las colas queda un área de . Buscamos en la tabla el valor k que hace

Si hacemos y , hay que buscar en la

tabla el valor que hace

En el caso de una distribución N(μ , ), el intervalo característico correspondiente a la probabilidad es

Los principales valores críticos son

0,8 0,9 0,95 0,990,2 0,1 0,05 0,010,1 0,05 0,025 0,0050,9 0,95 0,975 0,995

1,282 1,645 1,96 2,575

Page 5: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALESEjemplo: La DGT desea conocer el peso medio de la carga que transportan los turismos que circulan por las carreteras en una operación salida.

La carga media será y la desviación típica .

Con el fin de tener una idea aproximada se selecciona una muestra de 100 vehículos y se obtiene kg y kg.

Si se eligen otras muestras, del mismo tamaño, se obtienen otras medias, y otras desviaciones, .

Los diferentes valores de las medias muestrales dan lugar a una variable aleatoria que se representa por . Esta distribución se llama distribución de las medias muestrales o distribución en el muestreo de la media y se comporta como una

distribución normal de media igual a la media de la población, , y desviación típica igual a , siendo la desviación típica de la población y n el tamaño de la muestra.

Ejemplo: La emisión de óxido de nitrógeno de los vehículos de cierta marca sigue una distribución normal de median

y desviación típica . Se escoge al azar una muestra de 25 vehículos

a) ¿Cuál es la distribución en el muestreo de la media?b) Halla la probabilidad de que la media de la muestra sea mayor que 1,2.

a) X = “emisión de óxido de nitrógeno de los vehículos” =

b)

DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALESEjemplo: Se elige al azar una muestra de 40 jóvenes y se observa que 6 de ellos son miopes, por tanto, la proporción de

miopes es del 15%, . Si elegimos otras muestras del mismo tamaño, obtendremos otras proporciones

Los diferentes valores de las proporciones muestrales dan lugar a una variable aleatoria que se representa por . Esta distribución se llama distribución de las proporciones muestrales y se comporta como una distribución normal de media igual

a la proporción de la población, p, y desviación típica igual a , donde n es el tamaño de la muestra.

Ejemplo. En unas elecciones, el 52% de la población votó al candidato A. Si antes de las elecciones se hubiese hecho un sondeo en una muestra de 500 habitantes, ¡cuál hubiese sido la probabilidad de obtener menos de un 50% de votos para ese candidato, suponiendo que se ha mantenido la intención de voto?

Sea ”proporción de votantes del candidato A” =

Page 6: matchillerato.files.wordpress.com€¦  · Web viewINFERENCIA ESTADÍSTICA. INTRODUCCIÓN. Para determinar una característica desconocida de una población como, por ejemplo, la