estadística inferencial

19

Click here to load reader

Upload: adolfo-rodriguez

Post on 24-Jun-2015

1.219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística inferencial

INTRODUCCIÓN.

El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.

Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, la mediana, la varianza y la desviación estándar. Cuando estos términos describen las características de una población, se llaman parámetros. Cuando describen las características de la muestra, se llaman estadísticos. Una estadística es una característica de una muestra y un parámetro es una característica de la población.

La teoría de muestreo puede emplearse para obtener información acerca de muestras obtenidas aleatoriamente de una población conocida. Sin embargo, desde un punto de vista práctico, suele ser más importante y capaz de inferir información acerca de una población a partir de muestras de ellas.

Un problema importante de la inferencia estadística es la estimación de parámetros poblacionales o simplemente parámetros a partir de los estadísticos muéstrales correspondientes o estadísticos, en este breve resumen trataremos de dar un panorama general de lo que es una estimación de parámetros abarcando desde conceptos hasta los principales modelos matemáticos.

1

Page 2: Estadística inferencial

UNIDAD 3. ESTIMACIÓN DE PARÁMETROS.

1.- LOS DOS PROBLEMAS QUE ATIENDE LA ESTADÍSTICA INFERENCIAL

Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura

Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser controlado por el diseño del estudio.

Para decidir el tamaño muestral se consideran dos puntos:

En un problema de estimación hay que tener una idea de la magnitud a estimar y del error aceptable. En un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.

2. ESTIMACIÓN.

Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.

2

Page 3: Estadística inferencial

Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.

En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n.

Conceptos.

Estimación: valor específico de un estimador, calculado en base a una muestra dada.

Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido.

Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales.

Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido.

Estimador: estadística de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria.

Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra.

Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador.

Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población.

Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro.

Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población.

Límites de confianza: límites inferior y superior de un intervalo de confianza.

3

Page 4: Estadística inferencial

Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.

Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional. []

3. TIPOS DE ESTIMADORES.

Podemos hacer dos tipos de estimaciones concernientes a una población:

Una estimación puntual, es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada.

Es decir, consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de un parámetro de una población que es desconocido. Por ejemplo, la media muestral x es un estimador puntual de la media poblacional µ y la proporción muestral pˆ es un estimador puntual de la verdadera proporción poblacional p.

Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno de estimación es prácticamente improbable que el valor de la estimación coincida con el verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro. Una solución a ello no los brindan los estimadores por Intervalos de Confianza.

Una estimación de intervalo, es un intervalo de valores que se utiliza para estimar un parámetro de población.

Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.

Es la estimación de un parámetro de la población dado por dos números que forman un intervalo que contiene al parámetro con una cierta probabilidad.

4. CARACTERÍSTICAS DE UN BUEN ESTIMADOR.

Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la

4

Page 5: Estadística inferencial

población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando.

Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.

Coherencia. Una estadística es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes.

Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población.

Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población.

También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra.

Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.

5. ESTRUCTURA GENERAL DE UN INTERVALO DE CONFIANZA

Se llama intervalo de confianza en estadística a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto.

5

Page 6: Estadística inferencial

Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional.

La probabilidad de éxito en la estimación se representa por 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1]

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro se distribuya normalmente. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α % para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

6. INTERPRETACIÓN DE (1- α)

El nivel de confianza es la probabilidad a priori de que el intervalo de confianza a calcular contenga al verdadero valor del parámetro. Se indica por 1-α y habitualmente se da en porcentaje 100 (1-α)%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el 100 (1-α)% de los intervalos así construidos contendría al verdadero valor del parámetro.

Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%, que se corresponden con valores α de 0,05 y 0,01 respectivamente.

Valor α

También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100-95)/100 = 0,05

6

Page 7: Estadística inferencial

7. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN, 2 CONOCIDA

Supongamos que disponemos de una población en la que tenemos una v.a. con distribución con σ conocida (de estudios previos, por ejemplo). Obtenemos una muestra de tamaño n y deseamos estimar la media µ de la población.

El estimador puntual de la misma es la media muestral cuya distribución muestral es conocida

La cantidad

Tendrá distribución normal estándar.

Sobre la distribución N(0 , 1) podremos seleccionar dos puntos simétricos -zα/2 y zα/2 , tales que

 

Selección de los puntos críticos para el cálculo del intervalo de confianza.

 

Sustituyendo Z por su valor en este caso particular

7

Page 8: Estadística inferencial

Despejando la media muestral y la varianza

 

 

Que verifica las condiciones de la definición. 

Así, el intervalo de confianza para la media puede escribirse como

En la práctica, de todos los posibles valores de tenemos uno sólo y por tanto un único intervalo de todos los posibles para distintas muestras

 

La importancia del intervalo de confianza para la estimación está en el hecho de que el intervalo contiene información sobre el estimador puntual (valor central del intervalo) y sobre el posible error en la estimación a través de la dispersión y de la distribución muestral del estimador. Obsérvese que el error en la estimación está directamente relacionado con la distribución muestral del estimador y con la varianza poblacional, e inversamente relacionado con el tamaño muestral.

El gráfico siguiente ilustra la interpretación del nivel de confianza para el intervalo de confianza para la media de una distribución normal con varianza conocida. Para los distintos posibles valores de la media, representados mediante su distribución muestral, obtenemos distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parámetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del 95%.

En la práctica disponemos de una única repetición del experimento, y por tanto de un único intervalo de confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que nuestro intervalo sea de la mayoría que con tiene al verdadero valor objetivo aunque no tenemos la seguridad de que sea así, tenemos concretamente un riesgo del 5% de equivocarnos.

 

8

Page 9: Estadística inferencial

Interpretación del nivel de confianza en el intervalo para la media de una distribución normal.

8. ERROR DE ESTIMACIÓN.

Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, más error se comete al aumentar la precisión. Se suele llamar E, según la fórmula E = θ2 - θ1.

Tres factores que lo determinan:

Cuando se mide una cantidad, ya sea directa o indirectamente, la medida que se obtiene no es necesariamente el valor exacto de tal medida, ya que el resultado obtenido estará afectado por errores debidos a la multiplicidad de factores. Algo en apariencia tan sencillo como cronometrar el período de oscilación de un péndulo simple, sufrirá errores debidos a la precisión del cronómetro, los reflejos del cronometrador, las corrientes de aire, el número de medidas efectuadas ... errores que se propagarán a cualquier cantidad derivada de ésta que queramos determinar, como por ejemplo velocidad o aceleración.

En estos casos es necesario estimar el error cometido al efectuar una medida o serie demedidas. El conjunto de reglas matemáticas dedicado a su estudio se conoce como teoría de errores, y resulta imprescindible en el análisis de un conjunto de datos experimentales en cuanto a la fiabilidad de estas mediciones.

9

Page 10: Estadística inferencial

9. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA MEDIAS

Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la población. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño de la muestra necesaria.

Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la población para obtener una estimación burda pero manejable de la desviación estándar. Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de la media incluyen casi toda el área de la distribución.

Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios en la muestra (N) son:

Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y Zα/2 de 1,96.s2: Varianza de la distribución de la variable cuantitativa que se supone que existe en la población.i: Precisión con que se desea estimar el parámetro (2i es la amplitud del intervalo de confianza).

Existen tres factores para determinar el tamaño de la muestra.

El nivel de confianza deseado, expresado normalmente mediante Z

El máximo error permitido, E

La variación de la población expresada por S

Su fórmula es:      n = ( ZS / E ) 2

10. INTERVALO DE CONFIANZA PARA LA PROPORCIÓN DE UNA POBLACIÓN

Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número de diabéticos en 2000 personas).

Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal con

media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción

10

Page 11: Estadística inferencial

muestral), que es también aproximadamente normal, con error típico dado por en consecuencia, un IC para p al 100(1 - a)% será

Es decir, la misma estructura que antes:

Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq £ 0,25 si se substituye pq por 0,25 se obtiene un intervalo más conservador (más grande).

Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad.

11. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA PROPORCIONES

Para calcular el tamaño de muestra para la estimación de proporciones poblacionales hemos de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirá determinar el tamaño muestral es la siguiente:

Donde

: z correspondiente al nivel de confianza elegido

11

Page 12: Estadística inferencial

P: proporción de una categoría de la variable

e: error máximo

N: tamaño de la población

12. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN, 2 DESCONOCIDA

Si y s son la media y la desviación estándar de una muestra aleatoria de una población normal con varianza σ2, desconocida, un intervalo de confianza de (1-α) 100% para µes:

Donde tα/2 es el valor t con v = n - 1 grados de libertad, que deja un área de σ/2 a la derecha.

Se hace una distinción entre los casos de σ conocida y σ desconocida al calcular las estimaciones del intervalo de confianza. Se debe enfatizar que para el primer caso se utiliza el teorema del límite central, mientras que para σ desconocida se hace uso de la distribución muestral de la variable aleatoria t. Sin embargo, el uso de la distribución t se basa en la premisa de que el muestreo se realiza de una distribución normal.

En tanto que la distribución tenga forma aproximada de campana, los intervalos de confianza se pueden calcular cuando la varianza se desconoce mediante el uso de la distribución t y se puede esperar buenos resultados.

Con mucha frecuencia los estadísticos recomiendan que aun cuando la normalidad no se pueda suponer, con σ desconocida y n 30, s puede reemplazar a σ y se puede utilizar el intervalo de confianza:

Por lo general éste se denomina como un intervalo de confianza de muestra grande. La justificación yace sólo en la presunción de que con una muestra grande como 30, s estará muy cerca de la σ real y de esta manera el teorema del límite central sigue valiendo. Se debe hacer énfasis en que esto es solo una aproximación y que la calidad de este enfoque mejora a medida que el tamaño de la muestra crece más.

12

Page 13: Estadística inferencial

CONCLUSIÓN

La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma.

Los dos problemas fundamentales que estudia la inferencia estadística son el "Problema de la estimación" y el "Problema del contraste de hipótesis"

Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parámetros que la determinan, estamos en un problema de inferencia estadística paramétrica; por el contrario cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.

Un  estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y la desviación típica, también denominada error típico de estimación, que indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro.

Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro. Se indica por 1-a y habitualmente se da en porcentaje (1-a)100%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1-a)% de los intervalos así construidos contendría al verdadero valor del parámetro.

13

Page 14: Estadística inferencial

BIBLIOGRAFÍA

Douglas Montgomery & George Runger, Probabilidad y estadística aplicadas a la ingeniería, McGraw-Hill

http://www.itch.edu.mx/academic/industrial/estadistica1/cap03.html

http://www.stadcenterecuador.com/contenidos/estadistica-inferencial.html?q=contenidos%2Festadistica-inferencial.html&showall=1

http://es.wikipedia.org/wiki/Intervalo_de_confianza

http://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica

http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM

http://www.hrc.es/bioest/esti_medias.html

14