estadistica 2
TRANSCRIPT
INSTITUTO TECNOLOGICO DE VERACRUZ
Alumnos:
Garay Sosa Eduardo.
Barrios Pérez Raymundo.
Bravo Rodríguez Josey Sloan.
Materia: Estadística I.
Catedrático: Ing. Claudio Yepez Sosa.
Semestre: Agosto Diciembre 2011.
Índice
Tema pagina
Introducción…………………………………………………………...….1
Unidad 2 Distribuciones Muéstrales
2.1 Introducción…………………………..………………………..…...…2
2.2 Teorema de combinación lineal de variables aleatorias y teorema del límite
central……………………………………………………………….…......3
2.3 Muestreo: Introducción al muestreo y tipos de muestreo…….....…15
2.4 Teorema del límite central……………………………………….......21
2.5 Distribución muestral de la media…………………………..….…..23
2.6 Distribución muestral de la diferencia de medias……………...…24
2.7 Distribución muestral de la proporción………………...………….27
2.8 Distribución muestral de la diferencia de proporciones………….29
2.9 Distribución muestral de la varianza……………………………….31
2.10 Distribución muestral de la relación de varianzas……………….34
Unidad 3 Estimación de parámetros
3.1 Introducción……………………………………………………...…..37
3.2 Características de un buen estimador…………………….…….…37
3.3 Estimación puntual……………………………………………....….39
3.3.1 Métodos………………………………………………………...….41
3.3.1.1 Máxima verosimilitud……………………………………..…….42
3.3.3.2 Momentos…………………………………………………….…..45
3.4 Intervalo de confianza para la media………………………..……..46
3.5 Intervalo de confianza para la diferencia de medias……….……..49
Conclusiones……………………………………………………….…….53
Bibliografía……………………………………………………….……..54
Introducción
El presente trabajo es una investigación donde se expone la importancia de
las condiciones bajo las que trabaja cualquier empleado y deberán ser seguras,
es decir, no deben suponer una amenaza o una posibilidad significativa de
sufrir un daño de cierta entidad, que pueda incapacitar aunque sea parcial y
temporalmente, por parte de los trabajadores en relación con el trabajo.
Las distribuciones muéstrales: pueden definirse como el estudio de
determinadas características de una población se efectúa a través de diversas
muestras que pueden extraerse de ella.
El muestreo puede hacerse con o sin reposición, y la población de partida
puede ser infinita o finita. Una población finita en la que se efectúa muestreo
con reposición puede considerarse infinita teóricamente. También, a efectos
prácticos, una población muy grande puede considerarse como infinita. En
todo nuestro estudio vamos a limitarnos a una población de partida infinita o a
muestreo con reposición.
Estimación de parámetros: Es el procedimiento util izado para
conocer las características de un parámetro poblacional, a
partir del conocimiento de la muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una
estimación de un valor de un parámetro de la población.
En tal sentido el presente trabajo es una investigación se realiza con el
objetivo de examinar un tema o problema de investigación. Sirve para
familiarizarnos con los conceptos básicos de estadística.
Unidad 2 Distribuciones Muéstrales
2.1 Introducción
Distribuciones Muéstrales
En estudios pasados de Estadísticas centramos nuestra atención en técnicas
que describen los datos, tales como organizar datos en distribuciones de
frecuencias y calcular diferentes promedios y medidas de variabilidad.
Estábamos concentrados en describir algo que ya ocurrió.
También comenzamos a establecer los fundamentos de la estadística
inferencial, con el estudio de los conceptos básicos de la probabilidad, las
distribuciones de probabilidad discretas y continuas. Distribuciones que son
principalmente generadas para evaluar algo que podría ocurrir. Ahora veremos
otro tipo de distribución de probabilidad, que se llaman distribuciones
muéstrales.
¿Por qué muestrear?
Muestrear es una forma de evaluar la calidad de un producto, la opinión de los
consumidores, la eficacia de un medicamento o de un tratamiento. Muestra es
una parte de la población. Población es el total de resultados de un
experimento. Hacer una conclusión sobre el grupo entero (población) basados
en información estadística obtenida de un pequeño grupo (muestra) es hacer
una inferencia estadística.
A menudo no es factible estudiar la población entera. Algunas de las razones
por lo que es necesario muestrear son:
1. La naturaleza destructiva de algunas pruebas
2. La imposibilidad física de checar todos los elementos de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de la población.
5. El tiempo para contactar a toda la población es inviable.
Distribución Maestral de las Medias
El ejemplo de los ratings de eficiencia muestra como las medias de muestras
de un tamaño específico varían de muestra a muestra. La media de la primera
muestra fue 101 y la media de la segunda fue 99.5. En una tercera muestra
probablemente resultaría una media diferente. Si organizamos las medias de
todas las posibles muestras de tamaño 2 en una distribución de probabilidad,
obtendremos la distribución maestral de las medias.
Distribución maestral de las medias. Es una distribución de probabilidad de
todas las posibles medias muéstrales, de un tamaño de muestra dado,
seleccionada de una población.
2.2 Teorema de combinación lineal de variables
aleatorias y teorema del límite central.
Variable Aleatoria
En el tratamiento que se ha dado, hasta el momento, a los fenómenos
aleatorios se ha visto que los eventos elementales no son necesariamente
números. Sin embargo, en muchas situaciones experimentales se requiere que
el resultado de la observación realizada sea registrado como un número, para
responder a preguntas planteadas con respecto al fenómeno de observación.
Así tenemos los siguientes ejemplos.
Ejemplo: Supongamos ahora que cada una de tres personas a las que
denominaremos A, B, C, tiran una moneda y se ajustan a las siguientes reglas:
Si las tres monedas muestran el mismo lado, no se efectúa pago alguno. En
todos los otros casos, la persona con el lado diferente recibe una unidad
monetaria de cada una de las otras personas.
Desde el punto de vista A se tendría la correspondencia
css 2 scc 2
ccc 0 sss 0
ssc -1 csc -1
scs -1 ccs -1
Luego A puede considerar una función XA cuyo recorrido sea el punto {-1, 0,
2}
Como vemos en estos ejemplos, a partir del espacio muestral asociado al
fenómeno aleatorio en cuestión, considerado como dominio de una cierta
función, se ha generado un conjunto cuyos elementos son números. Desde el
punto de vista del modelo, el concepto que responde al requerimiento
planteado, es el de variable aleatoria, cuya definición formal es la siguiente.
Definición: Dado un campo de probabilidad oe y una función real
valorada X, cuyo dominio es y su recorrido es un conjunto no vacío de
números reales, se dice que X es una variable aleatoria si para cada número
real a que se considere, el conjunto de los eventos elementales tales que
es un evento, es decir
oe
Simbólicamente tenemos la función
R ,
Tal que
oe para cada número a. (1)
Podemos notar que si consideramos oe = PT , entonces la condición (1) no
necesita ser explícitamente comprobada, pues por ser un conjunto de
eventos elementales, es decir un subconjunto de , es siempre un evento. En
cambio, si el sigma álgebra de eventos no coincide con el conjunto potencial
del espacio muestral, puede ocurrir que la condición (1) no se satisfaga para
algún valor de a y entonces la función en consideración no sería una variable
aleatoria, como ilustraremos a través de los siguientes ejemplos.
Ejemplo: En relación con el ejemplo 3.2, consideremos
Oe
y el número real a tal que Tenemos entonces
oe
por lo que podemos afirmar que XA no es una variable aleatoria en el campo
oe .
Ejemplo: Sea el espacio maestral y sea la función Y tal que Y (a) = O y Y (b) = Y (c) = Y (d) = 1
Si consideramos oe = PT entonces para cada número real a y
por ende oe, por que podemos afirmar que Y es una variable aleatoria sobre el campo
oe .
Si, en cambio consideramos oe1 dado por
oe1
la situación es
donde se tiene oe1. En este caso, entonces, Y no es una variable
aleatoria definida sobre oe1 .
A este punto del desarrollo resulta conveniente plantear las siguientes observaciones.
Observaciones:
1. Desde el punto de vista de la teoría, la terminología de variable
aleatoria no parece ser muy adecuada por que se la define como
función y se la denomina variable. Sin embargo, se mantiene la
denominación debido a que los valores que realmente puede
tomar la variable aleatoria dependen del resultado observado, es
decir dependen del azar.
2. De acuerdo con lo observado en los ejemplos 3.3 y 3.4, no toda
función concebible es una variable aleatoria, pero esta dificultad
no se presenta en las aplicaciones donde, como se ha establecido
antes, el modelo a considerar tiene como sigma álgebra de
eventos, en general, el conjunto potencia del espacio muestral
asociado.
3. En algunos casos cada evento elemental es ya una característica
numérica, y se tendrá que X es la función identidad pues
.
4. En la mayoría de las discusiones no interesa la naturaleza
funcional de X, sino sus posibles valores.
5. Por su naturaleza de función, a cada evento elemental W le
corresponde un solo valor de X, pero diferentes eventos
elementales pueden llevar a un mismo valor de X.
6. El recorrido o campo de variación de X, denotamos por RX se
denomina a veces espacio recorrido y, en cierto sentido, puede
ser considerado como un espacio muestral, punto de partida
para construir un modelo de probabilidad: el modelo asociado a
la característica numérica en estudio. Si la variable aleatoria es
la función identidad, entonces .
7. Al presentar la definición de la variable aleatoria, se ha hecho uso de la siguiente notación
en forma similar tenemos
notación que se interpreta diciendo que
sí y sólo si
Condiciones para Variable Aleatoria
Desde el punto de vista de la teoría, es conveniente disponer de algunas
condiciones necesarias y suficientes, para que una función real valorada cuyo
dominio en un espacio muestral sea una variable aleatoria. Condiciones que
permitirán demostraciones de propiedades de variables aleatorias. La
demostración de la validez de las condiciones que se presentan se apoya, a su
vez, en el uso de ciertos lemas referentes a conjuntos de eventos elementales
asociados con valores de funciones con dominio de un espacio muestral, los
cuales forman parte de esta sección.
Lema: Si X es una función real valorada con dominio entonces
para todo número real a.
Teorema: Sea X una función con dominio y con recorrido un conjunto no
vacío de números reales. Entonces X es una variable aleatoria sí y sólo si
oe
para todo número real a.
Suficiencia: Supongamos, ahora, que oe para todo número real a.
Entonces se cumple que
oe
por propiedad de oe. Y, por el teorema 3.1, X es una variable aleatoria.
Teorema: Si X es una función cuyo dominio es y cuyo recorrido es un
conjunto no vacío de números reales, entonces X es una variable aleatoria sí y
sólo si
oe
para todo número real a.
Teorema: Una condición necesaria y suficiente para que una función X, cuyo
dominio es y su recorrido es un conjunto no vacío de números reales, sea
variable aleatoria es que
oe
para todo par de números reales a, b tales que a < b.
Combinaciones de Variables Aleatorias
Por la naturaleza funcional de las variables aleatorias, se puede realizar
operaciones con ellas, generando nuevas funciones con dominio del espacio
muestral considerando, cuáles se irán definiendo en esta sección a medida que
sean introducidas. La principal preocupación es saber si las funciones
resultantes son a su vez variables aleatorias. Como demostraremos, cualquier
combinación lineal de variables aleatorias proporciona una nueva variable
aleatoria, y en los teoremas que presentamos, se considerarán otras
operaciones con variables aleatorias y las condiciones que hay que exigir para
que el resultado también lo sea.
Teorema: Si X, Y son variables aleatorias definidas sobre el mismo campo de
probabilidad, entonces su suma X + Y es también una variable aleatoria.
Teorema: Si X es una variable aleatoria y si K es un número real cualquiera,
entonces KX es una variable aleatoria.
Teorema: Si X es una variable aleatoria, entonces X2 es variable aleatoria.
Teorema: Si X, Y son variables aleatorias definidas sobre el mismo campo de
probabilidad, entonces su producto XY es una variable aleatoria.
Teorema: Si X Y son variables aleatorias definidas sobre el mismo campo de
Probabilidad y si , entonces es variable aleatoria.
Teorema: Si X, Y son variables aleatorias definidas sobre el mismo campo de
probabilidad, entonces mín (X, Y) es variable aleatoria.
Ejemplo: De una urna que contiene los tres dígitos 1, 2, 3, se extrae al azar un
dígito, se le repone y se extrae al azar un segundo dígito. Sea X la diferencia
del primer dígito menos el segundo dígito extraídos y sea Y el producto de los
mismos. Consideremos las funciones X + Y, XY, mín (X, Y) y , para los
cuales deseamos obtener sus recorridos y decidir si son o no variables
aleatorias.
Resulta conveniente advertir que si disponemos de los recorridos
correspondientes a X y Y no podemos operar indiscriminadamente con los
elementos de estos conjuntos para obtener el recorrido de, por ejemplo, X + Y,
como comprobaremos al efectuar la evaluación correspondiente. Para facilitar
la presentación, construyamos la tabla siguiente.
De esta tabla tenemos que el recorrido de cada una de las funciones X, Y, X +
Y es
de donde vemos que por ejemplo no figure en RX+Y la suma de los puntos
y , por corresponder a diferentes eventos elementales.
En forma similar tenemos para las funciones restantes
Podemos observar que en este caso, es X = mín (X, Y) puesto que a cada
evento elemental w le asignan el mismo número real. Además observamos que
no está definida para w1, w5, y w9 por lo que tenemos dom .
Teorema del límite central
El teorema del límite central o teorema central del límite indica que, en
condiciones muy generales, si Sn es la suma de n variables aleatorias
independientes, entonces la función de distribución de Sn «se aproxima bien» a
una distribución normal (también llamada distribución gaussiana, curva de
Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre
cuando la suma de estas variables aleatorias e independientes es lo
suficientemente grande.
Definición
Sea la función de densidad de la distribución normal definida como
con una media µ y una varianza σ2. El caso en el que su función de densidad
es , a la distribución se le conoce como normal estándar.
Se define Sn como la suma de n variables aleatorias, independientes,
idénticamente distribuidas, y con una media µ y varianza σ2 finitas (σ
2≠0):
de manera que, la media de Sn es n·µ y la varianza n·σ2, dado que son
variables aleatorias independientes. Con tal de hacer más fácil la comprensión
del teorema y su posterior uso, se hace una estandarización de Sn como
para que la media de la nueva variable sea igual a 0 y la desviación estándar
sea igual a 1. Así, las variables Zn convergerán en distribución a la distribución
normal estándar N (0,1), cuando n tienda a infinito. Como consecuencia, si Φ
(z) es la función de distribución de N (0,1), para cada número real z:
donde Pr( ) indica probabilidad y lim se refiere a límite matemático.
Enunciado formal
De manera formal, normalizada y compacta el enunciado del teorema es:
Teorema del límite central: Sea X1, X2, ..., Xn un conjunto de variables
aleatorias, independientes e idénticamente distribuidas con media μ y varianza
σ2 distinta de cero. Sea
Entonces
.
Es muy común encontrarlo con la variable estandarizada Zn en función de la
media muestral ,
puesto que son equivalentes, así como encontrarlo en versiones no
normalizadas como puede ser:
Teorema (del límite central): Sea X1, X2,..., Xn un conjunto de variables
aleatoria, independientes e idénticamente distribuidas de una distribución con
media μ y varianza σ2≠0. Entonces, si n es suficientemente grande, la variable
aleatoria
tiene aproximadamente una distribución normal con y .
Nota: es importante remarcar que este teorema no dice nada acerca de la
distribución de Xi, excepto la existencia de media y varianza.
Ejemplos:
La variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si
lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables
continuas.
Los parámetros de la distribución normal son:
Media: n * m (media de la variable individual multiplicada por el número de
variables independientes)
Varianza: n * s2 (varianza de la variable individual multiplicada por el
número de variables individuales)
Veamos ahora un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si
sale cruz el valor 0. Cada lanzamiento es una variable independiente que se
distribuye según el modelo de Bernouilli, con media 0,5 y varianza 0,25.
Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60
caras.
La variable suma de estas 100 variables independientes se distribuye, por
tanto, según una distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable
normal tipificada equivalente:
(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución
Por lo tanto:
P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60
caras es tan sólo del 2,28%.
Ejercicio 1.
La renta media de los habitantes de un país se distribuye uniformemente entre
4,0 millones ptas. y 10,0 millones ptas. Calcular la probabilidad de que al
seleccionar al azar a 100 personas la suma de sus rentas supere los 725
millones ptas.
Cada renta personal es una variable independiente que se ditribuye según una
función uniforme. Por ello, a la suma de las rentas de 100 personas se le puede
aplicar el Teorema Central del Límite.
La media y varianza de cada variable individual es:
m = (4 + 10) / 2 = 7
s2 = (10 - 4) ^2 / 12 = 3
Por tanto, la suma de las 100 variables se distribuye según una normal cuya
media y varianza son:
Media: n * m = 100 * 7 = 700
Varianza: n * s2 = 100 * 3 = 300
Para calcular la probabilidad de que la suma de las rentas sea superior a 725
millones ptas, comenzamos por calcular el valor equivalente de la variable
normal tipificada:
Luego:
P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749
Es decir, la probabilidad de que la suma de las rentas de 100 personas
seleccionadas al azar supere los 725 millones de pesetas es tan sólo del 7,49%
2.3 Muestreo: Introducción al muestreo y tipos de
muestreo.
En estadística se conoce como muestreo a la técnica para la selección de una
muestra a partir de una población.
Al elegir una muestra se espera conseguir que sus propiedades sean
extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez
obtener resultados parecidos a los que se alcanzarían si se realizase un estudio
de toda la población.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un
estudio adecuado (que consienta no solo hacer estimaciones de la población
sino estimar también los márgenes de error correspondientes a dichas
estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar
enteramente seguros de que el resultado sea una muestra representativa, pero
sí podemos actuar de manera que esta condición se alcance con una
probabilidad alta.
En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la
población, se puede extraer dos o más muestras de la misma población. Al
conjunto de muestras que se pueden obtener de la población se denomina
espacio muestral. La variable que asocia a cada muestra su probabilidad de
extracción, sigue la llamada distribución muestral.
Tipos de muestreo
Existen dos métodos para seleccionar muestras de poblaciones: el muestreo no
aleatorio o de juicio y el muestreo aleatorio (que incorpora el azar como
recurso en el proceso de selección). Cuando este último cumple con la
condición de que todos los elementos de la población tienen alguna
oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente
a cada sujeto de la población es conocida de antemano, recibe el nombre de
muestreo probabilístico. Una muestra seleccionada por muestreo de juicio
puede basarse en la experiencia de alguien con la población. Algunas veces
una muestra de juicio se usa como guía o muestra tentativa para decidir cómo
tomar una muestra aleatoria más adelante.
Muestreo probabilístico
Forman parte de este tipo de muestreo todos aquellos métodos para los que
puede calcular la probabilidad de extracción de cualquiera de las muestras
posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque
en ocasiones no es posible optar por él. En este caso se habla de muestras
probabilísticas, pues no es en rigor correcto hablar de muestras
representativas dado que, al no conocer las características de la población, no
es posible tener certeza de que tal característica se haya conseguido.
Sin reposición de los elementos: Cada elemento extraído se descarta para la
subsiguiente extracción. Por ejemplo, si se extrae una muestra de una
"población" de bombillas para estimar la vida media de las bombillas que la
integran, no será posible medir más que una vez la bombilla seleccionada.
Con reposición de los elementos: Las observaciones se realizan con
reemplazamiento de los individuos, de forma que la población es idéntica en
todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir
una extracción es tan pequeña que el muestreo puede considerarse sin
reposición aunque, realmente, no lo sea.
Con reposición múltiple: En poblaciones muy grandes, la probabilidad de
repetir una extracción es tan pequeña que el muestreo puede considerarse sin
reposición. Cada elemento extraído se descarta para la subsiguiente
extracción.
Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil
la extracción de números aleatorios mediante ordenadores, calculadoras o
tablas construidas al efecto.
Muestreo estratificado
Consiste en la división previa de la población de estudio en grupos o clases
que se suponen homogéneos con respecto a alguna característica de las que se
van a estudiar. A cada uno de estos estratos se le asignaría una cuota que
determinaría el número de miembros del mismo que compondrán la muestra.
Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de
las técnicas de selección más usadas en la práctica.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno
de los estratos, existen dos técnicas de muestreo estratificado:
Asignación proporcional: el tamaño de la muestra dentro de cada
estrato es proporcional al tamaño del estrato dentro de la población.
Asignación óptima: la muestra recogerá más individuos de aquellos
estratos que tengan más variabilidad. Para ello es necesario un
conocimiento previo de la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar
por separado las opiniones de hombres y mujeres pues se estima que, dentro
de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la
población está compuesta de un 55% de mujeres y un 45% de hombres, se
tomaría una muestra que contenga también esos mismos porcentajes de
hombres y mujeres.
Para una descripción general del muestreo estratificado y los métodos de
inferencia asociados con este procedimiento, suponemos que la población está
dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal
que las unidades en cada estrato sean homogéneas respecto a la característica
en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son
denotadas por mi y si2, respectivamente.
Muestreo sistemático
Se utiliza cuando el universo o población es de gran tamaño, o ha de
extenderse en el tiempo. Primero hay que identificar las unidades y
relacionarlas con el calendario (cuando proceda). Luego hay que calcular una
constante, que se denomina coeficiente de elevación K= N/n; donde N es el
tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se
producirá la primera extracción, para ello hay que elegir al azar un número
entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares.
Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.
Esto quiere decir que si tenemos un determinado número de personas que es la
población (N) y queremos escoger de esa población un número más pequeño
el cual es la muestra (n), dividimos el número de la población por el número
de la muestra que queremos tomar y el resultado de esta operación será el
intervalo, entonces escogemos un número al azar desde uno hasta el número
del intervalo, y a partir de este número escogemos los demás siguiendo el
orden.
Se divide la población en subconjuntos tomando en cuenta el factor de
elevación. Por ejemplo: suponga que en una pequeña ciudad de 8,000
habitantes según el censo se va a haber una encuesta y se selecciona una
muestra sistemática de 20 personas entre 1,200 padres de familia para conocer
el grado de aceptación de la gestión administrativas de la ciudad por parte del
presidente municipal...(N = 1200 Población n = 20 Muestra
Factor de Elevación N/n = 1200/20 = 60
N SEDE TRIUNFO) Al azar un número de entre 1 y 60
{3+60} n =
{3,63,123,183,243,303,363,423,483,543,603,663,723,783,843,903,963,1023,1
083,1143.
Muestreo por estadios múltiples
Esta técnica es la única opción cuando no se dispone de lista completa de la
población de referencia o bien cuando por medio de la técnica de muestreo
simple o estratificado se obtiene una muestra con unidades distribuidas de tal
forma que resultan de difícil acceso. En el muestreo a estadios múltiples se
subdivide la población en varios niveles ordenados que se extraen
sucesivamente por medio de un procedimiento de embudo. El muestreo se
desarrolla en varias fases o extracciones sucesivas para cada nivel.
Por ejemplo, si tenemos que construir una muestra de profesores de primaria
en un país determinado, éstos pueden subdividirse en unidades primarias
representadas por circunscripciones didácticas y unidades secundarias que
serían los propios profesores. En primer lugar extraemos una muestra de las
unidades primarias (para lo cual debemos tener la lista completa de estas
unidades) y en segundo lugar extraemos aleatoriamente una muestra de
unidades secundarias de cada una de las primarias seleccionadas en la primera
extracción.
Muestreo por conglomerados
Técnica similar al muestreo por estadios múltiples, se utiliza cuando la
población se encuentra dividida, de manera natural, en grupos que se supone
que contienen toda la variabilidad de la población, es decir, la representan
fielmente respecto a la característica a elegir, pueden seleccionarse sólo
algunos de estos grupos o conglomerados para la realización del estudio.
Dentro de los grupos seleccionados se ubicarán las unidades elementales, por
ejemplo, las personas a encuestar, y podría aplicársele el instrumento de
medición a todas las unidades, es decir, los miembros del grupo, o sólo se le
podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la
ventaja de simplificar la recogida de información muestral.
Cuando, dentro de cada conglomerado seleccionado, se extraen algunos
individuos para integrar la muestra, el diseño se llama muestreo bietápico.
Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El
primer método funciona mejor cuanto más homogénea es la población
respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo,
ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad,
aunque deben ser muy parecidos entre sí.
Homogeneidad de las poblaciones o sus subgrupos
Homogéneo siginifica, en el contexto de la estratificación, que no hay mucha
variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada
uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la
estatura de una población, es bueno distinguir entre los estratos mujeres y
hombres porque se espera que, dentro de ellos, haya menos variabilidad, es
decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas
diferencias entre unas estaturas y otras dentro del estrato que en la población
total.
Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan
las mismas diferencias dentro del estrato que en toda la población, no hay por
qué usar este método de muestreo. En los casos en los que existan grupos que
contengan toda la variabilidad de la población, lo que se construyen son
conglomerados, que ahorran algo del trabajo que supondría analizar toda la
población. En resumen, los estratos y los conglomerados funcionan bajo
principios opuestos: los primeros son mejores cuanto más homogéneo es el
grupo respecto a la característica a estudiar y los conglomerados, si
representan fielmente a la población, esto es, contienen toda su viariabilidad, o
sea, son heterogéneos.
Muestreo de juicio
Aquél para el que no puede calcularse la probabilidad de extracción de una
determinada muestra. Se busca seleccionar a individuos que se juzga de
antemano tienen un conocimiento profundo del tema bajo estudio, por lo
tanto, se considera que la información aportada por esas personas es vital para
la toma de datos.
Muestreo por cuotas
Es la técnica más difundida sobre todo en estudios de mercado y sondeos de
opinión. En primer lugar es necesario dividir la población de referencia en
varios estratos definidos por algunas variables de distribución conocida (como
el género o la edad). Posteriormente se calcula el peso proporcional de cada
estrato, es decir, la parte proporcional de población que representan.
Finalmente se multiplica cada peso por el tamaño de n de la muestra para
determinar la cuota precisa en cada estrato. Se diferencia del muestreo
estratificado en que una vez determinada la cuota, el investigador es libre de
elegir a los sujetos de la muestra dentro de cada estrato.
Muestreo de bola de nieve
Indicado para estudios de poblaciones clandestinas, minoritarias o muy
dispersas pero en contacto entre sí. Consiste en identificar sujetos que se
incluirán en la muestra a partir de los propios entrevistados. Partiendo de una
pequeña cantidad de individuos que cumplen los requisitos necesarios estos
sirven como localizadores de otros con características análogas.
Muestreo subjetivo por decisión razonada
En este caso las unidades de la muestra se eligen en función de algunas de sus
características de manera racional y no casual. Una variante de esta técnica es
el muestreo compensado o equilibrado, en el que se seleccionan las unidades
de tal forma que la media de la muestra para determinadas variables se
acerque a la media de la población.
Véase también
Muestra estadística
Tamaño de la muestra
Error muestral
Ejemplo
Vamos a hallar el intervalo de probabilidad para el peso medio de una muestra
de 100 recién nacidos, con un nivel de confianza de 0,9, sabiendo que
�=3.100 gramos y �=150 gramos.
Solución: como se ha dicho anteriormente, tenemos que evaluar la siguiente
expresión
si consultamos en la tabla de la N (0, 1), comprobaremos que
, por lo tanto, el intervalo de probabilidad será el siguiente:
Que simplificado, es el intervalo
(3.075´325; 3.124´675)
2.4 Teorema del límite central
El Teorema del Límite Central o Teorema Central del Límite indica que, bajo
condiciones muy generales, la distribución de la suma de variables aleatorias
tiende a una distribución gaussiana cuando la cantidad de variables es muy
grande.
Existen diferentes versiones del teorema, en función de las condiciones
utilizadas para asegurar la convergencia. Una de las más simples establece que
es suficiente que las variables que se suman sean independientes,
idénticamente distribuidas, con valor esperado y varianza finitas.
La aproximación entre las dos distribuciones es en general mayor en el centro
de las mismas que en sus extremos o colas, motivo por el cual se prefiere el
nombre ―Teorema del Límite Central‖ (―central‖ califica al límite, más que al
teorema).
Esta relación entre la forma de la distribución de la población y la forma de la
distribución de muestreo se denomina teorema del límite central, que es tal
vez el más importante de toda la inferencia estadística. Nos asegura que la
distribución de muestreo de la media se aproxima a la normal al incrementarse
el tamaño de la muestra. Hay situaciones teóricas en las que el teorema del
límite central no se cumple, pero casi nunca se encuentran en la toma de
decisiones práctica. Una muestra no tiene que ser muy grande para que la
distribución de muestreo de la media se acerque a la normal. Los estadísticos
utilizan la distribución normal como una aproximación a la distribución de
muestreo siempre que el tamaño de la muestra sea al menos de 30, pero la
distribución de muestreo de la media puede ser casi normal con muestras
incluso de la mitad de ese tamaño. La importancia del teorema del límite
central es que nos permite usar estadísticas de muestra para hacer inferencias
con respecto a los parámetros de población sin saber nada sobre la forma de la
distribución de frecuencias de esa población más que lo que podamos obtener
de la muestra.
Ejemplo
En una asignatura del colegio la probabilidad de que te saquen a la pizarra en
cada clase es del 10%. A lo largo del año tienes 100 clases de esa asignatura.
¿Cuál es la probabilidad de tener que salir a la pizarra más de 15 veces?
Se vuelve a aplicar el Teorema Central del Límite.
Salir a la pizarra es una variable independiente que sigue el modelo de
distribución de Bernouilli:
"Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10
"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9
La media y la varianza de cada variable independiente es:
m = 0,10
s 2 = 0,10 * 0,90 = 0,09
Por tanto, la suma de las 100 variables se distribuye según una normal cuya
media y varianza son:
Media: n * m = 100 * 0,10 = 10
Varianza: n * s2 = 100 * 0,09 = 9
Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos
el valor equivalente de la variable normal tipificada:
Luego:
P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475
Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo
largo del curso es tan sólo del 4,75% (¡¡¡ ánimo!!! no es tan grave)
2.5 Distribución muestral de la media
Se encarga de la recolección, clasificación, presentación, organización,
análisis e interpretación de un conjunto de fenómenos, (naturales, económicos,
políticos o sociales) de manera metódica y numérica, que permitan extraer
conclusiones de un hecho, en un momento determinado y así poder tomar
decisiones valederas. Estadística
a) Estadística
b) Física
c) Matemáticas
d) Psicologia
e) Geografía
Ejemplo
Si la vida media de operación de una pila de linterna es de 24 horas y está
distribuida normalmente con una desviación de 3 horas. ¿Cuál es la
probabilidad de que una muestra aleatoria de 100 pilas tenga una media que se
desvíe por más de 30 minutos del promedio?
SOLUCIÓN
P(X > 24.5horas) = 4.85%
μ = 30 horas de duración
_ = 3 horas
n = 100 pilas
La probabilidad de que el promedio de la vida útil de las pilas supere las
24.5horas es de 4.85%.
2.6 Distribución muestral de la diferencia de
medias
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y
desviación estándar 1, y la segunda con media 2 y desviación estándar 2.
Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población
y una muestra independiente aleatoria de tamaño n2 de la segunda población;
se calcula la media muestral para cada muestra y la diferencia entre dichas
medias. La colección de todas esas diferencias se llama distribución
muestral de las diferencias entre medias o la distribución muestral del
estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las
poblaciones son normales, entonces la distribución muestral de medias es
normal sin importar los tamaños de las muestras.
En ejercicios anteriores se había demostrado que y que , por lo
que no es difícil deducir que y que .
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de
diferencia de medias es:
Ejemplo
En un estudio para comparar los pesos promedio de niños y niñas de sexto
grado en una escuela primaria se usará una muestra aleatoria de 20 niños y
otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos
siguen una distribución normal. El promedio de los pesos de todos los niños
de sexto grado de esa escuela es de 100 libras y su desviación estándar es de
14.142, mientras que el promedio de los pesos de todas las niñas del sexto
grado de esa escuela es de 85 libras y su desviación estándar es de 12.247
libras. Si representa el promedio de los pesos de 20 niños y es el
promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad
de que el promedio de los pesos de los 20 niños sea al menos 20 libras más
grande que el de las 25 niñas.
Solución:
Datos:
1 = 100 libras
2 = 85 libras
1 = 14.142 libras
2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
= ?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de
niños sea al menos 20 libras más grande que el de la muestra de las niñas es
0.1056.
2.7 Distribución muestral de la proporción
La necesidad de encontrar la proporción, porcentaje o porciento de una
situación dada en una población es tarea frecuente en estadística.
La distribución muestral de proporciones es el conjunto de todas las muestras
posibles del mismo tamaño extraídas de una población, junto con el conjunto
de todas las proporciones muéstrales.
Ejemplo
Suponga además que se seleccionan muestras aleatorias de tamaño 2 sin
reemplazo. Calcule la antigüedad media para cada muestra, la media de la
distribución muestral y el error estándar, o la desviación estándar de la
distribución muestral.
Solución:
Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las muestras
posibles de tamaño 2, con sus respectivas medias muéstrales.
Muestras Antigüedad Media Muestral
A,B (6,4) 5
A,C (6,2) 4
B,C (4,2) 3
La media poblacional es:
La media de la distribución muestral es:
La desviación estándar de la población es:
El error estándar o la desviación estándar de la distribución muestral es:
Si utilizamos la fórmula del error estándar sin el factor de correción
tendríamos que:
Por lo que observamos que este valor no es el verdadero. Agregando el factor de corrección obtendremos el valor correcto:
2.8 Distribución muestral de la diferencia de
proporciónes
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes. A continuación se citan
algunos ejemplos:
Educación.- ¿Es mayor la proporción de los estudiantes que aprueban
matemáticas que las de los que aprueban inglés?
Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A
que presentan una reacción adversa que el de los usuarios del fármaco B
que también presentan una reacción de ese tipo?
Administración.- ¿Hay diferencia entre los porcentajes de hombres y
mujeres en posiciones gerenciales.
Ingeniería.- ¿Existe diferencia entre la proporción de artículos
defectuosos que genera la máquina A a los que genera la máquina B?
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con
dos proporciones muéstrales, la distribución muestral de diferencia de
proporciones es aproximadamente normal para tamaños de muestra grande
(n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones
muéstrales aproximadamente normales, así que su diferencia p1-p2 también
tiene una distribución muestral aproximadamente normal.
Cuando se estudió a la distribución muestral de proporciones se comprobó que
y que , por lo que no es difícil deducir que
y que .
La fórmula que se utilizará para el calculo de probabilidad del estadístico de
diferencia de proporciones es:
Ejemplo
Los hombres y mujeres adultos radicados en una ciudad grande del norte
difieren en sus opiniones sobre la promulgación de la pena de muerte para
personas culpables de asesinato. Se cree que el 12% de los hombres adultos
están a favor de la pena de muerte, mientras que sólo 10% de las mujeres
adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y
100 mujeres su opinión sobre la promulgación de la pena de muerte,
determine la probabilidad de que el porcentaje de hombres a favor sea al
menos 3% mayor que el de las mujeres.
Solución:
Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100
p (pH-pM 0.03) = ?
Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una
distribución binomial y se está utilizando la distribución normal.
2.9 Distribución muestral de la varianza
La causa es que el promedio de todas las varianzas de las muestras no coincide
con la varianza de la población s2. Se queda un poco por debajo. En concreto,
se verifica que hemos usado el subíndice n para recordar que en la varianza se
divide entre n. Si deseamos que la media de la varianza coincida con la
varianza de la población, tenemos que acudir a la cuasivarianza o varianza
insesgada, que es similar a la varianza, pero dividiendo las sumas de
cuadrados entre n-1. Su raíz cuadrada es la cuasidesviación típica o desviación
estándar. Si se usa esta varianza, si coinciden su media y la varianza de la
población lo que nos indica que la cuasivarianza es un estimador insesgado, y
la varianza lo es sesgado. La suma de cuadrados de la varianza, dividida entre
la varianza de la población se distribuye según una chi-cuadrado c2 con n-1
grados de libertad
La varianza muestral En muchos casos es importante conocer el valor de la
varianza de la población • Para aplicar el teorema central del lımite • Para
estimar riesgos en inversiones (el riesgo depende de la varianza) • Para estimar
desigualdades en ingresos, rentas, etc. Repetimos el estudio que hemos
realizado para la media muestral Partimos de que la varianza muestral es una
variable aleatoria Queremos relacionar sus momentos con los de la población
Y si es posible, identificar su distribución Esperanza de la varianza muestral
Si ¯x denota la media muestral, se tiene que E" 1 n Xn i=1 (xi − ¯x)2 # = n – 1
n_2 El valor esperado de la varianza muestral no es la varianza de la población
Definamos la varianza muestral como s2 =1 n−1 Xn i=1(xi − ¯x)2 Esperanza
de la varianza muestral Con esta definición, tenemos E[s2] = _2 • El valor
esperado de s2 coincide con el valor deseado (varianza de la población) • s2 es
un estimador insesgado de _2 Distribución de la varianza muestral Nos
gustaría tener información adicional sobre la varianza muestral y su
distribución.
Ejemplo
Averiguar si la variabilidad de edades en una comunidad local es la misma o
mayor que la de todo el Estado. La desviación estándar de las edades del
Estado, conocida por un estudio reciente es de 12 años. Tomamos una muestra
aleatoria de 25 personas de la comunidad y determinamos sus edades. Calcular
la varianza de la muestra y usar la ecuación anteriormente explicada para
obtener el estadístico muestral.
Las hipótesis nula y alternativas son:
H0 : �2 = 144
H1 : �2 � 144
Se toma la muestra y resulta una desviación estándar muestral de 15
Años. La varianza de la muestra es entonces 225, y el estadístico ji cuadrada
de la muestra es:
(n - 1 ) s2 (25-1)(15)2
�2 = --------------- = ------------------- = 37,5
�2 122
Si la hipótesis nula es cierta, el estadístico muestral de 37,5 se obtiene de la
distribución ji cuadrada teórica, en particular, la distribución con 24 grados de
libertad (25 - 1 = 24).
Como se puede observar en la ecuación anterior, cuanto más grande es la
varianza muestral respecto a la varianza poblacional hipotética, mas grande es
el estadístico que se obtiene. Luego deducimos que de un estadístico muestral
grande llevamos al rechazo de la hipótesis nula, y un estadístico muestral
pequeño implicará que no se rechaze. La tabla ji cuadrada se usa para
determinar si es probable o no que el valor 37,5 haya sido obtenido de la
distribución muestral ji cuadrada hipotética.
Supongamos que esta prueba debe llevarse a un nivel de significancia de 0,02.
En la columna 0,02 de la tabla de ji cuadrada y la fila 24, se encuentra el valor
critico de 40, 27. La regla de decisión es:
Si �2 � 40,27, se rechaza la hipótesis nula de que la varianza de la población
es 144 (Se rechaza H0 si �2 > 40,27 ).
Como estadístico de prueba calculado es 37,5, la hipótesis nula no se rechaza
(con riesgo de un error de tipo II). Si en la tabla de ji cuadrada se hubiese
elegido un alfa de 0,05, el valor crítico de la tabla sería 36,415, y la hipótesis
nula se hubiera rechazado (37,5 > 36,415). En este ejemplo se ilustra la
importancia de pensar con cuidado en el riesgo apropiado de un error de tipo I
en una prueba de hipótesis.
Se supone que la hipótesis nula es cierta, lo que conduce a la obtención de un
estadístico muestral de una distribución ji cuadrada con 2 grados de libertad.
2.10 Distribución muestral de la relación de
varianzas
Se definió en la sección de la introducción de las distribuciones muéstrales.
Esta sección revisa algunas propiedades importantes de la distribución
muestral de la media que se introdujeron en las manifestaciones de este
capítulo.
Medio
La media de la distribución muestral de la media es la media de la población
de la cual los resultados se tomaron muestras. Por lo tanto, si una población
tiene una media, μ, entonces la distribución muestral de la media es μ. El M μ
símbolo se utiliza para referirse a la media de la distribución muestral de la
media. Por lo tanto, la fórmula de la media de la distribución muestral de la
media puede ser escrito como:
μ M = μ
Diferencia
La varianza de la distribución muestral de la media se calcula de la siguiente
manera:
Es decir, la varianza de la distribución muestral de la media es la varianza de
la población dividida por N, el tamaño de la muestra (el número de
calificaciones utilizada para calcular una media). Por lo tanto, cuanto mayor
sea el tamaño de la muestra, menor será la varianza de la distribución muestral
de la media.
Esta expresión se puede derivar muy fácilmente de la ley de la suma de
varianza . Comencemos por calcular la varianza de la distribución muestral
de la suma de tres números en la muestra de una población con varianza σ 2.
La varianza de la suma sería σ 2 + σ
2 + σ
2. Para los números de N, la
varianza sería Nσ 2. Puesto que la media es de 1 / N veces la suma, la
varianza de la distribución muestral de la media sería de 1 / N 2 veces la
varianza de la suma, que es igual a σ 2 / N.
El error estándar de la media es la desviación estándar de la distribución
muestral de la media. Por lo tanto, la raíz cuadrada de la varianza de la
distribución muestral de la media y se puede escribir como:
El error estándar está representado por una σ porque es una desviación
estándar. El subíndice (M) indica que el error estándar en cuestión es el error
estándar de la media.
Ejemplo
Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de
pasto distribuidas por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8,
46.9, 45.2 y 46. Encuentre un intervalo de confianza de 95% para la varianza
de todos los paquetes de semillas de pasto que distribuye esta compañía,
suponga una población normal.
Solución:
Primero se calcula la desviación estándar de la muestra:
al elevar este resultado al cuadrado se obtiene la varianza de la muestra s2=
0.286.
Para obtener un intervalo de confianza de 95% se elige un = 0.05.
Después con el uso de la tabla con 9 grados de libertad se obtienen los valores
de X2.
Se puede observar en la gráfica anterior que el valor de X2 corre en forma
normal, esto es de izquierda a derecha.
Por lo tanto, el intervalo de confianza de 95% para la varianza es:
Gráficamente:
Se observa que la varianza corre en sentido contrario, pero esto es sólo en la
gráfica. La interpretación quedaría similar a nuestros temas anteriores
referentes a estimación. Con un nivel de confianza del 95% se sabe que la
varianza de la población de los pesos de los paquetes de semillas de pasto está
entre 0.135 y 0.935 decagramos al cuadrado.
Unidad 3 Estimación de parámetros
3.1 Introducción
Es el procedimiento uti lizado para conocer las características
de un parámetro poblacional, a partir del conocimiento de la
muestra.
Con una muestra aleatoria, de tamaño n, podemos efectuar una
estimación de un valor de un parámetro de la población; pero
también necesitamos precisar un:
Intervalo de confianza
Se llama así a un intervalo en el que sabemos que está un
parámetro, con un nivel de confianza específico.
Nivel de confianza
Probabilidad de que el parámetro a estimar se encuentre en el
intervalo de confianza.
Error de estimación admisible
Que estará relacionado con el radio del intervalo de confianza.
3.2 Características de un buen estimador Conviene que los estadísticos, en su función de estimadores de los
correspondientes parámetros, reúnan determinados requisitos.
Fundamentalmente son:
a) CARENCIA DE SESGO.
Un estimador (estadístico) carece de sesgo si el promedio (media) de todos los
valores posibles de todas las muestras posibles de tamaño n de una población
es igual al parámetro, es decir, si la media de la distribución muestral del
estadístico considerado es igual al valor del parámetro. Así, la media es un
estimador insesgado de μ porque se puede demostrar que la media aritmética
de una distribución muestral coincide con el valor del parámetro, algo que no
puede decirse, por ejemplo, o de la varianza o de la mediana de una población
no distribuida normalmente.
b) CONSISTENCIA.
Un estimador es consistente en la medida en que, al aumentar el tamaño de la
muestra, (n) su valor se acerca cada vez más al parámetro correspondiente o lo
que es lo mismo, si a medida que aumenta el tamaño de la muestra, las
estimaciones que ésta proporciona son cada vez más próximas al valor del
parámetro.
Algunos estimadores sesgados son consistentes, acercándose cada vez más sus
valores a los de sus respectivos parámetros a medida que el tamaño de la
muestra (n) aumenta, tal es el caso de s o s2 que son estimadores sesgados
pero consistentes de la desviación típica (σ) o de la varianza (σ2) de la
población.
c) EFICIENCIA
La 3ª propiedad de los estimadores es su eficiencia, que se refiere a la
precisión que alcanzan los estadísticos en la estimación de los parámetros, es
decir, un estimador será tanto más eficiente cuanto menos varíe de muestra a
muestra de una misma población.
Como la variabilidad de una distribución muestral viene dada por su error
típico, un buen estimador será aquel que menor error típico alcanza. Así, entre
la media y la mediana, la primera es claramente más eficiente. La varianza de
la distribución muestral de la mediana es mayor que la de la media, lo que
significa que la mediana fluctúa más que la media en muestras sucesivas de la
misma población.
En general, para escoger un óptimo estimador de un parámetro, deben
combinarse los criterios de no tendenciosidad (carencia de sesgo) y de
eficiencia. Ante dos estimadores insesgados del mismo parámetro, se preferirá
aquel que tenga mayor eficiencia, es decir, que tenga el mínimo error en
términos de varianza.
• Estimadores insesgados: Media, Mediana, Moda, la desviación típica cuando
n es tiende a infinito, la cuasivarianza muestral
• Estimadores sesgados: la varianza muestral.
• Estimadores consistentes: Proporciones, la media, la varianza y desviación
típica.
• Estimadores insesgados y no eficientes: Mediana muestral (estimador
insesgado de μ]
3.3 Estimación puntual
Puede decirse que la Estadística es la ciencia que se preocupa de la recogida
de datos, su organización y análisis, así como de las predicciones que, a partir
de estos datos, pueden hacerse. Los aspectos anteriores hacen que pueda
hablarse de dos tipos de Estadística: Descriptiva e Inferencial.
La Estadísitica Descriptiva se ocupa de tomar los datos de un conjunto dado,
organizarlos en tablas o representaciones gráficas y del cálculo de unos
números que nos informen de manera global del conjunto estudiado.
La Estadística Inferencial estudia cómo sacar conclusiones generales para
toda la población a partir del estudio de una muestra.
Existen dos formas de hacer Inferencia Estadística:
- La estimación de parámetros.
- Las pruebas de hipótesis.
En la Inferencia Estadística hay varios métodos, pero en cualquier caso es
necesario utilizar una muestra que represente a la población, esto se consigue
con las Técnicas de muestreo.
A partir de una muestra nos proponemos dos objetivos:
Obtener valores aproximados de parámetros poblacionales: Estimación
puntual.
La estimación por intervalos de confianza tiene por objeto proporcionar, a
partir de la información recogida en la muestra, un intervalo que contenga con
alto nivel de confianza (probabilidad), al parámetro objeto de nuestro interés.
A partir de dicho intervalo obtendremos una medida del error máximo
cometido al aproximar puntualmente el parámetro.
Esencialmente son tres los parámetros de interés:
En el caso de que investiguemos una variable cuantitativa:
a) Para la media de la población μ tomaremos como aproximación la media
de la muestra.
=
b) Para la varianza de la población σ2 tomaremos la cuasivarianza de la
muestra.
=
Si el estudio se centra en el estudio de un carácter cualitativo el parámetro de
interés será la proporción de elementos de la población que pertenecen a cierta
categoría C que lo aproximaremos con la correspondiente proporción en la
muestra.
Ejemplo
En la práctica, los intervalos suelen indicarse dando el valor del estimador
puntual utilizado como centro del intervalo y un valor que debe sumarse y
restarse para obtener el límite superior e inferior; por ejemplo:
Equivale a
3.3.1 Métodos
En inferencia estadística se llama estimación al conjunto de técnicas que
permiten dar un valor aproximado de un parámetro de una población a partir
de los datos proporcionados por una muestra. Por ejemplo, una estimación de
la media de una determinada característica de una población de tamaño N
podría ser la media de esa misma característica para una muestra de tamaño n.
La estimación se divide en tres grandes bloques, cada uno de los cuales tiene
distintos métodos que se usan en función de las características y propósitos del
estudio:
Estimación puntual
Método de los momentos
Método de la máxima verosimilitud
Método de los mínimos cuadrados
Estimación por intervalos
Estimación bayesiana
3.3.1.1 Máxima verosimilitud
En estadística, la estimación por máxima verosimilitud (conocida también
como EMV y, en ocasiones, MLE por sus siglas en inglés) es un método
habitual para ajustar un modelo y encontrar sus parámetros.
Fundamento
Supóngase que se tiene una muestra x1, x2, …, xn de n observaciones
independientes extraídas de una función de distribución desconocida con
función de densidad (o función de probabilidad) f0(·). Se sabe, sin embargo,
que f0 pertenece a una familia de distribuciones { f(·|θ), θ ∈ Θ }, llamada
modelo paramétrico, de manera que f0 corresponde a θ = θ0, que es el
verdadero valor del parámetro. Se desea encontrar el valor (o estimador) que
esté lo más próximo posible al verdadero valor θ0.
Tanto xi como θ pueden ser vectores.
La idea de este método es el de encontrar primero la función de densidad
conjunta de todas las observaciones, que bajo condiciones de independencia,
es
Observando esta función bajo un ángulo ligeramente distinto, se puede
suponer que los valores observados x1, x2, …, xn son fijos mientras que θ
puede variar libremente. Esta es la función de verosimilitud:
En la práctica, se suele utilizar el logaritmo de esta función:
El método de la máxima verosimilitud estima θ0 buscando el valor de θ que
maximiza . Este es el llamado estimador de máxima verosimilitud
(MLE) de θ0:
En ocasiones este estimador es una función explícita de los datos observados
x1,…, xn, pero muchas veces hay que recurrir a optimizaciones numéricas.
También puede ocurrir que el máximo no sea único o no exista.
En la exposición anterior se ha asumido la independencia de las
observaciones, pero no es un requisito necesario: basta con poder construir la
función de probabilidad conjunta de los datos para poder aplicar el método.
Un contexto en el que esto es habitual es el del análisis de series temporales.
Propiedades del estimador de máxima verosimilitud
En muchos casos, el estimador obtenido por máxima verosimilitud posee un
conjunto de propiedades asintóticas atractivas:
consistencia,
normalidad asintótica,
eficiencia,
e incluso eficiencia de segundo orden tras corregir el sesgo.
Consistencia
Bajo ciertas condiciones bastante habituales,2 el estimador de máxima
verosimilitud es consistente: si el número de observaciones n tiende a infinito,
el estimador converge en probabilidad a su valor verdadero:
Bajo condiciones algo más fuertes,3 la convergencia es casi segura:
Ejemplo
Sean y dos estimadores del parámetro θ, tales que:
·
·
·
·
¿Qué estimador es mejor?.
Calculamos el sesgo para cada estimador:
· Sesgo del Estimador 1: sesgo1 = θ - θ = 0
· Sesgo del Estimador 2: sesgo2 = θ - θ/2 = θ/2
Podemos observar, que el estimador 1 es insesgado, mientras que el estimador
2, es sesgado.
Para ver, que estimador es mejor, hallamos el error cuadrático medio de cada
estimador:
.
· ECM 1 = 10
· ECM 2 = 4 + (θ/2)2
Para saber cual estimador es mejor, usamos el cociente del error cuadrático
medio:
Sustituyendo valores:
Para que el estimador 1 sea mejor que el estimador segundo, se debe
corroborar:
Despejamos:
40 <. 16 + θ2
Por lo tanto, para que el estimador 1 sea más eficiente que el estimador 2, se
debe cumplir: θ2 > 24.
1.3.3.2 Momentos
Se trata de un método de obtención de estimadores muy intuitivo.
Básicamente, consiste en igualar los momentos poblacionales (que sean
función del o los parámetros a estimar) con los momentos muéstrales y
despejar el parámetro a estimar.
Así, por ejemplo, la esperanza de una variable aleatoria se estimaría por la
media muestral; la varianza, por la varianza muestral; etc.
La principal ventaja de este método es su simplicidad. Sin embargo, aunque
los estimadores así obtenidos son consistentes, en general, no son centrados ni
eficientes. Además, en ciertos casos puede proporcionar estimaciones
absurdas, como veremos en el siguiente ejemplo:
Supongamos que tenemos una variable con distribución uniforme donde el
límite inferior es cero y el superior es desconocido. Naturalmente, estaremos
interesados en estimar el límite superior (al que llamaremos b) de nuestra
distribución uniforme.
X sigue una distribución uniforme (a = 0, b =?)
Recordemos que la esperanza de una distribución uniforme comprendida entre
dos valores a y b es el promedio de estos dos valores.
Por tanto, para aplicar el método de los momentos para estimar b, igualaremos
dicho promedio a la media aritmética:
3.4 Intervalo de confianza para la media
En estadística, se llama intervalo de confianza a un par de números entre los
cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo,
que se calcula a partir de datos de una muestra, y el valor desconocido es un
parámetro poblacional. La probabilidad de éxito en la estimación se representa
con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, una medida de las
posibilidades de fallar en la estimación mediante tal intervalo.1
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de
forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor
nivel de confianza), mientras que para un intervalo más pequeño, que ofrece
una estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario
conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual
que el parámetro presente una distribución normal. También pueden
construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación
de un parámetro poblacional θ que sigue una determinada distribución de
probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α,
donde P es la función de distribución de probabilidad de θ.
Ejemplos
De una población de media μ y desviación típica σ se pueden tomar muestras
de n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se
puede demostrar que la media de todas las medias muéstrales coincide con la
media poblacional:2
Pero además, si el tamaño de las muestras es lo suficientemente grande,la
distribución de medias muéstrales es, prácticamente, una distribución normal
(o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:
.
Esto se representa como sigue: . Si estandarizamos, se sigue que:
En una distribución Z ~ N (0, 1) puede calcularse fácilmente un intervalo
dentro del cual caigan un determinado porcentaje de las observaciones, esto
es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es
el porcentaje deseado (véase el uso de las tablas en una distribución normal).
Se desea obtener una expresión tal que
En esta distribución normal de medias se puede calcular el intervalo de
confianza donde se encontrará la media poblacional si sólo se conoce una
media muestral ( ), con una confianza determinada. Habitualmente se
manejan valores de confianza del 95 y del 99 por ciento. A este valor se le
llamará 1 − α (debido a que α es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto Xα / 2 —o, mejor dicho, su versión
estandarizada Zα / 2 o valor crítico— junto con su "opuesto en la distribución"
X − α / 2. Estos puntos delimitan la probabilidad para el intervalo, como se
muestra en la siguiente imagen:
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
z − α / 2 = − zα / 2
Así:
Haciendo operaciones es posible despejar μ para obtener el intervalo:
De lo cual se obtendrá el intervalo de confianza:
Obsérvese que el intervalo de confianza viene dado por la media muestral
± el producto del valor crítico Zα / 2 por el error estándar .
Si no se conoce σ y n es grande (habitualmente se toma n ≥ 30):4
, donde s es la desviación típica de una muestra.
Aproximaciones para el valor zα / 2 para los niveles de confianza estándar son
1,96 para 1 − α = 95% y 2,576 para 1 − α = 99%.5
Intervalo de confianza para una proporción
El intervalo de confianza para estimar una proporción p, conocida una
proporción muestral pn de una muestra de tamaño n, a un nivel de confianza
del (1-α) ·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central
del Límite y la aproximación de una binomial por una normal.
3.5 Intervalo de confianza para la diferencia de
medias
Sean X11, X12,… X1n1, una muestra aleatoria de n1 observaciones tomadas
de una primera población con valor esperado µ1 y varianza s
1, y X21, X22,… X2n2 una muestra aleatoria de n2 observaciones tomada de
la segunda población con valor esperado µ2 y varianza s
2. Si son las medias muéstrales, la estadística es un estimador puntual de µ1 -
µ2, y tiene una distribución normal si las dos poblaciones son normales, o
aproximadamente normal si cumple con las condiciones del teorema del límite
central (tamaños de muestras relativamente grandes). Es decir, Por lo tanto,
Para calcular el intervalo de confianza para la diferencia de dos medias se
debe saber si las varianzas poblacionales son conocidas o desconocidas, y en
caso de que sean desconocidas, se debe probar si son iguales o diferentes.
Cada uno de estos tres casos se analizará por separado
Varianzas conocidas
Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar
el intervalo de confianza son los siguientes:
a) El estadístico usado como estimador puntual de la diferencia de medias µ1 -
µ2 será T =, que es un estimador suficiente b) La variable aleatoria asociada
con el estimador será la variable normal estándar dada por:
c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente
probabilidad:
Manipulando la expresión anterior en forma similar a como se hizo en los
casos de una sola muestra se llega al siguiente teorema que nos define el
intervalo de confianza para la diferencia entre dos medias µ1 - µ2 con
varianzas conocidas s1 y s 2.
Teorema. Si son las medias de dos muestras aleatorias independientes de tamaño n1 y n2
tomadas de poblaciones que tienen varianzas conocidas s1 y s2, respectivamente, entonces
un intervalo de confianza del 100(1-a)% para µ1 - µ2.
Ejemplo
Construya un intervalo de confianza del 94% para la diferencia real entre las
duraciones de dos marcas de bombillos, si una muestra de 40 bombillos
tomada al azar de la primera marca dio una duración media de 418 horas, y
una muestra de 50 bombillos de otra marca dieron una duración media de 402
horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22
horas, respectivamente.
Solución. Tenemos que:, , s1 = 26, s2 = 22, n1 = 40, n2 = 50, Z0.03 = 1.88. El
intervalo de confianza es, entonces:
El hecho de que ambos límites sean positivos, y por lo tanto no contengan el
valor cero indican que ambas marcas no tienen la misma duración media, y
sugiere que pueda pensarse que la primera marca de bombillos tenga una
duración media superior a la segunda.
Varianzas desconocidas e iguales (= =)
Cuando las varianzas son desconocidas, se debe realizar previamente una
prueba estadística para verificar si éstas son iguales o diferentes. Para
realizarlo debemos hacer uso de la distribución F, bien sea mediante el cálculo
de la probabilidad de que la muestra tomada provenga de dos poblaciones con
varianzas iguales, o mediante el uso de un intervalo de confianza para la
relación de dos varianzas, según se estudiará más adelante.
Si mediante el uso de la distribución F se llega a la conclusión de que las
varianzas son iguales, el procedimiento a seguir para el cálculo del intervalo
de confianza para la diferencia de dos medias será el siguiente:
a) El estadístico usado como estimador puntual de la diferencia de medias µ1 -
µ2 será T =, que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable T definida
como: donde es un estimador combinado de s, mejor que por separado, y
c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente
probabilidad:
De nuevo, manipulando la expresión anterior en forma similar a los casos se
llega al siguiente teorema que nos define el intervalo de confianza para la
diferencia entre dos medias µ1 - µ2 con varianzas desconocidas s1 y s 2, pero
iguales.
CONCLUSIONES
El análisis de los resultados del presente trabajo conduce a enunciar las
siguientes conclusiones derivadas del proceso de investigación:
Que la estadística como ciencia nos ayuda en la recolección, análisis e
interpretación de datos, ya sea para ayudar en la toma de decisiones o para
explicar condiciones regulares o irregulares de algún fenómeno o estudio
aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo
estadística es más que eso, en otras palabras es el vehículo que permite llevar
a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las
ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se
usa para la toma de decisiones en áreas de negocios o instituciones
gubernamentales.
La estadística se divide en dos grandes áreas:
La estadística descriptiva, se dedica a los métodos de recolección,
descripción, visualización y resumen de datos originados a partir de los
fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros estadísticos son: la
media y la desviación estándar. Algunos ejemplos gráficos son:
histograma, pirámide poblacional, clústers, entre otros.
La estadística inferencial, se dedica a la generación de los modelos,
inferencias y predicciones asociadas a los fenómenos en cuestión
teniendo en cuenta la aleatoriedad de las observaciones. Se usa para
modelar patrones en los datos y extraer inferencias acerca de la
población bajo estudio. Estas inferencias pueden tomar la forma de
respuestas a preguntas si/no (prueba de hipótesis), estimaciones de
características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o
modelamiento de relaciones entre variables (análisis de regresión).
Otras técnicas de modelamiento incluyen anova, series de tiempo y
minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.
Hay también una disciplina llamada estadística matemática, la que se refiere a
las bases teóricas de la materia. La palabra «estadísticas» también se refiere al
resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en
estadísticas económicas, estadísticas criminales, entre otros.
Bibliografía
http://es.wikipedia.org/wiki/Estad%C3%ADstica
http://www.ucm.es/info/genetica/Estadistica/estadistica_basica.htm
http://webdelprofesor.ula.ve/arquitectura/jorgem/principal/guias/cap3.pdf
http://www.monografias.com/trabajos11/tebas/tebas.shtml
http://www.itch.edu.mx/academic/industrial/estadistica1/cap01c.html
http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema21b.pdf
http://www.mitecnologico.com/Main/DistribucionMuestralDeLaVarianza
http://colposfesz.galeon.com/inferencia/teoria/estima.htm
http://es.wikipedia.org/wiki/M%C3%A1xima_verosimilitud
http://es.wikipedia.org/wiki/Intervalo_de_confianza
http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/B0
C8m1t16.htm