ramo: estadÍstica iibiblioteca.esucomex.cl/med/estadística ii.pdf · 2018. 6. 28. · ramo:...

RAMO: ESTADÍSTICA II

UNIDAD I

MUESTREO Y DISTRIBUCIONES MUESTRALES

2 Instituto Profesional Iplacex

CLASE 01

1. MUESTRA ALEATORIA

En estadística, el concepto de muestra aleatoria, debe quedar claro desde el comienzo del estudio, pues es la base del tópico de muestreo.

Una muestra aleatoria, de tamaño n de una población x, es una sucesión de n

variables aleatorias independientes x1, x2, ..., xn; con idéntica ley de probabilidades que x.

Se entenderá por idéntica ley de probabilidades como la misma posibilidad de ser elegido.

En otras palabras, una muestra aleatoria de tamaño n es: • Una colección de n variables aleatorias • Todas con la misma distribución • Todas independientes

Como se puede observar, esta definición idealiza la operación de repetir n veces la

observación de la misma variable, siendo las repeticiones en cuestión, independientes una de otra.

Se utilizarán las siguientes definiciones formales:

Muestra aleatoria:

Es la muestra que se toma de la población, de modo que cada unidad disponible para la observación tenga la misma probabilidad de ser incluida en la muestra, es decir, todos los elementos tienen la misma probabilidad de ser elegidos.


Marginales1

Una vez obtenida la muestra, es decir, cuando se han extraído los n individuos de la

población y “medido” la variable X en cada uno de ellos, se dispondrán de n datos u observaciones:

Por lo tanto, para que una variable aleatoria, definida a partir de una muestra aleatoria

de tamaño n, tome valores, es necesario disponer de los n datos de la obtención muestral. Todo conjunto de N unidades, tomadas de una población dada, se puede considerar

como muestra de tamaño N de la población. Una muestra aleatoria se puede tomar con o sin reemplazo.

1 Para más acerca de variables aleatorias, revisar apuntes estadística I

Variable Aleatoria:

Se dice que una función: X : Ω → R, es una variable aleatoria si la "suerte" de realización de sus posibles valores puede establecerse con ayuda de los resultados de la experiencia aleatoria en estudio, cuyo espacio muestral es Ω .Se trata, en definitiva, de una función que asigna un valor numérico a cada uno de los resultados de una experiencia aleatoria (R experiencia aleatoria).

Por lo anterior, podemos definir que: Una variable aleatoria es un número que depende del resultado aleatorio de un experimento y es una regla que asigna un valor numérico (sólo uno) a cada punto en el espacio muestral de un experimento aleatorio

Variable aleatoria independiente:

Se dice que 2 variables aleatorias son independientes si cada uno de sus valores de probabilidad conjunta, es igual al producto de los correspondientes valores de las probabilidades marginales1.

Muestra: X1, X2, ..., Xn.


• Si se toma con reemplazo, la unidad tomada se vuelve a colocar en la población y

puede ser seleccionada nuevamente, por lo que el número de unidades disponibles para seguir la operación no se afecta. Lo anterior se conoce como Muestreo Aleatorio Simple.

• Si se toma sin reemplazo, la unidad escogida no se vuelve a colocar en la población.

Por lo que, el número de unidades que quedan tras cada unidad que se saca, se reduce en una unidad y en consecuencia la probabilidad de sacar cualquier unidad restante en operaciones sucesivas aumenta.

2. MUESTREO

La principal utilidad de la estadística inferencial en la investigación del comportamiento, es la de realizar inferencias acerca de un número grande de personas (población), o de otras unidades observacionales, esto a partir de datos concernientes a un grupo relativamente pequeño de personas.

La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre

la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.

El muestreo ayuda a la obtención de información acerca de un todo tomando sólo una parte o muestra.

Una población está determinada por sus características definitorias. Por lo tanto, el

conjunto de elementos que posea esta característica se denomina población o universo. Población es la totalidad del fenómeno a estudiar, donde las unidades de observación poseen una característica común, la que se estudia y da origen a los datos de la investigación.

Entonces, una población es el conjunto de todas las cosas que concuerdan con una

serie determinada de especificaciones. Un censo, por ejemplo, es el recuento de todos los elementos de una población. Cuando no es posible medir todos los individuos de una población, se toma una muestra representativa de la misma.

Cuando se seleccionan algunos elementos con la intención de averiguar algo sobre

una población determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, se espera que lo que averiguado en la muestra sea cierto para la población en su conjunto. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra.


La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen la población de la que fue extraída, lo cual nos indica que es representativa. Por lo tanto, la validez de la generalización depende de la validez2 de los datos y el tamaño de la muestra.

CLASE 02

Leyes del método de muestreo

El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son:

• Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o

suceso es P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el suceso y la cantidad total de pruebas (es decir, la frecuencia del suceso) tiende a acercarse cada vez más a la probabilidad P.

• Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el

número de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina cálculo de probabilidad.

De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más directamente al método de muestreo: • Ley de la regularidad estadística: un conjunto de n unidades seleccionadas al azar de

un conjunto N (población), es casi seguro que tenga las características del grupo más grande.

• Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al

hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable que una parte igual del mismo grupo, varíe en dirección opuesta.

• Ley de la permanencia de los números pequeños: si una muestra suficientemente

grande es representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es de esperar encontrar igual proporción en la segunda muestra.

2 Validez es el grado en que una situación o instrumento de medida, mide lo que realmente pretende o quiere medir. A la validez en ocasiones se la denomina “exactitud”, es el criterio fundamental para valorar si el resultado obtenido en el estudio es adecuado.


Al hablar de población, nos podemos referir por ejemplo a los estudiantes de una

universidad, o el conjunto de familias chilenas. La población de interés, es seleccionada por el investigador, y debe ser definida en forma clara y precisa, de tal forma que siempre pueda clasificarse un elemento como perteneciente a ella o no.

Se ha de suponer, que en cada elemento4 de la población se ha definido una

variable5, que puede ser del tipo cualitativa (como el sexo, nacionalidad) o cuantitativa (como la edad), y de las cuáles se desea conocer su distribución entre los elementos de la población.

A continuación se definen algunos términos utilizados frecuentemente a lo largo del

estudio. 4 Se llama elemento a las entidades sobre las cuales se reúnen los datos. 5 Variable es una característica de interés de los elementos.

Muestreo:

Es la actividad por la cual se seleccionan ciertas muestras de una población de elementos, basados en ciertos criterios de decisión.

El muestreo es importante porque a través de él se pueden realizar análisis de

situaciones de una empresa o de algún campo de la sociedad y su función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer deducciones sobre dicha población.

Población:

Una población es la totalidad de objetos o individuos de los cuales queremos obtener información.

Muestra:

Una muestra es un subconjunto de la población, el cual es realmente observado.


En muchos casos, la forma de distribución es conocida por estudios anteriores o viene dada de acuerdo a la forma de recoger la información. Generalmente, se requiere conocer los parámetros de la población, es decir, aquellas características que nos permitirán determinar la distribución de la muestra.

Ejemplo Nº 1

Si la distribución de una variable x estudiada, es normal, quedará perfectamente definida determinando la media y la desviación típica de la muestra (estadística).

En síntesis, cuando la población contiene muchos elementos no es posible ni

aconsejable medir la variable de interés en todos ellos; en estas ocasiones, en lugar de realizar un censo3, se selecciona un conjunto de elementos que se denomina muestra.

Por lo tanto podemos decir que, Parámetro es la característica que describe a una

población y Estadístico es la característica que describe a una muestra.

3 Censo es un estudio exhaustivo y completo de todos los elementos de una población.

Parámetro:

Una parámetro es una medida numérica usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población.

Estadístico o Estadígrafo:

Un estadístico es una medida usada para describir alguna característica de una muestra, tal como una media aritmética, una mediana o una desviación estándar de una muestra.


Cuadro Nº 1: Estadística v/s Parámetro

CLASE 03

Las ventajas de estudiar una población a partir de una muestra, son principalmente:

• Costo reducido

Si los datos que se buscan pueden ser obtenidos a partir de una pequeña parte del total de la población, los gastos de recoger y procesar los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a una elección política, es más barato preguntar a 5.000 personas su intención de voto, que a 10.000.000. • Mayor rapidez

Es posible obtener resultado en forma más rápida al observar una pequeña muestra que la población total. Por ejemplo se acostumbra a ver como con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado. • Más posibilidades

Existen más posibilidades para hacer cierto tipo de estudios, por ejemplo la duración

de cierto tipo de ampolletas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.

Cuando la muestra está bien seleccionada, se puede obtener una información similar a la del censo, pero de manera más rápida y a un menor costo. Esto justifica que en la práctica que el análisis de poblaciones que son muy grandes, se realicen de preferencia, mediante muestreo.

Media Símbolo para el Estadístico (muestra)

Símbolo para el parámetro (población)

Media x µ Desviación estándar s σ Número de elementos n N Proporción p p


Como se puede observar el cuadro Nº 1 se llama N al tamaño de la población y n al número de elementos que forman la muestra, o tamaño muestral, según corresponda. Podemos definir:

1. Fracción de muestreo: (n/N) al cuociente entre el tamaño muestral y el de la población. 2. Factor de elevación: (N/n) al cuociente entre el tamaño de la población y el de la

muestra. Es el inverso de la fracción de muestreo y representa el número de unidades que existe en la población por cada elemento de muestra.

Ejemplo N° 2 En una población de 10.000 personas, se desea obtener una muestra de 500

personas. Entonces, la fracción de muestreo (f) es:

(f) = 500/10.000 = 0.05

La fracción de muestreo indica que se va a investigar el 5% de la población.

El factor de elevación, que se denota (fe), es: (fe) = 10.000/500 = 20

Este valor indica, que cada persona en la muestra representa a 20 de la población.

De este modo, es posible destacar que al hacer estadística inferencial se deben enfrentar dos tipos de problemas:

• La elección de la muestra para la realización de la investigación (muestreo), y • La extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la

población (inferencia). Es decir, los resultados obtenidos de la muestra pueden ser generalizados a toda la población

¿Pero bajo qué condiciones, resulta apropiada una muestra?

Realice ejercicios Nº 1 al 3


Existen una serie de factores que inciden en la respuesta de esta pregunta, y que

resultan fundamentales en estadística inferencial.

• Una primera condición, es el tamaño que ha de tener la muestra. Parece evidente, que a mayor tamaño de la muestra, más se acercarán los estadísticos que se calculen, a los parámetros de la población En la práctica real, el número de elementos de una muestra está determinado por una

serie de factores, tales como: grado de fiabilidad deseado, dificultad en la elección de los elementos que la compongan, tiempo necesario para la elección, costos y otros.

• La segunda condición, pero no menos importante, es ¿cómo deben ser elegidos los elementos que compongan la muestra?

Para ser válidas, las muestras elegidas deben ser representativas, esto es, si se

desea inferir los resultados de una muestra, en ella se ha de reproducir en igual porcentaje el carácter estudiado, que en la población total. Por tanto, será necesario, que en el momento de la elección de los elementos de la muestra, se verifique que todos los elementos de la población tengan igual probabilidad de ser elegidos para la muestra.

Cuando algunos miembros de la población tienen una probabilidad más alta que los otros de estar representados en una muestra, se dice que existe un sesgo de selección y la muestra puede no ser representativa de la población.

Ejemplo N° 3

Si se toma como población a todos los alumnos de una universidad; si existen diferencias marcadas de opinión entre los alumnos antiguos y los “mechones”, y la muestra sólo incluye a los antiguos, ésta tendrá un sesgo de selección. Es importante destacar, que el sesgo de selección no se elimina con el tamaño muestral, al preguntar a 2.000 estudiantes, en lugar de 200, no hace menor el sesgo de selección.

Sesgo de selección

Cuando la muestra escogida no es representativa de la población, ya que algunos miembros de la población tienen una probabilidad mayor que otros de estar representados en la muestra, se dice que la muestra está sesgada o tiene errores.


Cuando no se tienen en cuenta estas dos condiciones básicas, las inferencias realizadas son deficientes. Existe una variedad de "mentiras estadísticas", procedentes de afirmaciones basadas en pequeñas muestras, o en muestras no representativas.

Ejemplo N° 4

Si se dice "7 de cada 10 dentistas consultados recomiendan el dentífrico X", no debemos inferir que el 70% de los dentistas los recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados, y cuántos fueron en total.

2.1 Métodos de Selección de Muestras

Los cálculos estadísticos de muestras sirven para dar información acerca de las características de la población objetivo4.

Existen varias formas apropiadas de seleccionar muestras, pero también, métodos de muestreo inapropiados.

Se conoce como método de muestreo apropiado, a aquél que maximiza la

probabilidad de que:

• La muestra resultante sea adecuadamente representativa de la población. • Los estadígrafos o estadísticos de la muestra resultante proporcionan estimaciones

precisas de los parámetros de la población.

Las muestras no representativas, con frecuencia provienen de muestras accidentales, convenientes o de voluntarios autoseleccionados; las generalizaciones basadas en este tipo de datos casi nunca son válidas y no se les puede dar demasiada credibilidad. Por lo general, es preferible no tener información que tener mala información.

Básicamente, existen dos tipos de selección de muestras: los aleatorios y los no aleatorios. • En los primeros, el aspecto principal, es que todos los miembros de la muestra han sido

elegidos al azar, de forma que cada miembro de la población tuvo igual oportunidad de ser seleccionado en la muestra. Este tipo de muestreo, que es el más consistente, es al mismo tiempo el que resulta más costoso, y el que se utilizará siempre en el desarrollo de los contenidos de esta unidad. Los centros de investigación oficiales como el Instituto Nacional de Estadísticas (INE), utilizan siempre muestreos aleatorios.

4 La población objetivo, es la población de la cual se desea obtener información y a la cual va dirigida el estudio.


• Los segundos, carecen del grado de representatividad de los primeros, pero permiten

un gran ahorro en los costos. Se eligen los elementos, en función de que sean representativos, según la opinión del investigador, es decir, están basados en el juicio de una persona (en este caso el investigador). Es el método que utilizan, generalmente, las empresas privadas, y presentan el inconveniente de que la precisión de los resultados no es muy buena, y es difícil medir el error de muestreo.

CLASE 04

Muestreos Aleatorios

El muestreo aleatorio significa que todos los elementos de la población tienen la misma probabilidad de ser elegidos.

Dentro de este tipo de muestreo se encuentran: el Muestreo Aleatorio Simple, el Muestreo Aleatorio Sistemático, el Estratificado y el Por Conglomerados, los que serán observados en forma independiente. a) Muestreo Aleatorio Simple: este método, es en la práctica, el más simple, por lo que a veces sólo se denomina como muestreo aleatorio. La definición de este método y el proceso de seleccionar una muestra aleatoria simple dependen de si la población es finita o infinita.

Para una muestra aleatoria simple de población finita, el procedimiento consiste en

que al seleccionar un elemento para la muestra, cada uno de ellos tiene la misma probabilidad de ser elegido. Una muestra obtenida mediante este tipo de procedimiento se le llama muestra aleatoria simple. Uno de los métodos más utilizados para lograr que la muestra sea aleatoria, es numerar todos los elementos de una población y escribir los números en tarjetas o bolas, ponerlas en una bolsa y mezclarlas. Se define el tamaño de la muestra n y se sacan las tarjetas al azar una a una, hasta que se obtenga el número deseado, como en una tómbola. Este procedimiento tiene pocas probabilidades de ser eficaz cuando la población que se esta estudiando es muy grande.

Ejemplo N° 5

Si se quiere elegir una muestra formada por 40 elementos de una población de 600, se irán seleccionando cifras aleatorias de tres en tres. Es decir, se enumeran los elementos de la población del 1 al 600, y se seleccionan el 3, 6, 8, 12,…hasta completar los 40

Realice ejercicios Nº 4 y 5


elementos de la muestra. Si bien el método anteriormente descrito se utiliza comúnmente, sacar “nombres de un sombrero”, se aproxima sólo burdamente a la aleatoriedad. El método clásico utilizado es el de las tablas de números aleatorios que vienen en los apéndices de los libros de estadística.

Para una muestra aleatoria simple de población infinita, consiste en seleccionar los elementos maestrales de tal forma que se satisfacen las siguientes condiciones:

• Cada elemento seleccionado proviene de la misma población. • Cada elemento se selecciona en forma independiente

En la práctica, se suele considerar infinita la población que se estudia, si interviene en

un proceso dinámico que hace imposible contar o listar a cada elemento de la población.

Por lo que, en una muestra aleatoria simple para poblaciones infinitas, no se puede utilizar el procedimiento de selección con números aleatorios, porque es imposible realizar una lista de la población. En este caso, se debe determinar un procedimiento de selección de muestra, que nos permita determinar los elementos en forma independiente y evitar un prejuicio de selección, que haga posible mayores probabilidades de selección de ciertos artículos.

b) Muestreo Aleatorio Sistemático: este tipo de muestreo es más fácil de utilizar, que el aleatorio simple, cuando la población esta ordenada en listas formales, a los cuales es posible acudir. Es análogo al muestreo anterior, aunque resulta más fácil, rápida y cómoda la elección de elementos por este método de muestreo. Se debe tener la precaución de que la característica que se estudia no tenga periocidad

Ejemplo N° 6

Si se ha de elegir 40 elementos de un grupo de 600, se comienza por calcular el cuociente 600/40, que nos dice que existen 40 grupos de 15 elementos entre los 600 de la población.

Se elige un elemento de partida entre los 15 primeros, y suponiendo que sea el

k-ésimo, el resto de los elementos de cada grupo no serán considerados en la selección.

En concreto, si el elemento de partida es el número 6, los demás elementos seleccionados de los grupos de 15 elementos restantes se obtienen de la siguiente forma:


Este procedimiento simplifica enormemente la elección de elementos, pero puede tener problemas con la representatividad de la muestra, cuando los elementos se hayan numerados por algún criterio concreto y los k-ésimos tengan una determinada característica, que haga conformarse una muestra no representativa.

Por lo tanto, para que toda unidad de la población tenga igual probabilidad de salir, el

procedimiento debe comenzar al azar. c) Muestreo Aleatorio Estratificado: cuando las poblaciones son muy grandes, se debe dividir éstas en subpoblaciones o estratos, sin elementos comunes y que contengan toda la población.

Una vez hecho esto se puede elegir, por muestreo aleatorio simple, de cada estrato, un número de elementos igual o proporcional al tamaño del estrato.

Este procedimiento tiene la gran ventaja de que se puede obtener una mayor precisión

(o menor error muestral) que si se selecciona una muestra por el muestreo aleatorio simple, considerando la población total. La finalidad de este tipo de muestreo es asegurarse de que todas las subpoblaciones de interés estarán representadas adecuadamente en la muestra.

Ejemplo Nº 7

Si se decidiera realizar una encuesta sobre la incidencia del tabaco en un Colegio cualquiera, se podría razonar de la siguiente forma: el colegio tiene 2000 alumnos, 720 en 3º Medio, 700 en 4º Medio, 340 en 1º Medio, y 240 en 2º Medio.

Si se desea tomar una muestra de 100 alumnos, para analizar la incidencia del tabaco

en la adolescencia, bastaría tomar un número igual de alumnos de cada estrato, es decir 25 de 1º medio, 25 de 2º medio, 25 de 3º medio y 25 de 4º medio.

Sin embargo, si lo que se quiere es hacer una encuesta para conocer la opinión que

tiene el alumnado sobre una medida que ha tomado el Consejo Escolar, es más

6; 15 + 6; 2×15+6; 3×15+6;…;39×15+6 cantidad K-esimo de elementos elemento por grupo de partida 1er 2do 3er 4to 40 elemento


representativo elegir de cada estrato, y en número proporcional a su tamaño, los elementos que compondrán la muestra.

En este caso, 3º Medio representa al 36%

× 1002000

720 del alumnado, por lo que en la

muestra se debe representar el 36% de este nivel (es decir 36 alumnos) los que se elegirán

de por muestreo aleatorio simple. De igual forma, el 4º medio representa el 35%

×1002000

700

del alumnado y debe estar representado por 35 alumnos en la muestra y así hasta completar los 100 elementos de la muestra.

Ejemplo Nº 8

Supongamos que se realiza un estudio sobre la población de estudiantes de una Universidad, en el que a través de una muestra de 10 alumnos se desea obtener información sobre el uso de lápices labiales.

En una primera aproximación, lo que procede es hacer un muestreo aleatorio simple,

pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos: Estudiantes masculinos (60% del total); Estudiantes femeninos (40% restante).

De modo, que se repartan proporcionalmente en ambos grupos, el número total de la muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional al estrato.

Si se observa con más atención, nos encontramos (salvo sorpresas de probabilidad

reducida) que el comportamiento de los varones con respecto al carácter (uso de lápices labiales) que se estudia es muy homogéneo y diferenciado del grupo de las mujeres.

Por otra parte, con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el grupo de los varones y con una pequeña dispersión de los datos, mientras que en el grupo de las mujeres habrá mayor dispersión.

Cuando las varianzas poblacionales son pequeñas, con pocos elementos en una

muestra se obtiene una información más precisa del total de la población, que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que se elegirán más individuos en los grupos de mayor variabilidad.


Así, probablemente, obtendríamos mejores resultados estudiando una muestra

compuesta por: 1 varón. 9 hembras.

Esto es lo que se denomina asignación óptima.

• Asignación proporcional: sea n el número de individuos de la población total que

forman parte de alguna muestra:

Cuando la asignación es proporcional al tamaño de la muestra de cada estrato, también es proporcional al tamaño del estrato correspondiente, con respecto a la población total:

• Asignación óptima: cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios:

− Elegir los ni de tal modo que se minimice la varianza del estimador, para un costo

especificado. − Fijar la varianza para el estimador que minimice el costo en la obtención de la

muestra.

Así en un estrato dado, se tiende a tomar una muestra más grande cuando:

− El estrato es más grande − El estrato posee mayor variabilidad interna (varianza) − El muestreo es más barato en ese estrato.

d) Muestreo Aleatorio por Conglomerados: a veces, para simplificar los procesos de toma de datos de una población, se empieza por elegir ciertos conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales, etc.) y dentro de ellos se realiza el muestreo aleatorio.

knnnn +++= ...21

N

Nnn i

i ·=


Este tipo de muestra consiste en seleccionar primero al azar, grupos, de elementos poblacionales, llamados conglomerados, y en tomar luego una submuestra, de cada conglomerado, para constituir la muestra global.

Los pasos, son los siguientes:

1. Se debe dividir la población en grupos que resulten convenientes para el muestreo.

2. En seguida, seleccionar una porción de los grupos al azar o por un método

sistemático.

Muestreo no Aleatorio o no Probabilístico

En este tipo de muestreo, la muestra no se selecciona al azar, al contrario son

elegidas por el encargado de realizar el muestreo. El costo de estos muestreos es mas bajo comparado con el muestreo probabilístico

Se encuentran clasificados en:

a) Muestreo por Juicio: Una muestra se denomina “por juicio” cuando sus elementos son seleccionados mediante el juicio personal del investigador para decidir qué elemento se elegirá de la muestra.

Una muestra de juicio es llamada muestra no probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona, por lo que la teoría de la probabilidad no puede emplearse para medir el error de muestreo.

Las principales ventajas de este tipo de muestreo, es la facilidad de obtención de los

datos maestrales y el bajo costo que implica su realización.


Error Muestral o de Muestreo:

La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado obtenido de la población (parámetro), se conoce como error de muestreo o error muestral.


b) Muestreo por Conveniencia: como su nombre lo indica, la muestra se identifica y selecciona, principalmente, por conveniencia. Es decir, se incorporan los elementos en la muestra sin probabilidades conocidas de selección.

Este tipo de muestra posee las mismas ventajas que el por juicio, que son la fácil selección y recolección de los datos.

Sin embargo, no es posible, estadísticamente, comprobar si los resultados obtenidos

son buenos o no, por lo que hay que tener especial cuidado en cómo interpretar estos resultados, en especial cuando se utilizan para hacer inferencias acerca de poblaciones. c) Muestreo Secuencial: es aquel en el que se obtiene información de los elementos de la población mientras que se considere que la información que arroja es útil y nueva, cuando se considere que la información se repite con el mismo patrón, se considera concluido este tipo de muestreo. d) Diseño Bola de Nieve: este tipo de muestreo se aplica a las poblaciones de difícil acceso ya sea por distancia o porque son difíciles de encontrar como por ejemplo: drogadictos, delincuentes , habitantes de zonas apartadas, etc. Este tipo de muestreo consiste en que un individuo de la población que es objeto de estudio indique a otras personas de igual característica para localizarlos y así continuar con el muestreo

Ejemplo Nº 9

Un profesor que lleva a cabo una investigación universitaria puede usar alumnos voluntarios para formar una muestra, tan sólo porque dispone fácilmente de ellos y participan como elementos a un bajo o nulo costo lo que representa una muestra por conveniencia.

CLASE 05

3. DISTRIBUCIONES MUESTRALES

Uno de los objetivos de la estadística es hacer inferencias con respecto a la población, basándose en la información contenida en la muestra estudiada.



Si la muestra aleatoria de tamaño n de la población f(x), se define como: x1, x2, ..., xn. Su función de probabilidad conjunta se expresa como:

En donde, la distribución de probabilidad de cualquier estadístico de la muestra se denomina distribución muestral del estadístico.

Por lo tanto, el estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella.

A continuación se enumeran y explican las más importante distribuciones muestrales:

• Distribución Normal • Distribución de la Media Muestral • Distribución de la Varianza Muestral Chi-cuadrado • Distribución T de Student • Distribución F de Fisher o de Snedecor

Distribución Normal o Gaussiana

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró estudios más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "Campana de Gauss".

La importancia de la distribución normal se debe, principalmente, a que hay muchas

variables asociadas a fenómenos naturales que presentan esta distribución así, como: • Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie,

por ejemplo: tallas, pesos, envergaduras, diámetros, perímetros; poseen una distribución normal de sus datos.

f(x1, x2, ..., xn) = f(x1) f(x2 ) ... f(xn )

Distribución Muestral:

La distribución muestral o distribución del muestreo de un estadístico es la distribución de probabilidades de los valores que puede tomar ese estadístico a lo largo de todas las posibles muestras que se pueden extraer de la población.


• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono; se distribuyen normal.

• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo

de individuos, puntuaciones de examen; sus datos se distribuyen normal. • Caracteres psicológicos, por ejemplo: cuociente intelectual, grado de adaptación a un

medio; poseen una distribución normal. • Errores cometidos al medir ciertas magnitudes, poseen este tipo de distribución. • Valores estadísticos muestrales, por ejemplo: la media se distribuye normal. • Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.

Y en general, cualquier característica que se obtenga como suma de muchos factores, presenta una distribución normal.

La distribución de una variable normal se encuentra determinada por dos parámetros poblacionales, su media y su desviación estándar, denotadas generalmente por las letras griegas µ y σ.

3.1.1 Función de Densidad de Probabilidad

Para cada valor de µ y σ se tienen distintas funciones de densidad.

Con esta definición la función de densidad de de probabilidad de la distribución normal

viene dada por:

Función de densidad de probabilidad:

Es la función asociada a la variable aleatoria en cuestión.

( ) IRxe

ee

xxf

e∈∀

−−= ,2

12µ


Dicha ecuación determina la curva en forma de campana (Figura Nº 1). Así, se dice que una característica sigue una distribución normal de media µ y desviación estándar σ, y se denota, si su función de densidad viene dada por la Ecuación anteriormente expuesta, como:

Lo que se lee, la variable X sigue una distribución normal con media µ y variación σ

Figura Nº 1: Representación Gráfica de la Función de Densidad para Distribución Normal

En donde, la esperanza de media de la variable x, se define como

Y la varianza

X ~ N(µ, σ)

E(x) = µ (X) = σ2

Var(x) = σ2


Figura Nº 2: Distribuciones Gaussianas con Diferentes Medias e Igual Dispersión

En donde, µ, ≠ µ1 ≠ µ2 ≠ µ3, pero la dispersión de los datos son iguales (σ1 = σ2 = σ 3). Como se puede observar en las figuras Nº 1 y Nº 2, la forma de la campana depende

de los parámetros µ y σ; pues µ indico la posición de la campana (parámetro de centralización) y σ2 (o equivalente, σ) será el parámetro de dispersión. Cuanto menor sea la dispersión de datos, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (como se muestra en la Figura Nº 3, función f(x) y cuanto mayor sea σ (dispersión) la función de x se presentara más aplastada (f(x)”). Figura Nº 3: Distribuciones Gaussianas con Igual Medias pero Varianza Diferente


CLASE 06 3.1.2 Función de Distribución

La función de la distribución normal, que es la mas importante de todas las distribuciones de probabilidad, cumple las siguientes condiciones: • Puede tomar cualquier valor (- ∞, +∞). • Son más probables los valores cercanos a uno central al cual llamamos media µ • Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de igual forma

para la derecha que para la izquierda (es simétrica). Es decir, la campana es simétrica. • Conforme nos separamos de ese valor µ la probabilidad va decreciendo de forma más o

menos rápida, dependiendo del parámetro σ, que es la desviación típica. 3.1.3 Propiedades de la Distribución Normal

La distribución normal posee ciertas propiedades importantes que conviene destacar:

Tiene una única Moda, que coincide con su media (_

χ ) y su mediana (Me). La curva normal es asintótica al eje de abscisas, es decir, nunca toca el eje x. Por ello,

cualquier valor entre -∞ y +∞es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.

• Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe

una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor a esta.

• La distancia entre la línea trazada en la media y el punto de inflexión de la curva es

igual a una desviación estándar (σ). Cuanto mayor sea σ, más aplanada será la curva de la densidad.

• El área bajo la curva comprendida entre los valores situados, aproximadamente a dos

desviaciones estándar de la media, es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo (µ - 1,96, σ,µ +1,96 σ).

• La forma de la campana de Gauss depende de los parámetros µ y σ. La media indica la

posición de la campana, de modo que para diferentes valores de la gráfica es


desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Como se deduce de este último apartado, no existe una única distribución normal, sino

una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza.

De todas ellas, la más utilizada es la distribución normal estándar, que corresponde a

una distribución de media 0 y varianza 1. , y que se denota como Z. Así, la expresión que define su densidad es:

Es importante conocer que, a partir de cualquier variable X que siga una distribución normal (N (µ, σ), se puede obtener otra característica Z con una distribución normal estándar normal con media µ y varianza σ, al efectuar la siguiente transformación:

Es decir, podemos representar la transformación de la variable como sigue: Esta propiedad resulta especialmente interesante en la práctica, ya que para una

distribución N(0,1) existen tablas estadísticas publicadas, a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permiten resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal. Ésta es la distribución Normal Estándar.

Z ~ N (0,1) IRzz

ezfzZ

∈∀=⇔22

1)(

2

X ~ N (µ, σ2) ( )1,0~ NX

Zσ

µ−=⇒

σµ−= x

Z


Ejemplo Nº 10

Supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg. y una desviación estándar de 10 Kg.

¿Cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg.?

Se denota por X, a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución normal, con media 80 kg. Y desviación estándar 10 kg. N (80,10).

Al transformar esta variable en una normal estándar, podríamos utilizar la tabla tipificada para calcular la probabilidad que nos interesa.

Por lo tanto: Así, la probabilidad que se desea calcular será: Como el área total bajo la curva es igual a 1, se puede deducir que su complemento

es: Esta última probabilidad puede ser fácilmente obtenida de la tabla Z, que podemos

observar en el anexo 1, resultando ser P(z > 2)=0.9772. .

Reemplazando

10

80−= xZ

( ) ( )210

80100100 >=

−>=> zpzpxp

( ) ( )212 ≤−=> zpzp

( ) ( )( )( ) 0228,02

9772,012

212

=>−=>

≤−=>

zp

zp

zpzp


Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg., es de 1–0.9772=0.0228, es decir, aproximadamente de un 2.3%.

De modo análogo, se puede obtener la probabilidad de que el peso de un sujeto esté

entre 60 y 100 Kg. Primero, se debe transformar la variable x en normal estándar (z), como sigue:

Segundo tomando a = -2 y b = 2, podemos deducir que:

Se sabe que p(z ≤2)= 0,9772. Ahora para la segunda probabilidad definida, sin embargo, encontramos el problema de que las tablas estadísticas estándar no nos proporcionan el valor de p(z ≤ -z) para valores negativos de la variable. No obstante haciendo uso de la simetría de la distribución normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. 3.1.4 Características de la Distribución Normal Estándar (reducida, tipificada)

La distribución normal estándar, posee las siguientes características:

• No depende de ningún parámetro.

• Su media es 0, su varianza es 1 y su desviación típica es 1. Recordemos, que esta ultima es resultado de la raíz cuadrada de la varianza, en este caso .11 =

• La curva f(x) es simétrica respecto del eje Y.

( ) ( )2210

80100

10

806010060 ≤≤−=

−≤≤−=≤≤ zpzpxp

( ) ( ) ( ) 0228,09772,012122 =−=≤−=≥=−≤ zpzpzp

( ) ( ) ( )2222 −≤−≤=≤≤− zpzpzp


• Tiene un máximo en el eje Y; que es donde lo intercepta.

• Tiene dos puntos de inflexión en z =1 y z = -1

3.1.5 La distribución Normal con Aproximación a la Binomial (Teorema de De Moivre)

Se demostró que bajo determinadas condiciones (para un tamaño muestral n grande, y tanto p como q no estén próximos a cero) la distribución Binomial se puede aproximar mediante una distribución normal.

Primero, debemos aclarar que la distribución de la variable X se denomina distribución

binomial de parámetro n y p. El parámetro n es el número de tiradas (un número entero positivo), y el parámetro p la probabilidad de éxito de una tirada (un valor entre 0 y la unidad, esto es, 0 ≤ p ≤ 1).

El hecho de que X siga una distribución binomial con parámetro n y p, lo denotaremos

abreviadamente como:

Luego, podemos transformar esta variable binomial en una normal al utilizar la siguiente fórmula:

Y por medio del teorema de Moivre, reemplazamos en la transformación de una

variable normal o estándar:

Hay que tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique que:

• np ≥ 5 y nq ≥ 5, gracias a esta aproximación es fácil encontrar probabilidades binomiales, que para valores grandes de n resulten muy complicados de calcular.

Se debe tener presente que para realizar correctamente esta transformación, de una

variable discreta (binomial) en una variable continua (normal), es necesario hacer una corrección de continuidad que depende de la forma de la campana de Gauss

( )., pnBx →

( )1,0esNnpq

npXZ

−=


A continuación, representan cada una de las conexiones de continuidad, según la

grafica de la distribución.

Por lo anterior se puede decir que , se representa el valor “a” de la binomial por un intervalo continuo.


CLASE 07

3.2 Distribución de la Media Muestral ( _

X )

Si se considera que un experimento es el proceso de elegir una muestra aleatoria

simple, la media de la muestra_

X es la descripción numérica del resultado de un experimento. En consecuencia, la media de la muestra es una variable aleatoria.

De esto se desprende que, al igual que otras variables aleatorias, _

X tiene una media o valor esperado, una varianza y una distribución de probabilidades.

Dado que los diversos valores posibles de _

X son el resultado de distintas muestras

aleatorias simples, a la distribución de _

X se le conoce como Distribución Muestral de _

X . Por lo anteriormente expuesto podemos concluir que: la distribución de la media muestral se define como: la distribución de los valores de las medias muestrales de todas las posibles muestras de tamaño “n” tomadas de la misma población.

Dada una población con una muestra aleatoria de tamaño “n”, con media aritmética “µ” y donde la desviación es representada por , pueden formarse n2 muestras con reemplazamiento distintas, formadas por dos elementos de la población.

La media muestral es representada por ( _

X ); y esta dada por:



Se ha dicho, que el objetivo de un estudio es poder extender o generalizar a la población las conclusiones que se obtengan de una muestra.

Suponga que de la población formada por todos los alumnos de un Liceo, se extrae

aleatoriamente una muestra de 40 alumnos, y a los cuales se les consulta por su edad, encontrando que la edad media obtenida es de 15,8 años. Pero, ¿Qué ocurriría, si se extrajera otra muestra?

• ¿Coincidirían las medias? • ¿Y coincidirían con la media de la población?

Lo cierto es que, parece lógico pensar que aunque no tengan porqué coincidir, si

deberían aproximarse bastante. No obstante:

• ¿Qué tan próximas se encuentran? • ¿Esta proximidad depende del tamaño de las muestras que elegimos?

Mencionadas estas inquietudes parece necesario, estudiar la variabilidad de las medias obtenidas de las muestras, que repetidamente se extraigan de una población.

Cada muestra de tamaño n que se pueda extrae de una población proporciona una media. Si se considera cada una de estas medias como una variable aleatoria, se puede estudiar su distribución, la cual se conoce como: Distribución Muestral de Medias.

• Si se tiene una población normal N(µ, σ) y se extrae de ella muestras de tamaño n, la distribución muestral de medias sigue también una distribución normal

( )nNX /,~_

σµ


Ejemplo Nº 11

Un guardabosque que estudia los efectos de la fertilización en ciertos bosques de pino, se interesa en estimar el área promedio de la base de los pinos. Al estudiar las áreas de la base de árboles similares durante muchos años, descubrió que estas mediciones (en pulgadas cuadradas) tienen una distribución normal con una desviación estándar aprox. de 4 pulgadas cuadradas.

Si el guardabosque selecciona una muestra de nueve árboles. Encuentre la

probabilidad de que la media muestral se desvíe a lo más en 2 pulgadas cuadradas de la media poblacional.

Datos: X = áreas de las bases de pinos en pulgadas cuadradas. X ~ N(µ, 16) n = 9

Se pide calcular, la siguiente probabilidad:

<<−=

< 22·__

XPZXIP Iµ


Transformamos a distribución normal estándar

[ ]

[ ] [ ][ ]( ) ( )5,15,1

5,115,1

5.15.13/4

2

3/4

·

3/4

2_

−−=<−−∉<=

<<−=

<<−=

ZZ

ZPP

ZPX

pµ

De la tabla estadística normal estándar (anexo 1) se obtienen las siguientes

probabilidades:

( )

8664.00668.09332.0

9332.019332.0

=−=

−−=

<−<−=nn

x

np

/

2

//

2

σσµ

σ

Reemplazamos

<−<−=9/4

2

9/49/4

2

321Z

xP

µ


Ejemplo Nº 12

Las notas de cierto examen se distribuyen según una distribución normal, de media 5,8 (µ) y desviación estándar 2,4 (σ). Hallar la probabilidad de que la media de una muestra tomada al azar de 16 estudiantes está comprendida entre 5 y 7.

Datos:

µ =5,8 σ =2,4 n = 16

Como N (µ, σ / n ), se tiene que el promedio de notas se distribuyen normal con µ = 5,8 y

σ/ 6,016

4,2 ==n , es decir,

6,0;8,5~ Nx

Se transforma a distribución normal estándar:

−≤−≤−

nn

x

np

Z

/

7

//

5

σµ

σµ

ωµ

321

Reemplazamos

[ ]233,1

6,0

2,1

6,0

8,0

16/4,2

8,57

16/4,2

8,55

≤≤−

≤≤−=

−≤≤−

Zp

ZpZp

p(-1.33 ≤ X ≤ 2) = P(z ≤ 2) - [1 – P(z ≤ 1.33) ] = 0,9773 - (1- 0,9082) = 0,9773 – 0,0918 = 0,8855

• Si la población no sigue una distribución normal, pero n > 30, aplicando el llamado

Teorema Central del Límite, la distribución muestral de medias se aproxima también a la distribución normal descrita con anterioridad.


En relación a la media muestral se puede concluir que:

• A medida que “n” aumenta, su dispersión se hace cada vez menor, y • Tienen una distribución cada vez mas simétrica, unimodal y acampanada

CLASE 08 3.2.1 Error Estándar de la Media

A la desviación estándar de la distribución de muestreo de la media (_

x ), se le denomina error estándar de la media.

El error estándar de la media es igual a la desviación estándar de la población (σ) dividido entre la raíz cuadrada del tamaño de la muestra “n”; es decir:

Debe recordarse que el error de muestreo concerniente a una media de la muestra es

la diferencia entre el estadístico _

x y el parámetro poblacional µ

− µx_ . Cuando n es grande,

la desviación estándar de la población σ es pequeña y, consecuentemente, los errores de muestreo son pequeños, debido a que la diferencia entre el estadístico y el parámetro de la media es pequeña.

A medida que el tamaño muestral aumenta, la magnitud del error de muestreo

disminuye.

nx

σσ =_


Datos: µ=80 σ=8 n=36 Solución: µx = µ=80

Ejemplo Nº13

Una población estudiada posee una distribución normal, con una media µ=80 y una desviación estándar σ=8, determinar los parámetros µx y de la distribución muestral de la media para el siguiente tamaño de la muestra : n=36 1.3333

• Relación entre el tamaño de la muestra y la distribución muestral de _

X

Como la esperanza de la media muestral, que se denota ,_

µ=

xE es independiente

del tamaño de la muestra. Así, la media de todos los valores posibles de _

x es igual a la media de la población, µ, independientemente del tamaño de la muestra n. Sin embargo, en

la ecuación anterior, se puede apreciar que el error estándar de la media, σ ,/_

nx σσ = se relaciona con la raíz cuadrada del tamaño de la muestra. En forma específica, siempre que

aumenta el tamaño muestral, disminuye el error estándar de la media, _

xσ . n

xnncuandon

xσσσσ ±<= 11;


En consecuencia, con el mayor tamaño de muestra, se obtendrá una probabilidad

mayor de que la media de la muestra quede dentro de los límites especificados respecto a la media poblacional.

3.2.2 Teorema Central del Límite

El Teorema Central del Límite expone que al tener un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal.

Supóngase que se tiene una población con media µ y desviación estándar σ. al

extraer de forma aleatoria todas las posibles muestras, todas ellas de tamaño n. muestrales que se obtienen con los medios muestrales se podría comprobar que:

• La media de los datos, es la media µ de la población, es decir la media de las medias

de las muestras, es igual que la media de la población (esto corresponde al valor esperado).

• Estas medias se distribuyen alrededor de la media de la población, con una

desviación típica (llamada desviación estándar de la media ) igual a la de la población

dividida por la raíz de n, es decir, la desviación estándar de la media es

n

σ

• La distribución de las medias muestrales, es una distribución de tipo "normal", independiente de que la población de procedencia lo sea, incluso si no lo es, siempre que el tamaño de las muestras sea mayor o igual a 30.

En consecuencia, "si una población tiene media µ y desviación estándar σ, y tomamos

muestras de tamaño n (de tamaño al menos 30, o cualquier tamaño, si la población es "normal"), las medias de estas muestras siguen aproximadamente la siguiente distribución normal .

Cabe señalar, que cuanto mayor es el valor de n, mejor es la aproximación a la

distribución "normal".

nN

σµ ,


Lo anterior queda graficado de la siguiente forma:

En lo anterior expuesto, se ha utilizado un concepto importante: la desviación estándar

de la media n

σ , la que nos indica que cuanto menor sea ésta, más ajustadas a la media de

la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la

muestra, menor es este grado de variabilidad, y por tanto más similar a la media de la población será la media obtenida de la muestra.

Ejemplo Nº 14

Se lanza una moneda al aire 100 veces, si sale cara se le otorga el valor 1 y si sale cruz, el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli5, con media 0,5 y varianza 0,25.

5 En un experimento de Bernoulli, se denomina éxito al suceso en estudio, Ao 1, y fracaso a su contrario Ā o O., Ā. A dicho experimento le asociamos una variable aleatoria X definida como. El número de éxitos al realizar el experimento, es decir,

Aocurresi

ocurresiX

1

0:

_

Α

Desviación estándar de la media:

Es el grado de variabilidad que tienen las medias muestrales.


Para analizar la probabilidad de que salgan más de 60 caras, se debe calcular la variable normal estándar (Z) equivalente:

00,2

105

5060

1005

5060

/

=−=

−=−=n

xZ

σµ

(*) 5 es la raíz cuadrada de 25, o sea la desviación estándar de esta distribución. Por lo tanto, para calcular la probabilidad solicitada

P (X > 60) = P (Z > 2,0) = 1- P (Z < 2,0) = 1 - 0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda, salgan más de 60 caras es tan sólo del 2,28%.

Se pide calcular la probabilidad de que en los 100 lanzamientos, salgan más de 60

caras. La variable que representa la suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal la que posee los siguientes parámetros poblacionales:

diremos que X tiene una distribución de Bernoulli de parámetros p, donde p es la probabilidad de éxito, que se encontrara entre 0 y 1 (0 ≤ p ≤ 1). La denotaremos brevemente como :

X→b(p).

Media = 100 * 0,5 = 50 =µ Varianza = 100 * 0,25 = 25 =σ2


Este teorema se aplica tanto a suma de variables discretas como la de variables continuas. Los parámetros de la distribución normal son:

Media: n * _

x (media de la variable individual multiplicada por el número de variables independientes) Varianza: n * s2 (varianza de la variable individual multiplicada por el número de variables individuales)

Ejemplo Nº 15

La variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Al lanzar la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal, de acuerdo al teorema del limite central, donde n > 30

CLASE 09

3.2.3 Diferencia de Medias Teorema:

Si se sacan al azar muestras independientes de tamaño n1 y n2, de 2 poblaciones

discretas o continuas, con medias µ1 y µ2; varianzas σ2 1 y σ2 2 respectivamente, entonces la

distribución muestral de la diferencia de las medias 2

_

1

_

xx − es aproximadamente normal con media:

Y varianza

212

_

1

_

µµµ −=− xx

2

2

1

1var

22

2

_

1

_

nnxx

σσ +=

−


Si las probabilidades son independientes, entonces la variable:

( ) ( ) ( )1,0~

2

212122

1

21

N

nn

xxZ

σσµµ

+

−−−=

Si ambas probabilidades son independientes, con varianzas desconocidas pero

iguales, entonces la variable aleatoria, para diferencia de las medias se utiliza la siguiente formula

( ) ( ) ( )1,0~11

21

2121 N

nnS

xxT

p

+

−−= − µµ

Donde,

( ) ( )221

1211 22

212

−+−+−

=nn

SnSnS p

Es la varianza ponderada, que representa un estándar puntual de la varianza común.

3.2.4 Diferencia Muestral de Proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando porcentajes. A continuación se citan algunos ejemplos: • Educación.- ¿Es mayor la proporción de estudiantes que aprueban matemática que las

de los que aprueben inglés? • Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A, que presenten

una reacción adversa, que el de los usuarios del fármaco B que también presentan una reacción de ese tipo?

• Administración.- ¿Hay diferencia entre el porcentaje de hombres y mujeres en posiciones gerenciales?

• Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que genera la máquina A a los que genera la máquina B.?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos

proporciones maestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 ≥ 5, n1q1≥ 5, n2p2 ≥ 5 y


n2q2 ≥ 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1, p2 también tiene una distribución muestral aproximadamente normal.

En estos casos la variable aleatoria toma solamente dos valores diferentes (éxito o

fracaso), es decir, sigue una distribución binomial y cuando la extensión de la población es grande la distribución binomial B(n,p) se aproxima a la normal N (pn, npq).

Para muestras de tamaño n>30, la distribución muestral de proporciones sigue una distribución normal:

Donde p es la proporción de uno de los valores que presenta la variable estadística en la población y q =1-p

Ejemplo Nº 16

Si se lanza una moneda no trucada al aire 100 veces ¿cuál es la probabilidad de que

se obtengan más de 55 caras?

− En una moneda no trucada, la proporción de caras es 0.5, con lo que p = 0.5 y n = 100.

− La distribución muestral de proporciones se distribuye N(0.5, 0.05) − Si se llama p’ a la proporción en la muestra, se calcula la probabilidad P(p’>0,55)

n

pqpN ,


La probabilidad de P(p’>0,55), se transforma a normal:

−>

n

pq

pzp

55,0

Reemplazamos:

( ) ( )

1587,0

8413,01

1Zp11zP

0025,0

05,0zp

100

5,055,0

5,055,0zp

=−=

≤−=>

>=

−−>

Al buscar en la tabla estadística distribución normal estándar N(0,1) la probabilidad correspondiente al valor Z

CLASE 10 3.3 Distribución de la Varianza Muestral Chi-cuadrado (x2)

La prueba Chi-Cuadrado fue desarrollada por Karl Pearson (1857-1936) en 1900, aplicando sus resultados en el ámbito biológico. “Se podría definir como una suma de variables normales al cuadrado”.



Si Z1, Z2,..., Zv, son variables aleatorias normalmente distribuidas e independientes

con media=0 y varianza = 1, la suma de sus cuadrados, esta representada por χ2, donde:

Al considerar una variable aleatoria cuya distribución es )1,0(~ nz , la variable

aleatoria, X = Z2 se distribuye según una ley de probabilidad como chi-cuadrado (x2) con n grado de libertad, que se representa como:

Si se tiene n variables aleatorias independientes, que se distribuyen )1,0(~ nz la suma

de sus cuadrados respectivos es una distribución que lleva por nombre ley de distribución con n grados de libertad, que se denota por:

La media y varianza de esta variable son respectivamente:

3.3.1 Función de Densidad

( ) 2

1

2 ~1,0~ n

n

ii

n

ii xzNz ∑=

⇒=

[ ][ ] nxVar

nxEMedia

2=

==

( )( ]

∞∈=

∞∈−−

,0-X si0)(

,02

12

222

1

2

xsine

nxnTn

xfx n

21~ xx


Figura Nº4: Función de Densidad de 2

nx para Valores Pequeños de “n”

Figura Nº5: Función de Densidad de 2

nχ para Valores Grandes de “n”


21χ~χ

En consecuencia, si x1,…xn, son variables aleatorias independientes, donde cada ( )2,~ iiN σµχ , se tiene que, al considerar una variable aleatoria distribuida en forma normal,

( )1,0~ Nχ la variable aleatoria, X = Z2 se distribuye según una ley de probabilidad

distribución 2χ con un grado de libertad, lo que se representa como:

Los grados de libertad constituyen la cantidad de valores independientes que admite un conjunto de observaciones a partir de determinadas condiciones que tiene que cumplir dicho conjunto. Así, si se dice que una variable tiene n -1 grados de libertad esto indica que solo n -1 de los valores de la muestra están libres para variar.

Ejemplo Nº 17

Un instrumento para medir el nivel de glicemia en la sangre, ofrece resultados aproximados a la realidad, aunque existe cierta cantidad de error ∈ que se distribuye en forma normal con media 0 y desviación estándar σ = 2.

( )21

exp 2,0~, ==∈∈+= σµχχ Nreal

Donde: Xreal: variable real Xexp: variable observada en la muestra ∈: error de medición

Se realizan mediciones de los niveles de glicemia, entregados por el instrumento en

un grupo de n = 100 pacientes. Interesa medir la cantidad de error que se acumula en las mediciones de todos los

pacientes. Se pueden plantear varias estrategias para medir los errores acumulados, entre ellas destacamos las siguientes:

1. Definir el error acumulado en las mediciones de todos los pacientes como

Observación:

La ley de distribución x2 muestra su importancia cuando se desea determinar la variabilidad (sin signo), de cantidades que se distribuyen en torno a un valor central, siguiendo un mecanismo normal.


∑=

∈=n

iiE

11 ¿Cuál es el valor esperado para E1?

2. Definir el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas):

∑=

∈=n

iiE

1

22 ¿Cuál es el valor esperado para E2?

A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más

conveniente utilizar en una estimación del error cometido por un instrumento. Suponiendo que todas las mediciones son independientes, se tiene que

De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a compensarse entre unos pacientes y otros.

Obsérvese que si µ no fuese conocido con anterioridad, se podría utilizar E1, para obtener una aproximación de µ , es decir.

Sin embargo, el resultado E1 no indica en qué medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto a E2 se puede afirmar lo siguiente:

( )

( )

( )

( )

[ ] 0... 1

,

,,

2

,

11

1

2

222

==⇒∈++∈+∈=∈=∑=

µ

σµ

σµσµσµ

EEE

nN

N

n

NN

n

ii

4444 34444 21

n

E1≈µ


En este caso los errores no se compensan entre sí, y si la varianza ( )2σ no fuese conocido, podría ser “estimado” de modo aproximado mediante

Sin embargo, no se obtiene ninguna información con respecto a µ.

Para concluir, E1 podría ser utilizado para calcular de modo aproximado µ, y E2 para

calcular de modo aproximado σ2. Las dos método tienen interés, y ninguna lo tiene más que el otro, pues ambas formas de medir el error nos aportan información. Teorema:

Sea x1, x2, ..., xn una muestra aleatoria de una población N ( µ, σ2 ), entonces:

• _

χ y S2 son independientes.

• ( ) ( )1~

·1 22

2

−−n

sn χσ

[ ] 400·... 22

2

2

122

1

2

1

22

2

21

21

==⇒

∈++

∈=

∈=∈= ∑∑

==

σσσ

σσ

σ nEEE

nx

x

n

x

n

i

in

ii

444 3444 21

321

n

E 22 ≈σ


Ejemplo Nº 18

Para este ejemplo, se usará la tabla Chi-cuadrado (que se encuentra en el anexo Nº 1)

( )5~ 2χχ Para una variable que se distribuye Chi-cuadrado Calcular:

a) P(x < 1.61) = 0.10 b) P(x < 12.83) = 0.975 c) P(x > 12.83) = 1 – 0.975 = 0.025 d) P(x > 0.554) = 1- 0.01 = 0.98

Para una variable que se distribuye Chi-Cuadrado Calcular:

a) P(9.59< x< 12.44)= 0.10 – 0.025 = 0.075 b) 0.025 < P(x < 10)< 0.05 = 0.031828 (según calculadora)

CLASE 11

3.4 Distribución T – student (T)

Sean X y X1,…, Xn, n+1 variables aleatorias independientes e igualmente distribuidas con distribución N(0,1). Decimos, entonces, que la variable: Sigue una distribución t de Student con n grados de libertad.

25~ χχ

Realice ejercicio Nº 27

n

xx

XT

n22

1 ···++=

220~ χχ


Si una variable, T, sigue una distribución t de Student con n grados de libertad, la indicaremos de forma abreviada como

Como 22

1 ... nxx ++ sigue una distribución x2 con n grados de libertad, puede darse una definición equivalente de esta distribución de probabilidad.

Sea X una variable aleatoria con distribución N(0,1) y sea Y una variable aleatoria con

distribución 2nχ . Si X e Y son independientes, la variable:

Se dice que sigue una distribución t de Student con n grados de libertad. La distribución t de Student tiene un único parámetro, que indica los grados de libertad

de la x2 que aparece en el denominador. El origen de esta se encuentra en la estimación de esperanzas de distribuciones

normales, cuando su desviación típica es desconocida. W.S. Gosset, por seudónimo Student, un industrial cervecero, la propuso y tabulo en 1908.

Este tipo de distribución muestral se crea a partir de una distribución normal (0,1) y

una Chi-cuadrado, con n grados de libertad independientes. Normalmente, se utiliza cuando el tamaño muestral n es menor a 30.

La distribución t-Student se construye como un cociente entre una distribución normal

y la raíz de una distribución 2x independiente. De modo preciso, se conoce como distribución t-Student con n - 1 grados de libertad,

a la de una variable aleatoria T, que se denota:

ntT ~

n

y

XT =

)1(~/

−−= ntns

XT

µ


Donde:

:_

X media muestral :µ media poblacional :s desviación estándar muestral

n : tamaño muestral n-1: grados de libertad.

Este tipo de distribuciones aparece cuando se tiene n variables aleatorias

independientes, que cumplen las siguientes condiciones:

( )( ) niNX

NX

ii ,...,1~

,~

2,2

2

=σµ

σµ

Interesa la distribución de: 3.4.1 Función de Densidad

La función de densidad de nn tt ~ es:

∑=

−

−

=n

i

ix

n

x

T

1

21

σµ

σµ

( ) IRtn

x

nn

T

nT

xf

n

T ∈∀

+

+

=

+−2

12

1

2

2

1

π


Figura N º 6: Función de Densidad de una t de Student

3.4.2 Propiedades de la Distribución T – student

La distribución t de Student tiene propiedades parecidas a la distribución normal N(0,1):

• Es de media cero, simétrica con respecto a la misma

• Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta.

• Cuando el tamaño de la muestra aumenta, la distribución t de Student se aproxima a

la N(0,1).

Al comparar los gráficos de las funciones de densidad de la distribución normal (Z) con

la distribución T-student, se obtiene que esta última, se asemeja a la Z, puesto que arriba son simétricas de forma acampanada alrededor del cero.


Figura Nº 7: Comparación entre las Funciones de Densidad de t1 y N(0,1)

Para un número alto de grados de libertad se puede aproximar la distribución t de

Student por la normal, es decir, Figura Nº 8: Aproximación, con n →∞, t de Student a Normal

Para calcular en lugar de considerar una primitiva de esa función y determinar la integral definida, buscaremos el resultado aproximado en una tabla de la distribución t (n-1).

( )1,0Ntn

n

∞→→


Ejemplo Nº 19

Dada una variable T que se distribuye t de Student con 10 grados de libertad

T – t(10) Calcular:

a) P(T < 1.37) = 0.9 b) P(T < -1.37) = 0.1 c) 0.65 < P(T < 0.4) < 0.70 d) P(T > 2.23) = 1 – 0.975 = 0.025 e) P(T < -4.59) = 1 – 0.9995 = 0.0005

Para la variable T, con 30grados de libertad, T – t (30)

a) P(T < 1.31) = 0.90 b) P(T < -1.05) = 1 – 0.85 = 0.15 c) P(T > 1.05) = 0.15

[ ] ( ) ( ) dxn

x

nn

T

nT

dxxftFtTPn

n

t t

TT

12

1

2

2

1 +−

∞− ∞−

+

+

===≤ ∫ ∫π

Realice ejercicio Nº 28 y 29


CLASE 12 3.5 Distribución F de Fisher o de Snedecor

Otra de las distribuciones importantes asociadas a la distribución normal es la que se define como cuociente de distribuciones x2 independientes. Sean 2~ nXX e 2~ mXY dos variables aleatorias independientes. Se dice entonces que la variable:

Sigue una distribución de probabilidad de Fisher, con (n, m) grados de libertad. Obsérvese que nmmn FF ,, ≠ .

La forma más habitual en que aparece esta distribución será en el caso en que se

tenga n+m variables aleatorias independientes:

Y así,

De esta ley de probabilidad lo que más interesa es su función de distribución:

mnFY

X

n

m

Ym

XnF ,~1

1

==

( )

( ) mismNY

niNX

jjj

ii

,...,1,~

,...,1,~

2

21

=

=σµ

mnm

j j

jj

n

i

ii

F

s

mY

m

x

nF ,

1

2

1

2

~1

1

∑

∑

=

=

−

−

= σµ


( ) [ ]xFPxFF ≤=

Y para ello, como en todas las distribuciones asociadas a la normal, se dispone de una tabla donde encontrar aproximaciones a esas cantidades. Figura N º 9: Función de Densidad de 2,1nnF

Es claro que la distribución de Fisher no es simétrica, pues sólo tienen densidad de probabilidad distinta de cero, los punto de IR+.

Otra propiedad interesante de la distribución de Fisher es:

Esto quiere decir que:

Suponga que:

nmmn FF

FF ,, ~1

~ ⇔

( ) ( )7,15;90.0

115,7;10.0

ff =


Sean x1, x2, … , xn una muestra aleatoria de una población ( )1, 2σµN y y1, y2, …, ym

una muestra aleatoria de una población ( )2, 2σµN De esto se obtiene que: Propiedades de la distribución F

• El recorrido de F corresponde al intervalo (0, ∞) • Depende de los grados de libertad “n” y “m” • Presenta asimetría positiva, con un grado que depende conjuntamente de los grados

de libertad del numerador y el denominador

Ejemplo Nº 20

Uso de la tabla de distribución F de Fisher, para una variable que se distribuye x – f(4,8), se pide calcular.

a) P(x < 0.915) = 0.5 b) P(x < 5.05) = 0.975 c) P(x < 14.4) = 0.999 d) P(x > 5.05) = 0.025 e) P(x < 1.01) = P(x > 1.01) = 0.6

( ) ( )1~2

212

2

2

−−−

nxsn

σ

( ) ( )12

212

2

2

−−−−−

nxsm

σ

1;1~/

/22

22

21

21 −−= mFn

s

sF

σσ


Por último, para una variable que se distribuye X – f(12,15), se pide calcular: Percentil 99 = f(0.99; 12,15) = 3.67 F 0.9; 12,15 = 2.02

Realice ejercicio Nº 30


4. ANEXOS

A continuación, se presentan las tablas de valores para las distribuciones Z normal estándar, la T de Student, la Chi-cuadrado y la F de Fischer; que nos permite concluir a partir del análisis de estimaciones puntuales y de pruebas de hipótesis.


Anexo Nº1 Distribución Normal Estándar

Z ~ (0,1)

Interpretación valor tabla p(Z<0.58) = 0.7190, donde z (0.58) se encuentra en la primera columna de la Tabla Normal y sus decimales se construyen en la primera fila de ésta.


Anexo Nº 2 Distribución Chi-Cuadrado

X2

Interpretación valor tabla x2

0.975;3 = 0.216, donde x2 con 3 grados de libertad (n=3) y con un α igual a 0.975, es decir, con un p=0.025.


Anexo Nº 3 Distribución T - Student

t

Interpretación valor tabla t0.9;3 = 1.64, donde t con 3 grados de libertad (n=3) y con un α igual a 0.1, es decir, con un p=0.9.


Anexo Nº 4 Distribución F – Fischer

F

Interpretación valor tabla F1,2 ; 0.9 = 4.0604, donde F con 1 y 3 grados de libertad (n1=1, n2=3); esta Tabla es para un nivel de confianza del 90%.


UNIDAD II

ESTIMACIÓN

2Instituto Profesional Iplacex

CLASE 01

1. CONCEPTOS BASE DE LA ESTIMACIÓN

En nuestra vida diaria nos vemos obligados a hacer estimaciones, por ejemplo si un peatón va a cruzar una calle y viene un automóvil, tiene que estimar la velocidad del automóvil, su propia velocidad al cruzar la calle y como resultado de estas estimaciones deberá tomar la decisión de cruzar o no.

Cualquier medida estadística muestral que se use para estimar un parámetro de la

población es llamado estimador Un estimador es una herramienta, en base a una regla o algoritmo, basada en las

mediciones contenidas en una muestra. Así por ejemplo; podemos decir que el cálculo de la media de la muestra es un

estimador de la media poblacional.

Del mismo modo, decimos que el cálculo de la varianza de la muestra es un estimador

de la varianza poblacional ( 2σ ), es posible decir que, dado x1, x2,…, xn como una muestra aleatoria, es un estimador de la media poblacional ( µ ).

Nota: Es importante, saber que se pueden obtener diferentes estimadores para un mismo parámetro.

n

xxxx n+++

=...21

_

Es un estimador de µ

1

_

12

−

−=∑

n

xx

s Es un estimador de 2σ


El objetivo principal de la estadística inferencial es la estimación, esto es que mediante

el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores.

En las pruebas de estimación se deberán hacer inferencias acerca de las

características de las poblaciones a partir de la información contenida en la muestra. La inferencia estadística es la forma de tomar decisiones basadas en probabilidades y

presenta dos aspectos: la estimación de parámetros y la prueba de hipótesis con respecto a una función elegida como modelo.

Las estimaciones acerca de una población o estimación de parámetros se pueden

clasificar en: estimaciones puntuales y estimaciones por intervalo1

Estimación:

Una estimación es un valor numérico, que toma un estimador a partir de las observaciones, por ejemplo cuando queremos realizar un estudio de una población cualquiera de la que desconocemos sus parámetros, como su media poblacional, debemos tomar una muestra aleatoria de dicha población a través de la cual calcular una aproximación a dichos parámetros que desconocemos y queremos estimar. Bien, pues esa aproximación se llama estimación.

1 Barrientos Valerio, Introducción a la Estadística Inferencial 1986

Estimador:

Para θ , parámetro desconocido de una población X, los estimadores serán herramientas que permitirán la estimación de tal parámetro. Por lo que se entenderá como estimador cualquier variable aleatoria, (x1, x2, …, xn)(o simplemente ), que se defina a partir de la sucesión de variables aleatorias, x1, x2, …, xn; que integran una muestra al azar de una población, es decir, toma un valor para cada n observaciones o datos. Estos datos corresponden a los valores de la variable que representan a la población en los n “individuos” de la muestra. Deberemos valorar en un estimador su capacidad de extraer “al máximo” la información contenida en la muestra, ya que redundará en la calidad de las estimaciones.


Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. En otras palabras, si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un parámetro de la población desconocido, el procedimiento a aplicar se denomina Estimación Puntual.

Una estimación por intervalo es un rango, generalmente, de ancho finito, que se

espera que contenga el parámetro. Es decir, cuando nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza se aplica el procedimiento estimación por intervalo.

A continuación, se abordarán detalladamente cada uno de los tipos de estimación de la inferencia estadística.

CLASE 02

2. ESTIMACIÓN PUNTUAL

La inferencia estadística está casi siempre concentrada en obtener algún tipo de

conclusión acerca de uno o más parámetros (características poblacionales).

Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales.

Por ejemplo, al representar con µ (parámetro) el verdadero promedio o promedio

poblacional, de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la

ruptura (_

x ) se podría emplear para sacar una conclusión acerca del valor de µ (media poblacional).

De forma similar, si 2σ es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza muestral s2 se podría utilizar para inferir algo acerca de 2σ . Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media (µ) o la desviación estándar (σ)), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro poblacional.


Sea una muestra aleatoria simple, X1, X2, ...... , Xn de una población con distribución N(µ, σ²). Estimador de la media:

La distribución muestral de la media es: x = N(µ,σ/√n) S/√n estima a la desviación típica de la media σ/√n y se denomina error estándar de la media muestral. Por esta razón se dice que el error estándar de la media mide la variabilidad de la media en el muestreo Estimador de la varianza:

Estimación Puntual:

Una estimación puntual de un parámetro cualquiera θ es un número estadístico, que se puede considerar como el valor más razonable de θ .

La estimación puntual se obtiene al seleccionar una estadísticas apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de θ y se denota regularmente por . Una estimación puntual es el valor de la estadística de la muestra correspondiente.


Ejemplo Nº 1

Se necesita estimar la nota media de los alumnos de la asignatura de matemáticas, en donde x es la variable que indica la nota obtenida por cada estudiante.

Tomaremos una muestra de tamaño n =20 y calculamos la nota media de la muestra.

4,2 5,0 5,6 5,8 6,2 5,9 6,5 6,5 6,0 6,9

4,5 6,0 4,8 5,6 6,0 6,2 6,0 6,5 4,8 5,6

73,520

6,114... 20321 ==++++

=∑ n

xxxxx

Se obtiene una media muestral de 5,7; nota promedio de 20 alumnos de la asignatura

de matemáticas, donde este número se toma como el estimativo de estimación puntual para la media poblacional.

Se concluye que un Estimador Puntual de un parámetro es cualquier estadística que

nos permita, a partir de los datos muestrales, obtener valores aproximados del parámetro.

2.1 Propiedades de los Estimadores Puntuales

Al no tener seguridad que los estimadores tengan el valor del parámetro, se deben considerar sus propiedades.

Para poder utilizar la información que se obtenga del estimador puntual de θ , se

necesita identificar que los estadísticos elegidos sean “buenos” estimadores del parámetro θ .

Existen cuatro criterios que se suelen aplicar para determinar si una estadística es un

buen estimador, estos son. 2.1.1 Insesgamiento

Sea un estimador puntual del parámetro θ . Entonces, es un estimador insesgado para estimar θ , si:


En otras palabras, un estimador insesgado es aquel para el cual la media de la

distribución muestral es el parámetro estimado. Si se usa la media muestral _

x para estimar la media poblacional µ , se sabe que la µµ =_

x , por lo tanto, la media es un estimador

insesgado. Es decir:

La media muestral ( _

x ) y la varianza (S2), son estimadores insesgados de µ y σ 2,

ya que E (_

x ) = µ , E ( S2) = 2σ . Los valores de _

x y S2 se denominan estimadores insesgados. Sin embargo, S2 es un estimador sesgado de σ , ya que, en general, E (S2) ≠ σ

La carencia de sesgo puede interpretarse de la siguiente forma: Supóngase que se tiene un número indefinido de muestras de una población, todas ellas del mismo tamaño n. sobre cada muestra el estimador ofrece una estimación concreta del parámetro que se busca. Ahora bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es θ (el valor que se desea conocer). Si el estimador no es insesgado, entonces la diferencia es conocida como sesgo del estimador Ejemplos de estimadores insesgados

Ejemplo Nº 2 Media Muestral

Sea x1, x2, …, xn, una muestra aleatoria de una población normal, con media µ y

varianza 2σ (N( 2,σµ )), entonces, podemos decir que _

x es un estimador insesgado de µ .

µ=

_

xE

θθβ −

=∧

E


Se debe verificar si se cumple que:

µ=

_

xE

Sabemos que:

( )∑

+++=

n

xxxx n...21_

Por lo tanto, reemplazamos:

( ) ( ) ( ) ( )[ ]n

n xExExEnn

xxxE +++=+++...

1...21

21

Dado que la ( ) µ=ixE , podemos decir:

( ) ( ) ( )[ ]

[ ] µµµ

µµµ

=

==

=++=+==

__

21

_

xE ·1

...1

nn

xE

xExExEn

xE n

Se concluye que el estimador _

x es insesgado.

Estimador insesgado Estimador sesgado


Ejemplo Nº 3

Cuasivarianza Muestral La cuasivarianza muestral es un estimador insesgado de la varianza poblacional por lo tanto:

Lo cual queda demostrado de la siguiente forma:

Ejemplo Nº 4 Varianza Muestral

Varianza Muestral: es un estimador sesgado de la varianza poblacional


CLASE 03 2.1.2 Eficiencia

Una menor varianza garantiza que en el muestreo repetitivo, una mayor fracción de valores quedará más cerca del parámetro θ . Por lo tanto, al existir dos estimadores insesgados, se debe elegir el de menor varianza.

Estimador insesgado de mínima varianza:

Sean dos estimadores insesgados de θ . Se dice que ∧θ 1es mas

eficiente que ∧θ 2 si se cumple la siguiente regla:


La búsqueda del Estimador Insesgado de Mínima Varianza (EIMV), se facilita con la

ayuda de un resultado conocido con el nombre de cota inferior de Cramer Rao. • Teorema de Cota Inferior de Cramer Rao (CCR)

Sea x1, x2, …, xn, una muestra aleatoria de tamaño n de una distribución con función de probabilidad igual a f(x, θ ).

Si ∧θ es un estimador insesgado de θ , entonces la varianza de

∧θ debe satisfacer el

teorema de cota inferior de Cramer Rao (CCR). Para demostrar que es un estimador insesgado de mínima varianza, la condición que debe satisfacer es:

. ( )

≥

∧

θθ

θ

d

x,fen d

1)(

nE

Var .

Lo importante del teorema es que la desigualdad de Cramer Rao establece una cota inferior para la varianza de cualquier estimador insesgado, por lo que, podemos identificar su varianza mínima.

Dado un estimador insesgado ∧θ de θ , la razón de su CCR a su varianza se llama

“Eficiencia de θ ”.

Donde:

CCR: La Cota Inferior de Cramer Rao

Var(∧θ ): La varianza del estimador puntual de θ .

≤

≤

∧θ

θ

VAR CCR

ó 1)(VAR

CCR


Un estimador insesgado con eficiencia igual a 1 se dice eficiente. En otras palabras, la eficiencia se refiere al tamaño del error estándar (o desviación estándar de la distribución de muestreo) de la estadística.

Ejemplo Nº 5

Sea x1, x2, …, xn de una distribución Poisson ( λ ).

Obtener el estimador eficiente para λ , el cual denotaremos como ∧λ

La variable x se distribuye Poisson, por lo que se tiene que su esperanza de x es igual

a λ , La varianza de x es también, igual a λ , y presenta una función de densidad igual a:

( ) ( ) ( )xx

exf

x

varxE ;!

, ===−

λλλλ

A esta función de densidad de Poisson aplicamos logaritmo natural, obtenemos:

( ) ! ln ln ln !

ln , ln xex

exf x

x

−+⇒

= −

−

λλλ λλ

x!xe ln - ln ln

1

λλ +−⇒ 321

[ ]2 01),( ln −+−=∂

λλλ x

d

xf

( )

2

2211

, ln

λλ

λλλλ +−=

+−=

xx

d

xfd

( ] ( ) ( )2

22

222

2

12

1

λλλ

λλλ

λ−=−=+−⇒

xxxx

( ) ( )

−=

∂2

22

,ln

λ

λλ xe

xfEEntonces

( )222

1 λλ

−⇒ xE


Donde

( )2λ−ixE = a la varianza de la función de probabilidad de Poisson por n, que es la cantidad total de variables observadas. Sabemos que la varianza de Poisson es λ

Reemplazando, nos queda:

( ) ( )

λλ

λ

λλλ

λ

nn

xExf

E i

==

−=

∂∂

··1

1,ln

2

2

2

2

43421

Lo que nos lleva a concluir que la cota inferior de Cramer Rao es igual a:

nnCCR

Var

CCR λ

λ

==⇒≤ 11

Por lo tanto, podemos decir que ∧λ es un estimador eficiente de λ

Ejemplo Nº 6 Estimadores eficientes

Para facilitar este análisis, algunos autores indican que en lugar de usar sesgo y

varianza separadamente para evaluar un estimulador, es preferible usar el cuadrado medio del error (CME).

El Cuadrado Medio del error (CME) es un estimador puntual ∧θ , que se define por:

2

−=∧

θθECME


O equivalentemente:

Se tiene que:

• Exigir un estimador con CME pequeño implica minimizar simultáneamente su sesgo y su varianza

• Para los estimadores insesgados, el criterio coincide con minimizar la varianza, es decir, se busca el estimador eficiente

2.1.3 Consistencia

Es denominada también como propiedad limite de un estimador, Sea ∧θ un estimador

de un parámetro θ ; sean ∧

1θ , … ∧θ n una secuencia de estimadores que representan a

∧θ , con

base en muestras de tamaño 1, 2, …, n, respectivamente. Se dice que ∧θ es un estimador

consistente para θ si: Donde: P: denota probabilidad

∧

nθ : Estimador de θ para un tamaño muestral de n, nótese que por abuso del lenguaje

llamamos a esta sucesión ( n

∧∧∧θθθ ,...,, 21 ) estimador

θ : Parámetro poblacional. ε : Error admitido.

Es decir, un estadístico es un estimador consistente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza, de que el valor del estadístico se aproxima bastante al valor del parámetro de la población. Si un estimador es consistente se vuelve más confiable para tamaños de muestras más grandes.

θθββθ −

=+

=∧∧

EVarCME ,2

0, 1 n

>=

≤−∧

∞→εεθθnPlím


Para probar que un estimador ∧θ es un estimador consistente, se puede utilizar la

desigualdad de Tchebyshef. Veamos si _

x es un estimador consistente de µ (media poblacional) • Teorema

Sea x variable aleatoria con función de densidad de probabilidad f(x), E(x) = µ , Var(x)= 2σ < ∞ para un error admitido (ε ) de una constante por su desviación estándar poblacional

(kσ ), se tiene que:

Si k = 2, reemplazamos:

75,0·2_

≥

≤− σµxP , Sin valor absoluto, nos queda:

75,022___

≥

+≤−≤− σµσ xxxP

Por lo tanto _

x es un estimador consistente de µ con lo que se concluye que:

Un estimador insesgado ∧θ es consistente si se da la siguiente condición

Es decir, para que el estimador sea consistente, es necesario que la probabilidad de ∧θ

este a menos de cierta distancia “ε ” del parámetro θ

Ejemplo Nº 7

Verifiquemos si la media muestral (_

x ), es un estimador consistente de la media poblacional µ .

1 /11· 2_

>−≥

≤− kkkxP σµ

0 limn

=

∧

∞→θVar


Sabemos que: 2_

σ=

xVar , por lo tanto:

nxVar n

2_ σ=

Por el teorema de Tchebyshef, podemos ver si este estimador es consistente al

analizar si cumple la condición:

0lim_

=

∞→

nn

x Var

Reemplazamos la varianza definida anteriormente:

0n

lim2

=∞→

σn

; ya que cuando n tiende a ∞ , el limite es igual a cero.

Se concluye que _

x es un estimador consistente de µ . 2.1.4 Suficiencia

Cuando toda la información de la muestra es utilizada por un estimador para la estimación de un parámetro, se dice que tiene la propiedad de suficiencia, ya que no da lugar a perdida de la información.

Sea x1, x2, ..., xn una muestra aleatoria de una distribución con un parámetro θ

desconocido. El estadístico T = g(x1, x2, ..., xn ) es suficiente para θ , si y sólo si, la distribución

condicional de x1, x2, ..., xn, dado T, es independiente de θ .

Ejemplo Nº 8

La media muestral es un estimador suficiente porque para su cálculo se utiliza todos los datos de la muestra


.

Lo que permite mostrar que; dado que x es una variable que se distribuye exponencial ),(~ λExpx con media y varianza λ , y su función de densidad es ( ) xexf λλλ −=, .

En donde

( )( )( )

π

λλ

λλλ

λ

λλ

λ

=

==

−

−

−

xnn

x

x

exf

exf

exf

·,

·

,2

,2

Utilizando la función de verosimilitud, se expresa como:

• Teorema: (Factorización de Fisher)

Sea T(x) un estimador basado en la muestra aleatoria x1, x2, ..., xn con función de densidad de probabilidad f(x, θ ).

T(x) es un estadístico suficiente para θ , si y sólo si, su función de verosimilitud L(θ ,

−x )

se puede factorizar en 2 funciones no negativas:

Función de verosimilitud

Supongamos que la variable x tiene función de densidad de probabilidad que depende de un parámetro θ , f(x, θ ), θ desconocido.

Esta función considerada ahora como una función de θ , con x = (x1, x2, ..., xn)

fijo, se llama función de verosimilitud y se denota por: L(θ , x).

( ) ( ) ( ) ∑==== −−−

−

xinxnxnn eeexLxxxLxxxf

λλλ λλλλλλ ··...···,,...,,,;,...,, 12121

L(θ ,

−x ) = g(T(x), θ ); h(

−x ),


Donde: g = es función de T, y de θ h = no es función de (θ ). Habitualmente es utilizado este criterio para la búsqueda de estimadores suficientes. Por lo tanto, un estimador se dice suficiente, si utiliza una cantidad de la información

contenida de la muestra y que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se está estimando. Es decir, se pretende que al extraer la muestra el estadístico calculado contenga toda la información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos.

Cuando se calcula la mediana de una muestra sólo se utiliza uno o dos datos. Esto es,

sólo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si se utiliza a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc.; se tendrá un estimador suficiente.

CLASE 04 2.2 Métodos de Estimación Puntual Para poder llegar a establecer las relaciones entre los parámetros muestrales y los poblacionales se utilizan los métodos puntuales o los métodos segmentados; en ambos casos se efectuara una estimación parametrica. Los métodos puntuales proporcionan un valor concreto y determinado, puntual del parámetro poblacional que se estima, mientras que los métodos segmentados lo que facilita es un intervalo donde puede estar el valor del parámetro poblacional

Para responder la pregunta ¿Cómo obtener estimadores para un problema dado?, podemos contar con dos formas de realizar estimación puntual: a través del método de los momentos y mediante el método de máxima verosimilitud.

Realice ejercicios N°1 al 3


2.2.1 Método de los Momentos

Es un procedimiento sencillo para encontrar un estimador para uno o más parámetros poblacionales. La idea básica es la de igualar ciertas características muestrales con las correspondientes características poblacionales, formando así tantas ecuaciones como parámetros poblacionales se pretenden estimar.

El k-ésimo momento de una variable aleatoria, tomado con respecto al origen es:

K=1, ( )1

1 xE=µ ( )xE=µ

K=2, ( ) ( ) ( )( ) 22222 µσµ +=+== xExVxE

El correspondiente k-ésimo momento de la muestra es el promedio:

El método de los momentos se basa en el supuesto de que los momentos muestrales

deben proporcionar estimaciones apropiadas para los correspondientes momentos poblacionales.

( )kk xE=µ

n

xM

ki

k∑=

n

xxM

n

ii∑

=

== 1

_1

1

n

xxM

n

ii∑

=

== 1

_2

2


Ya que los momentos poblacionales kµµ ,...,1 serán funciones de los parámetros

poblacionales, se igualan los momentos poblacionales a los correspondientes momentos muestrales, y se resuelve para determinar los parámetros deseados.

Ejemplo Nº 9

Sea nxxx ,...,, 21 , una muestra aleatoria de una población que se distribuye uniforme en

el intervalo (0, θ ); con θ desconocido. Se pide utilizar el método de los momentos para determinar un estimador de θ .

Dado la variable x, que posee una distribución Uniforme, con:

( ) ( ) ( ) ( )ba,~ x 122

2

∪−=+= abxVar

baxE

Calcular el primer momento; conocemos a = 0 y b = θ

( )22

0

21

θθµ =+=+== baxE

El primer momento muestral _

1 xM = , el que se iguala al primer momento poblacional

__

x:quedanos,uM

u ==

=2

2

111

θθ

Al despejar θ , tenemos:

_

2x=∧θ

Veamos, ahora si es una estimada consistente para θ

11

∧= µM

22

∧= µM

kkM∧

= µ


Ejemplo Nº 10

Sea x1, x2, …, xn una muestra aleatoria de una distribución exponencial de parámetro λ . Como existe un solo parámetro a estimar, basta plantear una ecuación basado en el

primer momento. Calcule el estimador ∧λ de λ .

Donde, la distribución exponencial tiene ( )a

xE1= y ( )

2

1

axVar =

Primer momento muestral ⇒ Primer Momento Poblacional

_

1 xM = ( )λ

µ 11 == xE

momentos los de método elpor , deestimador ,1

1_

11

λλ

λ

µ

x

x

M

=

=

=

∧

Las propiedades de los estimadores que se obtienen por el método de los momentos son: Insesgadez: no tienen porque ser insesgados, aunque si lo son asintoticamente Consistencia: son consistentes Normalidad: son asintoticamente normales

CLASE 05 2.2.2 Método de Máxima Verosimilitud

Muchos procedimientos estadísticos suponen que los datos siguen algún tipo de modelo matemático que se define mediante una ecuación, en la que se desconoce alguno de sus parámetros, siendo éstos calculados o estimados a partir de la información obtenida en un estudio bien diseñado para tal fin.

Existen diferentes procedimientos para estimar los coeficientes de un modelo de regresión, o para estimar los parámetros de una distribución de probabilidad.

De entre esos procedimientos probablemente el más versátil, ya que se puede aplicar

en gran cantidad de situaciones, y por ello uno de los más utilizados, se conoce con el nombre de "método de máxima verosimilitud".


El método consiste en maximizar la función de verosimilitud con respecto a θ , y se

refiere al valor del θ que maximiza la función de verosimilitud como estimador de maxima verosimilitud de θ Si x1,x2,……..xn son valores de una muestra aleatoria de una población con el parámetro θ , la función de verosimilitud de la muestra esta dada por : Para los valores de θ dentro de un dominio dado. En este caso

θ,,...,1

1 n

nxxL es el valor

de la distribución de probabilidad conjunta o de la densidad de probabilidad conjunta de las variables aleatorias X1, X2, …Xn en X1=x1, X2=x2,……Xn=xn.

2

Los estimadores de máxima verosimilitud tienen ciertas propiedades, que en general: resumen en: 1. Son consistentes

2. No varían frente a transformaciones biunívocas, es decir, si Mv ∧θ es el estimador

máximo verosímil de ,θ y

∧θg es una función biunívoca de

∧θ , entonces

∧Mvg θ es el

estimador máximo verosímil de ( )θg .

3. Si ∧θ es un estimador suficiente de

∧θ , su estimador máximo verosímil, Mv

∧θ es función

de la muestra a través de ∧θ .

4. Son asintóticamente normales, es decir, poseen varianza asintóticas 5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de

un parámetro θ , los de máxima verosimilitud son los de varianza mínima. 6. No siempre son insesgados.

2Estadistica matematica con aplicaciones John E. Freund, Irwin Miller, Marylees Miller - 2000


Para entender el principio en el cual se basa el método de máxima verosimilitud,

expondremos el siguiente ejemplo: suponga que en el correo de la mañana alguien recibe cuatro cartas, pero desafortunadamente una de ellas se extravía antes de que el destinatario tenga la oportunidad de abrirla. Si, entre las tres cartas restantes, dos tienen facturaciones de tarjetas de créditos y la otra no, ¿Cuál podría ser un buen estimado de k, el número total de facturaciones de tarjetas de créditos entre las cuatro cartas recibidas? Claramente, k debe ser dos o tres, y si suponemos que cada carta tiene la misma oportunidad de ser extraviada, encontramos que la probabilidad de los datos observados (dos de las tres cartas restantes contienen facturaciones de tarjetas de crédito) es:

(2/2) (2/1) = 1/2 (4/3) Para k=2 y

(3/2) (1/1) = 3/4 (4/3) Para k=3. por consiguiente, si se escoge como estimado de k el valor que maximiza la probabilidad de obtener los datos observados, obtenemos k=3. A esto se le denomina estimado de máxima verosimilitud y el método por el cual se obtuvo se le denomina el método de máxima verosimilitud.3

• Ejemplos de máxima verosimilitud:

En la mayor parte de los casos de interés práctico, la ley de probabilidades, y por tanto, también la verosimilitud, tienen una expresión calculable en función de θ .

Para calcular el máximo de la verosimilitud, es necesario determinar los valores para

los cuales la derivada de la verosimilitud se anula, pero por definición la verosimilitud es un producto de probabilidades o de densidades, lo cual puede ser bastante complicado de derivar.

Es preferible derivar una suma, y es por esto, que se comienza por reemplazar la

verosimilitud por su logaritmo. Al ser el logaritmo una función creciente, es equivalente maximizar. 3 Estadistica matematica con aplicaciones John E. Freund, Irwin Miller, Marylees Miller - 2000

( )( ) ( )θ,,..., ,,...,log11 nn

xxLoxxL


Una vez determinado el valor de θ para el cual la derivada se anula, se debe comprobar con la ayuda de la segunda derivada que el punto en cuestión es realmente un máximo.

A continuación, serán tratados los casos de algunas familias clásicas.

Ejemplo Nº 11

• Leyes de Bernoulli: el conjunto de los valores posibles es 1,0 . El parámetro desconocido

es p . Si ( ) nnxx 1,0,...,1 ∈ es una muestra, la verosimilitud vale:

Su logaritmo es:

La derivada con respecto a p es:

Ella se anula en:

n

xp i∑=∧

La segunda derivada es:

( )( ) ( ) ( )( )221

2

1

11,,...,log

pxn

pxpxxL iin −

−−−=∂ ∑∑

Ella es estrictamente negativa, el valor ∧p es efectivamente un máximo.

( ) ( )∑∑

=−

−i

ixxn

pn ppxxL 1

1 ,,...,

( )( ) ( ) ( ) ( )pxnpxxxL iin −−+= ∑∑ 1log log,...,log 1

( )( ) ( ) ( )p

xnp

xp

pxxLii

n

−−−=

∂∂

∑∑ 1

11,,...,log 1


Si ( )nxx ,...,1 es una muestra de la ley de Bernoulli de parámetro p , el estimador de máxima verosimilitud de p es:

Es decir, la frecuencia empírica. • Leyes Normales: Para las leyes normales hay dos parámetros desconocidos. Para

evitar confusiones en las notaciones de las derivadas, denotaremos por v al parámetro de la varianza, usualmente, denotado por 2σ .

Para una n-tupla de números reales ( )nxx ,...,1 la verosimilitud vale:

( )( ) ( )∑

==−−

−− 2

2

2

1

21

2

1

2

1,,,...,

µµ

ππµ i

i xv

n

v

x

n ev

ev

vxxL C

Su logaritmo es:

( )( ) ( ) ( ) ( )∑ −−−−= 21 2

12log

2log

2,,...,log µπλ in x

v

nv

nxxL

Las derivadas parciales con respecto a los parámetros µ y v son:

( )( ) ( )∑ −=∂

∂ µµ

λi

n xv

xxL 1,,...,log 1

Y

( )( ) ( )2

21

2

1

2

,,...,log∑ −+=

∂∂ µ

µλ

in x

vv

nxxL

Ellas se anulan en:

n

xi∑=∧µ y

n

xv

i∑

−=

∧

∧

2

µ

Las segundas derivadas parciales son:

n

x i∑


( )( )v

nxxL n −=∂

∂2

12 ,,...,log

µλ

( )( ) ( )∑ −−=

∂∂∂ µ

µλ

in x

vv

xxL2

12 1,,...,log

Por tanto, la matriz hessiana (matriz de las segundas derivadas parciales) en el punto

∧∧v,µ es:

∂−

∂−

22

n

n

oo .

Sus valores propios son negativos, el punto

∧∧v,µ es efectivamente un máximo.

Si ( )nxx ,...,1 es una muestra de la ley normal de parámetros µ y v , los estimadores de máxima verosimilitud de µ y v son, respectivamente, la media y la varianza empíricas de la muestra, tal como era de esperar.

Ejemplo Nº 12

Sea x1, x2, ..., xn muestra aleatoria de una población con distribución exponencial de

parámetro λ .

Estimar λ por el método de máxima verosimilitud.

Se conoce que la variable x se distribuye exponencial, por lo que posee parámetro λ .

( ) ( ) 0 ,,.~ >=⇒ − xexfExpx xλλλλ

Donde ,,...,, 21 nxxx es una muestra aleatoria de tamaño n.

Dado lo anterior, la función de verosimilitud es:

( ) ∑= =

−n

iix

neL 1

λ

λλ

Apliquemos logaritmo natural en ambos lados de la función, nos queda:


( )

↓=∑−=

∂eenxenn

Len n

ii

1

λλλ

λ

Se deriva:

( ). despejamosy cero a igualemos ;0

1

λλλ

λ =−=∂

∂∑

=

n

iix

nLen

_

n

1ii

1

1

x muestral media la a igual n

x quer identifica Podemos , es

x

nx

nn

ii

n

ii

∑

∑∑ =

∧

=

=

=⇒=⇒ λλ

_

1

x=

∧λ

CLASE 06

3. ESTIMACIÓN POR INTERVALOS

La idea subyacente en la estimación por intervalos es complementar la estimación por

puntos, de forma de tener alguna idea acerca de la precisión de los estimadores puntuales usados. Un buen estimador puntual es aquel cuyo valor esta cercano al valor del parámetro que se desea estimar. No se debe olvidar que los estimadores son estadísticos muestrales, y en consecuencia son variables aleatorias.

Al tomar una muestra de una población, el valor del estimador obtenido a través de

esa muestra, o sea, el valor estimado del parámetro, es un número; pero la muestra concreta que se ha obtenido, es una de las muchas posibles muestras que se podrían haber obtenido. Si se hubiera obtenido otra muestra, el valor estimado hubiera sido posiblemente diferente; en consecuencia, no se puede ser tan optimista como para pensar que el valor estimado a partir de una determinada muestra, es exactamente igual al valor real del parámetro de la población.4

Los estimadores puntuales sólo dan una idea aproximada del verdadero valor del parámetro a estimar, pero nunca se sabe que tan buena es la aproximación obtenida. No hay que olvidar que cada muestra da lugar a un estimador puntual.

4 Calculo de probabilidades e inferencia estadística; López Rafael; Cuarta edición 2006

Realice ejercicios N° 4 y 5


Se sabe que una estimación puntual es usualmente errónea, por lo que es conveniente determinar un intervalo de valores, entre los cuales se encontrará el valor del parámetro.

Por ejemplo, si se quiere estimar la media de una población mediante una muestra de

tamaño “n”, se puede obtener muchos valores diferentes de la media muestral, la mayoría de los cuales no son exactamente iguales a la media de la población. Es deseable entonces calcular algún intervalo alrededor del valor del estimador, acompañado de alguna medida que diga la confianza que se puede tener de que ese intervalo contenga el verdadero valor del parámetro.

En términos generales, la construcción de un intervalo de confianza, para un

parámetro desconocido θ consiste en encontrar un estadístico suficiente T y relacionarlo con otra variable aleatoria X, donde X involucra a θ , pero la distribución de X no contiene a θ , como tampoco a ningún otro parámetro desconocido.

Esta variable aleatoria X recibe el nombre de pivote y este método se llama método del pivote, el cual consiste en seleccionar una cantidad (pivote) que cumplan con las características:

Es función de la muestra y del parámetro desconocido θ , donde θ es la única

cantidad desconocida. Tiene distribución de probabilidad que no depende del parámetro θ . La probabilidad de que el verdadero valor del parámetro se encuentra en el intervalo

se denomina nivel de confianza, y se denota (1-α). Para construir intervalos de confianza se seleccionan 2 valores, que se denotan Li

(limite inferior de intervalo) y Ls (limite superior del intervalo), lo que se expresa como:

Intervalo de confianza:

Corresponde a un intervalo que tiene a lo menos un extremo aleatorio y es construido de manera tal que el parámetro de interés que se estima esta contenido en dicho intervalo con una probabilidad 1-α, llamada coeficiente de confianza


Generalmente se construyen intervalos de confianza (1-α) = 95% (o significancia α= 5%).

Menos comunes son los intervalos con α = 10% y α =1%.

5 En general, los pasos a seguir para estimar un parámetro por el método de los

intervalos de confianza, son:

5 Se profundizará más en este aspecto, en la unidad III donde : h1(T)= es función T, por lo tanto, representa una variable aleatoria. H1(T): es una función de T, por lo tanto, representa una variable aleatoria h2(T): es función de T, por lo tanto representa una variable aleatoria.

θ : el parámetro a estimar. α : el nivel de significancía.

( ) α−=<< 1si LxLP

Nivel de confianza:

Es la "probabilidad" de que el intervalo calculado contenga al verdadero

valor del parámetro. Se indica por 1-α y habitualmente se da en porcentaje

(1 – α) 100%. Se habla de nivel de confianza y no de probabilidad ya que una vez

extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que se sabe es que si se repitiese el proceso con muchas

muestras se podría afirmar que a un nivel de confianza del (1-α) 100% de los intervalos así construidos, contendría al verdadero valor del parámetro.

Nivel de Significancia5 (que se denota como α):

Es la probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I.


• Fijar el coeficiente de confianza que se desea en la estimación, es decir, determinar

(1 – α) 100%.

• Extraer la muestra y calcular el o los estadísticos necesarios. • Determinar la distribución en el muestreo que tiene el estadístico empleado. Un intervalo de confianza puede adoptar una de las siguientes formas:

Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el parámetro a determinar es constante.

CLASE 07

3.1 Intervalos de Confianza

De acuerdo al estadístico con que se trabaje, existen diferentes intervalos de confianza. En este material reestudio se abordarán los intervalos de confianza que presentan una mayor aplicación o interés práctico, para resolver ciertos problemas estadísticos. 3.1.1 Intervalo de Confianza para la Media Poblacional µ El parámetro µ , media poblacional, se obtiene de datos poblacionales, al estudiar una variable cuantitativa continua. Cuando se quiere construir un intervalo de confianza para la media poblacional µ , la

varianza poblacional 2σ es desconocida, por lo que el intervalo construido resulta ser poco

Bilateral:

Unilateral:


práctico. Dado lo anterior, debemos hacer la diferencia entre el calculo del intervalo de confianza con varianza ( )σ conocida y desconocida. • Con varianza ( )σ conocido

Sea nxx ,...,1 una muestra aleatoria de la variable x, donde x es su media muestral.

Se sabe que la distribución de la media muestral. _

x es normal, con media poblacional

µ desconocida y varianza poblacional n

σ conocida.

Es decir:

Luego, utilizando la normalización de variables, ya estudiado, podemos simplificar la

expresión como sigue:

El estadístico Z nos dice si la _

x observada se halla muy lejos de µ , tomando como

unidad de medida la desviación tipica de _

x . Debido a que _

x tiene una distribución normal, Z tiene una distribución normal estandarizada N(0,1)

Lo que nos permite plantear la siguiente probabilidad:

ααα −=

≤≤−

−−1

21

21

ZZZP

nNx

σµ ,~_

)1,0(~

_

N

n

xZ σ

µ−=


Reemplazamos el valor de z:

ασµ

αα −=

≤−≤−−−

12

12

1Z

n

xZP

Se despeja la variable desconocida, en este caso µ , ya que

21

α−− Z y

21

α−Z son valores

conocidos de la tabla normal.

Por lo tanto, nos queda:

ασµσαα −=

≤−≤−

−−1··

21

_

21 n

Zxn

ZP

ασµσαα −=

−≤≤−

−−1····

_

21

_

21

xn

Zxn

ZP

Como la variable desconocida µ (media poblacional) esta con signo negativo, por regla de signo, obtenemos:

Selección de los puntos críticos para el cálculo del intervalo de confianza


ασµσαα −=

+≤≤−

−−1··

21

21 n

Zxn

ZxP

Lo anterior se puede resumir en la construcción del intervalo de confianza para µ , con

los siguientes límites:

Nota: si las muestras se toman sin reposición de una población finita de tamaño N, debe emplearse el factor de corrección por finitud y el intervalo será:

−−+

−−−

− 1·;

1··

_

21

_

n

nN

nX

n

nN

nZX

σσα

Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada. El siguiente grafico muestra la interpretación del nivel de confianza que hemos estudiado. Para los distintos posibles valores de la media, representados mediante su distribución muestral, se obtiene distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parámetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del 95%

nZXL i

σα ·2

1

_

−−=

nZXL s

σα ·2

1

_

−+=


Ejemplo Nº 13

Un grupo de investigadores en Medicina desea estimar el cambio medio de presión sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30

pacientes y se halló que _

X =5 puls/seg. Los investigadores saben que la desviación estándar de los cambios de presión sanguínea para todos los pacientes es σ = 3 puls/seg según estudios anteriores. Ellos desean estimar el cambio medio (media poblacional µ ) de la presión sanguínea por paciente, con un intervalo del 95% de confianza, suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución normal de probabilidad.

Se tienen los siguientes datos:

Interpretación del nivel de confianza en el intervalo para la media de una distribución normal.


X: es la variable aleatoria que representa el cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por segundo)

_

X : 5, media muestral n: 30, tamaño muestral σ : 3, varianza poblacional conocido.

α−1 : 0,95, nivel de confianza α : 0,05, nivel de significancia

El valor tabla, que puede ser verificado en el anexo 1, es:

96,12

05,01 =−

Z

Para obtener el valor de Z, con un nivel de confianza especificado, se debe: • Por ejemplo, Si (1-α ) = 0,90; se despeja α . • Después, se divide por dos (α /2), y ese valor se busca en el cuerpo de la tabla. • Una vez encontrado el valor, se va a la fila y columna para ver a cuanto equivale.

Al reemplazar, todos los datos conocidos en el intervalo de confianza para la media

poblacional, tenemos:

30

927,3·96,15·

21

_

−=−=− n

ZxLi

σα

073,630

3·96,15·

21

_

=+=+=− n

ZxLs

σα

Por lo tanto, el intervalo de confianza del 95% de confianza para la media, se denota

como:

( )1,6 ;9,395,0 =ICM

Luego, puede decirse que el cambio medio en la presión sanguínea por paciente,

encuentra en el intervalo (3,9; 6,1) pulsaciones, con un nivel de confianza del 95%.

Nótese que se cae en un abuso de lenguaje, pues se debería decir que el intervalo (3,9; 6,1) pulsaciones pertenece a la sucesión que ofrece un nivel de confianza del 95% para estimar el cambio medio de presión sanguínea, pero se simplifica la expresión para hacerla menos engorrosa o extensa.


En cuanto al tamaño optimo de la muestra, =e, establece el error máximo aceptado de muestreo e indica la exactitud de la estimación. Se intenta que este sea lo mas pequeño posible, en cambio (1-α ) es el coeficiente de confianza y se desea que sea lo mas

grande posible. Pero depende del valor de α y al hacer mayor el coeficiente de

confianza (1-α ), el valor será mayor y por lo tanto el error aumentará. Esto se puede regular aumentando el tamaño de la muestra con lo que el error disminuirá. Si se quiere aumentar ( α−1 ) a 99%, pero sin aumentar el error de estimación “e”, el tamaño de la muestra seria:

Esto significa que n= 52 es decir, aumenta. • Con varianza (σ ) desconocido

Cuando n es grande, se puede utilizar Z; en cambio, cuando n es chico, se usa la distribución t – student.

Para estimar (σ ) se debe utilizar la desviación estándar muestral corregida la que se

denota 1

2_

−

−=∑

n

Xx

si

, ya que según se ha visto, es un estimador insesgado del

correspondiente parámetro poblacional (σ ) .

Reemplazando en la variable normalizada σ por n

ssx resulta:

1~ −−=−=−

nt

n

sX

n

XX µσ

µσ

µ


Por lo tanto:

De aquí se deduce que el intervalo de confianza de una población normal, con σ desconocido y con n chico es: Y, para n grande:

Ejemplo Nº 11

Ejemplo Nº 14

Una muestra de 15 aves, seleccionadas al azar de un establecimiento con 5000 aves, (que elabora alimentos balanceados), permitió establecer un aumento del peso promedio de 90 g por semana y por ave, y un desvío típico de 10 g. Se busca estimar el incremento de peso promedio para las 5000 aves del establecimiento con un intervalo de confianza del 90%.

Encuentre el intervalo de confianza de la media poblacional.

Datos: X: es la variable aleatoria que representa el aumento de peso por ave. N: 15 tamaño muestral

_

:x 90 g., la media muestral S: 10 g., la desviación estándar de la muestra.

αµ αα −=

+≤≤− −− 1·· 11n

stX

n

StXP nn

n

stXLL nsi ·, ;1

_

α−±=

n

sZXLL si ·, 2/1

_

−±= α


α : 0,1, nivel de significancia :1 α− 0,9 (90%), nivel de confianza

Para buscar en la tabla los valores α,1−nt , se debe conocer el nivel de confianza (1-α ),

donde podemos despejar α , y con esta valor en la columna y con n-1 grados (fila), se busca el valor en el cuerpo de la tabla T (anexo 1)

En este caso:

761,11,0;141,0;115;1 === −− tttn α

Por lo tanto, se construye el intervalo de confianza para la media poblacional, para un

n =15 y varianza desconocida, queda:

45,8515

10·761,190·1,0;1

_

=−=−= −n

stxL ni

45,8515

10·761,190·1,0;1 =+=+= −

n

stxL ns

Entonces, el intervalo de confianza obtenido es:

ICM0,90= (85,45; 94,55)

Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento está entre 85,5 y 94,6 gramos, con un 90% de confianza.

Con frecuencia, son utilizados dos intervalos de confianza para la media poblacional:

el intervalo de confianza de 95% y el de 99%.

• El intervalo de confianza de 95%, indica que el 95% de las medias muestrales de un tamaño de muestra específica, seleccionados de una población, se hallará dentro de más o menos 1,96 desviaciones estándar de la media poblacional hipotética (95% se refiere a 95% de los valores centrales). Cabe señalar, que el 1, 96 es el valor tabla para la normalización de la variable.

• El intervalo de confianza de 99% se establece abarcando más o menos 2,58 desviaciones

estándar a partir de la media poblacional hipotética. Cabe señalar, que al 2,58 es el valor tabla de la normalización de la variable.

A continuación, en la tabla Nº 1 se entregan los valores correspondientes a distintos

niveles de confianza, utilizados frecuentemente.


Tabla Nº1: Niveles de Confianza para Z Utilizados Frecuentemente

Nivel de confianza 99,73% 99% 98% 96% 95,45% 95% 90% 80% 68,27% 50%

Zc 3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745

A modo de resumen, se presenta una tabla de síntesis de las formulas utilizadas para el calculo de los intervalos de confianza para la media poblacional, dependiendo de los datos y tamaño muestral que se tengan. Tabla Nº2: Resumen de Intervalos de Confianza para la Media Poblacional

N chico N grande 2σ conocido Normal

nZx

σα ·2/1

_

−± n

Zxσ

α ·2/1

_

−±

No normal Depende de la distribución n

Zxσ

α ·2/1

_

−±

2σ desconocido Normal

n

stx n ·;1 α−±

n

sZx ·2/1

_

α−±

No normal Depende de la distribución n

sZx ·2/1

_

α−±

CLASE 08 3.1.2 Intervalo de Confianza para Proporción6 Muchos experimentos de investigación o encuestas muestrales tienen como objetivo estimar la proporción de personas u objetos en un grupo grande que posee ciertas características, y el parámetro por estimar es la proporción binominal p.

6 www.bioestadistica.uma.es

Realice ejercicios N° 6 al 12


Sean X1,……Xn Ber (p), si se quiere estimar el parámetro p, la manera mas natural de hacerlo consiste en definir la suma de estas (lo que proporciona una distibucion Binominal).

Y se toma como estimador la variable aleatoria

La distribución del número de éxitos es binominal, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a 0 o 1:

El estimador ∧p no es más que un cambio de escala de X, por tanto

Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente expresión:

Para encontrar el intervalo de confianza al nivel de significación α para p se considera el intervalo que hace que la distribución Z N(0,1) deje la probabilidad α fuera del mismo. Es decir, se considera el intervalo cuyos extremos son α /2 y 1-α /2. así se puede afirmar con una confianza de 1-α que:

( ))

estran(total mu

ciade ocurrennúmeroxp =∧


Esto se resume en la siguiente expresión:

Con una confianza 1-α

Ejemplo Nº 15 Se quiere estimar el resultado de una votación mediante una encuesta. Para esto se realiza un muestreo aleatorio simple con n=100 personas y se obtiene que 35% votaran a favor y 65% votaran en contra. Con un nivel de significación del 5%, calcular un intervalo de confianza para el verdadero resultado de las elecciones.

Intervalo de confianza para una proporción.


Solución:

Dada una persona cualquiera (i) de la población, el resultado de su voto corresponde a la siguiente variable

El parámetro a estimar en un intervalo de confianza con α =0.05 es p, y se tiene sobre una muestra de tamaño n=100, la siguiente estimación puntual de p:

Se sabe que:

Así el intervalo de confianza que se busca se calcula de la siguiente forma:

Por lo tanto, se tiene con esta muestra un error aproximado de 9,3 puntos con un nivel de confianza del 95%

Región a partir de la cual se realiza una estimación confidencial para una proporción,


3.1.2.1 Elección del tamaño muestral para Proporción7 Como se vio anteriormente, se realizó una estimación confidencial con una muestra de 100 personas, con un 95% de confianza, del cual se obtuvo un margen de error de 9,3 puntos. Si se pretende reducir el error a 1 punto y se quiere aumentar el nivel de confianza hasta el 97% (α =0,03), se tomará una muestra de mayor tamaño, N. La técnica para aproximar dicha cantidad consiste en observar que el error cometido en una estimación es de la siguiente forma:

Donde ∧p es una estimación puntual de p. Por lo tanto un valor de N que satisfaga los

requerimientos con respecto al error seria de la siguiente forma:

Si en un principio no se tiene una idea sobre que valores puede tomar p, se debe considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2. Así:

Ejemplo Nº 16

Se quiere estimar el resultado de una votación mediante una encuesta. Sin tener una idea sobre el posible resultado, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo del 97% de confianza, con un error de 1%



Solución: Como no se tiene una idea clara del posible resultado de la votación, hay que tomar un tamaño de muestra, N, que se calcula mediante:

Así para tener un resultado confiable, el número de personas a entrevistar debe ser muy elevado (lo que puede volver excesivamente cara la encuesta).

3.1.2.2 Intervalo para la diferencia de dos proporciones8 Considere que se tiene dos poblaciones de modo que en cada una de ellas se estudia una variable aleatoria de parámetros respectivos p1 y p2. De cada población se extraerán muestras de tamaño n1 y n2.

Entonces

Si las muestras son suficientes grandes ocurre que:



Por el mismo razonamiento que en el caso de una población se llega a una aproximación para un intervalo de confianza de 1-α para la diferencia de proporciones de dos poblaciones es:

CLASE 09 3.1.3 Intervalo de Confianza para la Diferencia de Medias

Si se tienen dos poblaciones con medias poblacionales µ , y 2µ , y varianza 2σ , y 22σ ,

respectivamente. El estimador puntual de la diferencia entre las medias poblacionales

21 µµ − , es el estadístico 2

_

1

_

xx − cuya distribución se aproxima a normal, con media 21 µµ − y

varianza 2

2

1

21

nx

n

σσ.

Realice ejercicios N°13 al 17

+−−

2

22

1

21

2121 ,~nn

Nxxσσµµ

Se normaliza:

( ) ( ) ( )1,0~

2

22

1

21

2121 N

nn

xx

σσµµ

+

−−−


Caso 1: Poblaciones normales ( )111 ,~ σµNX y ( )221 ,~ σµNx con 1σ y 2σ conocidos

Se fija el nivel de confianza (1 - α ), se extraen dos muestras independientes de X1 y X2 de tamaño n. como se dibujo anteriormente:

( )

+−−

2

2

1

1121 ;~

nnNxx

σσµµ y el estadístico normalizado tiene la siguiente distribución:

( ) ( ) ( )1,0~

2

22

1

21

2121 NZ

nn

xx=

+

−−−

σσµµ

Por lo tanto, podemos presentar la probabilidad para la diferencia de medios

poblacionales con varianzas maestrales ( )22

21 σσ y conocidos, como sigue:

( )( ) ασσ

µµαα −=

<

+

−−<−

−−1

21

2

22

1

21

2121

21

Z

nn

xxZP

Donde

. .

Por lo tanto, el intervalo de confianza para la diferencia de medias, cuando las

varianzas se conocen, está dado por:

2

22

1

21

2/1

__

·, 21nn

zxxLL si

σσα +±

−= −


El grado de confianza es exacto cuando la muestra se selecciona de poblaciones

normales. Para poblaciones que no son normales, el teorema central proporciona una buena aproximación para muestras de tamaño razonable.

Ejemplo Nº 17

Al determinar la superficie en miles de hectáreas de las explotaciones agroganaderas

de cierta zona, una muestra de 40 explotaciones dió una superficie media de 900 há, con una desviación típica de 300 há.

En otra zona, al muestrear también 40 explotaciones, la superficie media fue de 600 há con una desviación típica de 150 há. Suponiendo que en ambas zonas la variable "superficie en há por explotación" se distribuye normalmente, estimar con un intervalo de confianza del 90%, la diferencia entre las superficies medias de las explotaciones de ambas zonas. Datos:

_

1x : la superficie media de explotación para la zona 1 (900 há.)

2

_

x :la superficie media de la explotación para la zona 2 (600 há.)

21σ : La varianza poblacional de la superficie de explotación para la zona 1 (3002 há.).

22σ : La varianza poblacional de la superficie de explotación para la zona

1n = 40, tamaño muestral zona 1

2n = 40, tamaño muestral zona 2

α−1 = 90%, nivel de confianza α = 10%, nivel de significancia

Por tabla, se obtiene que: 645,195,0

2

1,01

21

===−−

ZZZ α

Luego se construye el intervalo de confianza,


( )

( )

239,3875,5622250·645,1300

76,212239,87300

5,5622250·645,1300

40

150

40

300·645,1600900

·

2

22

1

21

21

2

_

1

_

22

21

2

22

1

21

2

_

1

_

=++=

++

−=

=−=+−=

=+−−=

=+−

−=

−

−∑

nnZxxL

nnxxL

s

xi

σσ

σσ

α

Interpretando este resultado, se dice que la diferencia entre las superficies medias de

las explotaciones agroganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 há, con un 90% de confianza.

En la fórmula también puede utilizarse 12 µµ − , en ese caso debe considerarse 1

_

2

_

xx −

en lugar de 2

_

1

_

xx −

• Poblaciones normales ( )111 ,~ σµNx y ( )221 ,~ σµNX con 1σ y 2σ desconocidos

Se extraen dos muestras independientes (una de cada población) de tamaños n1 y n2

respectivamente, se fija (1 - α ), se calculan 1

_

X y 2

_

X y su diferencia. Caso 2: Si 1σ y 2σ son desconocidos pero de manera estadística pueden considerarse iguales ( 1σ = 2σ )

Se deduce que:

Se estiman por 221

222

211

−++

=nn

snsnsa y se procede como en el caso 1. ( as es la varianza

amalgamada o mancomunada)

αµµ δαδα −

++

−≤−≤+−

− 1··2

22

1

21

,2

_

1

_

212

22

1

21

,2

_

1

_

n

s

n

stxx

n

s

n

stxxP


Por lo tanto, el intervalo de confianza para 21 µµ − , con varianzas desconocidas pero

iguales es:

El procedimiento para determinar el intervalo de confianza para 21 µµ − , con varianzas

desconocidas e iguales, requiere la suposición de que las poblaciones sean normales. Las desviaciones ligeras de la suposición de varianzas iguales o de la normalidad no

alteran el grado de confianza del intervalo. Si las varianzas poblacionales son considerablemente diferentes, aún se obtienen

resultados razonables cuando las poblaciones son normales siempre que se cumpla que: Caso 3: Si 1σ y 2σ son desconocidos pero estadísticamente no pueden considerarse iguales, es decir 21 σσ ≠ .

Se fija (1-α ), se extraen dos muestras independientes, se calcula 2

_

1

_

xx − y la distribución en el muestreo del estadístico de prueba, ya normalizado es:

Donde el número de grados de libertad de la distribución t de Student viene dado por la fórmula:

( )( )

212

21

211

11·,

21 nnsptxxLL

nns +±−=

−+−α

21 nn =

( )( )td

n

s

n

s

xx~

2

22

1

21

221 1

+

−− µµ

2

1

1·

1

1·

2

2

2

22

1

2

1

21

2

2

22

1

21

−

+

+

+

+

=

nn

s

nn

s

n

s

n

s

δ


Por lo tanto se deduce que:

.

Por lo tanto, el intervalo de confianza es:

Ejemplo Nº 18

Las variables aleatorias X1 y X2 distribuidas normalmente, representan las edades al morir de tuberculosis de los individuos en dos ciudades.

Una muestra de 10 individuos que murieron por tal enfermedad en la primera ciudad entrego una edad media de 48 años y una desviación estándar de 5 años.

En la segunda ciudad, una muestra de 12 individuos entrego una edad media de 41 años y una desviación estándar de 3 años.

Se desea estimar por intervalos, con un 95% de confianza, la diferencia entre las edades medias de los muertos por tuberculosis en ambas ciudades, sabiendo que investigaciones anteriores no permiten tomar las desviaciones típicas de ambas variables como iguales.

Datos:

1

_

x : edad promedio al morir de tuberculosis en la ciudad A

2

_

x : edad promedio al morir de tuberculosis en la ciudad B.

:1n 10, tamaño muestral ciudad A.

:2n 12, tamaño muestral de la ciudad B

( )( ) 2

22

1

21

2'21

21 ·,21

n

s

n

stxxLL

nn

si +±−=−−

−α


1s : 5 desviación estándar ciudad a, de la edad al morir de tuberculosis

2s : 3, desviación estándar ciudad B, de la edad al morir de tuberculosis.

0,95? ¿ ',3,41,12

5,48,10

21222

11

_

1

ICDMsssxn

sxn

======

Con estos datos, reemplazamos en la fórmula para calcular los grados de libertad:

1531,21504,057,0

56,102

13

1·

12

9

11

1·

10

25

12

9

10

25

22

2

≅−+

=−

+

+=δ Grados de libertad.

Luego, por tabla 15;05,0t = 2,1315 y, finalmente, el intervalo resulta:

( )( )433,157;10,80,95

843,37803,1·1315,2712

9

10

2·1315,24148,

=

±=±=+±−=

ICDM

LL si

Interpretando el resultado se puede decir que la diferencia entre las edades medias de las personas que murieron de tuberculosis en ambas ciudades, se encuentra entre 3 y 11 años, con una confianza del 95%.

CLASE 10 Caso 4: Muestras dependientes u observacionales pareadas

Si _

d es el promedio de las diferencias muestrales, obtenida de una muestra aleatoria de tamaño n y ds es la desviación estándar de las diferencias, un intervalo de confianza de

(1 -α )100% para ( )21 µµµµ −=dd es: Las diferencias muestrales deben seguir distribución normal de probabilidad

n

stdLL d

nsi ·,

1,2

1 −−±= α


Donde:

Son la media de las diferencias muestrales y la varianza muestral de las diferencias respectivamente Sus límites son: Limite inferior

. Limite superior

.

Ejemplo Nº 19

El contenido de cobre en ciertos productos frescos, en comparación con el que los

mismos registraron después de ser elaborados, es:

FRESCOS (x 0.001) ENLATADOS d 66 85 +0.019 79 88 +0.009 69 91 +0.022 76 96 +0.020 71 93 +0.022


87 95 +0.008 71 79 +0.008 73 78 +0.005 67 65 +0.002 62 68 +0.006

n =10

0117,0_

=d , que resulta de ∑=

n

i

i

n

d

1

0084,0=ds ; que resulta de ∑= −

−n

i

i

n

dd

1

2_

1(formula de la observación estándar.)

α−1 = 0,99

9,; 995,0110

2

01,011,

21

tttn

== −−−−α

Encontrar un intervalo de confianza de 98% para la diferencia real en el contenido

promedio de cobre en los productos frescos y enlatados suponiendo que la distribución de la diferencia es normal.

Al buscar en la tabla t, t0.99;9 = 2.82

Y como el intervalo de confianza para las muestras pareadas está dados por:

n

Std d

n ·1;2/1

_

−−± α

Entonces, el intervalo de confianza para dµ , con un 99% de confianza es:

0075,00117,010

0084,0·82,20117,0 ±=±

Por lo tanto, el intervalo de confianza es:

[ ]0192,0;0042,0

Lo que se puede interpretar como: la diferencia entre el contenido promedio de cobre

de productos frescos enlatados se encuentra entre 0,0042 y 0,0192.


3.1.4 Intervalo de Confianza para la Varianza Poblacional

Para calcular este intervalo de confianza, se vera la propiedad de la distribución X2, la

cual es la siguiente:

Se fija (1 -α ) y el estadístico normalizado de prueba tiene una distribución muestral:

Realice ejercicio N° 18


Para un intervalo de confianza, existe una probabilidad ( )α−1 de que:

Por lo tanto el intervalo es:

Ejemplo Nº 20

Un productor de fertilizantes, para controlar el buen embolsado de sus productos,

pesa 15 bolsas del mismo, obteniendo una desviación típica de 0,50 kg. ¿Qué varianza puede inferirse, con un 98% de confianza, que tendrá la producción total? Datos: X: es la variable aleatoria, que representa el peso de cada bolsa de fertilizante. n: 15, Tamaño muestral 1-α : 98% nivel de confianza.


α : 2% nivel de significancía

Comenzamos a desarrollar el ejemplo:

99,002

101,02

02,0 =−⇒=⇒= ααα

Por tabla 14,29y 68,4 2

14;01.02

14;99,0 == xx

Luego, el intervalo buscado es:

75,012,068,4

25,0·14

14,29

25,0·14 22 ≤≤⇒≤≤ σσ

Se interpreta este resultado diciendo que existe un 98% de confianza, de que la

varianza del peso por bolsa, en toda la producción de bolsas de fertilizantes de este productor, esté entre 0,12 y 0,75

1) Del intervalo de confianza visto para la varianza, se deduce el correspondiente para la desviación estándar:

2) Si n > 100, los valores ya no se encuentran en la tabla de la distribución Chi-cuadrado, y por lo tanto, se la aproxima a una normal, utilizando para aproximar percentiles en esta distribución:

( )( ) ( )( )2222 1122

1y 112

2

1 −−−=−−+= nZxnZx pppp

Y el intervalo buscado es:

( ) ( )ασ

αα

−=

−

≤≤−

−

1115

2

21

2

2

x

sn

x

snP


( ) ( ) ασ −=

−≤≤−1

112

22

2

2

pp x

sn

x

snp

CLASE 11 3.1.5 Intervalo de Confianza para la Relación (Cociente) de Varianzas Poblacionales

Este intervalo se denota con la siguiente expresión: Sean:

X11, X12, …, X1n muestra aleatoria de tamaño n1, X1 ~ N ( )2

1,σµ X21, X22, …, X2n muestra aleatoria de tamaño n2, X2 ~N ( )2

2,σµ

( ) ( )1~·1

12

22

211 −

−nx

sn

σ

( ) ( )1~

·12

222

222 −

−nx

sn

σ

Aplicando la expresión F de Snedecor nos queda la siguiente expresión



( )( )( )( )

( ) ( )

( ) ( )1,1~/

/

1,1~

·1

·1

·1

1

2121

22

22

21

21

222

222

211

211

−−=

−−

−−−−

nnfs

SF

nnf

n

sn

n

sn

σσ

σ

σ

Por lo tanto, el intervalo de confianza para el cuociente (o relación) de varianzas está dado por:

22

12n,11n;2

1

21

s

12n,11n;2

1

22

21i

s

F·s

L

F·s/sL

−−

α−

−−

α−

=

=

Ejemplo Nº 21 Se investiga el diámetro de ciertas varillas metálicas que se fabrican por dos máquinas diferentes. Los datos son los siguientes: N1=15 N2=18

1

_

x = 8,73

2

_

x = 8,68

= 0,35

= 0,4 Se necesita construir un intervalo de confianza bilateral del 95% para el cociente de las varianzas poblacionales Se tiene que el cociente de las varianzas esta en el intervalo

.


Se tiene que F0.975;15;18= 2.667 y F0.975;18;15 =2.792 Además se sabe que F0.025;15;18=1/F0.975;18;15 = 1/ 2.792=0.358 Al remplazar los datos se obtiene

.

Notar que el 1 pertenece al intervalo, por lo tanto se puede decir que con un 95% de confianza, las varianzas son iguales 3.2 Estimación del Tamaño Muestral

Cada estudio tiene un tamaño muestral idóneo, que permite comprobar lo que se pretende con una seguridad aceptable y el mínimo esfuerzo posible.

Para el cálculo del tamaño muestral en cada tipo de estudio existe una fórmula

estadística apropiada. Este se basan en el error estándar, que mide el intervalo de confianza de cada parámetro que se analiza (media aritmética, porcentaje, diferencia de medias, etc.).

Cuando la precisión estadística aumenta (el error estándar disminuye) a medida que el

tamaño muestral crece. Se han calculado intervalos de confianza, basándose en el supuesto de que se

conoce el tamaño muestral n. Sin embargo, en muchas situaciones prácticas, el tamaño muestral óptimo es desconocido.

Si se desea obtener el tamaño de muestra n, se debe fijar:

- El nivel de confianza deseado (1 -α ), - El error máximo que se está dispuesto a aceptar (e), al estimar el parámetro

poblacional θ mediante ∧θ .

- La varianza poblacional



La varianza poblacional:

Cuando una población es más homogénea, la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño. Generalmente, es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.

3.2.1 Factor de Corrección de una Población Finita

Las poblaciones utilizadas en los ejemplos (como muestras), han sido muy grandes o se ha supuesto que son infinitas. ¿Qué ocurre si la población que se muestrea no es infinita, o ni siquiera muy grande? En tales casos, es posible realizar ciertos ajustes en la forma en que se calcula el error estándar de las medias y el error estándar de las proporciones de la muestra.

Una población con un límite superior es finita. Por ejemplo, en un prestigioso instituto

de inglés existen 21376 estudiantes inscritos. Otro ejemplo sería: Nissan Motors Corporation fabricó 917 automóviles en la planta de Tennessee, durante la semana pasada.

Una población finita puede ser bastante pequeña: podría serlo la cantidad de

estudiante inscritos en el presente curso. También puede ser muy grande, como las personas de la tercera edad que viven en Florida.

Para una población finita, en la que el número total de objetos es N y el tamaño de la

muestra n, se hace el siguiente ajuste a los errores estándar de las medias de la muestra y la proporción:

• Error estándar de las medias de la muestra, utilizando un factor de corrección:

• Error estándar de la proporciones de la muestra, utilizando un factor de corrección:

( )( )1

·_

−−=

N

nN

n

ss

x

( ) ( )( )1

·1

−−−=

N

nN

n

pppσ


Este ajuste es el que se conoce como factor de corrección de población finita. La regla usual de uso es, si la relación n/N (Fracción de muestreo) es menor de 0,05; se ignora el factor de corrección de la población finita.

Formula de Intervalo de Confianza para la Estimación de Medias con un Factor de

Corrección de una Población Finita I.C para la media ( µ )

−−⋅Ζ±Χ

1N

nN

n

s

Por lo tanto, para usar el factor de corrección de población finita, debe suceder que:

• La muestra seleccionada sea sin reemplazo • La fracción de muestreo sea mayor a 0.05.

Ejemplo Nº 17

Una gran compañía de automóviles, Konaz, estudia los 1300 clientes a los que ha vendido automóviles nuevos en el último año. Alex Peterson, gerente de ventas, está intentando medir el grado de satisfacción de los clientes. Ha diseñado un plan de muestreo sistemático para usarlo con los registros de la compañía de los clientes del año pasado. Se llamará por teléfono a los individuos elegidos y se les pedirá que puntúen el grado de satisfacción con su automóvil sobre una escala de 1 a 10, siendo 1 la peor calificación y 10 la mejor. Alex reconoce que esta escala constituye un conjunto de datos ordinales pero cree que existen intervalos iguales entre los números sucesivos de la clasificación promedio de la población de clientes. Reconoce que debe usar el factor de población finita porque está muestreando sin reemplazo y el tamaño de la muestra excede al 5% de la población (n/N=375/1300=0.288). Las medidas de la muestra son:

Alex elige un nivel del 95% y calcula la estimación por intervalos. Datos:

3,2

81.7_

==

s

x


N: 375, tamaño muestral. N: 1300, población total. Como n es mayor a 30, se dice que es una muestra grande (se utiliza Z)

81,7_

=x : media muestral s=2,3: desviación estándar muestral ( ) 95,01 =−α : nivel de confianza α : nivel de significancía

025,02/ =α ( ) 975,02/1 =−α (Este valor se busca en el cuerpo de la tabla Z estándar. Una vez encontrado se ve la fila y la correspondiente columna en la que se encuentra, y ése es el valor Z).

Por lo tanto, en tabla: 96,1975,0025,01

21

=== −−zzz α

Reemplazando los datos, en la construcción del intervalo tenemos que:

( )

( )( ) ( )

( )( )

[ ]01,8;61,7

197,081,7

844,0119,096,181,7

712,0119,096,181,711300

3751300·

375

3,2·96,181,7

1··,

95,0

1

_

2

=±=±=

±=−

−±=

−−±= −

IDC

N

nN

n

szxLL si α

Interpretando, podemos decir que el grado de satisfacción de sus clientes se

encuentra entre el intervalo 7,61 y 8,01, con un 95% de confianza.


CLASE 12

3.2.2 Estimación del Tamaño Muestral para µ

La magnitud del error permisible:

Basados en la expresión: Se puede determinar n Por lo tanto:

En cuanto al tamaño óptimo de muestra: ee

z=−

2

22/1 ·σα que determina el error máximo

admitido de muestreo e indica la precisión de la estimación. Lógicamente, se pretende que sea lo más pequeño posible.

Por otra parte, (1 - α ) es el coeficiente de confianza y se pretende que sea lo más

grande posible.

e<−∧

θθ

ne

Z

=−

σα ·2

1

en

z

=−

σα ·2

1

2

222/1 ·

e

zn

σα−=


Pero 2

1α

−z depende del valor de α , y al hacer mayor el coeficiente de confianza (1 - α ), el

valor 2

1α−

z será mayor y, por lo tanto, el error aumentará. Esto se puede regular aumentando

el tamaño de la muestra, con lo que el error disminuirá.

Para el ejemplo 9, segpulse / 073,130

3*96,1 == con un nivel de confianza del 95%.

Si se desea elevar el nivel de confianza a 99%, pero sin aumentar el error e de

estimación, el tamaño de la muestra debería ser:

O sea, que debe tomarse una muestra de aproximadamente 52 pacientes en lugar de 30.

Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 puls/seg, manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será: 3.2.3 Estimación del Tamaño Muestral para Proporción

Si ∧p se utiliza como un estimador de p, se puede tener una confianza de (1 - α )100%

de que el error será menor que una cantidad especificada e, cuando el tamaño de la muestra sea aproximadamente:

( )528,51

073,1

3*575,2575,2

***

2

22

2

01,01

2

22

21

21

21

⇒≅==⇒=

=⇒=⇒=

−

−−−

nz

e

z

ne

z

ne

z

e

σσσ ααα

pacientes. 356,341

3*96,12

22

≅==n

e

Z

qpN

2

21

·α

−∧∧≥


Si se desea saber que tan grande se pretende que sea una muestra para afirmar que el error al estimar p sea menor que una cantidad especifica El error sería:

Si se tiene una población finita y un muestreo sin reemplazo, el error seria: En muchas ocasiones no es posible obtener un estimador de p para estimar el tamaño

de muestra, con un grado específico de confianza. Si eso ocurre se establece un límite

superior para n al observar que

−∧∧pp 1 debe ser menor o igual a ¼.

Si ∧p se utiliza como una estimación de p, se puede tener una confianza de

(1 - α ) 100% que el error no excederá de una cantidad especificada e, cuando el tamaño de muestra sea:

N

qpzerror

∧∧

−=

21

α

Despejando se obtiene:

error =


Ejemplo Nº 18

Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del 1%.

Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar un tamaño de muestra, N, que se calcula mediante:

773,1101,0

17,2·25,0

01,04

12

2

2

2985,0 ==≥

zN

Así para tener un resultado tan fiable, el número de personas a entrevistar debe ser

muy elevado, lo que puede volver excesivamente costoso el sondeo.

2

2

21

4

1

error

Z

xNα

−≥



UNIDAD III

PRUEBAS DE HIPOTESIS Y MODELOS LINEALES


Prueba de hipótesis:

Es un procedimiento basado en la evidencia de las muestras (de poblaciones) y en la teoría de probabilidad, que nos permite determinar si la hipótesis planteada para un problema es un enunciado razonable.

H0; parámetro = X H1; parámetro ≠ X

CLASE 01

1. PRUEBAS DE HIPÓTESIS PARAMÉTRICAS

El procedimiento que conduce a una decisión sobre una hipótesis en particular, recibe

el nombre de “prueba de hipótesis”. Estos procedimientos dependen del uso de la información contenida, en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo, si esta información es inconsistente con la hipótesis, se concluye que ésta es falsa.

Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular

nunca puede conocerse con exactitud, a menos que, pueda examinarse a toda la población. Usualmente, esto es imposible en muchas situaciones prácticas. Por lo tanto, es necesario desarrollar un procedimiento de prueba de hipótesis en donde se tenga en cuenta la probabilidad de llegar a una conclusión equivocada.

Los pasos de la prueba de hipótesis son:

1) Establecer la hipótesis nula y la alternativa 2) Elegir el nivel de significación 3) Identificar el estadístico de prueba 4) Exponer una regla de decisión 5) Tomar una muestra, concluir en: no realizar la hipótesis o rechazar la nula y

aceptar la alternativa Los test de hipótesis pueden ser de dos tipos:

• Bilateral o de dos extremos: En la hipótesis alternativa aparece el signo distinto. Es

decir, si la hipótesis nula presenta la condición es igual, la hipótesis alternativa presenta el signo ≠.


Unilateral Izquierda H0; Parámetro ≥ X H1; Parámetro < X Unilateral Derecha H0; Parámetro ≤ X H1; Parámetro > X

• Unilateral o de un extremo: En la hipótesis alternativa aparece o el signo > o el signo <. Es decir, si la hipótesis nula presenta la condición es igual, la hipótesis alternativa presenta el signo < o >. En caso, que la hipótesis nula, presente la condición >, la alternativa presentará el signo <.

Figura Nº 1: Representación Gráfica de prueba de Hipótesis Bilateral

H0

H1 H1

REGION DE ACEPTACION

REGION DE RECHAZO REGION DE RECHAZO


Hipótesis estadística:

Una hipótesis estadística, es una afirmación o conjetura acerca de los parámetros de la distribución de probabilidades de una o más variables aleatorias.

Figura Nº 2: Representación Gráfica de prueba de Hipótesis Unilateral

Una prueba de hipótesis o un test de hipótesis es una regla o procedimiento para

decidir si se rechaza o no la hipótesis nula, la que se denota como Ho. Una hipótesis estadística se define como:

Para una mejor comprensión de los temas abordar en este material de estudio, se

definirán otros conceptos necesarios para el aprendizaje del alumno, como:

H0 H0 H1 H1


Hipótesis simple y compuesta:

Cuando una hipótesis tiene que ver con una sola distribución (por ejemplo: Binomial) se dice que es simple. En el caso contrario (por ejemplo: Binomial y Normal), decimos que es compuesta. Una hipótesis simple será del tipo θ = θ 0, donde θ 0 es un valor definido. Las hipótesis compuestas serán del tipo θ < θ 0, θ > θ 0 o θ ≠ θ 0 .

Hipótesis nula:

Se llama hipótesis nula, que se denota por 0H ; a la hipótesis que va a ser probada, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta. Hipótesis alternativa:

Se llama hipótesis alternativa, que se denota por aΗ o 1Η ; a la hipótesis que se contrapone a la hipótesis nula, y ésta es la hipótesis que el investigador espera que sea cierta.

Ejemplo Nº 1

Suponga que se tiene interés en determinar la rapidez de combustión de un agente propulsor sólido, utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves.

El interés se centra en la rapidez de combustión promedio. De manera específica, se desea conocer si la rapidez de combustión promedio es o no de 50cm/s.


El encabezado de esta investigación o problema, puede ser expresado de la siguiente forma, por medio de hipótesis:

Ho ; µ = 50 cm/seg.

H1 ; µ ≠ 50 cm/seg.

La proposición: Ho ; µ = 50 cm/seg., se conoce como hipótesis nula,

mientras que la proposición H1 ; µ ≠ 50 cm/seg., recibe el nombre de hipótesis alternativa.

Puesto que la hipótesis alternativa especifica valores de µ que pueden ser

mayores o menores que 50 cm/seg., también se conoce como hipótesis alternativa bilateral.

En algunas situaciones, lo que se desea es formular una hipótesis

alternativa unilateral, como en.


Ho ; µ > 50 cm/seg. o Ho ; µ < 50 cm/seg

1.1 Elementos de una Prueba de Hipótesis En la construcción de hipótesis, es posible identificar elementos que componen la prueba de hipótesis a definir, a saber: a) La Hipótesis Nula, Ho y la Hipótesis Alternativa, H1

Es importante, recordar que las hipótesis siempre son proposiciones sobre la

población o distribución que se encuentra en estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula, se determina de tres maneras diferentes:

- Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis, usualmente, es determinar si ha cambiado el valor del parámetro.


- Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.

- Cuando el valor del parámetro proviene de consideraciones externas, tales como, las especificaciones de diseño o ingeniería, o de obligaciones contractuales; en esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones.

b) Estadístico de Prueba

El estadístico de prueba se refiere a un estimador o valor calculado, que esta en función de la muestra, por lo que, interesa que contenga el máximo de información sobre la hipótesis nula planteada.

c) Zona o Región de Rechazo (Región Crítica)

Esta región, define los valores del estadístico de prueba en los cuales se rechaza

H0, cuando el valor no se encuentra en esta región, se dice que no se puede rechazar H0.

d) Regla de Decisión Es una afirmación de las condiciones bajo las que se acepta o rechaza la hipótesis nula

Si para una muestra en particular, el estadístico de prueba (valor calculado) cae dentro de la región crítica o zona de rechazo, se debe rechazar la hipótesis nula Ho, a favor de la hipótesis alternativa H1.

Si el valor calculado del estadístico no cae dentro de la región de rechazo, no se puede rechazar la hipótesis nula, Ho.

1.2. Tipos de Errores

Asociado con la regla de decisión (e indirectamente con la zona de rechazo) y, por la naturaleza aleatoria de la muestra, existe la posibilidad de cometer un error al rechazar la hipótesis nula que debiera ser aceptada, o al aceptarla siendo esta falsa, es decir, aceptar hipótesis que deberían ser rechazadas.

Al hablar de error en estadística, es necesario definir Nivel de significación, ya que son conceptos cuyo aprendizaje va de la mano.


Nivel de significación:

Es la probabilidad de que el valor observado (o valor calculado) del estadístico de prueba, esté en la región de rechazo (o región crítica).

Al realizar una prueba de hipótesis, es posible cometer dos tipos de errores, los que,

se explican a continuación: • Error de tipo I:

Consiste en rechazar una hipótesis nula (Ho), cuando ésta es verdadera. Este tipo de error, se denota por α, que es la probabilidad de cometer el error tipo I y corresponde al nivel de significación de la prueba. • Error tipo II:

Consiste en no rechazar una hipótesis nula (Ho), cuando la hipótesis alternativa (H1)

es verdadera. Este error se denota por β (que es la probabilidad de cometer error tipo II).


αθ => kˆP

1.3 Pruebas de Hipótesis Comunes para Muestras Grandes

Supóngase que se quiere probar una hipótesis respecto a un parámetro θ , basados en una muestra aleatoria nΧΧΧ ,...,, 21 .

Se desarrollará un procedimiento para la prueba de hipótesis, basado en el estimador

θ , que tiene una distribución aproximadamente normal con media θ y varianza θσ ˆ2 .

Si 0θ es un estimador o valor específico del parámetro θ , tenemos que:

00 θθ ==Η

01 θθ >=Η (Hipótesis alternativa unilateral de cola superior).

Si 0θθ > es más probable que θ (estimado) sea grande. Luego, para los valores

grandes de θ se favorece el rechazo de la hipótesis nula 0θθ = . Este caso, podemos identificar que:

- El estadístico de prueba es θ - La región de rechazo k>θ , k algún valor específico.

Este valor k, se determina al fijar el nivel de significación α , la probabilidad de

cometer el error de tipo I, eligiendo k de acuerdo a ese valor, en donde:

Si 0H es verdadero:

),(~ˆ 2ˆ0 θσθθ N

Donde, el estimador de θ, sigue una distribución normal, que se presenta como:

)1,0(~ˆ

ˆ

Nθσθθ −=Ζ

Además, se tiene que:

αθ => kP ˆ


Por lo tanto, realizamos la tipificación o normalización de la variable, quedando:

α

θθ

ασ

θσ

θθ

−ΖΖ↓↓

=

−>

−

1

ˆ

0

ˆ

0ˆ k

P

αα =Ζ>Ζ − )( 1P

αθσθ

−Ζ=−

1ˆ

0k

Despejando la incógnita k, tenemos:

θα σθ ˆ10 ⋅Ζ+= −k

Entonces:

0

0

01

00

)

)

):

:

θθθθθθ

θθ

≠<>Η

=Η

iii

ii

i

Recordando, dado que estadístico de la prueba ( ),(~ˆ ˆ

20 θσθθ N ) sigue una

distribución normal, es posible construir la Región de Rechazo para cada una de las hipótesis. Región de Rechazo Ho k>θ ó α−Ζ>Ζ 1 H1

i) θα σθθ ˆ10ˆ ⋅Ζ+> − ó α−Ζ>Ζ 1

ii) θα σθθ ˆ10

ˆ ⋅Ζ−< − ó α−Ζ−<Ζ 1


iii) 2/1ˆ2/10ˆ2/10ˆˆ

αθαθα σθθσθθ −−− Ζ>Ζ⋅Ζ−<⋅Ζ+> óó

Ejemplo Nº 2 Consideremos el Ejemplo Nº1, en donde la hipótesis nula dice que la rapidez

promedio de combustión es de 50 cm/seg., mientras que la hipótesis alternativa dice que ésta no es igual a 50 cm/seg. Es decir, lo que se desea probar es:


H1 ; µ ≠ 50 cm/seg.

Supóngase que, se realiza una prueba sobre una muestra de 10 aparatos, y que se

observa cual es la rapidez de combustión promedio muestral. En donde, la media muestral es un estimador de la media (parámetro poblacional) verdadera de la población.

Un valor de la media muestral X , que esté próximo al valor hipotético µ = 50 cm/seg

es una evidencia de que el verdadero valor de la media (µ) es realmente 50 cm/seg.; por lo que, tal evidencia apoya la hipótesis nula Ho .

Ahora bien, una media muestral muy diferente de 50 cm/seg. constituye una evidencia

que apoya la hipótesis alternativa H1. Por tanto, en este caso, la media muestral es el estadístico de prueba.

La media muestral puede tomar muchos valores diferentes. Supóngase que si:

1. La media muestral se encuentra entre 48.5 X 51.5, entonces, no se rechaza la hipótesis nula Ho;

2. µ = 50 cm/seg y que si X < 48.5 ó X > 51.5, entonces se acepta la hipótesis

alternativa H1 ; µ ≠ 50 cm/seg.

Los valores de X que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de la prueba, mientras que todos los valores que están en el intervalo 48.5 X 51.5 forman la región de aceptación.

Las fronteras entre las regiones críticas y de aceptación reciben el nombre de valores

críticos. La costumbre es establecer conclusiones con respecto a la hipótesis nula 0Η . Por

tanto, “se rechaza 0Η en favor de 1Η si el estadístico de prueba cae en la región crítica, de lo

contrario, no se rechaza 0Η ”. Este procedimiento, de toma de decisión, puede conducir a una de dos conclusiones

erróneas. Por ejemplo, es posible que el valor verdadero de la rapidez promedio de


combustión del agente propulsor sea igual a 50 cm/s. Sin embargo, para todos los especimenes bajo prueba, bien puede observarse un valor del estadístico de prueba X que cae en la región crítica, en este caso, la hipótesis nula 0Η será rechazada en favor de la

alternativa 1Η cuando, de hecho, 0Η en realidad es verdadera. Este tipo de conclusión equivocada se conoce como error tipo I.

Supóngase que se tiene un nivel de confianza del 95%, entonces el nivel de

significancia sería del 5%. Análogamente, si se tiene un nivel de confianza del 90%, entonces el nivel de significancia sería del 10%.

Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50 cm/seg., aunque la media muestral X caiga dentro de la región de aceptación. En este caso se acepta 0Η cuando ésta es falsa, este tipo de conclusión recibe el nombre de error tipo II.

CLASE 02

1.4 Prueba de Hipótesis para la Media (Muestra Grande)

Para este tipo de pruebas de hipótesis, se deben considerar los siguientes Supuestos:

- Debe tratarse de una Distribución Normal, la población en estudio debe poseer una distribución normal.

- Con varianza poblacional ( 2σ ) desconocida - Para una muestra grande

En caso que, la desviación estándar poblacional (σ ) es conocida, y el tamaño

muestral es pequeño (menor a 30), es recomendable seguir utilizando el estadístico Z, para la distribución normal estándar.

Las hipótesis a plantear para este tipo de pruebas son:

00 : µ=µΗ

)bilateral()iii

)eriorinfcola()ii

)eriorsupcola()i:

0

0

01

µ≠µµ<µµ>µΗ


El Estadístico de Prueba, que se distribuye normal estándar, a utilizar es:

Para un nivel de significación dado α , la Región de Rechazo para cada de una de las

hipótesis planteadas, se construye bajo la siguiente regla:

i) Unilateral: α−Ζ>Ζ 1c

ii) Unilateral: α−Ζ−<Ζ 1c

iii) Bilateral: 2/12/12/1 ααα −−− Ζ>Ζ>Ζ−=Ζ>Ζ cc

Ejemplo Nº 3

Una compañía que realiza ventas por teléfono, desea verificar si el tiempo promedio entre llamadas ha variado en 3,8 minutos, que es la media obtenida de hace 2 años. Se considera una muestra aleatoria de 100 llamados telefónicos, obteniéndose una media muestral de 3,7 minutos, con una desviación estándar de 0,5 minutos. ¿Cuál sería la conclusión a un nivel de significación del 2%? Datos obtenidos del encabezado: n = 100 Χ = 3,7 θ = S = 0,5 Es decir, estamos hablando de varianza poblacional desconocida, ya que sólo se conoce la varianza muestral (0.52 = 0.25), con un tamaño muestral grande (n>30).

Se pueden plantear las siguientes hipótesis:

)1,0(~0 Ν−Χ=Ζ

nσ

µ


8,3:0 =Η µ

8,3:1 ≠Η µ

Estadístico de la prueba a utilizar, definido para este tipo de pruebas:

)1,0(~0 Ν−Χ

=Ζ

nσ

µ

Para un nivel de significación dado α =0,02, es posible construir la siguiente región

de rechazo, tenemos: α /2=0,01 1-α /2=0,99 326,299,0 =Ζ

Región de Rechazo

326,2326,299,0 >Ζ>−=Ζ>Ζ cc

Para un estadístico de prueba calculado, de:

2

1005,0

8,37,3 −=−=Ζc

Podemos, concluir que NO se rechaza 0Η , ya que el Zc (valor calculado) se

encuentra dentro de la región de rechazo de la hipótesis alternativa. Es decir, podemos afirmar con un nivel de confianza del 98% que la media poblacional es de 3.8 minutos. 1.4.1 Cálculo de Probabilidad de Error Tipo II

Para la prueba de hipótesis:

0100 :s/v: θ>θΗθ=θΗ


Sólo es posible calcular las probabilidades de un error tipo II, que se da para puntos especiales en la hipótesis alternativa 1Η .

Suponga que se dispone de una alternativa específica:

)(, 0aa θ>θθ=θ

Dado que la región de rechazo es de la forma kˆ:ˆ >θθ , la probabilidad de error tipo II se determina mediante la siguiente fórmula:

[ ]acuando,kˆP)IIerror(P θ=θ≤θ==β

θ=θ

θσθ−

≤σ

θ−θ=β

θa

a

ˆ

a cuando,ˆ

kˆP

Si aθ es el verdadero valor de θ , entonces

σθ−θ

θ

aˆ

tiene una distribución

aproximadamente normal estándar. Ejemplo Nº 4 Un investigador ha preparado el nivel de dosificación de un fármaco que afirma provocará sueño en por lo menos 80% de las personas que padecen insomnio.

Después de examinar la dosificación, se considera que su afirmación acerca de la

efectividad del fármaco es exagerada. En un intento por refutar su afirmación, se administra la dosificación descrita a 20 personas que padecen de insomnio, se observa la variable X: que es el número de personas que se adormecen debido al fármaco. Se le pide al investigador que plantee las 0H e 1Η , y que suponga que se utiliza la

región de rechazo 12≤Χ .

a) Encuentre el nivel de significancia α . b) Encuentre la probabilidad de cometer el error de tipo II, β , para 6,0p =


El investigador plantea las siguientes hipótesis:

8,0p:

8,0p:

1

0

<Η=Η

Dada, la región de rechazo:

12:RR ≤Χ a) Encontrar el nivel de significancia α, donde sabemos que:

)( IErrorP=α

),( 00 verdaderaesHcuandoHrechazarP=α

)8,0/12( =≤Χ= pPα


Para nuestra muestra, la variable se distribuye binomial con parámetros n = 20 y p = 0.8; por lo que, si recordamos la función de probabilidad para la Binomial con parámetros conocidos, que ha sido estudiada en unidades anteriores, tenemos:

)8,0;20(~ BinΧ

ii

i iP −

=

⋅

=≤Χ ∑ 20

12

0

2,08,020

)12(

Lo que se traduce al cálculo de la probabilidad de:

)12(P...)2(P)1(P)0(P =Χ++=Χ+=Χ+=Χ

b) Encontrar la probabilidad de cometer el error de tipo II, β , para 6,0p =

)( IItipoErrorP=β

),( 10 verdaderaesHcuandoHrechazasenoP=α

)6,0/12( =>Χ= pPα

Como ya se señalo, para nuestra muestra, la variable se distribuye binomial, esta vez con parámetros n = 20 y p = 0.6.

)6,0;20(Bin~Χ

i20i20

13i

4,06,0i

20)20(P...)15(P)14(P)13(P −

=⋅

==Χ++=Χ+=Χ+=Χ ∑

1.4.2 Determinación del Tamaño Muestral (Prueba Z) Suponga que se quiere probar:

0100 :s/v: µ>µΗµ=µΗ Si se especifica el valor deseado de α y β , la prueba depende de 2 cantidades adicionales que deben determinarse:


- El tamaño de muestra n y, - El punto k donde comienza la región de rechazo. Para determinar n, se cuenta con un sistema de 2 ecuaciones:

),(

:

0µµα =>Χ=>Χ

cuandokP

kRR

[ ] (*)100

ασµ

σµα −>=

−

>−Χ

= ZZP

n

k

n

[ ] (**)1 βσµ

σµβ −−<=

−

≤−Χ

= ZZP

n

k

n

aa

De la ecuación (*):

nkZ

n

σµσµ

αα ⋅Ζ+=⇒

=−Χ

−− 1010

Y de (**):

nkZ

n

aa σµσ

µββ ⋅Ζ−=⇒

−=−Χ

−− 11

nna

σµσµ βα ⋅Ζ−=⋅Ζ+ −− 110

( ) 011 µµσβα −=Ζ+Ζ −− a

n

( )( )0

11

µµσ βα

−Ζ+Ζ⋅

= −−

a

n


( )( )2

0

211

2

µµσ βα

−

Ζ+Ζ⋅= −−

a

n

1.4.3 Valor “p” o Valor de Significación Es la probabilidad de observar un valor muestral tan extremo como o más extremo que el valor real observado dado que 0Η es verdadero. Cabe destacar que a menor valor “p”, mayor es la evidencia de los datos en contra de la hipótesis nula H0. Se define como: Para calcular el valor “p” se determina el valor del estadístico de la prueba calculado, usando los datos muestrales. Si la prueba es de una cola, el valor “p” es igual al área a la derecha del cΖ , si es de cola superior:

[ ]cP Ζ>Ζ

[ ]cP Ζ<Ζ

[ ]coP Ζ<>Ζ Ejemplo Nº 5

0456,0

002282

)2(2

=⋅=

−<Ζ⋅=

vp

vp

PpValor

Valor de significación:

Si W es un estadístico de prueba, el valor p o nivel de significación alcanzado, es el máximo nivel de significación α para el cual los datos observados indican que se tendría que rechazar la 0Η


Si el valor “p” es ≤ α = rechazamos H0 Si el valor “p” es > α = no podemos rechazar H0


CLASE 03

1.5 Prueba de Hipótesis para la Proporción

La prueba de hipótesis para la proporción se utiliza bajo los supuestos de una población con distribución normal, para posteriormente, establecer las siguientes hipótesis:

Hipótesis:

00 : pp =Η

)()

.)inf()

.)sup():

0

0

01

bilateralppiii

colappii

colappi

≠<>Η

El Estadístico de la Prueba a utilizar para la prueba de proporciones es:

( ) )1,0(~1

ˆ 0 Ν−

−=Ζ

n

pp

pp

Para un nivel de significación dado α , la Región de Rechazo se establece como:




1.6 Prueba de Hipótesis para la Media (Muestra Pequeña)

Para muestras pequeñas, con una distribución normal, con varianza poblacional 2σ y media µ, ambas desconocidas; podemos utilizar la prueba de hipótesis para la media, donde se usan los estimadores muestrales Χ y 2S , que representan la media muestral y la varianza muestral respectivamente, y la distribución a utilizar es la T-student.



Se establecen las siguientes hipótesis:

00 : µµ =Η

)()

.)inf()

.)sup():

0

0

01

bilateraliii

colaii

colai

µµµµµµ

≠<>Η

El Estadístico de Prueba se denota como:

10 ~ −

−Χ=Τ nt

nσ

µ

Como la distribución t, es simétrica, la región de rechazo para una prueba de muestras pequeñas con hipótesis nula 00 : µµ =Η , se localizaría en los extremos de la distribución T, T-student, y se determina en forma análoga a lo realizado con el estadístico Z para muestras grandes.

Para un nivel de significancía α dado, la determinación de la Región de Rechazo, es:

i) Unilateral: 1;1 −−>Τ ntc α

ii) Unilateral: 1;1 −−−<Τ ntc α

iii) Bilateral: 1;2/11;2/11;2/1 −−−−−− >Τ>−=>Τ nnn tcttc ααα

1.7 Prueba de Hipótesis para la Diferencia de Medias ( 21 µµ − )

Para el estudio de este tipo de prueba de hipótesis es necesario dividir nuestro análisis, dependiendo si la población en estudio es grande o pequeña, o si las varianzas poblacionales son conocidas o no. A continuación, se construirán las pruebas de hipótesis correspondiente para cada uno de los casos: Caso 1: Muestras Grandes



Para poblaciones que siguen una distribución normal, con varianzas poblacionales, 2

1σ y 22σ , conocidas y con tamaño muestral, n1 y n2, grandes; la prueba de hipótesis para la

diferencia de medias poblacionales se construye bajo las siguientes hipótesis:

0210 : D=−Η µµ

021

021

0211

)

)

):

Diii

Dii

Di

≠−<−>−Η

µµµµµµ

Con un Estadístico de Prueba:

)1,0(~)(

2

22

1

21

021 Ν

+

−Χ−Χ=Ζ

nn

D

σσ

Que para un dado nivel de significancía α , la determinación de Región de Rechazo se

presenta como:




Ejemplo Nº 6 Se aplica una prueba de matemáticas a una muestra de 50 niños y 75 niñas, en donde, los niños obtuvieron una calificación promedio de 76 y las niñas de 82. Bajo el supuesto de que las desviaciones estándar de las poblaciones, para los niños y niñas, son de 6 y 8 respectivamente, se podría afirmar a un 5% de significación, de que existe una diferencia entre las medias poblacionales, 21 µµ − , que representa los rendimientos de los niños y las niñas.


Se establecen las hipótesis:

0210 : D=−Η µµ

0211 : D≠−Η µµ Que para el Estadístico de Prueba, se tiene:

)1,0(~)(

2

22

1

21

021 Ν

+

−Χ−Χ=Ζ

nn

D

σσ

Con α = 0,05, es decir, α /2= 0,025, un Z de tabla:

96,1975,0 =Ζ

La Región de Rechazo, se determina para:

RR: 96,1>Ζc

Se determina un Z calculado de:

783,4

75

64

50

36

0)8276( −=+

−−=Ζc

Por lo tanto, se rechaza 0Η , ya que en valor absoluta el valor calculado se

encuentra en la zona de rechazo.

Figura Nº 3: Representación del Grafico de Distribución



Caso 2: Muestras Pequeñas ( 21σ = 2

2σ , desconocidas) Bajo los supuestos de poblaciones normales, con varianzas poblacionales, 2

1σ = 22σ ,

desconocidas, con muestras de tamaño, n1 y n2, pequeño; la prueba de hipótesis para la diferencia entre las medias poblacionales se construye, primero determinando las hipótesis:

0210 : D=−Η µµ

)()

.)inf()

.)sup():

021

021

0211

bilateralDiii

colaDii

colaDi

≠−<−>−Η

µµµµµµ

Con un Estadístico de la Prueba dado por:

2

21

02121

~11

)(−+

+⋅

−Χ−Χ=Τ nnt

nnSp

D

En el caso anterior se utilizó la varianza poblacional, la cual es reemplazada en este caso por la varianza muestral, la cual se calcula de la siguiente forma

( ) ( )2

11

21

222

211

−+−+−=

nn

SnSnSp

Para un nivel de significancía α dado, la Región de Rechazo, de determina como:

i) Unilateral: 2;1 21 −+−>Τ nntc α

ii) Unilateral: 2;1 21 −+−−<Τ nntc α

iii) Bilateral: 2;2/12;2/12;2/1 212121 −+−−+−−+− >Τ>−=>Τ nnnnnn tcttc ααα


Ejemplo N° 7 Una compañía automotriz está considerando la compra de baterías a granel a dos proveedores distintos, se seleccionan al azar 16 baterías de cada proveedor y se realizan pruebas sobre su duración. Los resultados obtenidos se presentan en el siguiente cuadro:

Proveedor A Proveedor B

1Χ = 1345 horas 2Χ = 1310 horas

S1 = 31 horas S2 = 28 horas

Se pide: a) Determinar si existe diferencia entre 21 µµ − , a un nivel de significancia del 5%. Suponga muestras independientes de poblaciones que con distribución normal y varianzas desconocidas e iguales. b) Calcular el valor “p”. Se establecen las siguientes hipótesis:

0210 : D=−Η µµ

0211 : D≠−Η µµ

El Estadístico de Prueba a utilizar, se encuentra definido por.

2

21

02121

~11

)(−+

+⋅

−Χ−Χ=Τ nnt

nnSp

D

Donde, se debe calcular la desviación estándar promedio:

( ) ( )5,29

30

28153115 22

=+=Sp


Dado, lo anterior, se tiene el valor calculado:

35,3

16

1

16

15,29

0)13101345( =+⋅

−−=Τc

Para la Región de Rechazo, dado un nivel de significancia del 5%, se obtiene un

valor tabla de:

04,2=t>cΤ 30;975.0

Por lo tanto, se rechaza 0Η , es decir, podemos afirmar que existe una diferencia

entre las baterías de los 2 proveedores, ya que el valor calculado (en valor absoluto) es mayor que el valor de tabla.

En cuanto, al valor p, éste se encuentra entre:

01,0<vp<001,0

2*005,0<vp<2*0005,0

)35,3>t(P2=vp



CLASE 04

Caso 3: Muestras Pequeñas ( 21σ ≠ 2

2σ , desconocidas)

Para el análisis de poblaciones normales, con varianzas poblacionales desconocidas y distintas, 2

1σ ≠ 22σ , y tamaños muestrales pequeños; la prueba de hipótesis para la

diferencia de medias poblacionales, se construye a partir de la definición de las siguientes hipótesis:

0210 : D=−Η µµ

021

021

0211

)

)

):

Diii

Dii

Di

≠−<−>−Η

µµµµµµ

El Estadístico de Prueba a usar es:

νt

n

S

n

S

D~

)(

2

22

1

21

021

+

−Χ−Χ=Τ

Donde se utiliza una varianza promedio, que se calcula a partir de:

−

+−

+

=

11 2

2

2

22

1

2

1

21

2

2

22

1

21

n

n

S

n

n

S

n

S

n

S

ν

Para un nivel de significancia ,α , dado, la Región de Rechazo:

i) Unilateral: να ;1−>Τ tc

ii) Unilateral: να ;1−−<Τ tc

iii) Bilateral: νανανα ;2/1;2/1;2/1 −−− >Τ>−=>Τ tcttc



0210 : D=−Η µµ

0211 : D<−Η µµ


νt

n

S

n

S

D~

)(

2

22

1

21

021

+

−Χ−Χ=Τ

738.7

67

910

45

8,78

7

910

5

8,78

22

2

≈=

+

+=ν

Ejemplo N° 8 El jefe de operaciones de una empresa, sostiene la siguiente teoría “que los empleados del turno de la mañana demoran en promedio menos que los del turno de la tarde, para realizar una determinada tarea”.

Para verificar esta afirmación, se tomarán muestras aleatorias independientes, de tamaño 5 y 7, de los turnos de la mañana y tarde respectivamente, obteniéndose los siguientes resultados:

Mañana Tarde

1n = 5 2n = 7

1Χ = 97 2Χ = 110

21S = 78,8 2

2S = 910

Con un 5% de significancia, se pide verificar la afirmación del jefe, suponiendo distribuciones normales y varianzas distintas.


Dado los siguientes datos, se construye la Región de Rechazo:

α = 0,05 1 - α = 0,95

Según la tabla del anexo Nº 3 podemos encontrar que con una distribución t con 7 grados de libertad y p=0.95 el valor es:

=7;95,0t 1,90

Región de Rechazo:

RR: 90,1−<Τc

Se calcula el valor de la prueba de hipótesis, y se obtiene:

08,1

7

910

5

8,78

0)11097( −=+

−−=Τc

Por lo tanto, no se rechaza 0Η , es decir, los dos turnos se demoran lo

mismo.

Caso 4: Muestras Dependientes

Bajo el supuesto de poblaciones normales, se establecen las siguientes hipótesis:

0210 : Dd =−=Η µµµ

0

0

01

)

)

):

Diii

Dii

Di

d

d

d

≠<>Η

µµµ

Se construye el Estadístico de Prueba a utilizar para la prueba de hipótesis de

diferencia de prueba:


10 ~ −

−=Τ n

d

t

n

SDd

Para un nivel de significancia α , dado; se establece la Región de Rechazo:

i) Unilateral: 1;1 −−>Τ ntc α

ii) Unilateral: 1;1 −−−<Τ ntc α

iii) Bilateral: 1;2/11;2/11;2/1 −−−−−− >Τ>−=>Τ nnn tcttc ααα

Ejemplo N° 9 Se asegura que una nueva dieta reduce el peso de una persona en 4,5 kilos en promedio, en un periodo de 2 semanas. Para probar la veracidad de esta afirmación, se registraron los pesos de 7 personas que siguieron esta dieta. Los datos registrados, sobre el peso de los individuos antes y después de la dieta, se presentan en la siguiente tabla:

Antes Después Diferencia 1 58,5 60,0 -1,5 2 60,3 54,9 +5,4 3 61,7 58,1 +3,6 4 69,0 62,1 +6,9 5 64,0 58,5 +5,5 6 62,6 59,9 +2,7 7 56,7 54,4 +2,3

Con un 5% de significación, se pide que se pruebe la hipótesis de que la dieta reduce,

efectivamente, el peso de 4,5 kilos, versus la hipótesis alternativa de que la diferencia promedio es menor que 4,5 kilos. Se poseen, además los siguientes datos:

=d 3,56 =dS 2,78


Para α =0,05, 1-α = 0,95, se obtiene un valor tabla de:

=6;95,0t 1,94

Que nos permite construir la Región de Rechazo:

R.R.= 94,1−>Τc

Para un valor calculado,

89,0

7

78,25,456,3 −=−=Τc

Por lo tanto, se rechaza 0Η , es decir, el valor calculado se encuentra dentro

de la región de rechazo, por lo tanto podemos decir que el peso perdido, por individuo, es menor a 4,5 kilos.


5,4:0 =Η dµ

5,4:1 <Η dµ

Para un Estadístico de Prueba:

10 ~ −

−=Τ n

d

t

n

SDd



CLASE 05

1.8 Prueba de Hipótesis para Diferencia de Proporciones (Muestras Grandes) Cuando se desea hacer pruebas de hipótesis sobre la diferencia de medias de poblaciones, que se presentan como proporciones, se construye el siguiente estadístico de prueba. Se establecen las hipótesis:

0: 210 =−Η pp

0)

0)

0):

21

21

211

≠−<−>−Η

ppiii

ppii

ppi

El Estadístico de Prueba a utilizar, se determina como:

( )

( ))1,0(~

11ˆ1ˆ

0ˆˆ

21

21 N

nnpp

pp

+⋅−

−−=Ζ

Para un estimador de proporción promedio, dado por:

21

21ˆnn

XXp

++

=

Para un nivel de significancia α dado, se construye la siguiente Región de Rechazo:




Ejemplo N° 10

Supóngase que se tienen los siguientes datos, de dos poblaciones que se presentan como proporciones.


Población 1 Población 2

1n = 550 2n = 750

1Χ = 55 2Χ = 90

1p = 55/550 = 0,10 2p = 90/750 = 0,12

Se pide verificar que 021 =− pp , versus la alternativa de que las proporciones poblacionales son distintas, es decir, su diferencia es distinta a cero.


Podemos decir que, no se rechaza 0Η , ya que el valor calculado no se

encuentra en la región de rechazo. Se concluye que las proporciones de las poblaciones en estudio son iguales.


0: 210 =−Η pp

0: 211 ≠−Η pp


( )

( ))1,0(~

11ˆ1ˆ

0ˆˆ

21

21 N

nnpp

pp

+⋅−

−−=Ζ

11,01300

145

750550

9055ˆ ==

++=p

Donde: α = 0,05 α /2=0,025 1-α /2= 0,975 Se calcula el valor tabla, y se tiene:

96,1975,0 =Ζ (Recordar, que en la tabla Z estándar, se debe buscar en el cuerpo 0,975, una

vez ubicado; ir a la fila y columna, lo que salga es el valor buscado)

Con la siguiente Región de Rechazo: RR: 96,196,1 >Ζ>− c

Para un valor calculado de:

( )

( )14,1

750

1

550

189,011,0

012,010,0 −=

+⋅

−−=Ζc


1.9 Prueba de Hipótesis para Varianzas Para muestras aleatorias de poblaciones normales, con medias (µ) y varianzas ( 2σ ) poblacionales desconocidas, es posible establecer pruebas de hipótesis para varianzas, lo anterior, al establecer las hipótesis:

20

20 : σσ =Η

20

2

20

2

20

21

)

)

):

σσ

σσ

σσ

≠

<

>Η

iii

ii

i

El Estadístico de Prueba a utilizar, esta definido por:

( )

2;12

0

22 ~

1−

−= n

Snχ

σχ

Con un nivel de significancia,α , dado, se construye la Región de Rechazo:

i) Unilateral: 21;1

2−−> nc αχχ

ii) Unilateral: 21;

2−< nc αχχ

iii) Bilateral 21;2/1

221;2/

2−−− >< ncnc ó αα χχχχ

Figura Nº 4: Representación Gráfica de las Zonas de Rechazo

Bilateral



Unilateral Ejemplo N° 11 Se afirma que una de las piezas de un motor, que se produce en una compañía, tiene una varianza de diámetro no mayor que 0,0002 pulgadas. Para probar tal afirmación, se tomo una muestra aleatoria de 10 partes, la que reveló una varianza muestral 2S de 0,0003.

A un nivel de significancia del 5%, pruebe que:

2σ = 0,0002 versus 2σ >0,0002.


Datos expuestos en el encabezado:

n = 10 2S = 0,0003


0002,0: 2

0 =Η σ

0002,0: 21 >Η σ

Para lo que se usa el Estadístico de Prueba:

( )

2;12

0

22 ~

1−

−= n

Snχ

σχ

( )5,13

0002,0

0003,092 ==cχ

Con un α dado:

α = 0,05 1-α =0,95

92,1629;95,0 =χ

La Región de Rechazo se determina como:

92,16: 2 >cRR χ

Por lo tanto no se rechaza 0Η , es decir, los datos de la muestra no indican

evidencia suficiente en contra de 0Η .



CLASE 06

1.10 Prueba de Hipótesis para la Comparación de Varianzas ( 22

21

σσ )

Para muestras aleatorias de poblaciones normales, es posible establecer pruebas de

hipótesis para la comparación de varianzas poblacionales, bajo las hipótesis:

22

210 : σσ =Η ó H0: / = 1

H1 : ó H1 : / 1

H1 : > ó H1 : / > 1

H1 : < ó H1 : / < 1

Donde el Estadístico de Prueba a utilizar es:

1;122

21

21~ −−= nnfS

SF

Que para un nivel de significancia, α , dado; se construye la siguiente Región de

Rechazo:

i) Unilateral: 1,1;1 21 −−−> nnc fF α

ii) Unilateral:

=<−−−

−−−1,1;1

1,1;1

21

21

1

nnnnc f

fFα

α

iii) Bilateral 1,1;2/11,1;2/ 2121 −−−−− >< nnnnc fFcófF αα


Ejemplo N° 12 Verificar que las varianzas poblacionales de dos muestras aleatorias son iguales,

22

21 σσ = , a un nivel de significación del 5%, para los siguientes datos poblacionales:

Población 1 Población 2

1n = 5 2n = 7

1Χ = 97 2Χ = 110

=21S 78,8 =2

2S 910

Se establecen las siguientes hipótesis, que nos permite plantear el encabezado del problema:

22

210 : σσ =Η

22

211 : σσ ≠Η

El Estadístico de Prueba a utilizar es:

1;122

21

21~ −−= nnfS

SF

087,0910

8,78 ==cF

Para α dado, se construye la Región de Rechazo:

α =0,05 1-α /2= 0,975

23,66,4;975,0 =f

20,94,6;975,0 =f

RR:

<>

20,9

123,6 FcóFc

RR: 11,023,6 <> FcóFc


Para un estadístico de prueba F calculado, que se encuentra en la región de

rechazo, podemos concluir que se rechaza 0Η .

1.11 Prueba de Bondad de Ajuste Hasta el momento, se han visto pruebas de hipótesis acerca de parámetros poblacionales sencillos tales como: µ , 2σ , p . Ahora, se estudiará una prueba para determinar si una población tiene una distribución teórica específica. La prueba de bondad de ajuste se basa en que, tan bien se ajusta la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias observadas que se obtienen de la distribución hipotética. Ejemplo N° 13 Suponga que se lanza un dado 120 veces y se registra c/u de los resultados:

1 2 3 4 5 6 Observado 20 22 17 18 19 24 Esperado 20 20 10 20 20 20

Nota: se acostumbra referirse a cada resultado posible de un experimento como una celda, en el ejemplo, hay 6 celdas. El estadístico apropiado sobre el cual se basa el criterio de decisión para un experimento que involucra k celdas, se define en el siguiente teorema:


Prueba de Bondad de Ajuste:

Es un contraste de significación para saber si los datos de una muestra pertenecen a una ley de distribución teórica, que se sospecha que es la correcta.


• Teorema Una prueba de bondad de ajuste entre frecuencias observadas y esperadas se basa en la cantidad.

( ) 21;1

2

1

2 ~ −−=∑

−= k

k

i i

ii

e

eOαχχ

Donde 2χ es el valor de una variable aleatoria, cuya distribución muestral se

aproxima, muy cercanamente, a la distribución 2χ con 1−= kν grados de libertad. Donde:

iO = Frecuencia observada

ie = Frecuencia esperada Si las frecuencias observadas se acercan a las correspondientes frecuencias esperadas, el valor 2χ será pequeño, lo que indica un buen ajuste. Si las frecuencias observadas difieren considerablemente de las frecuencias esperadas, el valor 2χ será grande, y el ajuste será muy pobre. Un buen ajuste conduce a la aceptación de la hipótesis nula, por lo tanto, la región crítica caerá en la cola derecha de su distribución 2χ . Para un nivel de significación α , la Región de Rechazo está dada por:

21;1

2: −−> kcRR αχχ

Figura Nº 5: Representación Gráfica de la Prueba de Bondad de Ajuste


Observaciones:

• Si existen parámetros a estimar para el cálculo de 2χ , se debe restar la cantidad

estimada de parámetros al número de grados de libertad de la distribución 2χ . • La prueba de bondad de ajuste no debe utilizarse, a menos que cada frecuencia

esperada sea mayor o igual a 5, cuando esto no ocurre deben juntarse las celdas vecinas hasta que la suma de ambas sea mayor o igual a 5.

Siguiendo con el ejemplo anterior (Ejemplo Nº 13):

( ) ( ) ( ) ( ) ( ) ( )7,1

20

34

20

2024

20

2019

20

2018

20

2017

20

2022

20

2020 2222222 ==−+−+−+−+−+−=cχ

Dado los datos del encabezado del ejemplo número 13:

α =0,05 1- α =0,95

=2

5;95,0χ 11,07

2

1;12: −−> kcRR αχχ

07,11: 2 >cRR χ

Por lo tanto, no se rechaza 0Η , es decir no existe evidencia de que el dado está cargado. Ejemplo N° 14 Se extraen de una baraja de naipe común, 3 cartas con reemplazo y se registran el número de espadas obtenidas. Después de repetir el experimento 64 veces se obtuvieron los siguientes registros.

X 0 1 2 3

iO 21 31 12 0

ie 27 27 9 1



[ ]41,3~:

)41,3(~:

1

0

Bin

binomial

/ΧΗ

ΧΗ

El Estadístico de Prueba:

( ) 21;1

2

1

2 ~ −−=∑

−= k

k

i i

ii

e

eOαχχ

[ ] ( ) ( ) 6427

43

41

0

30

30=

==XP

[ ] ( ) ( ) 6427

43

41

1

31

21=

==XP

Con un 1% de significación, verificar si los datos registrados corresponde a una distribución binomial, de parámetros n = 3 y p = ¼ .


[ ] ( ) ( ) 649

43

41

2

32

12=

==XP

[ ] ( ) ( ) 641

43

41

3

33

03=

==XP

Dado que existen frecuencias esperadas < 5, antes de concluir con la

prueba de bondad de ajuste, se deben juntar las dos celdas que contienen la frecuencia esperada de 9 y 1, que corresponden a la columna 3.

X 0 1 ≥ 2

iO 21 31 12

ie 27 27 10

Dado: α = 0,01 1-α =0,99 n-1= 3 – 1= 2 Se obtiene un valor de tabla de:

=22;99,0χ 9,21

Para una Región de Rechazo

2

1;12: −−> kcRR αχχ

21,9: 2 >cRR χ

Se obtiene un estadístico calculado de:

32,2104

2716

27362 =++=cχ

Por lo tanto, no se rechaza 0Η , es decir, no existen pruebas para

decir que la distribución no es binomial.


Ejemplo N° 15 Considere la siguiente tabla de distribución de frecuencia de las duraciones de 40 baterías de automóviles. Se pide probar la hipótesis de que se trata de una distribución normal con 7,05,3 == σµ y . Utilice un 05,0=α .

Límites Reales iO ie

1,45 – 1,95 2

5,8

9,592,5

1,2128,2

5,0476,0

≈≈≈

1,95 – 2,45 1 2,45 – 2,95 4

2,95 - 3,45 15 10,292 ≈ 10,3 3,45 – 3,95 10 10,672 ≈ 10,7 3,95 – 4,45 5

5,105,3421,3

0,7968,6

≈≈

4,45 – 4,95 3

De esta forma, se dejan 4 celdas, para las frecuencias esperadas:

8,5 10,3 10,7 10,5

La variable x se distribuye:

)7,0;5,3(~ 2NΧ Para la que cual, podemos calcular un estadístico de prueba de bondad de ajuste de:

( ) ( ) ( ) ( )1,3

5,10

5,108

7,10

7,1010

3,10

3,1015

5,8

5,87 22222 =−+−+−+−=χ

Dado los datos del encabezado, tenemos un valor tabla de:

81,7

3141..

4

95,01

23;95,0 =

=−=−==

=−

χ

α

klg

k


CLASE 07

1.12 Prueba de Independencia El estadístico Chi-cuadrado, también puede ser utilizado para probar la hipótesis de independencia de 2 variables categóricas de clasificación. Una tabla de contingencia es una tabla de r filas y c columnas, que resume las frecuencias observadas respecto de estas dos variables. Los totales de filas y de columnas se llaman frecuencias marginales. Cuando la información se clasifica de acuerdo a más de una variable, se puede utilizar la prueba de independencia para determinar si los criterios empleados para la clasificación cruzada son independientes o no. La decisión de aceptar o rechazar la hipótesis nula de independencia entre las dos variables, se basa en, que tan bien se ajustan las frecuencias observadas en cada celda y las frecuencias esperadas de cada celda, bajo la suposición de que 0Η es verdadero.

0Η : Las variables son independientes

1Η : Las variables son dependientes


Con una Región de Rechazo.

21;1

2: −−> kcRR αχχ

81,7: 2 >cRR χ

Por lo tanto, no se puede rechazar la hipótesis nula, es decir, la variable se

distribuye en forma normal con parámetros 7,05,3 == σµ y .


La regla general para obtener la frecuencia esperada de cualquier celda, la proporciona la siguiente fórmula:

totalgran

columnasfilastotalFe

⋅=

El número de grados de libertad, para la prueba Chi-cuadrado, que representa esta

prueba de independencia es:

( ) ( )11 −⋅−= crν Donde: r : Es el número de filas c : Número de columnas con una confiabilidad de (1- ), lo cual queda expresado en el siguiente grafico

2;1

2: ναχχ −>cRR

Para probar la hipótesis nula de independencia, se calcula el siguiente estadístico de prueba:

( ) 2

;1

2

1

2 ~ ναχχ −=∑

−=

k

i i

iic e

eO

Donde la sumatoria se extiende a todas las celdas rc, de la tabla de contingencia (r x c).


Ejemplo N° 16 Una muestra de 1000 votantes se clasifica de acuerdo a sus ingresos, según sea medio, bajo y alto; y si éstos están a favor o en contra de la reforma penal.

Las frecuencias observadas se presentan en la siguiente tabla de contingencia ),:( columnascfilasrrxc .

Nivel de Ingresos

Ref NI Baja Media Alta

A favor 182 213 203 598

En contra 154 138 110 402 Reforma Penal 336 351 313 1000

Lo que quiere probar es que la variable ingreso es independiente de si el votante está en contra o a favor de la reforma penal. Es decir:

son independientes ⇔1000

313

1000

598

1000

203 == no son iguales

Para lo que, se calculan las probabilidades marginales de:

Nivel de ingreso bajo 336,0=1000

336=)B(P

Nivel de ingreso medio 331,0=1000

331=)M(P

Nivel de ingreso alto 313,0=1000

313=)A(P

Está a favor 598,0=1000

598=)F(P

Está en contra 402,0=1000

402=)C(P


Bajo las siguientes hipótesis:

0Η : Existe independencia entre las variables

1Η : No existe independencia entre las variables En donde, si 0Η es verdadero:

[ ] [ ] [ ]1000

598

1000

336 ⋅=⋅=∩ FPBPFBP

La frecuencia esperada se obtiene al multiplicar cada probabilidad de una celda por el

número total de observaciones (aproximado a un decimal).

Por ejemplo: 9,20010001000

598

1000

336 =⋅

totalgran

columnasfilastotalFe

⋅=

Con lo que podemos construir la siguiente tabla:

Nivel de Ingresos

Ref NI Baja Media Alta

A favor

182 (200,9)

213 (209,9)

203 (187,2) 598

En contra

154 (135,1)

138 (141,1)

110 (125,8)

402

Reforma Penal 336 351 313 1000

El número de grados de libertad asociados a la prueba Chi-cuadrado, en este caso,

es:

( ) ( ) 21312 =−⋅−=ν Para probar la hipótesis nula de independencia se utiliza el siguiente criterio de

decisión. Se calcula:


( ) 2;1

2

1

2 ~ ναχχ −=∑

−=

k

i i

iic e

eO

( ) ( ) ( ) ( )87,7

8,125

8,125110...

2,187

2,187203

9,209

9,209213

9,200

9,200182 22222 =−++−+−+−=cχ

Dado: α =0,05 1-α =0,95

=−2

2;1 αχ 5,99

Se obtiene la Región de Rechazo.

99,5: 2 >cRR χ

Por lo tanto, se debe rechazar 0Η , es decir, se puede concluir que las variables (nivel de ingreso y a favor/en contra de la reforma) no son independientes.

1.13 Prueba de Homogeneidad Corresponde a una aplicación de la prueba chi-cuadrado de independencia y consiste en la prueba de la homogeneidad de muestras diferentes de una variable. Sirve para contrastar la igualdad de procedencia de un conjunto de muestras de tipo cualitativo, es decir, probar la homogeneidad de los parámetros de dos muestras distintas, y de esta forma permitir la comparación cualitativa de estos parámetros. Ejemplo N° 17 Suponga que se decide seleccionar a 200 personas del partido A; 150 del B y 150 del C, de una determinada región. A estas personas, se les clasifica respecto a la ley de divorcio, según están a favor, o en contra, o indiferentes de dicha ley. Ahora, se prueba la hipótesis de que las proporciones poblacionales dentro de cada región son las mismas, es decir, las proporciones de los militantes de los partidos A, B, C, a



favor de la ley del divorcio son las mismas que las proporciones de cada afiliación política contra dicha ley. Además, que las proporciones de cada partido, que no se han decidido, son las mismas. En esencia, interesa determinar si las 3 categorías de votantes son homogéneas, con respecto a sus opiniones en relación a la ley propuesta.

A B C

A favor 82

(85,6) 70

(64,2) 62

(64,2) 214

En contra 93

(88,8) 62

(66,6) 67

(66,6) 222

Sin decisión (Indiferente)

25 (25,6)

18 (19,2)

21 (19,2) 64

200 150 150 500 Dado: α = 0,05 1-α =0,95

=−2

4;1 αχ 9,49

Se determina la Región de Rechazo:

49,9: 2 >cRR χ

Se calcula el estadístico de prueba:

( ) ( ) ( ) ( )53,1500

2,19

21...

2,64

62

2,64

70

6,85

82 22222 =−++++=cχ

Por lo tanto, no se rechaza 0Η . De esta forma, se puede concluir que las proporciones

de los diferentes partidos, según la opinión que los participantes tengan sobre la ley de divorcio; son las mismas.


CLASE 08

2. MÉTODOS NO PARAMÉTRICOS Se considera que los métodos no parametricos fueron utilizados por primera vez por J. Arbuthnot, cuando estudio el número de niños y niñas bautizados en Londres entre 1629 y 1710. Arbuthnot observo que se bautizaban más niños que niñas. Llegó a la conclusión de que la probabilidad de que se bautizara un niño no era la misma que la de se bautizara una niña. Sus conclusiones se basaron en una prueba no paramétrica: la prueba de los signos.1

Hasta ahora todas las técnicas utilizadas para realizar algún tipo de inferencia exigían:

• Asumir de buena manera ciertas hipótesis como la aleatoriedad en las observaciones que componen la muestra, o la normalidad de la población, o la igualdad de varianzas de dos poblaciones, etc.

• O bien, la estimación de cualquier parámetro como la media, varianza, proporción, etc.

de la población. El conjunto de estas técnicas de inferencia se denominan técnicas paramétricas.

Existen, sin embargo, otros métodos paralelos cuyos procedimientos no precisan la estimación de parámetros, ni suponen conocida ninguna ley de probabilidad subyacente en la población de la que se extrae la muestra. Estas son las denominadas técnicas no paramétricas o contrastes de distribuciones libres.

Los métodos no paramétricos poseen algunos atractivos, que se basan principalmente

en:

• Son más fáciles de aplicar que las alternativas paramétricas.

1 David S. Moore, Estadistica Aplicada Basica, 2ª Edicion

Métodos no Paramétricos:

Técnicas para comparar poblaciones no paramétricas, es decir, que utilizan menos restricciones que las pruebas paramétricas, pues estas poblaciones no están sujetas a supuestos.


• Al no exigir ninguna condición suplementaria a la muestra sobre la proveniencia de una población, con cierto tipo de distribución, son más generales que las paramétricas, pudiéndose aplicar en los mismos casos en que estas son válidas. Por otro lado, esta liberación en los supuestos sobre la población tiene inconvenientes.

El principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las técnicas no paramétricas juega un papel fundamental la ordenación de los

datos, hasta el punto de que en gran cantidad de casos ni siquiera es necesario intervenir en los cálculos las magnitudes observadas, más que para establecer una relación de menor a mayor entre las mismas, denominadas rangos.

En muchos métodos no paramétricos, se usan los rangos relativos de las observaciones numéricas y no sus valores numéricos reales. 2.1 Prueba de Wilcoxon

La prueba de Wilcoxon puede dividirse dependiendo del tipo de muestras en que se desea aplicar, de esta forma tenemos:

Caso 1: La Prueba de Wilcoxon de Suma de Rangos para Muestras Independientes Suponga que se emplean 2 muestras aleatorias independientes para comparar dos poblaciones y que la prueba t de Student resulta inadecuada para este fin, en este caso, es posible utilizar la prueba no paramétrica de Wilcoxon. Ya que esta prueba la técnica no paramétrica es paralela a la prueba de Student. Ejemplo N° 18 Suponga que un ingeniero desea comparar los tiempos que tardan los técnicos en la maniobra A con los tiempos para una maniobra semejante B. Por experiencias anteriores, se sabe que las poblaciones de las mediciones de tiempo utilizadas con frecuencia tienen distribución de probabilidad desviadas a la derecha. El ingeniero asigna al azar 14 técnicos, de esta forma 7 técnicos efectuarán la maniobra A y los otros la maniobra B. Se mide el tiempo que tarda cada técnico y se tienen los siguientes resultados. (Observación: se eliminó una de las observaciones para el primer grupo).


Maniobra A Maniobra B Tiempo (segundos) Tiempo (segundos)

1,96 (4) 2,11 (6) 2,24 (7) 2,43 (9) 1,71 (2) 2,07 (5) 2,41 (8) 2,71 (11) 1,62 (1) 2,50 (10) 1,93 (3) 2,84 (12)

2,88 (13)

Para comparar las distribuciones de probabilidad de las poblaciones A y B, se

clasifican primero todas las observaciones como si se hubieran tomado de la misma población; y se les asigna un número desde el más pequeño (1) hasta el más grande (13). Si las dos poblaciones fueran idénticas se podría esperar que los lugares o rangos estuvieran mezclados al azar entre las dos muestras.

Por otro lado, si una población tiende a tener mayores tiempos de terminación que la otra se esperaría que los lugares más grandes estuvieran principalmente en una muestra, y los más pequeños en la otra. La medida estadística de la prueba de Wilcoxon se basa en la suma de rangos, como se muestra a continuación: TA: suma de rangos del grupo A = 4+7+2+8+1+3 = 25 TB: suma de rangos del grupo B = 6+9+5+11+10+12+13 = 66

La suma de TA y TB corresponde a:

2

)1( +⋅=+ nnTBTA

Donde:

21 nnn += En el ejemplo:

912

)113(13 =+⋅=+ TBTA


Como TA y TB son fijos, un valor pequeño de TA, implica un valor grande de TB (y viceversa). Así como una diferencia grande entre TA y TB.

Por lo tanto, mientras menor sea el valor de una de las sumas, mayor será la evidencia que indica que las muestras se seleccionan de poblaciones distintas. En resumen:

Unilateral Bilateral

0Η : Dos poblaciones muestreadas tienen

idéntica distribución de probabilidad.

1Η : La distribución de la población A, está desplazada a la derecha de la población B. Medida estadística de la prueba: Suma de rangos T, asociada con la muestra con menor número de mediciones Región de Rechazo: Si se designa por A la muestra de menor tamaño. Se rechaza si:

RR: UTTA≥

Donde UT es el valor superior que aparece en

la tabla para un valor α (unilateral).

0Η : Dos poblaciones muestreadas tiene

idéntica distribución de probabilidad.

1Η : La distribución de la población A, está desplazada a la izquierda o a la derecha de la población B. Medida estadística de la prueba: Suma de rangos T, asociada con la muestra con menor número de mediciones Región de Rechazo:

RR: UL TTóTT ≥≤

Donde LT es el valor menor de la tabla para

α , en el caso bilateral; y UT es el límite

superior de acuerdo con la tabla.

Supuestos: a) Las dos muestras son aleatorias e independientes. b) Las observaciones obtenidas se pueden clasificar en orden de magnitud.

Observación: La prueba de Wilcoxon sigue siendo válida si el número de empates es pequeño en comparación con el número de mediciones de la muestra, y si se asigna a cada observación empatada el promedio de los rangos que tendrían si no hubieran estado empatadas. Si los tamaños de muestra son mayores e iguales a 10, se puede aproximar la distribución de muestra de T mediante una distribución normal con:


( )

2

1)( 21 ++⋅

=nnn

TAE y ( )12

1)( 2121 ++⋅⋅

=nnnn

TAV

Por lo tanto, la prueba de Wilcoxon se resume como: Prueba de Wilcoxon para

muestras grandes: Hipótesis:

0Η : Dos poblaciones muestreadas tienen idéntica distribución de probabilidad.

1Η : La distribución de la población A, está desplazada a la derecha de B Estadístico de la prueba:

12

)1(2

)1(

2121

21

++⋅⋅

++⋅−

=Ζnnnn

nnnTA

Región de Rechazo, para α dado, es:

α−Ζ>Ζ 1: cRR Ejemplo N° 19

Un Psicólogo Industrial afirma que el orden en que se presentan las preguntas de un examen afecta las probabilidades que tiene un solicitante de contestar en forma correcta, para investigar esta afirmación, el psicólogo divide al azar a 13 solicitantes en 2 grupos, 7 en uno y 6 en el otro. Las preguntas del examen se ordenan según la dificultad creciente en la prueba A, pero en la prueba B, se invierte este orden. A un grupo de solicitantes se les da la prueba A y al otro la B.

Las calificaciones que se obtienen de ambas grupos de solicitantes, se presentan en el cuadro siguiente:

Prueba A Prueba B 90 66


71 78 83 50 82 68 75 80 91 60 65

¿Otorgan estos datos la evidencia suficiente que indique una diferencia entre los dos grupos?

En este caso, la prueba a realizar es bilateral, se extraen los datos del encabezado:

05,0=α

LT =28, el puntaje esperado para la prueba B.

UT =56, el puntaje esperado para la prueba A.

Prueba A Prueba B 90 (12) 66 (4) 71 (06) 78 (8) 83 (11) 50 (1) 82 (10) 68 (5) 75 (07) 80 (9) 91 (13) 60 (2) 65 (03)

TA = 62 TB = 29 La Región de Rechazo se construye a partir de:

RR: UL TTóTT ≥≤ 56292829 ≥/≤/ ó

Por lo tanto, no se rechaza, ya que 29 > 28 y 29 < 56, por lo que se puede pensar que

las distribuciones son las mismas.

Caso 2: Prueba de Wilcoxon de Rango Signado (o rango con signo) para el Experimento de Pares de Diferencias

Cuando se trata de un experimento de pares de diferencias, se deben analizar las diferencias entre las mediciones. En donde, la prueba t - student para los pares de diferencias conocida, requiere que esas diferencias representen una muestra aleatoria de


una distribución normal; lo cual no se cumple cuando las mediciones consisten en calificaciones o grados.

Un método no paramétrico consiste en calcular las calificaciones de los valores de las

diferencias entre mediciones. Después de clasificar las diferencias absolutas, se calculan la suma de los rangos de las diferencias positivas y la correspondiente a las negativas.

Las positivas, se denotan como (T+) Las negativas se denotan como (T-)

Se pueden probar las hipótesis:

:0Η Las distribuciones de probabilidad de las calificaciones para A y B son idénticas.

:1Η Las distribuciones de probabilidad de las calificaciones para A y B son distintas (en el

lugar) para los dos productos (prueba bilateral).

Estadístico de Prueba, que se usa es:

−Τ+Τ= ,mínT Mientras menor sea el valor de T, mayor será la evidencia que las 2 distribuciones tienen distintos lugares. La región de rechazo se determina mediante una tabla, que da un valor 0Τ para pruebas unilaterales y bilaterales, para cada valor de n. Ejemplo N° 20 Suponga que a cada uno de 10 jurados se le da una muestra de 2 productos que desea comparar una empresa. Cada jurado califica la suavidad de cada producto en una escala de 1 a 10, donde 1 es menos suave y 10 el más suave. Los resultados de este experimento son los siguientes:

Producto A Producto B

1 6 4

2 8 5 3 4 5


4 9 8 5 4 1 6 7 9 7 6 2 8 5 3 9 6 7 10 8 2

Determinar, de acuerdo a las siguientes hipótesis, si:

:0Η Las distribuciones de probabilidad de las calificaciones para A y B son idénticas.

:1Η Las distribuciones de probabilidad de las calificaciones para A y B son distintas.

A la tabla que presenta los resultados obtenidos, de la clasificación realizada por los jurados, se deben agregar 3 columnas más. Primero, la diferencia entre la calificación del producto A y la del producto B, lo que se denota como A - B; Segundo, la diferencia entre la calificación de ambos productos, pero, en valor absoluto, que se denota I A – B I; y Tercero, la columna de Rango, que se construye a partir de la suma de ambas calificaciones por jurado, divido por la cantidad de productos que se están calificados (2).


Producto A Producto B A – B I A – B I Rangos

1 6 4 2 2 5

2 8 5 3 3 7,5 3 4 5 -1 1 2 4 9 8 1 1 2 5 4 1 3 3 7,5 6 7 9 -2 2 5 7 6 2 4 4 9 8 5 3 2 2 5 9 6 7 -1 1 2 10 8 2 6 6 10

Nota: Los rangos que están ennegrecidos, corresponden a aquellos cuya diferencia es negativa T+ = 46 (suma de los rangos cuya diferencia es positiva) T- = 9 (suma de los rangos cuya diferencia es negativa)

05,0=α , caso bilateral 0Τ = 8

Como T- es el de menor suma; es el que se utiliza para calcular la región crítica de:

8: ≤−ΤRR

Como T-= 9, no se rechaza 0Η , es decir, las dos calificaciones son idénticas. En resumen: Prueba Wilcoxon rangos signados, n < 25.



1Η : La distribución de la población A, está

0Η : Dos poblaciones muestreadas tiene idéntica distribución de probabilidad.


desplazada a la derecha de la población B Medida estadística de la prueba: T-, la suma de las calificaciones (se calculan restando cada par de mediciones de la población B, de la correspondiente de la población A. Región de Rechazo: T- < 0Τ , 0Τ se localiza en la tabla, para un nivel de significancia α y para un número de parejas n (unilateral)

RR: 0TT <−

1Η : La distribución de la población A, está desplazada a la derecha o a la izquierda de la población B. Medida estadística de la prueba: T, la menor de las sumas T+; T-. Región de Rechazo: T ≤ 0Τ , 0Τ se localiza en la tabla, para un nivel de significancia α y el número de pares no empatados.

RR: T ≤ 0Τ ,

Prueba Wilcoxon rangos signados, n ≥ 25.



1Η : La distribución de la población A, está desplazada a la derecha de la población B Medida estadística de la prueba:

( )24

12)1(4

)1(

+⋅+⋅

+⋅−=Ζ

+

nnn

nnT

0Η : Dos poblaciones muestreadas tiene idéntica distribución de probabilidad.

1Η : La distribución de la población A, está desplazada a la derecha o a la izquierda de la población B. Medida estadística de la prueba:

( )24

12)1(4

)1(

+⋅+⋅

+⋅−=Ζ

+

nnn

nnT


Región de Rechazo:

α−Ζ>Ζ 1: cRR

Región de Rechazo:

2/1: α−Ζ>ΖcRR

Supuestos:

25≥n

CLASE 09 2.2 Prueba del Signo (Para Experimentos Aparejados) Suponga que se tiene “n” pares de observaciones de la forma ( )( ) ( )nn YXYXYX ,...,, 2211 , y que se desea probar la hipótesis de que la distribución de X es la misma que la de Y, frente a la alternativa de que las distribuciones difieren en ubicación. Sea iii YXD −= , con i = 1,…,n. Una de las pruebas no paramétricas más sencillas, se basa en los signos de esta diferencia, y se denomina Prueba del signo. De acuerdo con la hipótesis nula de que las observaciones ii YeX proceden de las mismas distribuciones de probabilidad, la probabilidad

de que iD sea positiva es igual a ½ (igual a la probabilidad de que iD sea negativa).

Donde M es número total de diferencias positivas (o negativas); entonces, si las X y las Y, tienen la misma distribución, M tendrá distribución binomial con p = ½ y la región de rechazo se puede obtener utilizando esta distribución (binomial) En Resumen: Prueba del signo n < 25.


p = P(X > Y) Hipótesis:

0Η :

=2

1p

1Η :

≠2

1p

Estadístico de la prueba: M: número de diferencia positivas [ ]iii YXD −= Región de rechazo:

)i Para 2

1>p , se rechaza para valores grandes de M.

)ii Para 2

1<p , se rechaza para valores pequeños de M.

)iii Para 2

1≠p , se rechaza para valores grandes o pequeños de M.

Supuestos:

- Los pares ii YeX se seleccionan al azar e independientemente. Observación:

- Cuando hay empate, se eliminan y se reduce el tamaño de la muestra.


Prueba del signo n ≥ 25.

p = P(X > Y) Hipótesis:

0Η : 2

1=p

1Η :

≠<>2

1,

2

1

2

1ppóp

Estadístico de la prueba:

2

2n

nM −

=Ζ

Región de rechazo: para un α dado

>−

21

: αZZRR

Ejemplo N° 21 Para una comparación de la eficacia académica de 2 escuelas A y B, se procedió al diseño de un experimento que requería el uso de 10 pares de gemelos idénticos que hubieran terminado el quinto básico.

En cada pareja, los gemelos habían asistido al colegio en la misma sala de clases, en cada uno de los grados. Se eligió un niño al azar de cada par, al cual se le asignó el colegio A, y el otro se envió al colegio B.


Al final del octavo básico, se aplicó a cada niño del experimento una prueba de aprovechamiento; los resultados fueron:

Parejas de Gemelos A B

Signo (A-B)

1 67 39 + 2 80 75 + 3 65 69 - 4 70 55 + 5 86 74 + 6 50 52 - 7 63 56 + 8 81 72 + 9 86 89 - 10 60 47 +

a) Pruebe la hipótesis de que las dos escuelas tiene la misma eficacia académica, medida por las puntuaciones en la prueba de aprovechamiento; frente a la alternativa de que las dos escuelas no son igualmente eficaces. Obtenga el nivel de significación alcanzado. b) ¿Qué concluiría con α = 5%?

a) Se establecen las siguientes hipótesis:

0Η :

=2

1p

1Η :

≠2

1p

M: número de diferencias positivas = 7 (Test Bilateral)

Número de diferencias negativas = 3

[ ]73 ≥≤= MóMPvp


4847648476484764847648476484764847644 844 76 )10(

10

)9(

10

)8(

10

)7(

10

)3(

10

)2(

10

)1(

10

)0(

100

2

1

10

10

2

1

9

10

2

1

8

10

2

1

7

10

2

1

3

10

2

1

2

10

2

1

1

10

2

1

2

1

0

10

========

+

+

+

+

+

+

+

=

MPMPMPMPMPMPMPMP

vp

[ ] 344,02

3521104512045101

2

110

10

==++++++⋅

=vp

Por lo tanto, el valor p o α es igual a 0,344 b) Con α = 0,05, no se rechaza 0Η , ya que el mínimo valor para el cual se rechaza, es a un nivel de significancia α = 0,344 (34,4%), dado por el valor p.

[ ]73: ≥≤ MóMRR 2.3. Coeficiente de Spearman de Correlación de Rangos2

El coeficiente de correlación de Spearman se define como: Este coeficiente se utiliza cuando alguna de las variables es ordinal o incluso

dicotómica, o para variables cuantitativas con muestras pequeñas.

2 Para este tema, se debe recordar las fórmulas de correlación vistas en Estadística I

Coeficiente de Correlación de Spearman:

Es el coeficiente de correlación final entre las variables ordinarias. Se basa en los rangos, en vez de los valores originales.


Hipótesis:

0Η : ⇒= 0sr No existe relación entre los pares de rangos.

1Η : unilateralr

r

s

s

<>

0

0

( )( )−⇒

+⇒

esrangoslosentrencorrelacióLa

esrangoslosentrencorrelacióLa

⇒= bilateralrs 0 Hay correlación entre los pares de rangos

Estadístico de Prueba, a utilizar:

( ) ( )( ) ( ) ( ) ( )

( ) ( )∑∑

∑

∑ ∑∑ ∑

∑ ∑∑

∑∑

∑

⋅−⋅⋅−

⋅⋅−⋅=

−⋅⋅−⋅

⋅−⋅⋅=

−⋅−

−⋅−=

2222

222222

YnYXnX

YXnYXr

YYnXXn

YXYXn

YYXX

YYXXr

ii

ii

iiii

iiii

ii

ii

Donde iX e iY representan los rangos del i-ésimo par de observaciones.

La fórmula abreviada es:

( )1

61

2

2

−⋅⋅

−= ∑nn

dr i

s

Donde id corresponde a la diferencia de las i-ésimas observaciones para las muestras

1 y 2.

Se construye la Región de Rechazo:


0) rri s > , de la tabla para n y α dado.

0) rrii s −< , de la tabla para n y α dado

0) rriii s > , correspondiente a n y α /2.

Ejemplo N° 22 Suponga que se clasifican 10 aspirantes a un puesto, del 1 (el mejor) al 10 (el peor). Esta clasificación la harán dos especialistas experimentados, A y B, en reclutamiento de personas. Se quiere determinar si hay relación entre las clasificaciones de los dos especialistas. Se disponen de las clasificaciones siguientes:

CONCORDANCIA PERFECTA

DISCORDANCIA PERFECTA

Solicitante Esp. A Esp. B Esp. A Esp. B Esp. A Esp. B 1 4 4 9 2 4 5 2 1 1 3 8 1 2 3 7 7 5 6 9 10 4 5 5 1 10 5 6 5 2 2 2 9 2 1 6 6 6 10 1 10 9 7 8 8 6 5 7 7 8 3 3 4 7 3 3 9 10 10 8 3 6 4 10 9 9 7 4 8 8


Se construye las columnas de las diferencias de las calificaciones y del cuadrado de éstas diferencias.

Solicitante Esp. A Esp. B Diferencia entre calificaciones

2id

1 4 5 -1 1 2 1 2 -1 1 3 9 10 -1 1 4 5 6 -1 1 5 2 1 +1 1 6 10 9 +1 1 7 7 7 0 0 8 3 3 0 0 9 6 4 +2 4

10 8 8 0 0 ∑ = 102

id


Con los datos que se presentan se construye el coeficiente de spearman:

( ) ( )∑∑

∑⋅−⋅⋅−

⋅⋅−⋅=

2222 YnYXnX

YXnYXr

ii

ii

( )1

61

2

2

−⋅⋅

−= ∑nn

dr i

s

94,09910

1061 =

⋅⋅−=sr

Si hay concordancia perfecta, id = 0, para todo i.

19910

061 =

⋅⋅−=sr

Si hay discordancia perfecta:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 3304738745611092101658329 22222222222 =−+−+−+−+−+−+−+−+−+−=∑ id

19910

33061 −=

⋅⋅−=sr

Observación:

Lo que se quiere probar es que si hay correlación entre las personas o no


Ejemplo N° 23 Se clasificaron a 8 profesores de ciencias elementales según su habilidad como docente; todos estos profesores presentan un examen nacional para profesores. Los datos que se obtienen como resultado de este examen, son los siguientes:

Profesor Rango de Clasificación

Calificación del Examen

Rangos para el Examen d 2d

1 7 44 1 +6 36 2 4 72 5 -1 1 3 2 69 3 -1 1 4 6 70 4 +2 4 5 1 93 8 -7 49 6 3 82 7 -4 16 7 8 67 2 +6 36 8 5 80 6 -1 1 144

Se piensa que los rangos asignados están de acuerdo con la calificación en el examen. Se establecen las siguientes hipótesis:

0Η : 0=sr

1Η : 0<sr


( )1

61

2

2

−⋅⋅

−= ∑nn

dr i

s

Para α = 0,05, se tiene que:

643,00 =r

643,0: −<srRR

714,0638

14461 −=

⋅⋅−=sr


Por lo tanto, se rechaza 0Η , existe una correlación (negativa). El mejor calificado tiene la mejor nota.

No debemos olvidar que:

• Ya que se trata de un coeficiente de correlación, su valor varía entre -1 y +1.

• Si la concordancia entre los rangos es perfecta, entonces di = xi

– y i =0, i = 1,2,….., n y por tanto r=1. • Cuando la discordancia entre los rangos es perfecta, entonces r=-1. • Si los dos criterios de clasificación son independientes, entonces

r=0.

2.4 Prueba de Kruskal -Wallis para Comparar k Distribuciones de Probabilidad Así como la prueba de suma de rangos de Wilcoxon es la alternativa no paramétrica a la prueba t de Student para una comparación de medias poblacionales, la prueba H de Krustal-Wallis es la alternativa no paramétrica para la prueba F del análisis de varianza para un diseño completamente aleatorizado. Se usa para detectar diferencias en lugares entre más de dos distribuciones poblacionales con base en el muestreo aleatorio independiente.3 Bajo los supuestos de que las k muestras son aleatorias e independientes, que existen 5 o más mediciones en cada muestra, y que se pueden clasificar las observaciones; es posible comparar las distribuciones de probabilidad, a través de la Prueba de Kruskal-Wallis. En donde, se establecen las hipótesis:

0Η : Son idénticas las k distribuciones de probabilidad

1Η : Por lo menos dos de las distribuciones de probabilidad tiene ubicación distinta


( ) ( )131

122

+⋅−⋅+⋅

=Η ∑n

n

R

nn j

j

Donde, jR es la suma de rangos para la muestra j, donde el rango de cada medición

se calcula de acuerdo con su magnitud relativa en la totalidad de los datos para las k muestras.

knnnr +++= ...21

3 William Mendenhall. Introducción a la probabilidad y estadistica 12º Edicion, 2007


Para una Región de Rechazo:

2

1;1: −−>Η kcRR αχ

Ejemplo N° 24 Un ingeniero de control de calidad, seleccionó muestras independientes de la producción de 3 líneas de montaje en una fábrica de componentes eléctricos. Para cada línea se examinó el resultado de 10 horas de producción seleccionadas al azar para encontrar productos defectuosos. Proporcionan los datos de la siguiente tabla evidencia suficiente de que las distribuciones de probabilidad del número de defectuosos por hora de producción difieren en ubicación para por lo menos 2 de las líneas de producción. Utilice

05,0=α .

Línea 1 Línea 2 Línea 3 Diferencia Diferencia Diferencia

6 (5) 34 (259 13 (9,5) 38 (27) 28 (30) 35 (26) 3 (2) 42 (30) 19 (15) 17 (13) 13 (9,5) 4 (3) 11 (8) 40 (29) 29 (20) 30 (21) 31 (22) 0 (1) 15 (11) 09 (7) 7 (6) 16 (12) 32 (23) 33 (24) 25 (17) 39 (28) 18 (14) 5 (4) 27 (18) 24 (16)

=1R 120 =2R 210,5 =3R 134,5



0Η : Son idénticas las k distribuciones de probabilidad

1Η : Por lo menos dos de las distribuciones de probabilidad tiene ubicación distinta. Para los datos del encabezado, se tiene:

101 =n 102 =n 103 =n

321 nnnn ++= = 30

( )2

1+⋅= nnn = 465

=1R 120 =2R 210,5 =3R 134,5


Estadístico de la prueba:

( ) ( )131

122

+⋅−⋅+⋅

=Η ∑n

n

R

nn j

j

Región de Rechazo: 2

1;1: −−>Η kcRR αχ

Con un 05,0=α , obtenemos:

1- =α 0,95 k= 3 k-1 = 2

=2

2;95,0χ 5,99

99,5: >ΗcRR

1,6

31310

5,134

10

5,210

10

120

2930

12 222

=Η

⋅−

++⋅

⋅=Η

c

c

Por lo tanto, se rechaza 0Η es decir, dado los valores calculados y de tabla,

podemos concluir que, por lo menos, dos de las distribuciones de probabilidad tiene ubicación distinta.

Realice ejercicio N° 24 y 25


CLASE 10

3. MODELOS DE REGRESIÓN LINEAL

Se estudiarán procesos inferenciales que pueden ser utilizados cuando una variable aleatoria “Y”, llamada variable dependiente tiene una media que es una función de una o más variables no aleatorias, kΧΧΧ ,...,, 21 desiguales, llamadas variables independientes. El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria (variable dependiente) dado que el valor de una o más variables asociadas (variables independientes) es conocido. Supóngase que se quiere relacionar una respuesta Y, con una variable X, y que el conocimiento del campo científico se establece que Y está relacionado con X según la ecuación de regresión:

Χ+=Υ 10ˆ ββ

Donde los coeficientes 0β y 1β son parámetros que definen la posición e inclinación de

la recta. Nótese que, se ha usado el símbolo especial Y para representar el valor de Y calculado por la recta. Como se verá, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distinción.

El parámetro 0β , conocido como la “ordenada en el origen,” indica cuánto es Y cuando X = 0.

El parámetro 1β , conocido como la “pendiente,” indica cuánto aumenta Y por cada

aumento de una unidad en X.

Variable Dependiente:

Es la variable que se va a predecir o estimar; también recibe el nombre de variable de respuesta. Variable Independiente:

Es una variable que da la base para la realización de la estimación. Es la variable predictora.


El problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables X e Y. En el análisis de regresión, estas estimaciones se obtienen por medio del método de mínimos cuadrados. El modelo Χ+=Υ 10

ˆ ββ , es un modelo determinístico (no permite error en la medición de “Y” como función de “X”. En contraste con los modelos determinísticos, los estadísticos utilizan modelos probabilísticos.

Si se consideran un conjunto de observaciones ( ) ( )nn YXYX ,..., 11 , se puede representar las respuestas, a través del modelo:

Χ+=Ε 10)( ββY , lo que es equivalente a:

εββ +Χ+=Υ 10

Donde ε es una variable aleatoria con una distribución de probabilidad específica con media cero.

El modelo estadístico lineal que relaciona una respuesta aleatoria “Y”, con un conjunto

de variables independientes kΧΧΧ ,...,, 21 tiene la forma:

εββββ +Χ⋅++Χ⋅+Χ⋅+=Υ kk...22110 Donde:

kββββ ,...,,, 210 :son parámetros desconocidos; ε : es una variable aleatoria y,

kΧΧΧ ,...,, 21 : son constantes conocidas

Se supondrá que E(ε )=0 y por lo tanto:

kkY Χ⋅++Χ⋅+Χ⋅+=Ε ββββ ...)( 22110 3.1 Modelo de Regresión Lineal Simple

El objetivo principal de la regresión es la determinación o estimación de 0β y 1β a partir

de la información contenida en las observaciones de que se dispone.


Esta estimación se puede llevar a cabo mediante diversos procedimientos. Se recogen

datos experimentales correspondientes a n individuos con información de dos variables cuantitativas: una de ellas es la variable explicativa (Variable X) y la otra, la variable respuesta (Variable Y).

El modelo de ecuación de regresión que se asume es:

εββ +Χ+=Υ 10ˆ

Donde: Υ : Se lee estimado de y, predictorio de y para un valor de X seleccionado

0β : Es la intersección con el eje y. Es el valor estimado de y cuando X=0

1β : Es la pendiente de la línea, o el cambio promedio en Υ porcada cambio en una unidad (ya sea aumento o disminución) de la variable independiente X. Χ : Es el valor que se escoge para la variable independiente.

Los coeficientes 0β y 1β se estiman por 0β y por 1β a través del método de mínimos cuadrados. 3.1.1 Conceptos Básicos

Los parámetros denotados como 0β y 1β , son estimadores insesgados de 0β y 1β , es decir:

Para los residuos que se denotan por iiie Υ−Υ= , la sumatoria de estos residuos es cero.

Regresión lineal Simple:

Es la estimación de una variable independiente con base en una variable independiente o de predicción.

11

00

)ˆ(

)ˆ(

ββ

ββ

=Ε

=Ε


La Suma Cuadrada del Error, se determina como:

( )22 ˆ∑ ∑ Υ−Υ== iiieSCE

Sxx

SxySyySCE

2

−=

( )∑ Χ−Χ= 2

iSxx

( ) ( )∑ Υ−Υ⋅Χ−Χ= iiSxy

Se observa que la variabilidad de Y es reflejada en una suma de cuadrados:

SCESxx

xySSyy +=

2

Donde: Syy : Representa la variabilidad total. Se le conoce como Suma de Cuadrados Total (SCI).

Sxx

xyS2

: Es la variabilidad explicada por la relación lineal. Se le conoce como Suma de

Cuadrados de la Regresión (SCR). SCE : Es la variabilidad explicada por la relación lineal. Es lo que se conoce como Suma de Cuadrados del Error (SCE).

SCESCRSCT +=

Una estimación de la varianza poblacional se obtiene dividiendo SCE por n-2:

0=∑ ie

( )∑ Υ−Υ= 2

iSyy


( )2ˆ 2

−=

n

SCEσ

Los estimadores para la varianza de 0β y 1β son:

( ) =

Χ−ΧΧ+⋅=

∑ 22

22

0

1ˆˆˆ

nnV

i

σβ

( )∑ Χ⋅−Χ

=22

ˆˆˆn

Vi

i

σβ

La Suma Cuadrados Totales (SCT), se define como:

( ) SyynSCT ii =Υ⋅−Υ=Υ−Υ= ∑∑ 222

Para la suma cuadrados de la regresión:

( )

Sxx

SxySCR

SCR i

2

2ˆ

=

Υ−Υ=∑

SCESCRSCT +=

El Coeficiente de Determinación, se determina de:

SCT

SCRR =2 , 10 2 ≤≤ R

Este coeficiente representa la proporción de la variación total de Y que es explicada por la relación lineal entre X e Y

10 2 ≤≤ R significa que mientras mas cercano a 1 sea el coeficiente de determinación r2,

mejor es el ajuste de la regresión


3.1.2. Método de los Mínimos Cuadrados Un método para estimar los parámetros de cualquier modelo lineal, es el método de los mínimos cuadrados. Suponga que se desea ajustar el modelo:

Χ+=ΥΕ 10)( ββ A un conjunto de puntos ( ) ( )nn YXYX ,..., 11 .

El procedimiento de los mínimos cuadrados para ajustar una recta mediante puntos, consiste en minimizar la suma de los cuadrados de las desviaciones verticales de la recta ajustada. Si iΧ+=Υ 10

ˆˆˆ ββ , es el valor que se predice del i-ésimo valor de Y cuando iΧ=Χ ,

entonces la diferencia entre ii e ΥΥ ˆ , llamada a veces error, y la suma de los cuadrados de estas observaciones es:

( )∑ Υ−Υ=2ˆ

iiSCE SCE es la suma de los cuadrados del error.

Ésta es la expresión que debe ser maximizada:

( )[ ] ( )2

10

2

10ˆˆˆˆ ∑∑ Χ−−Υ=Χ⋅+−Υ= iiiiSCE ββββ

( )∑ Χ−−Υ⋅−=∂

∂ii

SCE10

0

ˆ2 βββ

Donde:

• ( ) 0ˆ2 10 =Χ−−Υ⋅− ∑ ii ββ

0ˆˆ1

1 10 =Χ−−Υ ∑∑ ∑

n

i

n n

i ββ

( ) iii

SCE Χ⋅Χ−−Υ⋅−=∂

∂∑ 10

1

ˆ2 βββ


0ˆˆ10 =Χ−⋅−Υ∑ ∑ ii n ββ

• ( ) iii Χ⋅Χ−−Υ⋅− ∑ 10

ˆ2 ββ

0ˆˆ 2

10 =Χ⋅−Χ⋅−Υ⋅Χ ∑ ∑∑ iiii ββ

Ecuaciones normales:

∑∑∑∑∑

⋅Χ=Χ⋅+Χ⋅

Υ=Χ⋅+⋅

iii

ii

Y

n

2110

10

ˆˆ

ˆˆ

ββ

ββ

De estas ecuaciones se obtiene:

( )( )∑ ∑∑ ∑∑

Χ−Χ⋅

Υ⋅Χ−Υ⋅Χ⋅=

221ˆ

ii

iiii

n

nβ

Como:

∑∑ Υ=Χ⋅+⋅ iin 10ˆˆ ββ .

nnii ∑∑ Υ

+Χ

⋅−= 10ˆˆ ββ ⇒ Χ⋅−Υ= 10

ˆˆ ββ

Ejemplo N° 25

Las siguientes observaciones muestrales, se obtuvieron aleatoriamente

X: 4 5 3 6 10 Y: 4 6 5 7 7

a) Determinar la ecuación de regresión b) Determinar el valor de Y, cuando X=7


a) X: 4 5 3 6 10 ∑ =Χ 28 1862 =Χ∑

Y: 4 6 5 7 7 ∑ =Υ 29 ∑ =ΧΥ 173

Χ⋅−Υ= 10ˆˆ ββ

( ) 7671,35

283630,0

5

290 =⋅−=β

Y = 3,7671+0,3630X

b) Y = 3,7671+ 0,3630(79 Y = 6,3081 3.1.3 Intervalos de Predicción y de Confianza para 0β y 1β La ecuación de regresión muestral se usa normalmente para realizar predicciones sobre la variable Y. Si se reemplaza un valor dado (X) en la ecuación de regresión, se puede encontrar el valor esperado de Y, pero esta estimación puntual no entrega información sobre la distancia a la que se encuentra del parámetro poblacional.


( )( ) ( ) 3630,0

281865

2928173521 =

−⋅−=β

( )( )∑ ∑∑ ∑∑

Χ−Χ⋅

Υ⋅Χ−Υ⋅Χ⋅= 221

ii

iiii

n

nβ


Para determinar esta información, se usan 2 tipos de intervalos:

• Intervalos de Predicción (I.P.): Se utilizan para pronosticar un valor esperado de Y, para un valor dado de X. Este intervalo depende tanto del error del modelo como del error asociado a las predicciones futuras. Entre mas alejado del valor medio es X, mayores son los intervalos de predicción

• Intervalo de Confianza (I.C.): Se utilizan para estimar el valor medio de Y, para un valor esperado de X. Esta definido por dos valores entre los cuales se encuentra el valor del parámetro con un determinado nivel de confianza (1-α ) y que se aplica para mostrar los valores entre los cuales se puede encontrar un estimador puntual

( )( )

∑ ∑Χ−Χ

Χ−Χ+⋅⋅±Υ−−

n

p

nt

n 2

2

2

2;2

1

1ˆˆ σα

Intervalo de confianza de (1-α ) 100% para 0β y 1β son:

∑ Χ−Χ⋅±

−− 22

2

2;2

10

ˆˆnn

ti

n

σβ α

∑ Χ−Χ⋅±

−− 22

2

2;2

11

ˆˆnn

ti

n

σβ α

Ejemplo N° 26 Realice una predicción de las ventas diarias de helado para un día con una temperatura de 80°. Construya un intervalo de predicción y un intervalo de confianza del 95% para el pronóstico. Si n = 10, se tiene:

( )( )

∑ ∑Χ−Χ

Χ−Χ++⋅⋅±Υ−−

n

p

nt

n 2

2

2

2;2

1

11ˆˆ σα


6,1123

94,6ˆ

80

8,85

05,0

==

==Χ=

Sxx

pX

σ

α

31,2

975,02/1

025,02

05,0

8;975,0 ==−

=

=

t

α

αα

Xp = 80 06,131ˆ =Υx

( ) 6,11232 =−=∑ XXSxx i

a) Intervalo de predicción: ( )

( )∑ Χ−ΧΧ−Χ++⋅⋅±Υ

−− 2

2

2;2

1

11ˆˆ

in

p

nt σα

( )6,1123

5,8080

10

1194,631,206,131:

2−++⋅⋅±IP

Intervalo de Predicción: [ ]88,147;24.114

b) Intervalo de confianza: ( )

( )∑ Χ−ΧΧ−Χ+⋅⋅±Υ

−− 2

2

2;2

1

1ˆˆ

in

p

nt σα

( )6,1123

5,8080

10

194,631,206,131:

2−+⋅⋅±IC

Intervalo de Confianza: [ ]67,132;45,129



CLASE 11

3.1.4 Coeficiente de Correlación Este coeficiente describe la magnitud de la relación entre dos conjuntos de variables de intervalo o de razón. Se designa con la letra r y se define como:

La fórmula de este coeficiente es:

( ) ( )( )

( ) ( )[ ] ( ) ( )[ ]2222 ∑∑∑∑

∑∑∑Υ−Υ⋅Χ−Χ

ΥΧ−ΧΥ=

nn

nr

Donde:

:n Es el número de pares de observaciones. :∑Χ Es la suma de las variables X.

∑Υ : Es la suma de las variables Y.

( ):2∑Χ Es la suma de los cuadrados de la variable X.

( ):2∑Υ Es la suma de los cuadrados de la variable Y.

( ) :2

∑Χ Es la suma de las variables X elevada al cuadrado.

( ) :2

∑Υ Es la suma de las variables Y elevada al cuadrado.

∑ΧΥ : Es la suma de los productos de X e Y.

Coeficiente de Correlación:

Es una medida de la magnitud de la relación lineal entre dos variables numéricas. Cuando el Coeficiente de Correlación se acerca a +1 o -1, es más fuerte la relación lineal entre las dos variables. Cuando se acerca a 0, existe poca o ninguna relación lineal


Para analizar la correlación entre las variables se utiliza la siguiente prueba de

hipótesis: Ejemplo N° 27 Se dan las siguientes hipótesis:

Una muestra aleatoria de 12 pares de observaciones, dan una correlación de 0,32, ¿podemos concluir que la correlación en la población es mayor a cero? Use el nivel de significación de 0,05.

Para los datos extraídos del encabezado:

Región de Rechazo: 2;1: −−>Τ nc tRR α

81,1: >tRR

0:

0:

1

0

>Η≤Η

r

r

81,1

102..

12

95,01

05,0

10;95,0 ==−=

==−

=

t

nlg

n

αα


Estadístico de prueba:

( )

( )21

2

r

nrc

−

−⋅=Τ

( )

( )( )

( )07,1

32,01

21232,0

1

222

=−

−⋅=

−

−⋅=Τ

r

nrc

Por lo tanto, no se rechaza la hipótesis nula. No se puede concluir que sea mayor

a cero. 3.1.5 Coeficiente de Determinación El coeficiente de determinación mide el porcentaje de la variabilidad de Y, que puede ser explicada por la variable X. Se define como:

• Suma de Cuadrados Total:

( ) ( )∑

∑∑

Υ−Υ=Υ−Υ==

nSyySCT i

ii

2

22

• Suma Cuadrados del Error:

( )22

ˆ∑ Υ−Υ=−= iiSxx

SxySyySCE

• Suma Cuadrados de la Regresión:

Coeficiente de Determinación:

Es la proporción de la variación total de la variable dependiente Y que se explica por, o se debe a, la variación en la variable independiente X en el modelo de regresion.


( )Sxx

SxySCR i

22ˆ =Υ−Υ=∑

SCT = SCE + SCR

SCT

SCE

SCT

SCR+=1

Por lo tanto, el coeficiente de determinación está dado por:

SCT

SCRR =2

SCT

SCER −= 12

10 2 ≤≤ R

El resultado obtenido debe estar entre 0 y 1. 3.1.6 Supuestos en el Modelo de Regresión

Al realizar un análisis de regresión, se comienza proponiendo una hipótesis acerca del modelo adecuado de la relación entre las variables dependiente e independiente (independientes) para el caso de la regresión lineal simple, el modelo supuesto de regresión lineal es:

εββ +Χ+=Υ 10

Usando el método de mínimos cuadrados, se obtiene 0β y 1β , que son los estimados

0β y 1β respectivamente. La ecuación de regresión resultante es:

Χ+=Υ 10ˆˆˆ ββ



El coeficiente de determinación es una medida de la bondad de ajuste de esta ecuación. Sin embargo, aún con un valor grande de 2R no se debería usar la ecuación de regresión sin antes efectuar un análisis de la adecuación del modelo supuesto. Las pruebas de significación en el análisis de regresión se basan en los siguientes supuestos acerca del término del error ε . ε es una variable aleatoria con media igual a cero.

• 10 ββ y son constantes, por lo tanto, 1100 )()( ββββ == yEE . Así , para determinado

valor de X, el valor esperado de Y es: Χ+=Υ 10)( ββE

• La varianza de ε es igual para todos los valores de X, es decir, 2)( σε =V . • Los valores de ε son independientes. • El término del error ε , es una variable aleatoria con distribución normal.

3.1.7 Pruebas de Significación del Modelo Existen diferentes pruebas estadísticas que se pueden realizar en el modelo. Éstas son:

• Prueba T

El modelo de regresión lineal simple es ∈+= +Χ10 ββy . Si X e Y tienen relación lineal,

debe suceder que 01 ≠β . El objetivo de la prueba t es ver si se puede concluir que 01 ≠β . Se usaran los datos de la muestra para probar las siguientes hipótesis acerca del parámetro

1β Hipótesis:

0Η : 01 =β

1Η : 01 ≠β Estadístico de Prueba:

..~ˆ

0ˆ)2(

1

1 lgtT n−−

=βδ

β

( )∑ Χ−Χ=

21

)(ˆˆ

i

estimaciónladeestándarerrorσβδ


∑=

Sxx

σβδ ˆˆ1

Región de Rechazo, para un α dado:

>−− 2;

21

:n

c ttRR α

Ejemplo N° 28 Si n = 10

6,1123

94,6ˆ

27,3ˆ1

===

Sxx

σβ

A un nivel de significación de 0,05; aplique la prueba T para verificar si las ventas diarias de helados, dependen de la temperatura promedio.



0Η : 01 =β

1Η : 01 ≠β

Con el siguiente Estadístico de Prueba:

8

1

1 ~ˆ

0ˆtT

βδβ −

=

2070,06,1123

94,6ˆ1 ==βδ

79,152070,0

27,3 ==T

Para un α de 0,05, la Región de Rechazo se construye a partir de:

α /2 = 0,025 1-α /2 = 0,975

31,28;975,0 =Τ

31,2: >ctRR

Como 15,79 > 2,31; se rechaza 0Η , es decir, la temperatura influye en la venta de helados.

• Prueba F

Se puede usar una prueba basada en la prueba F para probar si la regresión (en forma global) es significativa.

Como sólo existe una variable independiente, la prueba F debe indicar, la misma

conclusión que la prueba T. Pero, cuando hay más de una variable predictiva, la prueba F sólo se puede usar para ver si existe alguna relación significativa general.

Esta prueba se basa en la determinación de estimadores independientes de 2σ . Uno de ellos se llama cuadrado medio de la regresión.


1var..

SCR

ntesindependieiablesn

SCR

regresióndelg

SCRCMR =

°==

El segundo, es el cuadrado medio de error.

( )2.. −==

n

SCE

delg

SCECME

ε

Si la hipótesis nula: 01 =β es verdadera.

0Η : 01 =β

CME

CMRF = , debe ser cercano a 1, y si 01 ≠β , entonces ese cuociente será grande.

En Resumen:

Se establecen las siguientes Hipótesis:

0Η : 01 =β

1Η : 01 ≠β


)2;1(~

2

1−

−

== nf

n

SCE

SCR

CME

CMRF

Que para un α dado, se construye la Región de Rechazo:

2;1;1: −−> nc ffRR α

Cuando se rechaza H0, la prueba proporciona evidencia estadística suficiente para

concluir que uno o mas de los parámetros no es igual a cero y que la relación global entre Y y el conjunto de variables independientes de X es significativa


• Tabla de Análisis de Varianza (ANOVA), es una tabla resumen que reúne la suma de los cuadrados, tanto de la regresión como del error, que nos permiten construir la prueba F. A continuación, se presenta la Tabla de análisis de varianzas (ANOVA):

Fuente de Variación

g.l. Suma de Cuadrados

Cuadrados Medios

F

Regresión

Error

1

(n – 2)

SCR

SCE

1

SCRCMR =

2−=

n

SCECME

CME

CMRF =

Total (n – 1) SCT

Ejemplo N° 29 Realizar la Prueba F para la significación del modelo, si se tienen los siguientes datos del modelo de regresión:

17=n =Sxx 1476,24 =Sxy 1063,68 =Syy 887,20



0Η : 01 =Β

1Η : 01 ≠Β

Se usa el Estadístico de Prueba:

)2;1(~

2

1−

−

== nf

n

SCE

SCR

CME

CMRF

Para α = 0,05, donde 1 - α =0,95; se construye la Región de Rechazo y se determina el valor calculado:

15;1;95,0f = 4,54

2;1;1: −−> nc ffRR α

54,4: >cfRR

Tabla de análisis de Varianza (ANOVA)

78,12024,1476

68,106320,887

22

=−=−=Sxx

SxySyySCE

42,76624,1476

68,1063 22

===Sxx

SxySCR

20,887== SyySCT


Regresión Lineal Múltiple:

Es la estimación de una variable independiente con base en dos o más variables independiente o de predicción.



Cuadrados Medios

F

Regresión

Error

1

15

766,42

120,78

766,42

8,052

95,18

Total 16 887,20

Por lo tanto, se rechaza 0Η , la variable X debe estar presente en el modelo.

CLASE 12 3.2 Regresión Lineal Múltiple

El modelo general (ecuación de regresión) para un análisis de regresión tiene la forma:

εββββ +Χ++Χ+Χ+=Υ kk...22110 Donde: Υ : Variable dependiente que se quiere predecir

kβββ ,...,, 10 : Constantes

kΧΧΧ ,...,, 21 : Variables de predicción que se miden sin error ε : Error aleatorio que para cualquier conjunto dado de valores de

kΧΧΧ ,...,, 21 , tiene una distribución normal con media 0 y varianza 2σ . Los errores aleatorios

ji εε , : Asociados a cualquier par de valores de Y, son independientes.


En el análisis de regresión múltiple, se usan dos o más variables independientes para predecir una variable dependiente. Los pasos en el análisis de regresión múltiple son:

• El primer paso en el análisis de regresión es identificar la variable dependiente y las variables de predicción que se van a incluir en el modelo.

• Después se toma una muestra aleatoria y se registran todas las variables para cada

elemento de la muestra.

• El tercer paso es identificar las relaciones entre las variables de predicción y la dependiente, entre los valores de predicción.

• En la matriz de correlación, se obtienen los coeficientes de correlación para cada

posible par de variables en el análisis.

Para seleccionar las variables de predicción en una regresión múltiple es conveniente

considerar dos reglas:

1) Una variable de predicción debe tener una correlación fuerte con la variable dependiente

2) No debe tener una correlación muy alta con ninguna otra variable de predicción.

3.2.1 Supuestos del Modelo

El modelo de regresión lineal múltiple se basa en algunos supuestos, los que serán expuestos a continuación:

• La distribución de probabilidad de ε es normal. • La varianza de la distribución de probabilidad de ε es constante para todos los

valores de ε .

• La media de la distribución de probabilidad de ε es cero, es decir:

( ) kk Χ++Χ+=ΥΕ βββ ...110 • Los valores de ε son independientes entre sí.


A partir de los datos de la muestra se encuentran las estimaciones de los parámetros y se determinan el hiper plano que mejor se ajustan al conjunto de datos llamado hiper plano de regresión lineal.

kk Χ++Χ+=Υ βββ ˆ...ˆˆˆ110

σ = error estándar de la estimación

( ))1(

ˆ

)1(ˆ

2

1

+−Υ−Υ

=+−

= ∑knkn

SCE iσ

σ : mide la variabilidad o dispersión de los valores muestrales observados alrededor del plano de regresión. 3.2.2 Coeficiente de Determinación

Para verificar la bondad del ajuste del modelo de regresión lineal múltiple se utiliza el coeficiente de determinación. Un coeficiente de determinación estimado específico, mide el cambio promedio en la variable dependiente, debido a un incremento de 1 unidad en la variable de predicción relevante, manteniendo constante las otras variables de predicción.

( )( )2

2

12ˆ

1∑∑

Υ−Υ

Υ−Υ=−== i

SCT

SCE

SCT

SCRR

El coeficiente de determinación no depende del número de variables independientes que tenga el modelo, por lo tanto, se hace necesaria una medida que incluya el número de variables. Se utiliza, generalmente, el coeficiente de determinación 2

aR y se obtiene:

( )( )[ ] SCT

SCE

kn

nRa ⋅

+−−−=

1

112



Donde, 2R mide el porcentaje de la variabilidad en Y, que se puede explicar mediante las variables de predicción. 3.2.3 Pruebas de Significación del Modelo

Para lo que se utiliza la prueba T, la F y la Tabla ANOVA; de esta forma se estudian las pruebas de significación del modelo de regresión lineal múltiple, con el análisis individual de cada una de estas pruebas.

• Prueba T

Se utiliza esta prueba para ver si cada una de las variables individuales es

significativa. A cada una de estas pruebas t se le conoce como prueba de significancia individual4

Hipótesis:

0Η : 01 =β

1Η : 01 ≠β Estadístico de Prueba:

..~ˆ

0ˆ)1((

1

1 lgtT kn +−−=βδ

β

( )∑ Χ−Χ=

21

)(ˆˆ

i

estimaciónladeestándarerrorσβδ

∑=

Sxx

σβδˆˆ

1

Región de Rechazo, para un α dado:

4 David R. Anderson, Dennis J. Sweeney - 2008 – Estadística para Administración y Economía


>+−− )1(;

21

:kn

c ttRR α

Ejemplo N° 30 En un estudio para determinar la duración de un producto Υ en relación con su contenido de humedad ( 1Χ ) o de azúcar ( 2Χ ), se encuentran con los siguientes resultados:

Υ 64 81 72 91 33 96

1Χ 4 4 6 6 8 8

2Χ 2 6 2 6 2 6 Considere un modelo de regresión lineal múltiple y determine: a) Ecuación de Regresión.

Nota:

08333,4ˆ

25,4ˆ

333,39ˆ

2

1

0

=

=

=

β

β

β

b) Coeficiente de determinación. Interprete el resultado obtenido.

Nota:

834.698

167,689

66667,9

===

SCT

SCR

SCE

c) La prueba de Hipótesis 0Η : 01 =β versus 1Η : 01 ≠β ; con un nivel de significancia de 0,05 Nota: 448764,0ˆ

1 =βδ


a) Ecuación de Regresión

21 08333,425,4333,39ˆ Χ+Χ+=Υ

Si se aumenta en una unidad el contenido de4 humedad, la duración del producto aumenta en 4,08333.

b)

986167,0834,698

167,6892 ===SCT

SCRR

La variación del producto es explicada en un 98,6% por el contenido de humedad y de azúcar.

c) 0Η : 01 =β versus 1Η : 01 ≠β Estadístico de Prueba:

..~ˆ

ˆ)1((

1

1 lgtT kn +−=βδβ

Para, los datos: n = 6 k = 2 n – (k+1) = 3 grados de libertad. Región de Rechazo:

>+−− )1(;

21

:kn

c ttRR α


18,3

975,02

1

025,02

05,0

3;975,0 =

=−

=

=

t

α

αα

18,3: >ctRR

..~448764,0

25,4)1(( lgtT knc +−=

47046,9)448764,0

25,4 ==cT

La variable 2Χ (azúcar) debe estar contenida en el modelo. La humedad

del producto depende del contenido de azúcar, • Prueba F

Esta prueba se utiliza para determinar si existe una relación de significancia entre la variable dependiente y el conjunto de todas las variables independientes; a esta prueba se le llama prueba de significancia global5 Hipótesis:

0Η : kβββ === ...21

1Η : 0≠iβ , para algún i. Estadístico de Prueba:

)1(;(~

)1(

+−

+−

= knkf

kn

SCEk

SCR

F

5 David R. Anderson, Dennis J. Sweeney - 2008 – Estadística para Administración y Economía


Para α dado, la Región de Rechazo es:

)1(;;1: +−−> knkc ffRR α

• Tabla de análisis de Varianza (ANOVA)

Los estadísticos definidos se resumen en una tabla llamada Tabla de Análisis de Varianza (ANOVA)



Cuadrados Medios

F

Regresión

k

( )∑ Υ−Υ=2ˆ

iSCR

k

SCRCMR=

CME

CMRF =

Error

n – (k+1) ( )∑ Υ−Υ=

2ˆˆiiSCE

)1( +−=

kn

SCECME

Total

n - 1 ( )∑ Υ−Υ= 2

iSCR

Ejemplo N° 31 Si se sabe que:

3322110ˆˆˆˆˆ Χ+Χ+Χ+=Υ ββββ

Se tiene el siguiente cuadro ANOVA incompleto.



Cuadrados Medios

F

Regresión

3

171220

57073

CME

CMRF =

Error

16 41695

2606


Total

19 212916

A un nivel de significancia de 0,05, realice la prueba global para verificar las siguientes hipótesis:

0Η : 321 βββ ==

1Η : No todas las β son cero

Datos:

n = 20 05,0=α

1- =α 0,95

)1(;;1: +−−> knkc ffRR α

24,316;3;95,0 =f

24,3: >cfRR

Estadístico de Prueba:

)1(;(~

)1(

+−

+−

= knkf

kn

SCEk

SCR

F

90,212606

57073

)1(

==

+−

=

kn

SCEk

SCR

Fc

Por lo tanto, se rechaza 0Η , es decir, las variables independientes si pueden

explicar la variación de la variable dependiente.


ANEXOS

A continuación, se presentan las tablas de valores para las distribuciones Z normal estándar, la T de Student, la Chi-cuadrado y la F de Fischer; que nos permite concluir a partir del análisis de estimaciones puntuales y de pruebas de hipótesis.


ANEXO Nº 1 Distribución Normal Estándar

Z ~ (0,1)

Interpretación valor tabla p(Z<0.58) = 0.7190, donde z (0.58) se encuentra en la primera columna de la Tabla Normal y sus decimales se construyen en la primera fila de ésta.


ANEXO Nº 2

Distribución Chi-Cuadrado X2

Interpretación valor tabla x2

0.975;3 = 0.216, donde x2 con 3 grados de libertad (n=3) y con un α igual a 0.975, es decir, con un p=0.025.


ANEXO Nº 3 Distribución T - Student

t

ANEXO Nº 4 Distribución F – Fischer

F

Interpretación valor tabla t0.9;3 = 1.64, donde t con 3 grados de libertad (n=3) y con un α igual a 0.1, es decir, con un p=0.9.


Interpretación valor tabla F1,2 ; 0.9 = 4.0604, donde F con 1 y 3 grados de libertad (n1=1, n2=3); esta Tabla es para un nivel de confianza del 90%.

ramo: estadÍstica iibiblioteca.esucomex.cl/med/estadística ii.pdf · 2018. 6. 28. · ramo:...

Documents