unmsm inferencia completo
TRANSCRIPT
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSFACULTAD DE CIENCIAS ECONOMICASUNIDAD DE POST GRADO
MODULO DE BIOESTADISTICAINFERENCIA
Dra(c). SARA ADELINA ARANA LOPEZ
LIMA, 2014
III. INFERENCIA
En esta clase nos ocuparemos de un mtodo ms de la ciencia estadstica, que nos va permitir tomar decisiones en base a datos histricos y actuales, lo que nos ayudar hacer proyecciones a futuro y tomar decisiones con mayor precisin, en todo proceso de investigacin, y/o administracin nos referimos al mtodo Inferencial
Inferencia Estadstica es el procedimiento que permite realizar afirmaciones de naturaleza probabilstica respecto a una poblacin, en base a resultados obtenidos de una muestra seleccionada de una poblacin
Las poblaciones son descritas por medidas numricas descriptivas, llamados parmetros, se puede hacer inferencias acerca de la poblacin haciendo inferencia respecto a sus parmetros.
Como sabemos que cada accin en un proceso estadstico est asociado a un Nivel de confianza que es la probabilidad de haber acertado al decir que el parmetro est contenido en el intervalo, y aun Nivel de significancia que es la probabilidad de equivocarnos (es un error). El estudio de la estadstica inferencial se clasifica en:
4.1. ESTIMACION ESTIMACION:Estimacin es usar medidas calculadas en una muestra (estimador) para predecir uno o ms parmetros de la poblacin ESTIMADOR:
Un estimador es expresado en trminos de una frmula matemtica obtenida de la estimacin como una funcin de las medidas muestrales (estadsticos o estadgrafos)
Propiedades
a. Insesgado. b. Consistente c. Eficiente
La estimacin de un parmetro se puede realizar de dos maneras:
4.2. Estimacin Puntual
La estimacin puntual se refiere a la eleccin de un estadstico, es decir un nmero calculado a partir de los datos muestrales, respecto al cual tenemos alguna esperanza o seguridad de que est razonablemente cerca del parmetro (poblacin) que se ha de estimar.Tambin se dice que es la obtencin de un punto, para ello se usan las medidas de la muestra para calcular un nico valor numrico, que es la estimacin del parmetro poblacional.
4.3. ESTIMACIN: POR INTERVALOS DE CONFIANZA
La estimacin confidencial nos permite determinar un posible rango de valores o intervalos. Es decir asociar a cada muestra un intervalo. No siempre los resultados pueden ser los esperados
Es decir estimar por intervalos es obtener dos valores estadsticos que definen el intervalo (un lmite inferior y un lmite superior) con un grado especfico de confianza incluye al parmetro a estimar. La probabilidad de que una estimacin por intervalo incluya al parmetro se denomina nivel de confianza.
4.4. ESTIMACIN POR INTERVALOS DE CONFIANZA: para la media (con varianza conocida y con varianza desconocida); para la proporcin, para una poblacin y dos poblaciones.
Procedimiento para obtener un intervalo de confianza Establecer una muestra aleatoria Establecer un nivel de confianza o un determinado nivel de significancia
Nivel deconfianza: YNivel de
significancia: Total
0.99.0.011.00
0.9750.0251.00
0.950.051.00
0.900.101.00
0.800.201.00
Determinar el estadstico de la distribucin muestral
Estadstico de la muestraDefinicinIntervalo
MediaCon varianza conocida
Con varianza desconocidan > 30
Con varianza desconocidan < 30
Proporcin
Calcular los valores del intervalo
Construir el intervalo
4.4.1. Intervalos de confianza para la media con varianza conocida
Ejemplo:
La Facultad de Educacin de cierta universidad desea estimar la calificacin media de los expedientes de los alumnos, se conoce por otros cursos que la desviacin estndar de las puntuaciones en la facultad es 2.01 puntos y la media de la muestra es 4.9. Si se elige una muestra 25 alumnos en la Facultad Hallar el intervalo de confianza para el 90%.
Solucin
Muestra: n = 25 alumnos Nivel de confianza : 90% Estadstico de la muestra: es Z, se conoce la varianza. Calculo de los valores del intervalo (puntos crticos)
Construccin del intervalo
Interpretacin: el intervalo de confianza para la estimacin media de las calificaciones es puntos
4.4.2. Intervalos de confianza para la media con varianza desconocida
a. Para n > 30
El `presidente de una institucin deportiva est interesado en conocer el promedio de Km recorridos por los participantes de una maratn realizada el ao anterior, para establecer nuevas marcas y mejores tiempos en la maratn a realizarse por el aniversario de dicha institucin, y as establecer nuevos record. Para ello, selecciona una muestra de 100 maratonistas y obtiene una desviacin estndar S= 3.5 Km. y una media muestral de 20 Km.. Determinar el intervalo de confianza al 95%.
Muestra: n = 100 maratonistas Nivel de confianza : 95% Estadstico de la muestra: es Z, no se conoce la varianza. (pero n > 30). Calculo de los valores del intervalo (puntos crticos)
Construccin del intervalo
Interpretacin: el intervalo de confianza para promedio de Km recorridos por los participantes de una maratn es (19.44. 20.56) km
Ejemplo(n=120,150) y 90% , 99%
b. Para n < 30
Se ha obtenido una muestra de 15 vendedores de una Empresa Editora para estimar el valor medio de las ventas por trabajador en la Empresa. La media y varianza de la muestra (en miles de soles) son 5 y 2, respectivamente. Determinar el Intervalo de confianza para la venta media por trabajador en la Editorial al 90 %.
Muestra: n = 15 alumnos Nivel de confianza : 90% Estadstico de la muestra: es t, no se conoce la varianza La media y la varianza se han obtenido de la muestra (media = 5 y la varianza = 2, desviacin estndar =1.464.) Calculo de los valores del intervalo (puntos crticos
Construccin del intervalo de confianza
Interpretacin: el Intervalo de confianza para la venta media por trabajador es (4.334, 5.666) ventas, al 90% de confiabilidad
ERRORES DE ESTIMACION DE LA MEDIA
Poblaciones Grandes (N)Poblaciones Pequeas (n)
4.4.3. Intervalos de confianza para la proporcin
Ejemplo
Se ha obtenido una muestra al azar de 150 vendedores de una empresa de cemento para estimar la proporcin de vendedores que no alcanza un lmite de ventas mnimo establecido por la gerencia de logstica. De entre los seleccionados, 50 no han conseguido llegar al lmite de ventas mnimo establecido. Hallar el Intervalo de confianza para la proporcin de trabajadores en la empresa que no alcanza el lmite al 80 %.
Muestra: n = 150 vendedores Nivel de confianza : 80% Estadstico de la muestra: es Z. Calculo de los valores del intervalo (puntos crticos)
Construccin del intervalo
Interpretacin : el intervalo de confianza para los trabajadores que no alcanzan el lmite de las ventas es (0.28, 0.38)
4.5. PRUEBA DE HIPTESIS:
Otra manera de hacer inferencia es haciendo una afirmacin acerca del valor que el parmetro de la poblacin bajo estudio puede tomar. Esta afirmacin puede estar basada en alguna creencia o experiencia pasada que ser contrastada con la evidencia que nosotros obtengamos a travs de la informacin contenida en la muestra. Esto es a lo que llamamos Prueba de HiptesisHIPOTESIS:
Es una proposicin, afirmacin, verdad anticipada, una aseveracin a cerca de una poblacin o mas poblaciones.A los investigadores les intersa dos tipos de hiptesis: Hiptesis de Investigacin
Es la conjetura o suposicin que motiva la investigacin, puede ser el resultado de aos de observacin por parte del investigador. Conducen directamente a las hiptesis estadsticas.
Hiptesis Estadstica Se establecen para ser evaluadas por medio de tcnicas estadsticas adecuadas. Estas son las hiptesis objeto de estudio.
Prueba de HiptesisEs una regla que cuando los valores experimentales son observados nos conduce a una decisin, No rechazar Aceptar, Rechaza, bajo consideracin
CLASES DE PRUEBAS DE HIPOTESIS
A. Hiptesis Nula: Ho
Es la hiptesis que se quiere probar (se formula con la finalidad de ser rechazada). Se rechaza cuando los resultados de los datos muestrales as lo demuestran. ( puede tener los signos =, mayor =, menor =).
B. Hiptesis Alternativa: H1
Hiptesis que se acepta si la Ho se rechaza.
TIPOS DE PRUEBAS DE HIPOTESIS
A. Hiptesis Unilateral O De Una Cola
a. Prueba de la cola inferior o del lado izquierdo
b. Prueba de la cola superior o del lado derecho
B. HIPOTESIS BILATERAL O DE DOS COLAS
HIPTESIS UNILATERAL O DE UNA COLA
a. Prueba de la cola inferior o del lado izquierdo
b. Prueba de la cola superior o del lado derecho
regin de aceptacinregin de rechazo
regin de aceptacinregin de rechazo
Hiptesis Nula:
Hiptesis Alternativa:
Hiptesis Nula:
Hiptesis Alternativa:
HIPOTESIS BILATERAL O DE DOS COLAS
regin de aceptacinregin de rechazoregin de rechazo
Hiptesis Nula:
Hiptesis Alternativa:
PROCEDIMIENTO PARA LA PRUEBA DE HIPOTESIS
1. Formular las hiptesis
2. Definir un nivel de confianza
Nivel de significancia:
0.010. 0250.050.100.20
Nota: Si la hiptesis es bilateral, el nivel de significancia debe ser dividido en dos, ya que la regin de aceptacin se ubicara entre dos puntos crticos, es decir en un intervalo (un lmite inferior y un lmite superior), en cuyos extremos hacia atrs de cada punto podemos ubicar a la regin de rechazo, solo para este caso se contara con dos regiones de rechazo.
3. Determinar la estadstica de pruebaLa estadstica de prueba, se elige dependiendo de lo que se solicita, es decir se debe leer correctamente el texto que describe las caractersticas del problema objeto de investigacin, para luego elegir la estadstica correcta. Normal. T,
4. Establecer la regin critica Para la construccin o delimitacin de la regin critica o regin de rechazo se debe tener en cuenta: a. El tipo de hiptesis que se ha formulado, ya sea esta, unilateral o bilateral, la hiptesis que indica que zona es de rechazo es la hiptesis alternativa.b. El nivel de significancia
5. DecisinPara tomar la decisin correcta se debe:
a. Si la prueba de hiptesis se ha efectuado sin usar un paquete estadstico, el valora del estadstico de prueba se debe comparar con un valor obtenido de una tabla estadstica, considerando para la obtencin de esta valor el nivel de significancia y el tamao de la muestra.Se aceptara la hiptesis si est el valor del estadstico de prueba se encuentra en la zona de aceptacin, con un determinado nivel de significanciab. Si la prueba se ha efectuado haciendo uso de un paquete estadstico, el valor del p valor (nivel de significancia en el sistema) se compara con el nivel de significancia establecido en el tems 2, si el valor de mayor que el nivel de significancia la hiptesis nula se rechaza.
6. Conclusin 4.6. PRUEBA DE HIPTESIS: PARA LA MEDIA, PARA PROPORCIN
A. PARA UNA POBLACIN
4.6.1. PRUEBA DE HIPTESIS PARA LA MEDIA CUANDO LA VARIANZA ES CONOCIDA
Una caja de 300 cm3 de leche evaporada se disea para que contenga una cantidad ligeramente mayor que 300 cm3, de tal manera que si excede este volumen hay problemas. Sin embargo, un volumen menor a 300 cm3 ocasiona que los consumidores demanden al fabricante. En el proceso normal de produccin, el fabricante supone que la media es igual o mayor a 300 cm3 Suponiendo que se prueba una muestra de 45 cajas y se encuentra un volumen promedio de 290 cm3. Se puede afirmar que el fabricante est en lo correcto, si se sabe que la desviacin estndar de las cajas de leche de 6 cm3, con un nivel de significancia de 0.01
Solucin
El problema corresponde a la distribucin de la media con n > 30.
1. Formular la hiptesis
2. Nivel de Significancia
3. Estadstica de Prueba
Como n > 30 y la varianza es conocida, la estadstica de prueba de la variable aleatoria es la distribucin normal estndar N (0,1)
4. Regin Critica
5. Decisin
Por lo tanto, Ho se rechaza
6. Conclusin .Se puede afirmar que el fabricante no est en lo correcto, el contenido de las cajas no es 300 cm3 , con un nivel de significancia de 0.01
4.6.2. PRUEBA DE HIPTESIS PARA LA MEDIA CUANDO LA VARIANZA NO ES CONOCIDA
Una empresa que regula el consumo elctrico de cierta localidad, publica los resultados del consumo anual en nmero de Kilowatt-hora que gastan varios aparatos electrodomsticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-hora al ao. Si una muestra aleatoria de 12 hogares que se incluye en un estudio indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al ao con una desviacin estndar de 11.9 kilowatt-hora.Se puede concluir que las aspiradoras gastan anualmente, en promedio, menos de 46 kilowatt-hora con un nivel de significancia de 0.05? Suponga que la poblacin de kilowatt-hora es normal.
Solucin:
1. Formular la hiptesis
2. Nivel de Significancia
3. Estadstica de Prueba
Como n < 30 y la varianza es conocida, la estadstica de prueba de la variable aleatoria es la distribucin normal estndar N (0,1)
4. Regin Critica
5. Decisin
Por lo tanto la Ho no se rechaza
6. Conclusin Se concluye que las aspiradoras gastan anualmente, en promedio, menos de 46 kilowatt-hora con un nivel de significancia de 0.05
4.6.3. PRUEBA DE HIPTESIS PARA PROPORCION
Un ingeniero civil afirma que se instalan termas elctricas en 70% de todas las casas que se construyen hoy actualmente en la ciudad. Estara de acuerdo con esta afirmacin si una investigacin de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas termas elctricas? Con un nivel de significancia de 0.10.
Solucin.
1. Formular la hiptesis
2. Nivel de Significancia
3. Estadstica de Prueba
Como n < 30 y la varianza es conocida, la estadstica de prueba de la variable aleatoria es la distribucin normal estndar N (0,1)
4. Regin Critica
5. Decisin
Por lo tanto lo Ho no se rechaza
6. Conclusin Se concluye que las aspiradoras gastan anualmente, en promedio, menos de 46 kilowatt-hora con un nivel de significancia de 0.05
4.6. Prueba de hiptesis: para la media, para proporcin, para la varianza (relativas para una poblacin, y dos poblaciones)
B.PARA DOS POBLACIONES (diferencia entre las media y proporciones)
HIPTESIS UNILATERAL O DE UNA COLA
c. Prueba de la cola inferior o del lado izquierdo
d. Prueba de la cola superior o del lado derecho
regin de aceptacinregin de rechazo
regin de aceptacinregin de rechazo
Hiptesis Nula:
Hiptesis Alternativa:
Hiptesis Nula:
Hiptesis Alternativa:
HIPOTESIS BILATERAL O DE DOS COLAS
Regin de aceptacinRegin de rechazoRegin de Rechazo
Hiptesis Nula:
Hiptesis Alternativa:
Procedimiento:Es el mismo procedimiento que en primer caso: solo se tiene en cuenta al formular las hiptesis, que en este caso es para la diferencia de dos promedios, como se muestra en la tabla anterior.
4.6.4. PRUEBA DE HIPTESIS PARA LA DIFERENCIA DE MEDIAS CUANDO LAS VARIANZAS SON CONOCIDAS
Un grupo de investigadores desea saber si los datos que han recolectado muestran evidencia suficiente para indicar una diferencia entre las concentraciones medias de cido rico en el suero de individuos normales e individuos con sndrome de Down. Los daros recogidos corresponden a las lecturas de cido rico en el suero de 12 individuos con sndrome de Down y 15 individuos sanos. Las medias de las muestras son 4.5mg/100ml y 3.4 mg/100ml, si las varianzas ara la poblacin con sndrome de Down es 1 y para la poblacin sana es 1.5. Con 5% de confiabilidad.
SOLUCION:
1. Formular la hiptesis
2. Nivel de Significancia
3. Estadstica de Prueba
4. Regin Critica
5. Decisin
Por lo tanto la Ho se rechaza
6. Conclusin Se concluye que los datos recogidos, no muestran evidencia suficiente para explicar diferencia entre las concentraciones medias de cido rico en el suero de individuos normales e individuos con sndrome de Down, con un nivel de significancia de 0.05
4.6.5. PRUEBA DE HIPTESIS PARA LA DIFERENCIA DE MEDIAS CUANDO LAS VARIANZAS NO SON CONOCIDAS
A. CUANDO LAS VARIANZAS SON IGUALES
Un grupo de especialistas de la salud, tiene como objetivo examinar las caractersticas de la destruccin pulmonar, en personas que fuman cigarrillos antes de desarrollar un marcado Enfisema pulmonar. En personas longevas se practicaron mediciones de tres ndices de destruccin pulmonar, en personas que no fumaban, y en personas con tabaquismo que mueren repentinamente fuera de un nosocomio y por causas no respiratorias. Segn el estudio una calificacin alta indica un mayor dao pulmonar. Se obtuvieron muestras con las calificaciones producidas, para uno de los ndices de destruccin pulmonar de una muestra de 9 personas que no fuman y 16 fumadores. Los especialistas pretenden saber si es posible concluir, en base a los datos, que las personas que si fuman, en general, tienen los pulmones ms daados que las personas no fumadoras, como se indica en la siguiente tabla. No se conoce las varianza de las muestras, pero se supone son iguales) No fumadores 18.1 6 10.8 11.0 7.7 17.9 8.5 13.0 18.9
Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6
12.0 24.1 16.5 21.8 16.3 23.4 18.8
SOLUCION:
7. Formular la hiptesis
8. Nivel de Significancia
9. Estadstica de Prueba
10. Regin Critica
11. Decisin
Por lo tanto Ho se rechaza
12. Conclusin De los resultados se concluye que las dos medias poblacionales son diferentes, las personas que fuman tienen los pulmones ms daados que las personas que no fuman. Con un nove de significancia de 0.05
B. CUANDO LAS VARIANZAS NO SON IGUALES
En una empresa que fabrica sustancias qumicas, evalan la calidad del producto por la cantidad de impurezas presentes en un lote. Para la fabricacin utilizan dos lneas de produccin 1,2 como cantidad promedio de impurezas en la sustancia qumica. Se tomaron muestras aleatorias de cada lnea y se obtuvo las siguientes mediciones.
LneanPromedioVarianza
1163.21.04
2163.00.51
Los datos aportan evidencia suficiente para concluir que la cantidad promedio de impurezas del proceso es menor para la lnea 2?. Con un nivel de significancia igual a 0.05
Solucin:
13. Formular la hiptesis
O
14. Nivel de Significancia
15. Estadstica de Prueba
16. Regin Critica
17. Decisin
Por lo tanto la Ho no se rechaza
18. Conclusin Se concluye que las aspiradoras gastan anualmente, en promedio, menos de 46 kilowatt-hora con un nivel de significancia de 0.05
4.6.6. PRUEBA DE HIPTESIS PARA POBLACIONES QUE NO PRESENTAN UNA DISTRIBUCION NORMAL
En este caso se aplica el teorema del Limite Central, si el tamao de la muestra (n>30). La distribucin de la diferencia entre medias de las muestras ser aproximadamente normal. Las muestras son independientes.
4.6.7. PRUEBA DE HIPTESIS PARA LA DIFERENCIA DE DOS PORPORCIONESUn estudio de estudios nutricionales en acilos de ancianos, encontraron que entre 55 pacientes con hipertensin, 24 tenan una dieta con restriccin de sodio. De 149 pacientes sin hipertensin, 36 tenan una dieta sin sodio. Es posible concluir que las poblaciones muestreadas, la proporcin de pacientes con dieta restringida en sodio es mayor entre pacientes con hipertensin que entre pacientes sin hipertensin?
Solucin.
1. Formular la hiptesis
2. Nivel de Significancia
3. Estadstica de Prueba
Como n < 30 y la varianza es conocida, la estadstica de prueba de la variable aleatoria es la distribucin normal estndar N (0,1)
4. Regin Critica
5. Decisin
Por lo tanto lo Ho no se rechaza
6. Conclusin
La proporcin de pacientes con dieta restringida en sodio es mayor entre pacientes hipertensos que entre los pacientes sin hipertension
4.7. ERRORES
Ho verdaderaHo falsa
Rechazar HoError tipo I
Decisin correcta
No rechazar HoDecisin correctaError tipo II
La Probabilidad de cometer un error Tipo I : se conoce como Nivel de Significancia, se denota como y es el tamao de la regin de rechazo
El complemento de la regin de rechazo es 1 y es conocido como el Coeficiente de Confianza
En una prueba de Hiptesis de dos colas la regin que no se rechaza corresponde a un intervalo de confianza para el parmetro en estudio