Download - De la muestra a la población

PRINCIPIOS DEL ANÁLISIS ESTADÍSTICO

De la muestra a la población

De la muestra a la población

Cuando a partir de una muestra se desea extrapolar las conclusiones a una población las preguntas que se pueden plantear son:

¿Cuánto difieren nuestros datos de la población objetivo?

O, si obtenemos otra muestra de la misma población,¿Qué tan diferente será de la primera aunque se hayan

cumplido los requisitos para que la muestra sea representativa?

La estadística nos proporciona una medida de la incertidumbre a la que nos vemos sometidos cuando elegimos una muestra.

Variabilidad de las medias muestrales

La variabilidad será menor cuanto mayor sea el tamaño muestra

La variabilidad será menor que la variabilidad de los datos de la población

La variabilidad será menor cuanto menor sea la variabilidad de los datos de la población

Distribución de las medias muestrales

El valor esperado (esperanza matemática) de la distribución de medias muestrales es el mismo que la media poblacional

El valor esperado del desvío estándar de las medias muestrales es σ/√n. Es el error estándar de la media. Para estimarlo a partir de una muestra tomamos el desvío estándar de la muestra s en lugar de σ

La distribución de las medias muestrales será normal si la distribución de los datos en la población es normal

Teorema central del límite

Si una población (no necesariamente normal) tiene una media μ y un desvío estándar σ, la distribución de las muestras aleatorias de esa población tienden al aumentar el tamaño de la muestra n a una normal con media μ y a un desvío estándar σ/√n

Por ejemplo si los datos son categóricos y el tamaño de la muestra n de más de cien individuos y la proporción del número de enfermos л , entonces a través de n.л obtendríamos la media μ y el desvío estándar se calcularía como √ л .(1- л)/n

Problema

Partimos de un establecimiento educacional con mil alumnos

Con un nuevo programa de enseñanza el promedio de asistencia es de 83

Promedio histórico 80 DS 10¿Cuál es la probabilidad de que haya un verdadero incremento de la asistencia?¿Las diferencias se deben solo al azar?Hipótesis: 1- Del Investigador. El promedio de asistencia se incrementó2- Hipótesis nula: Las diferencias se deben solo al azar Muestra de 100 alumnos Prueba z= 83-80/1=3 z=3 equivale a p=0.0013

Intervalos de confianza para una muestra

El IC muestra la incertidumbre en la estimación del estadístico de interés

Los elementos necesarios para construir un IC son:La media poblacional, que la infiero a partir de la

media muestralEl desvío estándar de la población, que si no lo conozco

lo infiero a partir del EEMLa confianza que pretendo tener al suponer que ese

sea uno de los intervalos que contengan la verdadera media poblacional

En nuestro ej. IC 95% = 83 ± 1.69 * 10/√100 Es entonces 81.31 a 84.69

Comparación de grupos

Número de grupos de observaciones1- Un grupo2- Dos grupos3- Más de dos grupos

Tipo de observaciones1- Independientes2- Relacionadas

Tipo de datos 1- Continuos2- Categóricos u ordinales

Distribución de los datos

Distribución normal

Es unimodal, un solo modoEs simétrica con respecto a la media, la mitad de la

curva es igual a la otra mitadLa base está dada por unidades de desvío estándar, un

desvío estándar (s) corresponde a un z, 2.5 s a 2.5 zLa media la mediana y el modo coinciden en el mismo

puntoEl área bajo la curva (Φz) es 1Prueba z se basa en la normal estándar z= X-μ en nuestro ej. Z= 83-80 = 3 (σ/√n) (10/√100) Cola inferior Φz, cola superior 1- Φz, dos colas 2*(1- Φz)

Distribución t de Student

Es una distribución de medias muestrales cuando el tamaño de la muestra es pequeño

Es similar a la normalLa diferencia está en las colas, cuando se incrementa

el tamaño de muestra usar uno u otro método es igualSe debe tener en cuenta el parámetro grados de

libertad que se calcula restando uno a nComparación de una media con un valor específico:Peso de RN de madres con CC vs. Peso de RN de MN t= x-k t= 2658 -3388 = -3.98 p<0.006 SD/√n 913/√16

Pruebas no paramétricas

Test del signo: si no hay diferencias entre los valores de la media y el promedio histórico, esperaríamos encontrar tantos valores por encima como por debajo del último. En nuestro caso hay 13 valores por debajo y solo 3 por encima del valor de referencia.

Test de Wilcoxon (Rank sum test): 1- Se calcula la diferencia entre cada observación

y el valor de interés2- Se ignora el signo de la diferencia y se obtiene

un rango 3- por último se suman los rangos por encima y por

debajo del valor promedio

Dos grupos de observaciones apareadas

ParamétricosTest t para muestras apareadas t= (d-0)/ES se entra a la tabla por el valor de t y los grados de libertadIntervalos de confianza para la diferencia de

medias: x± tα* ESNo paramétricosTest del SignoTest de Wilcoxon

Comparación de muestras independientes

Método paramétricoTest de t para muestras independientes t= x1-x2 se (x1-x2)Intervalos de confianza para muestras

independientes. IC = x1-x2±t 0.975* se(x1-x2)Método no paramétricoTest de Mann-Whitney

Comparación de dos grupos de observaciones independientes

Si No

Si No Si

Si No

¿Tienen iguales varianzas?

¿El Nro.de

observaciones es grande?

No

Test t Test de Welch

Test Z

¿Las distribuciones son similares

salvo en la posición?

Test de la Mediana

Test de Mann-Whitney

¿La distribución es normal en ambos grupos?

ii

Comparación de dos grupos de observaciones apareadas

Si No

Si No

Si No

¿La distribución es normal en ambos grupos?

Test t ¿El Número de observaciones es grande?

Test z

¿La distribución es simétrica?

Wilcoxon Signo

Download - De la muestra a la población

Top Related