Download - De la muestra a la población
PRINCIPIOS DEL ANÁLISIS ESTADÍSTICO
De la muestra a la población
De la muestra a la población
Cuando a partir de una muestra se desea extrapolar las conclusiones a una población las preguntas que se pueden plantear son:
¿Cuánto difieren nuestros datos de la población objetivo?
O, si obtenemos otra muestra de la misma población,¿Qué tan diferente será de la primera aunque se hayan
cumplido los requisitos para que la muestra sea representativa?
La estadística nos proporciona una medida de la incertidumbre a la que nos vemos sometidos cuando elegimos una muestra.
Variabilidad de las medias muestrales
La variabilidad será menor cuanto mayor sea el tamaño muestra
La variabilidad será menor que la variabilidad de los datos de la población
La variabilidad será menor cuanto menor sea la variabilidad de los datos de la población
Distribución de las medias muestrales
El valor esperado (esperanza matemática) de la distribución de medias muestrales es el mismo que la media poblacional
El valor esperado del desvío estándar de las medias muestrales es σ/√n. Es el error estándar de la media. Para estimarlo a partir de una muestra tomamos el desvío estándar de la muestra s en lugar de σ
La distribución de las medias muestrales será normal si la distribución de los datos en la población es normal
Teorema central del límite
Si una población (no necesariamente normal) tiene una media μ y un desvío estándar σ, la distribución de las muestras aleatorias de esa población tienden al aumentar el tamaño de la muestra n a una normal con media μ y a un desvío estándar σ/√n
Por ejemplo si los datos son categóricos y el tamaño de la muestra n de más de cien individuos y la proporción del número de enfermos л , entonces a través de n.л obtendríamos la media μ y el desvío estándar se calcularía como √ л .(1- л)/n
Problema
Partimos de un establecimiento educacional con mil alumnos
Con un nuevo programa de enseñanza el promedio de asistencia es de 83
Promedio histórico 80 DS 10¿Cuál es la probabilidad de que haya un verdadero incremento de la asistencia?¿Las diferencias se deben solo al azar?Hipótesis: 1- Del Investigador. El promedio de asistencia se incrementó2- Hipótesis nula: Las diferencias se deben solo al azar Muestra de 100 alumnos Prueba z= 83-80/1=3 z=3 equivale a p=0.0013
Intervalos de confianza para una muestra
El IC muestra la incertidumbre en la estimación del estadístico de interés
Los elementos necesarios para construir un IC son:La media poblacional, que la infiero a partir de la
media muestralEl desvío estándar de la población, que si no lo conozco
lo infiero a partir del EEMLa confianza que pretendo tener al suponer que ese
sea uno de los intervalos que contengan la verdadera media poblacional
En nuestro ej. IC 95% = 83 ± 1.69 * 10/√100 Es entonces 81.31 a 84.69
Comparación de grupos
Número de grupos de observaciones1- Un grupo2- Dos grupos3- Más de dos grupos
Tipo de observaciones1- Independientes2- Relacionadas
Tipo de datos 1- Continuos2- Categóricos u ordinales
Distribución de los datos
Distribución normal
Es unimodal, un solo modoEs simétrica con respecto a la media, la mitad de la
curva es igual a la otra mitadLa base está dada por unidades de desvío estándar, un
desvío estándar (s) corresponde a un z, 2.5 s a 2.5 zLa media la mediana y el modo coinciden en el mismo
puntoEl área bajo la curva (Φz) es 1Prueba z se basa en la normal estándar z= X-μ en nuestro ej. Z= 83-80 = 3 (σ/√n) (10/√100) Cola inferior Φz, cola superior 1- Φz, dos colas 2*(1- Φz)
Distribución t de Student
Es una distribución de medias muestrales cuando el tamaño de la muestra es pequeño
Es similar a la normalLa diferencia está en las colas, cuando se incrementa
el tamaño de muestra usar uno u otro método es igualSe debe tener en cuenta el parámetro grados de
libertad que se calcula restando uno a nComparación de una media con un valor específico:Peso de RN de madres con CC vs. Peso de RN de MN t= x-k t= 2658 -3388 = -3.98 p<0.006 SD/√n 913/√16
Pruebas no paramétricas
Test del signo: si no hay diferencias entre los valores de la media y el promedio histórico, esperaríamos encontrar tantos valores por encima como por debajo del último. En nuestro caso hay 13 valores por debajo y solo 3 por encima del valor de referencia.
Test de Wilcoxon (Rank sum test): 1- Se calcula la diferencia entre cada observación
y el valor de interés2- Se ignora el signo de la diferencia y se obtiene
un rango 3- por último se suman los rangos por encima y por
debajo del valor promedio
Dos grupos de observaciones apareadas
ParamétricosTest t para muestras apareadas t= (d-0)/ES se entra a la tabla por el valor de t y los grados de libertadIntervalos de confianza para la diferencia de
medias: x± tα* ESNo paramétricosTest del SignoTest de Wilcoxon
Comparación de muestras independientes
Método paramétricoTest de t para muestras independientes t= x1-x2 se (x1-x2)Intervalos de confianza para muestras
independientes. IC = x1-x2±t 0.975* se(x1-x2)Método no paramétricoTest de Mann-Whitney
Comparación de dos grupos de observaciones independientes
Si No
Si No Si
Si No
¿Tienen iguales varianzas?
¿El Nro.de
observaciones es grande?
No
Test t Test de Welch
Test Z
¿Las distribuciones son similares
salvo en la posición?
Test de la Mediana
Test de Mann-Whitney
¿La distribución es normal en ambos grupos?
ii
Comparación de dos grupos de observaciones apareadas
Si No
Si No
Si No
¿La distribución es normal en ambos grupos?
Test t ¿El Número de observaciones es grande?
Test z
¿La distribución es simétrica?
Wilcoxon Signo