2da. sesión marzo - estadísticas uah
DESCRIPTION
Clases estadística UAH - 2014TRANSCRIPT
Universidad Alberto Hurtado Trabajo Social
Estadística
Definiciones, variables y presentación de datos
Paulina Gajardo Serrano 1
¿Qué es la estadística?
La estadística consiste en el conjunto de
técnicas y herramientas que permiten
recolectar, organizar y analizar información
para transformarla en un insumo útil para el
proceso de toma de decisiones.
Uso permanente de herramientas
matemáticas, pero…
◦ La consideraremos como una rama distinta de la
ciencia matemática debido a su carácter
eminentemente concreto y aplicado
¿Dónde SE APLICA?
En todas las ramas del quehacer científico y profesional donde se tomen decisiones: ◦ Medicina: Epidemiología, y experimentación
◦ Ingeniería: Hidráulica,
◦ Ciencias Sociales: Demografía, sociología, ¿experimentos sociales?
◦ Economía: Econometría
◦ Ciencia Política: estudios de opinión
◦ Ciencias de la Administración: Gestión de organizaciones, sistemas de gestión de calidad, evaluación de proyectos
◦ Gestión Pública: Gestión de organizaciones, diseño y evaluación de políticas públicas
TIPOS DE ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA:
◦ Consiste de aquellos métodos y herramientas diseñadas para permitir y/o facilitar la caracterización y presentación de un conjunto de datos en una población, con el fin de describir varias de sus características
ESTADÍSTICA INFERENCIAL:
◦ Conjunto de técnicas y procedimientos estadísticos que permiten hacer análisis de variables en poblaciones de interés a partir de una muestra representativa de observaciones extraída de dicha población
POBLACION
Una Población consiste de todos los elementos u observaciones sobre las que se desea realizar un análisis
Algunos objetos de análisis y poblaciones relevantes: ◦ Intención de voto en las próximas Elecciones
Municipales: Todos los ciudadanos Chilenos Mayores de 18 años.
◦ Trabajo infantil en Chile: Personas menores de 15 años
◦ El aborto en Chile: Mujeres de cualquier edad
MUESTRA
Subconjunto del total de elementos u observaciones que componen la población que se obtiene para hacer análisis de una o varias variables de la población de la que fue extraída.
Una muestra no tiene un valor en sí misma sino que en la medida en que permite analizar adecuadamente variables de la población de la cual fue extraída
Para que cumpla con el objetivo para el que fue obtenida, se dice que las muestras deben ser representativas
Muestras no representativas pueden inducir a conclusiones erróneas en los análisis de poblaciones
PARÁMETRO
Es una medida de resumen de una característica de la población que es objeto de análisis ◦ Intención de voto en las próximas Elecciones Municipales:
Proporción de los electores que vota por cada coalición, partido y/o candidato
◦ Trabajo infantil en Chile: Cantidad (y/o proporción) de menores de 15 años que
desarrollan actividades que les impiden desarrollar su proceso educativo con normalidad
Cantidad de horas semanales que trabajan los menores de edad
◦ El aborto en Chile: Cantidad (y/o proporción) de mujeres de cualquier edad
embarazadas en las cuales ya sea por razones inducidas o espontáneas el embarazo se interrumpe prematuramente
Edad promedio de las madres que abortan
ESTADÍSTICO
Es una medida de resumen de una
característica de la población que es
objeto de análisis pero obtenida a partir
de una muestra de dicha población
El estadístico no tiene valor “per se”
Permite hacer inferencia del parámetro
poblacional en análisis
Link entre estadistica descriptiva e
inferencial
POBLACION
Parámetro
MUESTRA
Estadístico Proceso deductivo
FUENTES DE DATOS EN
ESTADISTICA FUENTES PRIMARIAS: ◦ Son aquellas en las cuales la información se obtiene
directamente en el proceso de investigación: Encuestas
Experimentos
Observación participante (metodología cualitativa)
FUENTES SECUNDARIAS ◦ Son aquellas fuentes de información creadas con
diversos fines pero que no son tomadas directamente por el investigador pero son útiles para su trabajo: Bases de datos de publicación periódica: Censo, CASEN,
Encuesta Nacional de Salud, Cuentas Nacionales, etc
Bases de datos originadas en estudios previos: Datos que fueron primarios en otros procesos de investigación
METODOS DE INVESTIGACION
CUALITATIVOS ◦ Basados en la observación directa de los objetos de
estudio y en la aplicación de técnicas cualitativas FOCUS GROUP
Observación Participante
Etnografía
CUANTITATIVOS ◦ Analizan datos en forma de números
◦ Consisten de un conjunto de herramientas de matemáticas aplicadas
AMBAS METODOLOGIAS NO SON ANTAGONICAS SINO MAS BIEN
COMPLEMENTARIAS: TRIANGULACION
Sujetos y variables
Sujetos: Unidad básica sobre la cual la información es
recolectada (unidad de análisis)
◦ Ej: personas, hogares, países,…
Variables: Una característica observable (medible) en cada
sujeto
◦ Ejemplo 1
Variable: Edad
Modalidades o valores: 12 años, 33 años, 78 años…
¿Cómo se mide la edad?
◦ Ejemplo 2
Variable: Ingreso monetario per cápita
Modalidades o valores: $ 250.000, $ 500.000, $ 1.000.000
¿Cómo se mide el ingreso?
Sujetos y variables
Los datos cuantitativos consisten de una o más
variables medidas para varios sujetos.
La cantidad de sujetos estudiados es el tamaño
poblacional o muestral según sea el caso,
generalmente se denotan por N y n
respectivamente
Unidad de Observación / Unidad de
Análisis
Unidad de observación: Es la unidad que se toma como base para recoger la información de una variable. Sobre estas unidades se efectúa la encuesta, entrevista, consulta, medición u observación
Unidades de análisis: Es la unidad sobre la que se realiza el análisis estadístico de cada variable de acuerdo a lo definido en los objetivos de la investigación y formulación del problema
Pueden coincidir! 3/30/2014 Footer Text 14
Análisis de variables por separado
vs. Análisis de asociaciones
Preguntas sobre una variable a la vez
◦ Ej: ¿Cuál es la esperanza de vida de los chilenos? ¿Qué tipo de base
de datos se requiere?
◦ Cuál es el desempeño de los colegios de la RM en la prueba SIMCE
¿Qué tipo de base de datos se requiere?
Preguntas sobre asociaciones de variables
◦ ¿Tienen hombres y mujeres la misma esperanza de vida?
◦ ¿Cómo se relacionan las notas del test de lectura con las notas del
test de matemáticas en la prueba SIMCE?
Dos variables están asociadas si los valores conocidos de
una (variable explicativa) ayudan a predecir valores de la
otra (variable respuesta)
Diferentes tipos de variables
Diferentes unidades de medida
Variables Discretas vs. Continuas
¿Por qué son importantes estas
distinciones?: Diferentes tipos de variables
requieren distintos métodos de análisis
Unidades de medida
La unidad de medida (escala de medida) de
una variable indica que tanta información
contienen los números
Una clasificación estándar
1. Nivel Nominal de medidas
2. Nivel Ordinal de medidas
3. Nivel de Intervalo / Razón de medidas
Nivel nominal de medida
Ej: ¿Cuál es la situación ocupacional de una persona?
◦ 1 = Ocupado
◦ 2 = Desocupado
◦ 3 = Inactivo
◦ 4 = Sin edad para trabajar
Los números son sólo etiquetas de los valores
(categorías) de las variables, sin interpretación de
magnitud
La única comparación posible: ¿son dos valores iguales o
distintos?
Otros ejemplos de variables nominales: Sexo, Comuna,
zona (urbano rural), País
Nivel ordinal de medida
Ej: respuesta a la pregunta:
En términos generales, ¿Cuál es su expectativa con
respecto al futuro económico del país?
◦ 1. Pésima 2. Mala 3. Ni buena ni mala 4. Buena 5.
Excelente
El orden de los números tiene algún sentido, no así
las magnitudes
Comparación posible: un valor es más alto/bajo
que otro
Otros ejemplos: Nivel educacional, preguntas en
escala likert, pobreza, quintil de ingreso
Nivel de Intervalo
Ej: ¿Cuál es el coeficiente intelectual de una persona?
Sus valores tienen un orden natural, es posible cuantificar
la diferencia entre dos valores de intervalo (permiten
determinar la diferencia entre puntos a lo largo del mismo
continuo)
EJ: La fecha, la temperatura, las notas de una prueba, etc.
Operaciones como la suma y resta tienen sentido
Sin embargo, el cero “0” no indica “ausencia de variable” y
es arbitrario, se pueden usar valores negativos.
Lo anterior vuelve poco procedente el cálculo de
operaciones matemáticas como la multiplicación y división
Nivel de RAZON /RATIO
Ej: ¿Cuál es el salario de una persona?
Cuentan con un “0” absoluto lo que vuelve
pertinente el uso de operaciones
matemáticas más complejas (multiplicaciones
y divisiones)
Otros ejemplos: peso, estatura, edad,
velocidad, etc.
Variables discretas vs. continuas
Las unidades de medida de variables continuas pueden ser subdivididas sin límites
◦ Ej: Edad, área, distancia, tiempo, ingresos, gastos, tasas de interés
Las unidades de medida de variables discretas no pueden ser subdivididas
◦ Ej: Número de integrantes del hogar, Nivel educacional, etc.
◦ También variables continuas agrupadas. Ej: Edad en intervalos
Discreto vs. continuo
Las Variables discretas categóricas tienen solo un numero finito de valores positivos
Ej: preferencia por un partido, región, etc
Casi todas las variables discretas son categóricas
Si la variable categórica puede tomar sólo dos valores (hombre/mujer, Si/no, etc) se le denomina variable dicotómica
¿Como se relacionan los tipos de
variables?
Discreta Continua
Nominal/ Ordinal Muchas No
Intervalo/Ratio Algunas (Ej: continuas
“indivisibles”)
Muchas
Ejemplos de Variables Continuas
Pueden ser subdivididas, o bien, pueden corresponder a un valor decimal no entero, ejemplos:
El gasto público del Gobierno
La estatura y el peso de las personas
El promedio de notas de un alumno
Son variables que sufren variaciones continuas porque entre un valor y otro existen infinidad de cantidades (entre 1 y 2 existe el 1,10, 1,80, etc.)
Footer Text 25
Ejemplos Variables Discretas
No pueden ser subdividas, por ejemplo:
Cantidad de hermanos (tenemos 1, 2 o 3 hermanos, pero no ½ Hermano)
Cantidad de alumnos en el aula
Número de aviones que aterrizan a diario en el aeropuerto
Cantidad de naranjas que vende un almacén (siempre y cuando se mida en cantidad y no en kilos)
Las variables discretas sufren variaciones en cantidades enteras (1, 2, 3, 4, etc.).
3/30/2014 Footer Text 26
¿Cómo “se publican” generalmente los
datos cuantitativos (1)
Hoy en día, la información se trabaja
utilizando computadores.
Software que puede utilizarse para análisis
cuantitativo:
◦ Básico: Excel
◦ Avanzado: SPSS, Stata, Gauss, Redatam
Los computadores no distinguen cuando el
analista trabaja con poblaciones o con
muestras: Precaución para los análisis
3/30/2014 Footer Text 27
¿Cómo “se publican” generalmente los
datos cuantitativos (2)
Existe un estándar en la presentación de datos: se trabaja en filas y columnas
Filas: generalmente se contempla una fila por cada observación de la población o muestra:
◦ Total de filas: “N” o “n” según sea el caso
◦ Por simplicidad de aquí en adelante utilizaremos “n” independientemente que se trate de muestras o poblaciones
3/30/2014 Footer Text 28
¿Cómo “se publican” generalmente los
datos cuantitativos (3)
Columnas: se contempla una columna por cada variable.
◦ Generalmente, por simplificación, las variables se denotan con letras mayúsculas
◦ Total columnas: “k” variables medidas en la población o muestra
Cada “celda” proporciona el valor de una variable (j) para una persona (i)
◦ “j” toma valores entre 1 y k
◦ “i” toma valores entre 1 y n
3/30/2014 Footer Text 29
¿Cómo “se publican” generalmente los
datos cuantitativos (4)
Cuando se trata de encuestas o instrumentos
con gran cantidad de datos, estos se
acompañan generalmente por un Diccionario
de datos o de variables, que puede incluir:
◦ Nombre de la variable
◦ Breve explicación
◦ Tipo de variable
◦ Unidad de observación y/o unidades de análisis
◦ Unidades de medida de la variable
◦ Valores que puede tomar la variable (y etiquetas)
3/30/2014 Footer Text 30
Ejemplos de diccionarios de variables:
(1)
Edad: Nombre de la variable
Breve explicación
Tipo de variable
Unidad de observación y/o unidades de análisis
Unidades de medida de la variable
Valores que puede tomar la variable
Sexo: Nombre de la variable
Breve explicación
Tipo de variable
Unidad de observación y/o unidades de análisis
Unidades de medida de la variable
Valores que puede tomar la variable
3/30/2014 Footer Text 31
Ejemplos de diccionarios de variables: (2)
Calidad de servicio: ◦ ¿Que tan de acuerdo está con la siguientes frases? Los violadores y
asesinos deben ser castigados con pena de muerte. (1=muy insatisfecho y 5=muy satisfecho con valores intermedios)
Nombre de la variable Breve explicación Tipo de variable Unidad de observación y/o unidades de análisis Unidades de medida de la variable Valores que puede tomar la variable
Región: Nombre de la variable Breve explicación Tipo de variable Unidad de observación y/o unidades de análisis Unidades de medida de la variable Valores que puede tomar la variable
3/30/2014 Footer Text 32
Ejemplos de diccionarios de variables:
(3)
Salario de una persona: Nombre de la variable
Breve explicación
Tipo de variable
Unidad de observación y/o unidades de análisis
Unidades de medida de la variable
Valores que puede tomar la variable
Nivel de pobreza del hogar: Nombre de la variable
Breve explicación
Tipo de variable
Unidad de observación y/o unidades de análisis
Unidades de medida de la variable
Valores que puede tomar la variable
3/30/2014 Footer Text 33
Matriz de Datos
La información de variables para cada
observación se presenta en lo que se
denomina una matríz de datos.
También se le llama Base de datos.
3/30/2014 Footer Text 34
Ejemplo de una matriz de datos
N Edad SEXO EDUC OCUPACION Ingreso
1 67 2 9 1 319.287
2 8 1 2 2 170.470
3 23 2 2 2 167.222
4 37 1 12 1 14.528
5 53 1 10 2 203.641
6 3 1 15 2 1.163.571
7 2 1 10 2 333.418
8 55 1 13 3 1.063.160
9 40 2 15 2 1.143.366
10 8 2 13 3 561.416
11 59 2 14 2 70.344
12 37 2 4 2 341.159
13 11 1 7 3 533.142
14 22 1 10 1 1.021.693
Ejemplo
Analizaremos una muestra de 200 personas
encuestadas para la encuesta CASEN
versión 2006.
Centraremos nuestro análisis sobre las
siguientes variables:
◦ Nivel educacional (EDUC)
◦ Ingreso autónomo individual (IAI)
También usaremos la base de datos de la
prueba SIMCE 2008 para cuartos básicos.
Distribuciones de Frecuencias
El Objetivo de la estadística descriptiva es
“sumarizar”, “resumir”, “caracterizar” una variable.
Distribución de frecuencia de una variable:
Es la lista de valores de la variable que existen en
una muestra, junto con la cantidad de repeticiones
(frecuencia) con que cada valor ocurre.
Esto generalmente se presenta en tablas de
distribución de frecuencias.
Distribuciones de Frecuencias
Podemos tratar de resumir la distribución entera de la población (distribución de frecuencias).
◦ En una tabla: Tabla de distribución de frecuencias
◦ O Gráficamente: Gráficos de distribución de frecuencias, histogramas
…o generando una única medida de resumen de la variable
◦ Midiendo tendencia central
◦ Midiendo variablidad
Tabla SPSS de frecuencias para
EDUC
NIVEL EDUCACIONAL
5 2,5 3,3 3,3
30 15,0 20,0 23,3
20 10,0 13,3 36,7
31 15,5 20,7 57,3
3 1,5 2,0 59,3
19 9,5 12,7 72,0
11 5,5 7,3 79,3
17 8,5 11,3 90,7
14 7,0 9,3 100,0
150 75,0 100,0
50 25,0
200 100,0
SIN EDUC. FORMAL
BASICA INCOM.
BASICA COMPL.
M.HUM. INCOMPLETA
M.TEC.PROF.
INCOMPLETA
M.HUM. COMPLETA
M.TEC COMPLETA
TEC. O UNIV.
INCOMPLETA.
TECNICA O UNIV.
COMPLETA
Total
Válidos
SistemaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Frecuencias
absolutas ni
Frecuencias
Relativas ni
Tabla de distribución de frecuencias: colegios
por región (SIMCE)
REGION Total
Región de Aisén del General Carlos Ibañez del Campo 52
Región de Antofagasta 133
Región de Arica y Parinacota 58
Región de Atacama 98
Región de Coquimbo 488
Región de la Araucanía 889
Región de Los Lagos 753
Región de los Ríos 390
Región de Magallanes y de la Antártica Chilena 55
Región de Tarapacá 104
Región de Valparaíso 775
Región del Biobío 1130
Región del Libertador General Bernardo O' Higgins 470
Región del Maule 628
Región Metropolitana 1803
Total general 7826
Gráfico de Barras (EDUC)
Las barras muestran frecuenci asS
IN E
DU
C.
FO
RM
AL
BA
SIC
A I
NC
OM
.
BA
SIC
A C
OM
PL
.
M.H
UM
. IN
CO
MP
LE
TA
M.T
EC
.PR
OF
. IN
CO
MP
LE
TA
M.H
UM
. C
OM
PL
ET
A
M.T
EC
CO
MP
LE
TA
TE
C.
O U
NIV
. I
NC
OM
PL
ET
A.
TE
CN
ICA
O
UN
IV.
CO
MP
LE
TA
NIVEL EDUCACIONAL
0
10
20
30
Rec
uen
to
Gráfico de barras para colegios (SIMCE)
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Total
Total
Tabla de Distribución de Frecuencias para
variables continuas (IAI) Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Válidos 494 1 0,5 1,0 1,0
988 1 0,5 1,0 2,1
6667 1 0,5 1,0 3,1
25000 1 0,5 1,0 4,2
29290 1 0,5 1,0 5,2
35000 1 0,5 1,0 6,3
39520 2 1 2,1 8,3
50000 1 0,5 1,0 9,4
50500 1 0,5 1,0 10,4
50670 1 0,5 1,0 11,5
78820 1 0,5 1,0 12,5
5226750 1 0,5 1,0 97,9
8255160 1 0,5 1,0 99,0
10251675 1 0,5 1,0 100,0
Total 96 48 100,0
Perdidos Sistema 104 52
Total 200 100
Resumiendo… variables con “muchos”
valores
Las tablas de distribución de frecuencias y los gráficos de barra funcionan mejor para una pequeña cantidad de valores observados de la variable (variables en escalas de medida nominal, ordinal o variables discretas).
Cuando los valores son muchos (especialmente en el caso de variables continuas) se necesitan modificaciones.
Solución: resumir la información para valores de la variables agrupados:
◦ Tablas de distribución de frecuencias con intervalos
◦ Histogramas en lugar de gráficos de barras
Distribución de frecuencias para IAI (2)
Intervalos de Ingreso autónomo
22 11,0 22,9 22,9
35 17,5 36,5 59,4
17 8,5 17,7 77,1
5 2,5 5,2 82,3
4 2,0 4,2 86,5
1 ,5 1,0 87,5
2 1,0 2,1 89,6
1 ,5 1,0 90,6
9 4,5 9,4 100,0
96 48,0 100,0
104 52,0
200 100,0
0-100.000
100.001-200.000
200.001-300.000
300.001-400.000
400.001-500.000
500.001-600.000
600.001-700.000
900.001-1.000.000
1.000.000 y más
Total
Válidos
SistemaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Histograma para IAI
2500000 5000000 7500000 10000000
Ingreso Autónomo
0
25
50
75
Recu
ento
Histograma de puntajes promedio
SIMCE lenguaje
0
50
100
150
200
250
300
176
180,4
266667
184,8
533333
189,2
8
193,7
066667
198,1
333333
202,5
6
206,9
866667
211,4
133333
215,8
4
220,2
666667
224,6
933333
229,1
2
233,5
466667
237,9
733333
242,4
246,8
266667
251,2
533333
255,6
8
260,1
066667
264,5
333333
268,9
6
273,3
866667
277,8
133333
282,2
4
286,6
666667
291,0
933333
295,5
2
299,9
466667
304,3
733333
308,8
313,2
266667
317,6
533333
322,0
8
326,5
066667
330,9
333333
335,3
6
339,7
866667
Fre
cuen
cia
Clase
Histograma
Frecuencia
Skewness (asimetría)
La distribución de frecuencias de los ingresos
autónomos presenta algunos ingresos
(pocos) muy por encima de los de la mayoría
◦ La Distribución tiene una larga cola hacia la
derecha
◦ Se dice entonces que tiene asimetría positiva