1. clase nº1. repaso estadística descriptiva
TRANSCRIPT
RECORDANDO LA ESTADÍSTICA DESCRIPTIVA
Métodos Cuantitativos Avanzados
Nincen Figueroa
Carra de Ciencia Política
Universidad Diego Portales
Segundo semestre, 2014
ESTADÍSTICA Y CONSTRUCCIÓN DE DATOSALGUNOS CONCEPTOS BÁSICOS
Bibliografía para esta sesión: Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación estadística.
Capítulo N°2
Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial.
RECOLECCIÓN Y ANÁLISIS DE LOS DATOS
Definir los
objetivos de la
investigación
DEFINIR LA
VARIABLE Y LA
POBLACIÓN DE
INTERÉS
DEFINIR EL
ESQUEMA PARA
RECOLECTAR Y
MEDIR LOS DATOS
ANÁLISIS
DESCRIPTIVO, O
INFERENCIAL DE
LOS DATOS
Conclusiones
del análisis
estadísticoMuestreo, tipo de encuesta,
operacionalización de las
variables, etc.
• Uso de software (SPSS,
Stata, R, SAS)
• Lectura e interpretación
de los datos.
Publicación de los resultados
ALGUNOS CONCEPTOS BÁSICOS
RECORDATORIO:¿QUÉ ES LA ESTADÍSTICA?
Para Ritchey et al (2002) el campo de la estadística “es un conjunto de
procedimientos para reunir, medir, clasificar, codificar, computar, analizar y resumir
información numérica adquirida sistemáticamente” (1)
“La estadística implica aprender una nueva manera de ver las cosas, adquirir una
visión de la realidad basada en el análisis cuidado de hechos, en lugar de reacciones
emocionales ante experiencias aisladas” (2)
RECORDATORIO:¿QUÉ ES LA ESTADÍSTICA?
• Descriptiva:
Nos informa la cantidad de observaciones registradas y la frecuencia en las queocurre un fenómeno social determinado que presenta variabilidad. Nos permitesistematizar, recoger, ordenar y presentar datos para así poder descubrir odescribir las posibles regularidades que se presentan. Datos muestrales.
• Inferencial:
Nos permite extraer conclusiones sobre las relaciones matemáticas entre lascaracterísticas de un grupo de personas u objetos. Posibilita mostrar relacionesde causa-efecto, así como probar hipótesis y teorías científicas. Inferir, significasacar conclusiones sobre algo (Ritchey et al, 2002). Conclusiones sobre lapoblación
DOS CAMPOS DE ACCIÓN ESTADÍSTICA
POBLACIÓN Y MUESTRA:DEFINICIÓN
X
XX
X
X
X
XX
X
X
X
X
X
X
X
X
X
X
X
XX
XX
X
XX
X
X
XX
X
X
X
XX
X X
XX
X
XX
X
XX
X
XXX
X
X
Población o universo (N)
Muestra (n)
“Grupo grande de personas de interés
particular que deseamos estudiar y
entender” (Ritchey et al, 2002)
“Subgrupo pequeño de la población, la
muestra se observa y se mide y después se
utiliza para obtener conclusiones sobre la
población” (Ritchey et al, 2002)
POBLACIÓN Y MUESTRA:DEFINICIÓN
X
XX
X
X
X
XX
X
X
X
X
X
X
X
X
X
X
X
XX
XX
X
XX
X
X
XX
X
X
X
XX
X X
XX
X
XX
X
XX
X
XXX
X
X
Población o universo (N)
Muestra (n)
“Es la colección, o conjunto, de individuos,
objetos o eventos cuyas propiedades serán
analizadas” (Johnson, 2008)
“Es el subconjunto de una población”
(Johnson, 2008)
POBLACIÓN Y MUESTRA:EJEMPLOS ENCUESTA UDP 2013
X
XX
X
X
X
XX
X
X
X
X
X
X
X
X
X
X
X
XX
XX
X
XX
X
X
XX
X
X
X
XX
X X
XX
X
XX
X
XX
X
XXX
X
X
Población o universo (N)
Muestra (n)
Población de 18 años y más, residentes en 86
comunas de 20.000 habitantes de todas las
regiones, excluyendo Aysén del General Ibáñez
y Magallanes. Representa al 84,6 % de la
población urbana y al 73,6% de la población del
país.
Se entrevistó cara a cara a 1200
personas
POBLACIÓN Y MUESTRA:EJEMPLOS ENCUESTA NACIONAL DE ESTRATIFICACIÓN 2009
X
XX
X
X
X
XX
X
X
X
X
X
X
X
X
X
X
X
XX
XX
X
XX
X
X
XX
X
X
X
XX
X X
XX
X
XX
X
XX
X
XXX
X
X
Población o universo (N)
Muestra (n)
El universo del estudio corresponde a la
población mayor de 18 años, residente en el
territorio chileno, la que alcanza a 11.965.990
de personas.
El tamaño muestral final a nivel de
hogares fue de 3.365 casos
POBLACIÓN Y MUESTRA:EJEMPLOS SEXTA ENCUESTA INJUV 2006
X
XX
X
X
X
XX
X
X
X
X
X
X
X
X
X
X
X
XX
XX
X
XX
X
X
XX
X
X
X
XX
X X
XX
X
XX
X
XX
X
XXX
X
X
Población o universo (N)
Muestra (n)
El universo de este estudio está compuesto por
jóvenes, mujeres y hombres, de entre 15 a 29 años,
pertenecientes a todos los niveles
socioeconómicos, residentes en todas las regiones
del país, en zonas urbanas y rurales. Según las
proyecciones de población del INE para junio del
año 2009, este universo era de
4.208.399 personas.
El tamaño de la muestra fue de 7.570
casos
POBLACIÓN Y MUESTRA:TIPOS DE MUESTRA
Como se señaló, la muestra es un subconjunto de la población que sirve para
representarla. En ese sentido, es una parte de la población que nos suministra
información sobre esta, lo anterior porque en ocasiones el tamaño de la
población es demasiado grande para abarcarlo por lo que se recurre a
muestrear.
MUESTRA REPRESENTATIVA:
Muestra en la que todos los segmentos de la población están incluidos en la muestra en sus proporciones correctas respecto a la población (Ritchey et al, 2002)
MUESTRA NO REPRESENTATIVA:
Muestra en la que algunos segmentos de la población están representados en exceso o con defecto en la muestra (Ritchey et al, 2002)
MUESTRA Y MARCO MUESTRAL:DEFINICIONES
MARCO MUESTRAL
Refiere a la lista de lo elementos que conforman a la población de la que posteriormente se obtiene la muestra.
MUESTREO PROBABILÍSTICO
Son muestras en que los elementos a seleccionar se obtienen con base a la probabilidad de ser elegido, es decir, cada elemento tiene una determinada probabilidad de ser elegido.
MUESTREO ALEATORIO
Es uno de los métodos más comunes de las muestras probabilística. Todos los elementos de la población tienen la misma probabilidad de ser elegidos.
MUESTREO INTENCIONAL
Las muestras son elegidas con base en el hecho de que son “típicas”
MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO
Muestra aleatoria simple
• Es uno de los métodos más comunesde las muestras probabilística. Todoslos elementos de la población o delmarco muestral tienen la mismaprobabilidad de ser elegidos para suinclusión en la muestra. Elprocedimiento consiste en enumerarlos elementos y seleccionarlosaleatoriamente mediante una tabla denúmeros al azar o con númerosaleatorios generados por computador.
Muestra sistemática
• Las muestras sistemáticas determinanlas unidades seleccionadas de lamuestra mediante la aplicación de unintervalo de selección en las unidadesque configurar el marco muestra. Elintervalo (K) se determina según elnúmero de casos de la población (N) yde la población (n) mediante la fórmulaK=N/n.
MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO
Muestra estratificada proporcional
• Este tipo de muestreo se aplica cuandolas unidades de la población sedistribuyen según ciertos factores(estratos) que pueden influir ennuestro estudio y que queremosasegurar un número mínimo deindividuos de cada tipo.
• En cada estrato se elige una muestra al al azar siguiendo el mismo procedimiento que se utiliza en el m.a.s.
Muestra por conglomerados
• El muestreo por conglomerados esaquella muestra en la cual las unidadesde muestreo se presentan en gruposde forma natural.
• Este tipo de muestra se selecciona conel procedimiento usado en la muestraaleatoria simple o mediante laaplicación de un intervalo, como en lamuestra sistemática
MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO. EJEMPLO ENCUESTA UDP 2013
MUESTRA Y MARCO MUESTRAL:TAMAÑO MUESTRAL
Existen fórmulas específicas para calcular el tamaño de una muestra cuando
disponemos de alguna información como la a) medida estadística principal sobre
la cual se focalizará el análisis de la encuesta (proporciones, medios aritméticos,
etc.); b) nivel del análisis (global, en subgrupos); c) magnitud del error que se
pretende tengan los valores calculados en la muestra; y d ) probabilidad que esos
valores o estimaciones tengan el error muestral deseado.
z= valor de sigma para la probabilidad solicitada
p= estimación del valor de la proporción en el universo
q=1-p
e2=error muestral
POBLACIÓN Y MUESTRA:EL ERROR ESTADÍSTICO
ERROR
ESTADÍSTICO:
Es el grado de imprecisión de los
procedimientos que utilizamos para
recolectar y procesar la información.
ERROR DE
MUESTREO:
Es la imprecisión o variación que resulta por no
observar a todos los sujetos de la
población y hacerlo a través de una
muestra.
ERROR DE
MEDICIÓN:
Inexactitud debido a inconsistencias o problemas en los instrumentos de
medición.
POBLACIÓN Y MUESTRA:PARÁMETRO Y ESTADÍSTICO
PARÁMETRO
• Valor o cálculo numérico que resume mediciones o datos de todos los sujetos de una población.
• Ejemplo: Número de hijos nacidos vivos del CENSO 2002
ESTADÍSTICO O ESTADÍGRAFO
• Valor o cálculo numérico que resume mediciones o datos de todos los sujetos de una muestra.
• Ejemplo: Número de hijos nacidos vivos de la CASEN 2009
VARIABLES Y VARIABILIDAD
Al realizar investigación, siempre se espera que haya variación del fenómeno
estudiado. Por ejemplo, si se mide la edad está irá cambiando a lo largo de la
población, nos encontraremos con personas que tienen 5, 18 o años. El análisis
estadístico tiene por objetivo medir la variabilidad de los datos.
Variable (o variable de respuesta)
Es una característica o propiedad de interés con cada elemento individual de una
población o muestra.
Es una característica observable que varía entre los diferentes individuos o elementos
de una población.
Dato
Valor de la Variable asociado a un elemento de una población o muestra.
CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN
Var
iable
Cualitativas
Nominal
Ordinal
Cuantitativa
Intervalos
De razón
Nivel de medición
“Identifica las propiedades de medición de la variable y determina el tipo de operaciones
matemáticas (suma, multiplicación, etc) que puede usarse apropiadamente con dicho nivel, así
como las formulas estadísticas que utiliza para probar las hipótesis teóricas” (Ritchey et al,
2002: 43)
TIPOS DE VARIABLES:VARIABLES CUALITATIVAS
Las variables cualitativas, también denominadas de atributos o categóricas son
variables que clasifican o describen elementos de una población. Sus valores
no se pueden asociar a un número y no se pueden realizar operaciones
algebraicas con ellas, ya que carecen de sentido.
Nominales, solo indican una diferencia en categoría, clase, calidad o tipo. No indica un
orden entre las categorías.
Ordinales, designan categorías, pero tienen la propiedad adicional de permitir clasificar
las categorías desde la mayor hasta la menor, de la mejor a la peor, de la primera a la
última. Sus valores se pueden ordenar.
TIPOS DE VARIABLES:VARIABLES CUANTITATIVAS
Las variables cualitativas, también denominadas numéricas son variables que
cuantifican un elemento de una población. Se pueden realizar operaciones
algebraicas con ellas, ya que tienen sentido en sus resultado.
Intervalos, tienen las características de las variables antes mencionadas y además una
unidad numérica de medición definida. La diferencia entre dos valores de datos
cualesquiera tiene un significado. Los datos en este nivel no tienen punto de partida
desde cero (donde nada de la cantidad este presente)
Razón, poseen las características de las variables de intervalo y un punto cero
verdadero que significa ausencia de atributo o ninguno.
Nota: SPSS las denominará como variables escala.
TIPOS DE VARIABLES:VARIABLES CUANTITATIVAS
Otra diferenciación posible de hacer entre las variables cuantitativas o
numéricas es la que se da entre variables discretas y variables continuas, es
decir, según su escala de medición.
Discretas, asumen un número finito de valores, en específico, valores enteros.
No asume la totalidad de valores de un intervalo de la recta, sino que puntos
aislados.
Continuas, asumen una cantidad incontable de valores. Si entre dos valores,
son posibles infinitos valores intermedios, los valores observables de la
variable son números reales (con decimales). Puede asumir cualquier valor a
lo largo de un intervalo de la recta.
TIPOS DE VARIABLES:EJEMPLOS
Nivel de
medición
Ejemplos Cualidades Operaciones matemáticas
permitidas
Nominal Género, raza, preferencia
religiosa, estado civil
Clasificación en dos
categorías, denominación de
categorías
Conteo del número (es decir, frecuencia)
de cada categoría de la variable,
comparación de tamaños de categorías
Ordinal Rango de clase social,
preguntas de actitud y
opinión
Clasificación de categorías,
ordenamiento de rangos de
categorías de bajo a alto
Todo lo anterior más juicios de mayor
que, menor que, y cálculos de diferencias
y promedios de rangos
Intervalo Temperatura, índices
resumidos, escalas de
actitud y opinión
Todo lo anterior más
distancias entre
puntuaciones tiene una
unidad fija de medida
Todo lo anterior más operaciones
matemáticas como suma, resta,
multiplicación, división y raíces cuadradas
Razón Peso, ingresos, edad,
escolaridad, tamaño de
población
Todo lo anterior y un punto
cero real
Todo lo anterior más el cálculo de
razones significativas.
Cuadro Características de los cuatros niveles de medición. Fuente: Ritchey et al, 2002.
CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN
Var
iable
Categorías nombradas
No clasificada Nominal
Clasificada Ordinal
Puntuaciones numéricas
Puntaciones clasificadas
Ordinal
Intervalo de medida (unidad) determinado
Sin punto cero real Intervalo
Punto cero real Razón
TIPOS DE VARIABLES:OTRAS FORMAS DE CLASIFICACIÓN
Según Nivel de Abstracción Generales o Teóricas, refieren a conceptos
Intermedias, refieren a dimensiones - subdimensiones
Empíricas, refieres a indicadores
Según la información recabada Abiertas
Cerradas
Función en la investigación Independientes, variable que explica
Dependientes, variable que debe ser explicada por la o las variables
independientes
Perturbadoras, son variables de las cuales no tenemos control sobre ellas y
pueden ser confundidas como explicativas. De control
Aleatorias
VARIABLES:ALGUNAS CONSIDERACIONES
Los posibles valores de una variable suelen denominarse categorías
Ejemplo: Religión posee los valores 1) Católica 2) Evangélico 3) Ninguna 4) Otra
Estas categorías pueden ser agrupadas en clases o grupos (intervalos)
Esos valores deben tener dos características esenciales:
Ser exhaustivos, es decir, los valores deben considerar todos los valores que puede tomar la variable sin olvidar ninguno.
Ser excluyentes, los valores no pueden presentarse simultáneamente en dos categorías.
Siempre debemos tratar de recolectar a un nivel de medición que nos permita mayor información.
Posibles valores que
puede tomar el
indicador.
OPERACIONALIZACIÓN DE LAS VARIABLES:DE LOS CONCEPTOS A INDICADORES
Proceso mediante el cual los conceptos teóricos pasan a ser conceptos
empíricos posibles de ser medidos y aprehendidos por instrumentos de
recolección de información. En específico, es ir de un nivel de abstracción
general a uno particular. Significa pasar de variables generales a indicadores.
VARIABLE O
CONCEPTODIMENSIONES INDICADORES ATRIBUTOS
Áreas, niveles o
características
generales de las
variables.
Referentes empíricos
de la variable a ser
medida.
ANTES DE EMPEZAR, RECORDEMOS…CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN
Var
iable
Cualitativas
Nominal
Ordinal
Cuantitativa
Intervalos
De razón
Nivel de medición
“Identifica las propiedades de medición de la variable y determina el tipo de operaciones
matemáticas (suma, multiplicación, etc) que puede usarse apropiadamente con dicho nivel, así
como las formulas estadísticas que utiliza para probar las hipótesis teóricas” (Ritchey et al,
2002: 43)
REPRESENTACIONES GRÁFICASANÁLISIS UNIVARIADO DE VARIABLES CUALITATIVAS
Bibliografía para esta sesión:
Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación
estadística.
Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial.
REPRESENTACIONES GRÁFICAS
EJEMPLOS CASEN 2011
Un mal ejemplo de un gráfico es…
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
S. Público
FONASA
Grupo A
S. Público
FONASA
Grupo B
S. Público
FONASA
Grupo C
S. Público
FONASA
Grupo D
S. Público
FONASA no
sabe grupo
F.F.A.A. y del
Orden
ISAPRE Ninguno
(particular)
Otro sistema No sabe
REPRESENTACIONES GRÁFICAS
EJEMPLOS CASEN 2011
Un buen ejemplo de un gráfico es…
81.0
12.92.6 2.0
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
90.0
Sistema Público (FONASA) ISAPRE Ninguno (particular) F.F.A.A. y del Orden
Porc
enta
je
SISTEMA PREVISIONAL AL QUE SE PERTENECE, 2011a
(EN PORCENTAJES)
Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011. a La pregunta original es: s17. ¿A qué sistema previsional de salud pertenece usted? La categoría Otro Sistema y los No Sabe
GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE TORTA O PASTEL
Un gráfico de pastel es “un círculo que se divide su punto central, donde cada
rebanada presenta la frecuencia proporcional de determinada categoría de una
variable nominal/ordinal” (Ritchey et al, 2002:80).
Nos permite develar de mejor forma el sentido relativo respecto del todo de las
categorías, es decir, nos permite de mejor manera ver la igualdad o desigualdad
entre las categorías de una variable.
Para interpretarlo, es bueno fijarse en las porciones más grandes de la torta , o
sea, señalar las categorías con mayor frecuencia y comparar los tamaños entre
ellas.
GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE TORTA O PASTEL. EJEMPLOS.
2.8
11.7
85.6
SITUACIÓN DE POBREZA, 2011
(EN PORCENTAJES)
Pobres extremos Pobres no extremos No pobres
Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.
82.8
14.2
TENENCIA CONTRATO EN TRABAJO PRINCIPAL, 2011a
(EN PORCENTAJES)
Sí, firmó No tiene
Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011. a La pregunta original es: o17. En su trabajo principal, ¿tiene contrato de trabajo
escrito?. Las categorías Sí, pero no ha firmado y No se acuerda o no sabe si no
firmó contrato completan el 100%.
GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE BARRAS.
Un gráfico de barras “se compone de una serie de barras verticales u horizontales
donde la longitud de la barra representa la frecuencia porcentual de una categoría de
una variable nominal/ordinal” (Ritchey et al, 2002:83).
Este tipo de gráfico nos permite comparar las distintas categorías de mejor
manera, o sea, nos permite ver la competencia entre las categorías del gráfico.
Para interpretarlo debemos observar la altura de las categorías de la variable, tal
como en el gráfico de torta, desde el con mayor frecuencia (o porcentaje) hasta
las menores.
GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE BARRAS. EJEMPLOS.
46.9
41.3
11.9
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
Sí, con subsidio
habitacional
No,sólo con
recursos propios
No, la recibió de
herencia o traspaso
Porc
enta
jes
MODALIDAD COMPRA VIVIENDA, 2011a
(EN PORCENTAJES)
Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.a La pregunta original es: v10 ¿Compró la vivienda con ayuda de algún
programa habitacional o subsidio del estado?
61.3
17.721.0
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
Sí, prepago Sí, contrato No
TENENCIA DE TELÉFONO MÓVIL, 2011a
(EN PORCENTAJES)
Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.a La pregunta original es: r19 ¿Tiene Ud. Teléfono móvil en
funcionamiento y en uso?
GRÁFICOS PARA DATOS NOMINALES/ORDINALES:UNA ADVERTENCIA ¡CUIDADO CON LA ESCALA Y LA PROPORCIÓN!
Es importante tener en consideración la escala que se utiliza en los gráficos y no
realizar ninguna distorsión. Si se hace implica problemas graves de interpretación
y presentación de los datos.
48.0
48.5
49.0
49.5
50.0
50.5
51.0
51.5
52.0
Hombre Mujer
Porc
enta
jes
SEXO DEL ENTREVISTADO, 2013
Fuente: Elaboración propia en base a datos de Encuesta UDP2013.
¿Existe en realidad una diferencia tan pronunciada entre hombres y mujeres en la
muestra de la encuesta UDP?
DISTRIBUCIÓN DE FRECUENCIAS
ANÁLISIS DE VARIABLES CUALITATIVAS O CUANTITATIVAS
Bibliografía para esta sesión:
Johnson, R., & Kuby, Patricia. H. (2008). Estadística elemental: lo esencial.
Se encuestaron a 30 familias sobre el número de camas que poseían al interior
de la vivienda, obteniendo los siguientes datos.
DISTRIBUCIONES DE FRECUENCIASEJEMPLOS. DISTRIBUCIÓN DE FRECUENCIAS NO AGRUPADA.
Xi(N° de camas)
fi
0 2
1 4
2 6
3 7
4 5
5 3
6 3
Total 30
X representa a una variable, en el ejemplo
número de camas en la vivienda.
f es el nº de veces que aparece el valor en la
muestra (frecuencia)
Frecuencia o frecuencia absoluta. La frecuencia que se presentó
anteriormente es la denominada frecuencia absoluta que representa el número de
veces que presenta un valor o una categoría de una variable. Este tipo de
frecuencia se representa con fi.
Frecuencia relativa. Representada por fr , la frecuencia relativa es aquella que
se expresa en términos de porcentajes o proporciones respecto del total de
casos. Es decir, la frecuencia relativa expresa que proporción del total representa
fi. Por ejemplo, si tenemos un total de n datos, la frecuencia absoluta (fi) de una
categoría de una variable representará una proporción fr. Para la realización del
cálculo debemos considerar:
DISTRIBUCIONES DE FRECUENCIASTIPOS DE DISTRIBUCIÓN DE FRECUENCIAS.
𝑓𝑟 =𝑓𝑖
𝑛
DISTRIBUCIONES DE FRECUENCIASEJEMPLO FRECUENCIA RELATIVA.
Se encuestaron a 30 familias sobre el número de camas que poseían al interior
de la vivienda, obteniendo los siguientes datos.
Xi(N° de camas)
fi fr(Proporción)
fr(Porcentaje)
0 2 0,067 6,7%
1 4 0,133 13,3%
2 6 0,200 20,3%
3 7 0,233 23,3%
4 5 0,167 16,7%
5 3 0,100 10,0%
6 3 0,100 10,0%
Total 30 1,00 100,0%
DISTRIBUCIONES DE FRECUENCIASOTROS TIPOS DE DE FRECUENCIAS.
Frecuencia absoluta acumulada. Para variables cuantitativas o de tipo
cualitativa ordinal, es posible también calcular la frecuencia absoluta acumulada
que puede ser definida como el número de veces en que un valor menor
(mayor) o igual que alguno determinado ha aparecido en la muestra. Se denota
por Fi
Frecuencia relativa acumulada. De igual forma, es posible calcular la
frecuencia relativa acumulada que al igual que la frecuencia anterior es el número
de veces en que un valor menor (mayor) o igual que alguno ha aparecido en la
muestra, expresado en proporciones. Lo denotamos por Fri .También podemos
expresarlo en forma de porcentaje acumulado.
F𝑘 =f1+ f2+ f3+… + fn
Fr𝑘 =fr1+ fr2+ fr3+… + frn
Utilizando los datos de las 30 familias que respondieron sobre el número de
camas que poseían al interior de la vivienda, se obtiene lo siguiente.
DISTRIBUCIONES DE FRECUENCIASOTROS TIPOS DE DE FRECUENCIAS. EJEMPLOS.
Xi(N° de camas)
fi Fifr
(Proporción)Fr
fr(Porcentaje)
Porcentaje
acumulado
0 2 2 0,067 0,067 6,7% 6,7%
1 4 6 0,133 0,200 13,3% 20%
2 6 12 0,200 0,400 20,3% 40%
3 7 19 0,233 0,633 23,3% 63,3%
4 5 24 0,167 0,800 16,7% 80%
5 3 27 0,100 0,900 10,0% 90%
6 3 30 0,100 1,000 10,0% 100%
Total 30 1,00 100,0%
ESTADÍSTICOS DESCRIPTIVOS
ANÁLISIS DE VARIABLES CUANTITATIVAS
Bibliografía para esta sesión:
Johnson, R., & Kuby, Patricia. H. (2008). Estadística elemental: lo esencial.
Var
iable
s cu
antita
tiva
sMedidas de
posición
Medidas de tendencia central
Medidas de tendencia no
central
Medidas de dispersión o
variación
Medidas de forma
ESTADÍSTICA DESCRIPTIVA
ANÁLISIS DE VARIABLES CUANTITATIVAS (INTERVALO/RAZÓN)
Var
iable
s cu
antita
tiva
s
Medidas de posición
Medidas de tendencia central
Media
Mediana
Moda
Medidas de tendencia no
central
Cuartiles
Percentiles
Deciles
Medidas de dispersión o
variación
Rango
Varianza
Desviación Estándar
Coeficiente de variación
Medidas de forma
Asimetría
Curtosis
MEDIDAS DE TENDENCIA CENTRAL
¿QUÉ ENTENDEMOS POR TENDENCIA CENTRAL?
Una medida de tendencia central es aquel valor que se localiza en el centro o a la
mitad de un determinado conjunto de datos. En general, los estadísticos de
tendencia central proporcionan una estimación de una puntación que puede
ser típica, común o normal.
Para determinar el centro de una determinada distribución de datos, existen
determinadas medidas de tendencia central. Entre estas podemos mencionar la
media, mediana, moda y la mitad de rango.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS LA MEDIA ARITMÉTICA.
Desventajas
• Como vimos en el ejemplo de los ingresos mensuales, la media puede versedistorsionada por valores extremos (máximos o mínimos) o sesgos en ladistribución. Cuando sucede esto, es preferible la utilización de este estadísticocon otros como la mediana o la moda.
Ventajas
• Entre las ventajas de la media se cuenta que en su cálculo se involucran latotalidad de los valores 𝑥 de la distribución.
• Por otra parte, a diferencia de otras medidas como la moda, es única para unadistribución determinada.
• Se presenta como una buena forma de analizar la totalidad de los datos ya quees el centro de gravedad de la distribución.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MEDIANA.
Desventajas
• No utiliza la totalidad de los valores de 𝑥 para su cálculo, por lo que esinsensible a los valores de las puntuaciones de una distribución
• Al depender del número de casos de la distribución, cualquier cambio en eltamaño de la muestra puede afectar este estadístico.
Ventajas
• No es sensible a valores extremos, por lo que permite trabajar endistribuciones de frecuencias con algún sesgo o con la existencia de valoresextremos.
MEDIDAS DE TENDENCIA CENTRAL
DESVENTAJAS DE LA MODA.
Desventajas
• A diferencia de la media, en una determinada distribución de frecuencias puedeexistir más de una moda.
• Al igual que la mediana, no utiliza todos los valores disponibles sino que soloalgunos (el que más se repite)
Ventajas
• Al igual que la mediana, en su identificación no influyen los valores extremos porlo que no es sensible a los sesgos de la distribución.
MEDIDAS DE DISPERSIÓN
LA DESVIACIÓN ESTÁNDAR
La desviación estándar “describe la forma en que las puntuaciones de una
variable de intervalo/razón se dispersan por la distribución en relación con la
puntuación media” (Ritchey et al, 2002: 140). En otras palabras, la desviación
estándar de datos muestrales es un tipo de desviación promedio de los valores con
respecto de la media.
MEDIDAS DE DISPERSIÓN
LA DESVIACIÓN ESTÁNDAR ¿CÓMO INTERPRETARLA?
Para interpretar la desviación estándar debemos tener algunas consideraciones
previas, entre estas Triola (2009) señala las siguientes:
1. La desviación estándar se presenta como una medida de dispersión o variabilidad de
los valores de una variable determinada con respecto a la media (siempre se deben
interpretar conjuntamente).
2. Los valores posibles de la desviación estándar siempre serán positivos, nunca
negativos. Si se obtiene un valor de desviación estándar igual a cero significa que los
valores de los datos son el mismo número.
3. Valores grandes de desviación estándar implica que existe mayor cantidad de
variación.
4. Al ser una medida respecto de la media, al igual que esta es sensible a los datos
extremos, por lo que cambiará drásticamente si se incluyen valores extremos.
5. Las unidades de la desviación estándar serán las mismas que los datos originales, es
decir, minutos, años, kilogramos, puntos de evaluación, etc.
Las medidas de posición nos permiten describir la posición de un dato
específico en relación al resto de los otros datos de la distribución de
datos. En particular, este tipo de medidas nos permiten visualizar una
distribución de puntuaciones como fraccionada o “fracturada” en grupos que
están arriba y debajo de una puntuación.
Los llamados cuantiles son “puntuaciones que separan una fracción de los casos de
una distribución” (Ritchey, 2002:59). Estos refieren a la división de la distribución
en grupos (partes) de igual tamaño, es decir, con igual porcentajes de casos.
Los más conocidos son los cuartiles, deciles, deciles y percentiles
MEDIDAS DE POSICIÓN
¿QUÉ ES UNA MEDIDA DE POSICIÓN? ¿QUÉ SON LOS CUANTILES?
MEDIDAS DE FORMA¿QUÉ SON LAS MEDIDAS DE FORMA?
Como vimos anteriormente, los valores de la media, mediana y moda nos
permiten conocer la forma de la distribución, en específico si la distribución
posee algún sesgo o es simétrica. Recordemos que una distribución simétrica es
una en la cual los valores de la media, mediana y moda coinciden, así como
también la cantidad de datos a la izquierda es igual a la derecha.
En específico, las medidas de forma nos proporcionan información numérica
sobre la forma de la distribución, su simetría y su apuntamiento o curtosis.
Principalmente, nos informan si es que la distribución de datos analizada se
acerca o aleja de una distribución normal (Campana de Gauss).
¿ ?
MEDIDAS DE FORMAASIMETRÍA O DEFORMACIÓN
En una distribución simétrica (o normal) la cantidad de observaciones de la
variable se encuentran igualmente repartidas, es decir, tanto al lado izquierdo
como derecho de la distribución se encuentra la misma proporción de
observaciones. Sin embargo, existen distribuciones que no ocurre tal situación,
por lo que reciben el nombre de distribuciones asimétricas.
La asimetría de una distribución puede calcularse de dos formas, una es con la
medida de asimetría de Fisher o con la medida de asimetría de
Pearson. Cuyas fórmulas son:
Medida de Fisher Medida de Pearson
3
3
*
)(
sn
xxAS
i
s
ModaxAS
MEDIDAS DE FORMAASIMETRÍA O DEFORMACIÓN ¿CÓMO LA INTERPRETAMOS?
AS<0 AS=0 AS>0
MEDIDAS DE FORMACURTOSIS O COEFICIENTE DE APUNTAMIENTO
La curtosis mide hasta qué punto las observaciones de la variable se acumulan
en la parte central de la distribución de los datos. Al igual que con la asimetría, la
distribución de comparación es la distribución normal, en específico nos
interesa saber si la distribución es muy “achatada” o “puntiaguda”. Las
distribuciones pueden tomar la forma de una distribución:
Mesocúrtica (concentración normal)
Leptocúrtica (gran concentración)
Platicúrtica (baja concentración)
La forma de cálculo es mediante la siguiente fórmula:
3*
)(4
4
sn
xxK
i
MEDIDAS DE FORMACURTOSIS O COEFICIENTE DE APUNTAMIENTO. FORMAS.
K>0 K=0 K<0
Más apuntada que lo
normal
Normal Menos apuntada que lo
normal
TABLAS DE CONTINGENCIAANÁLISIS BIVARIADO DE VARIABLES CUALITATIVAS
Bibliografía para esta sesión:
Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. Capítulo N°3
Agresti,A., & Franklin, C.A. (2007). Statistics: the art and science of learning from data. Capítulo N°3
Weiss, N.A. (2011). Elementary Statistics. Capítulo N°12.3
ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA?
Las tablas de contingencia buscan describir la relación entre dos variables
cualitativas. A estas se le conocen también como tablas de doble entrada, tablas
cruzadas o tablas de frecuencia conjunta. Al ser una tabla bidireccional, involucra
dos dimensiones o dos variables que se encuentran cruzadas.
B1 B2 … BJ
A1 n11 n12 … n1j
A2 n21 n22 … n2j
… … … … …
AI ni1 ni2 … nij
Distribución conjunta o
distribución condicional
ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA?
La tabla muestra dos variables, en las filas (horizontales) se encuentra la variable
A y en las columnas (verticales) la variable B. En las celdas representadas por nij
se indican el número de observaciones que presentan las características tanto de
la variable A y la variable B.
En general, las celdas pueden contener la frecuencia absoluta o relativa del cruce
entre las filas y las columnas.
Lo que nos interesa conocer es: ¿existe relación entre las variable A y la variable
B? ¿hay asociación entre estas variables?
Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?
EN GENERAL, ¿USTED DIRÍA QUE ES...?
Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 0 8 141 54
C2 2 37 180 84
C3 6 135 447 247
D 9 176 323 168
E 17 137 242 110
ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA?
En su construcción, las tablas de contingencia generalmente ubican la variable
independiente en las filas y la variable dependiente en las columnas. Sin
embargo, esto puede quedar a criterio del investigador privilegiando la lectura e
interpretación adecuada de la tabla.
Otro punto a considerar, es la existencia de los totales en las tablas de
contingencia. Que indican el total fila y de columna.
Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?
EN GENERAL, ¿USTED DIRÍA QUE ES...?
TotalNada Feliz
No Muy
Feliz
Bastante
Feliz Muy Feliz
NSE ABC1 0 8 141 54 203
C2 2 37 180 84 303
C3 6 135 447 247 835
D 9 176 323 168 676
E 17 137 242 110 506
Total 34 493 1333 663 2523
Distribución marginal
ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA? ¡LOS PORCENTAJES!
Sin embargo, para una mejor lectura e interpretación de los datos debemos
pensar proporcionalmente por lo que las tablas de contingencia se
construyen con la frecuencia relativa, es decir, con porcentajes en cada una de las
celdas. Estos pueden ser solicitados:
Por fila
Por columna
Por el total
Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?
% del total
EN GENERAL, ¿USTED DIRÍA QUE ES...?
TotalNada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 ,3% 5,6% 2,1% 8,0%
C2 ,1% 1,5% 7,1% 3,3% 12,0%
C3 ,2% 5,4% 17,7% 9,8% 33,1%
D ,4% 7,0% 12,8% 6,7% 26,8%
E ,7% 5,4% 9,6% 4,4% 20,1%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Por total
ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA? ¡LOS PORCENTAJES!
Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?
% dentro de NSE
EN GENERAL, ¿USTED DIRÍA QUE ES...?
TotalNada Feliz No Muy Feliz Bastante Feliz Muy Feliz
NSE ABC1 3,9% 69,5% 26,6% 100,0%
C2 ,7% 12,2% 59,4% 27,7% 100,0%
C3 ,7% 16,2% 53,5% 29,6% 100,0%
D 1,3% 26,0% 47,8% 24,9% 100,0%
E 3,4% 27,1% 47,8% 21,7% 100,0%
Total 1,3% 19,5% 52,8% 26,3% 100,0%
Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?
% dentro de EN GENERAL, ¿USTED DIRÍA QUE ES...?
EN GENERAL, ¿USTED DIRÍA QUE ES...?
TotalNADA FELIZ
NO MUY
FELIZ
BASTANTE
FELIZ MUY FELIZ
NSE ABC1 1,6% 10,6% 8,1% 8,0%
C2 5,9% 7,5% 13,5% 12,7% 12,0%
C3 17,6% 27,4% 33,5% 37,3% 33,1%
D 26,5% 35,7% 24,2% 25,3% 26,8%
E 50,0% 27,8% 18,2% 16,6% 20,1%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Por fila
Por columna
DIAGRAMA DE DISPERSIÓN Y CORRELACIÓNANÁLISIS BIVARIADO DE VARIABLES CUANTITATIVAS
Bibliografía para esta sesión:
Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. Capítulo N°3
Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación
estadística. Capítulo N°14 y 15
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
Para el caso de las variables cuantitativas, al igual que con las variables
cualitativas debemos definir una variable dependiente y otra variable
independiente. Así, las variables cuantitativas son presentadas en pares
ordenados (x,y) donde x es la variable dependiente (o de entrada) e y la
variable dependiente (o de salida).
Sin embargo ¿cómo presentamos estos pares ordenados de mejor forma?
Mediante un diagrama de dispersión que es “una gráfica de todos los pares
ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de
entrada, x, se localiza en el eje horizontal, y la variable de salida, y, se localiza en el eje
vertical” (Johnson et al, 2008)
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
Fuente: Elaboración propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
Ingr
eso
del tr
abaj
o (
Eje
Y)
Edad (Eje Y)
Ingreso del trabajo según Edad
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
Fuente: Elaboración propia en base a datos CASEN 2011.
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
15 25 35 45 55 65 75 85
Ingr
eso
del tr
abaj
o (
Eje
Y)
Edad (Eje Y)
Ingreso del trabajo según Edad
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN
Lo que buscamos vislumbrar mediante el diagrama de dispersión es la
existencia de alguna relación entre estas variables, en específico si es que existe
correlación entre la variable dependiente y la variable independiente, la cual
puede ser entendida como el “cambio sistemático en las puntuaciones de dos
variables de intervalo/razón” (Ritchey, 2002:511).
En específico, buscamos correlación lineal, es decir, una relación lineal entre las
dos variables. Esta puede ser medida mediante el coeficiente de correlación
lineal, pero también puede presentarse gráficamente, analizando en detalle los
diagramas de dispersión.
ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN. TIPOS DE CORELACIÓN.
Correlación positiva
perfectaCorrelación negativa
perfecta
Correlación positiva
baja
Correlación positiva
media
No hay correlaciónNo hay correlación
ANÁLISIS BIVARIADOCORRELACIÓN LINEAL ¿QUÉ TIPOS DE CORRELACIÓN LINEAL PODEMOS ENCONTRAR?
Según Ritchey et al (2002), los tipos de correlación lineal presentados
anteriormente pueden ser definidos como:
Correlación positiva. Un incremento en x se relaciona con un incremento en y. En
específico, cuando x se incrementa, y tiene la tendencia a incrementarse.
Correlación negativa. Un incremento en x se relaciona con una reducción en y.
Conforme se incrementa x, y tiene una tendencia de disminuir.
Ausencia de correlación. Un incremento en x no se relaciona con las puntuaciones
de y. O sea, cuando aumenta x, las puntuaciones de y varían de forma aleatoria.
ANÁLISIS BIVARIADOCOEFICIENTE DE CORRELACIÓN R DE PEARSON
Si bien en el diagrama de dispersión podemos ver la existencia de correlación
lineal indicada principalmente por lo estrechamente que se acumulen los datos
en torno a una recta lineal. Mediante el coeficiente de correlación
bivariado r de Pearson (simbolizado como r si es muestral y si es
poblacional), el que mide “la estrechez del ajuste de las coordenadas x,y con
respecto a la recta de regresión. El grado al que las desviaciones de las puntuaciones
de las medias de X eY tienen a fluctuar conjuntamente” (Ritchey et al, 2002: 519).
ESTADÍSTICA DESCRIPTIVA
MÁS ALLÁ DE LAS TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS
Recuerda que siempre debes:
1. Leer los datos que resultan de tus análisis estadísticos (ya sea los
porcentajes, estadísticos descriptivos u otros). Léelos con atención y sin
apresurarte.
2. Analízalos, es decir, determina si existen tendencias, porcentajes
mayoritarios y si existe un patrón en los datos. Fíjate en cómo varían.
3. Interprétalos, intenta darles sentidos bajo la luz de la teoría (sociológica,
política, económica, etc), también puedes ligarlo al contexto actual de la
sociedad. Sin embargo, no debes sobreinterpretar los datos, o sea, no debes
sacar conclusiones apresuradas respecto de los datos. Utiliza la imaginación
sociológica
SOCIOLOGÍA E INVESTIGACIÓN SOCIAL:EN RESUMEN