1. clase nº1. repaso estadística descriptiva

RECORDANDO LA ESTADÍSTICA DESCRIPTIVA

Métodos Cuantitativos Avanzados

Nincen Figueroa

Carra de Ciencia Política

Universidad Diego Portales

[email protected]

Segundo semestre, 2014

ESTADÍSTICA Y CONSTRUCCIÓN DE DATOSALGUNOS CONCEPTOS BÁSICOS

Bibliografía para esta sesión: Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación estadística.

Capítulo N°2

Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial.

RECOLECCIÓN Y ANÁLISIS DE LOS DATOS

Definir los

objetivos de la

investigación

DEFINIR LA

VARIABLE Y LA

POBLACIÓN DE

INTERÉS

DEFINIR EL

ESQUEMA PARA

RECOLECTAR Y

MEDIR LOS DATOS

ANÁLISIS

DESCRIPTIVO, O

INFERENCIAL DE

LOS DATOS

Conclusiones

del análisis

estadísticoMuestreo, tipo de encuesta,

operacionalización de las

variables, etc.

• Uso de software (SPSS,

Stata, R, SAS)

• Lectura e interpretación

de los datos.

Publicación de los resultados

ALGUNOS CONCEPTOS BÁSICOS

RECORDATORIO:¿QUÉ ES LA ESTADÍSTICA?

Para Ritchey et al (2002) el campo de la estadística “es un conjunto de

procedimientos para reunir, medir, clasificar, codificar, computar, analizar y resumir

información numérica adquirida sistemáticamente” (1)

“La estadística implica aprender una nueva manera de ver las cosas, adquirir una

visión de la realidad basada en el análisis cuidado de hechos, en lugar de reacciones

emocionales ante experiencias aisladas” (2)

RECORDATORIO:¿QUÉ ES LA ESTADÍSTICA?

• Descriptiva:

Nos informa la cantidad de observaciones registradas y la frecuencia en las queocurre un fenómeno social determinado que presenta variabilidad. Nos permitesistematizar, recoger, ordenar y presentar datos para así poder descubrir odescribir las posibles regularidades que se presentan. Datos muestrales.

• Inferencial:

Nos permite extraer conclusiones sobre las relaciones matemáticas entre lascaracterísticas de un grupo de personas u objetos. Posibilita mostrar relacionesde causa-efecto, así como probar hipótesis y teorías científicas. Inferir, significasacar conclusiones sobre algo (Ritchey et al, 2002). Conclusiones sobre lapoblación

DOS CAMPOS DE ACCIÓN ESTADÍSTICA

POBLACIÓN Y MUESTRA:DEFINICIÓN

X

XX

X

X

X

XX

X

X

X

X

X

X

X

X

X

X

X

XX

XX

X

XX

X

X

XX

X

X

X

XX

X X

XX

X

XX

X

XX

X

XXX

X

X

Población o universo (N)

Muestra (n)

“Grupo grande de personas de interés

particular que deseamos estudiar y

entender” (Ritchey et al, 2002)

“Subgrupo pequeño de la población, la

muestra se observa y se mide y después se

utiliza para obtener conclusiones sobre la

población” (Ritchey et al, 2002)

POBLACIÓN Y MUESTRA:DEFINICIÓN

X

XX

X

X

X

XX

X

X

X

X

X

X

X

X

X

X

X

XX

XX

X

XX

X

X

XX

X

X

X

XX

X X

XX

X

XX

X

XX

X

XXX

X

X


Muestra (n)

“Es la colección, o conjunto, de individuos,

objetos o eventos cuyas propiedades serán

analizadas” (Johnson, 2008)

“Es el subconjunto de una población”

(Johnson, 2008)

POBLACIÓN Y MUESTRA:EJEMPLOS ENCUESTA UDP 2013

X

XX

X

X

X

XX

X

X

X

X

X

X

X

X

X

X

X

XX

XX

X

XX

X

X

XX

X

X

X

XX

X X

XX

X

XX

X

XX

X

XXX

X

X


Muestra (n)

Población de 18 años y más, residentes en 86

comunas de 20.000 habitantes de todas las

regiones, excluyendo Aysén del General Ibáñez

y Magallanes. Representa al 84,6 % de la

población urbana y al 73,6% de la población del

país.

Se entrevistó cara a cara a 1200

personas

POBLACIÓN Y MUESTRA:EJEMPLOS ENCUESTA NACIONAL DE ESTRATIFICACIÓN 2009

X

XX

X

X

X

XX

X

X

X

X

X

X

X

X

X

X

X

XX

XX

X

XX

X

X

XX

X

X

X

XX

X X

XX

X

XX

X

XX

X

XXX

X

X


Muestra (n)

El universo del estudio corresponde a la

población mayor de 18 años, residente en el

territorio chileno, la que alcanza a 11.965.990

de personas.

El tamaño muestral final a nivel de

hogares fue de 3.365 casos

POBLACIÓN Y MUESTRA:EJEMPLOS SEXTA ENCUESTA INJUV 2006

X

XX

X

X

X

XX

X

X

X

X

X

X

X

X

X

X

X

XX

XX

X

XX

X

X

XX

X

X

X

XX

X X

XX

X

XX

X

XX

X

XXX

X

X


Muestra (n)

El universo de este estudio está compuesto por

jóvenes, mujeres y hombres, de entre 15 a 29 años,

pertenecientes a todos los niveles

socioeconómicos, residentes en todas las regiones

del país, en zonas urbanas y rurales. Según las

proyecciones de población del INE para junio del

año 2009, este universo era de

4.208.399 personas.

El tamaño de la muestra fue de 7.570

casos

POBLACIÓN Y MUESTRA:TIPOS DE MUESTRA

Como se señaló, la muestra es un subconjunto de la población que sirve para

representarla. En ese sentido, es una parte de la población que nos suministra

información sobre esta, lo anterior porque en ocasiones el tamaño de la

población es demasiado grande para abarcarlo por lo que se recurre a

muestrear.

MUESTRA REPRESENTATIVA:

Muestra en la que todos los segmentos de la población están incluidos en la muestra en sus proporciones correctas respecto a la población (Ritchey et al, 2002)

MUESTRA NO REPRESENTATIVA:

Muestra en la que algunos segmentos de la población están representados en exceso o con defecto en la muestra (Ritchey et al, 2002)

MUESTRA Y MARCO MUESTRAL:DEFINICIONES

MARCO MUESTRAL

Refiere a la lista de lo elementos que conforman a la población de la que posteriormente se obtiene la muestra.

MUESTREO PROBABILÍSTICO

Son muestras en que los elementos a seleccionar se obtienen con base a la probabilidad de ser elegido, es decir, cada elemento tiene una determinada probabilidad de ser elegido.

MUESTREO ALEATORIO

Es uno de los métodos más comunes de las muestras probabilística. Todos los elementos de la población tienen la misma probabilidad de ser elegidos.

MUESTREO INTENCIONAL

Las muestras son elegidas con base en el hecho de que son “típicas”

MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO

Muestra aleatoria simple

• Es uno de los métodos más comunesde las muestras probabilística. Todoslos elementos de la población o delmarco muestral tienen la mismaprobabilidad de ser elegidos para suinclusión en la muestra. Elprocedimiento consiste en enumerarlos elementos y seleccionarlosaleatoriamente mediante una tabla denúmeros al azar o con númerosaleatorios generados por computador.

Muestra sistemática

• Las muestras sistemáticas determinanlas unidades seleccionadas de lamuestra mediante la aplicación de unintervalo de selección en las unidadesque configurar el marco muestra. Elintervalo (K) se determina según elnúmero de casos de la población (N) yde la población (n) mediante la fórmulaK=N/n.

MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO

Muestra estratificada proporcional

• Este tipo de muestreo se aplica cuandolas unidades de la población sedistribuyen según ciertos factores(estratos) que pueden influir ennuestro estudio y que queremosasegurar un número mínimo deindividuos de cada tipo.

• En cada estrato se elige una muestra al al azar siguiendo el mismo procedimiento que se utiliza en el m.a.s.

Muestra por conglomerados

• El muestreo por conglomerados esaquella muestra en la cual las unidadesde muestreo se presentan en gruposde forma natural.

• Este tipo de muestra se selecciona conel procedimiento usado en la muestraaleatoria simple o mediante laaplicación de un intervalo, como en lamuestra sistemática

MUESTRA Y MARCO MUESTRAL:TIPOS DE MUESTREO PROBABILÍSTICO. EJEMPLO ENCUESTA UDP 2013

MUESTRA Y MARCO MUESTRAL:TAMAÑO MUESTRAL

Existen fórmulas específicas para calcular el tamaño de una muestra cuando

disponemos de alguna información como la a) medida estadística principal sobre

la cual se focalizará el análisis de la encuesta (proporciones, medios aritméticos,

etc.); b) nivel del análisis (global, en subgrupos); c) magnitud del error que se

pretende tengan los valores calculados en la muestra; y d ) probabilidad que esos

valores o estimaciones tengan el error muestral deseado.

z= valor de sigma para la probabilidad solicitada

p= estimación del valor de la proporción en el universo

q=1-p

e2=error muestral

POBLACIÓN Y MUESTRA:EL ERROR ESTADÍSTICO

ERROR

ESTADÍSTICO:

Es el grado de imprecisión de los

procedimientos que utilizamos para

recolectar y procesar la información.

ERROR DE

MUESTREO:

Es la imprecisión o variación que resulta por no

observar a todos los sujetos de la

población y hacerlo a través de una

muestra.

ERROR DE

MEDICIÓN:

Inexactitud debido a inconsistencias o problemas en los instrumentos de

medición.

POBLACIÓN Y MUESTRA:PARÁMETRO Y ESTADÍSTICO

PARÁMETRO

• Valor o cálculo numérico que resume mediciones o datos de todos los sujetos de una población.

• Ejemplo: Número de hijos nacidos vivos del CENSO 2002

ESTADÍSTICO O ESTADÍGRAFO

• Valor o cálculo numérico que resume mediciones o datos de todos los sujetos de una muestra.

• Ejemplo: Número de hijos nacidos vivos de la CASEN 2009

VARIABLES Y VARIABILIDAD

Al realizar investigación, siempre se espera que haya variación del fenómeno

estudiado. Por ejemplo, si se mide la edad está irá cambiando a lo largo de la

población, nos encontraremos con personas que tienen 5, 18 o años. El análisis

estadístico tiene por objetivo medir la variabilidad de los datos.

Variable (o variable de respuesta)

Es una característica o propiedad de interés con cada elemento individual de una

población o muestra.

Es una característica observable que varía entre los diferentes individuos o elementos

de una población.

Dato

Valor de la Variable asociado a un elemento de una población o muestra.

CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN

Var

iable

Cualitativas

Nominal

Ordinal

Cuantitativa

Intervalos

De razón

Nivel de medición

“Identifica las propiedades de medición de la variable y determina el tipo de operaciones

matemáticas (suma, multiplicación, etc) que puede usarse apropiadamente con dicho nivel, así

como las formulas estadísticas que utiliza para probar las hipótesis teóricas” (Ritchey et al,

2002: 43)

TIPOS DE VARIABLES:VARIABLES CUALITATIVAS

Las variables cualitativas, también denominadas de atributos o categóricas son

variables que clasifican o describen elementos de una población. Sus valores

no se pueden asociar a un número y no se pueden realizar operaciones

algebraicas con ellas, ya que carecen de sentido.

Nominales, solo indican una diferencia en categoría, clase, calidad o tipo. No indica un

orden entre las categorías.

Ordinales, designan categorías, pero tienen la propiedad adicional de permitir clasificar

las categorías desde la mayor hasta la menor, de la mejor a la peor, de la primera a la

última. Sus valores se pueden ordenar.

TIPOS DE VARIABLES:VARIABLES CUANTITATIVAS

Las variables cualitativas, también denominadas numéricas son variables que

cuantifican un elemento de una población. Se pueden realizar operaciones

algebraicas con ellas, ya que tienen sentido en sus resultado.

Intervalos, tienen las características de las variables antes mencionadas y además una

unidad numérica de medición definida. La diferencia entre dos valores de datos

cualesquiera tiene un significado. Los datos en este nivel no tienen punto de partida

desde cero (donde nada de la cantidad este presente)

Razón, poseen las características de las variables de intervalo y un punto cero

verdadero que significa ausencia de atributo o ninguno.

Nota: SPSS las denominará como variables escala.

TIPOS DE VARIABLES:VARIABLES CUANTITATIVAS

Otra diferenciación posible de hacer entre las variables cuantitativas o

numéricas es la que se da entre variables discretas y variables continuas, es

decir, según su escala de medición.

Discretas, asumen un número finito de valores, en específico, valores enteros.

No asume la totalidad de valores de un intervalo de la recta, sino que puntos

aislados.

Continuas, asumen una cantidad incontable de valores. Si entre dos valores,

son posibles infinitos valores intermedios, los valores observables de la

variable son números reales (con decimales). Puede asumir cualquier valor a

lo largo de un intervalo de la recta.

TIPOS DE VARIABLES:EJEMPLOS

Nivel de

medición

Ejemplos Cualidades Operaciones matemáticas

permitidas

Nominal Género, raza, preferencia

religiosa, estado civil

Clasificación en dos

categorías, denominación de

categorías

Conteo del número (es decir, frecuencia)

de cada categoría de la variable,

comparación de tamaños de categorías

Ordinal Rango de clase social,

preguntas de actitud y

opinión

Clasificación de categorías,

ordenamiento de rangos de

categorías de bajo a alto

Todo lo anterior más juicios de mayor

que, menor que, y cálculos de diferencias

y promedios de rangos

Intervalo Temperatura, índices

resumidos, escalas de

actitud y opinión

Todo lo anterior más

distancias entre

puntuaciones tiene una

unidad fija de medida

Todo lo anterior más operaciones

matemáticas como suma, resta,

multiplicación, división y raíces cuadradas

Razón Peso, ingresos, edad,

escolaridad, tamaño de

población

Todo lo anterior y un punto

cero real

Todo lo anterior más el cálculo de

razones significativas.

Cuadro Características de los cuatros niveles de medición. Fuente: Ritchey et al, 2002.

CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN

Var

iable

Categorías nombradas

No clasificada Nominal

Clasificada Ordinal

Puntuaciones numéricas

Puntaciones clasificadas

Ordinal

Intervalo de medida (unidad) determinado

Sin punto cero real Intervalo

Punto cero real Razón

TIPOS DE VARIABLES:OTRAS FORMAS DE CLASIFICACIÓN

Según Nivel de Abstracción Generales o Teóricas, refieren a conceptos

Intermedias, refieren a dimensiones - subdimensiones

Empíricas, refieres a indicadores

Según la información recabada Abiertas

Cerradas

Función en la investigación Independientes, variable que explica

Dependientes, variable que debe ser explicada por la o las variables

independientes

Perturbadoras, son variables de las cuales no tenemos control sobre ellas y

pueden ser confundidas como explicativas. De control

Aleatorias

VARIABLES:ALGUNAS CONSIDERACIONES

Los posibles valores de una variable suelen denominarse categorías

Ejemplo: Religión posee los valores 1) Católica 2) Evangélico 3) Ninguna 4) Otra

Estas categorías pueden ser agrupadas en clases o grupos (intervalos)

Esos valores deben tener dos características esenciales:

Ser exhaustivos, es decir, los valores deben considerar todos los valores que puede tomar la variable sin olvidar ninguno.

Ser excluyentes, los valores no pueden presentarse simultáneamente en dos categorías.

Siempre debemos tratar de recolectar a un nivel de medición que nos permita mayor información.

Posibles valores que

puede tomar el

indicador.

OPERACIONALIZACIÓN DE LAS VARIABLES:DE LOS CONCEPTOS A INDICADORES

Proceso mediante el cual los conceptos teóricos pasan a ser conceptos

empíricos posibles de ser medidos y aprehendidos por instrumentos de

recolección de información. En específico, es ir de un nivel de abstracción

general a uno particular. Significa pasar de variables generales a indicadores.

VARIABLE O

CONCEPTODIMENSIONES INDICADORES ATRIBUTOS

Áreas, niveles o

características

generales de las

variables.

Referentes empíricos

de la variable a ser

medida.

ANTES DE EMPEZAR, RECORDEMOS…CLASIFICACIÓN DE VARIABLES SEGÚN NIVEL DE MEDICIÓN

Var

iable

Cualitativas

Nominal

Ordinal

Cuantitativa

Intervalos

De razón

Nivel de medición

“Identifica las propiedades de medición de la variable y determina el tipo de operaciones

matemáticas (suma, multiplicación, etc) que puede usarse apropiadamente con dicho nivel, así

como las formulas estadísticas que utiliza para probar las hipótesis teóricas” (Ritchey et al,

2002: 43)

REPRESENTACIONES GRÁFICASANÁLISIS UNIVARIADO DE VARIABLES CUALITATIVAS

Bibliografía para esta sesión:

Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación

estadística.

Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial.

REPRESENTACIONES GRÁFICAS

EJEMPLOS CASEN 2011

Un mal ejemplo de un gráfico es…

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

S. Público

FONASA

Grupo A

S. Público

FONASA

Grupo B

S. Público

FONASA

Grupo C

S. Público

FONASA

Grupo D

S. Público

FONASA no

sabe grupo

F.F.A.A. y del

Orden

ISAPRE Ninguno

(particular)

Otro sistema No sabe

REPRESENTACIONES GRÁFICAS

EJEMPLOS CASEN 2011

Un buen ejemplo de un gráfico es…

81.0

12.92.6 2.0

0.0

10.0

20.0

30.0

40.0

50.0

60.0

70.0

80.0

90.0

Sistema Público (FONASA) ISAPRE Ninguno (particular) F.F.A.A. y del Orden

Porc

enta

je

SISTEMA PREVISIONAL AL QUE SE PERTENECE, 2011a

(EN PORCENTAJES)

Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011. a La pregunta original es: s17. ¿A qué sistema previsional de salud pertenece usted? La categoría Otro Sistema y los No Sabe

GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE TORTA O PASTEL

Un gráfico de pastel es “un círculo que se divide su punto central, donde cada

rebanada presenta la frecuencia proporcional de determinada categoría de una

variable nominal/ordinal” (Ritchey et al, 2002:80).

Nos permite develar de mejor forma el sentido relativo respecto del todo de las

categorías, es decir, nos permite de mejor manera ver la igualdad o desigualdad

entre las categorías de una variable.

Para interpretarlo, es bueno fijarse en las porciones más grandes de la torta , o

sea, señalar las categorías con mayor frecuencia y comparar los tamaños entre

ellas.

GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE TORTA O PASTEL. EJEMPLOS.

2.8

11.7

85.6

SITUACIÓN DE POBREZA, 2011

(EN PORCENTAJES)

Pobres extremos Pobres no extremos No pobres

Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.

82.8

14.2

TENENCIA CONTRATO EN TRABAJO PRINCIPAL, 2011a

(EN PORCENTAJES)

Sí, firmó No tiene

Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011. a La pregunta original es: o17. En su trabajo principal, ¿tiene contrato de trabajo

escrito?. Las categorías Sí, pero no ha firmado y No se acuerda o no sabe si no

firmó contrato completan el 100%.

GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE BARRAS.

Un gráfico de barras “se compone de una serie de barras verticales u horizontales

donde la longitud de la barra representa la frecuencia porcentual de una categoría de

una variable nominal/ordinal” (Ritchey et al, 2002:83).

Este tipo de gráfico nos permite comparar las distintas categorías de mejor

manera, o sea, nos permite ver la competencia entre las categorías del gráfico.

Para interpretarlo debemos observar la altura de las categorías de la variable, tal

como en el gráfico de torta, desde el con mayor frecuencia (o porcentaje) hasta

las menores.

GRÁFICOS PARA DATOS NOMINALES/ORDINALES:GRÁFICOS DE BARRAS. EJEMPLOS.

46.9

41.3

11.9

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

45.0

50.0

Sí, con subsidio

habitacional

No,sólo con

recursos propios

No, la recibió de

herencia o traspaso

Porc

enta

jes

MODALIDAD COMPRA VIVIENDA, 2011a

(EN PORCENTAJES)

Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.a La pregunta original es: v10 ¿Compró la vivienda con ayuda de algún

programa habitacional o subsidio del estado?

61.3

17.721.0

0.0

10.0

20.0

30.0

40.0

50.0

60.0

70.0

Sí, prepago Sí, contrato No

TENENCIA DE TELÉFONO MÓVIL, 2011a

(EN PORCENTAJES)

Fuente: Elaboración propia en base a datos de Encuesta CASEN 2011.a La pregunta original es: r19 ¿Tiene Ud. Teléfono móvil en

funcionamiento y en uso?

GRÁFICOS PARA DATOS NOMINALES/ORDINALES:UNA ADVERTENCIA ¡CUIDADO CON LA ESCALA Y LA PROPORCIÓN!

Es importante tener en consideración la escala que se utiliza en los gráficos y no

realizar ninguna distorsión. Si se hace implica problemas graves de interpretación

y presentación de los datos.

48.0

48.5

49.0

49.5

50.0

50.5

51.0

51.5

52.0

Hombre Mujer

Porc

enta

jes

SEXO DEL ENTREVISTADO, 2013

Fuente: Elaboración propia en base a datos de Encuesta UDP2013.

¿Existe en realidad una diferencia tan pronunciada entre hombres y mujeres en la

muestra de la encuesta UDP?

DISTRIBUCIÓN DE FRECUENCIAS

ANÁLISIS DE VARIABLES CUALITATIVAS O CUANTITATIVAS


Johnson, R., & Kuby, Patricia. H. (2008). Estadística elemental: lo esencial.

Se encuestaron a 30 familias sobre el número de camas que poseían al interior

de la vivienda, obteniendo los siguientes datos.

DISTRIBUCIONES DE FRECUENCIASEJEMPLOS. DISTRIBUCIÓN DE FRECUENCIAS NO AGRUPADA.

Xi(N° de camas)

fi

0 2

1 4

2 6

3 7

4 5

5 3

6 3

Total 30

X representa a una variable, en el ejemplo

número de camas en la vivienda.

f es el nº de veces que aparece el valor en la

muestra (frecuencia)

Frecuencia o frecuencia absoluta. La frecuencia que se presentó

anteriormente es la denominada frecuencia absoluta que representa el número de

veces que presenta un valor o una categoría de una variable. Este tipo de

frecuencia se representa con fi.

Frecuencia relativa. Representada por fr , la frecuencia relativa es aquella que

se expresa en términos de porcentajes o proporciones respecto del total de

casos. Es decir, la frecuencia relativa expresa que proporción del total representa

fi. Por ejemplo, si tenemos un total de n datos, la frecuencia absoluta (fi) de una

categoría de una variable representará una proporción fr. Para la realización del

cálculo debemos considerar:

DISTRIBUCIONES DE FRECUENCIASTIPOS DE DISTRIBUCIÓN DE FRECUENCIAS.

𝑓𝑟 =𝑓𝑖

𝑛

DISTRIBUCIONES DE FRECUENCIASEJEMPLO FRECUENCIA RELATIVA.

Se encuestaron a 30 familias sobre el número de camas que poseían al interior

de la vivienda, obteniendo los siguientes datos.

Xi(N° de camas)

fi fr(Proporción)

fr(Porcentaje)

0 2 0,067 6,7%

1 4 0,133 13,3%

2 6 0,200 20,3%

3 7 0,233 23,3%

4 5 0,167 16,7%

5 3 0,100 10,0%

6 3 0,100 10,0%

Total 30 1,00 100,0%

DISTRIBUCIONES DE FRECUENCIASOTROS TIPOS DE DE FRECUENCIAS.

Frecuencia absoluta acumulada. Para variables cuantitativas o de tipo

cualitativa ordinal, es posible también calcular la frecuencia absoluta acumulada

que puede ser definida como el número de veces en que un valor menor

(mayor) o igual que alguno determinado ha aparecido en la muestra. Se denota

por Fi

Frecuencia relativa acumulada. De igual forma, es posible calcular la

frecuencia relativa acumulada que al igual que la frecuencia anterior es el número

de veces en que un valor menor (mayor) o igual que alguno ha aparecido en la

muestra, expresado en proporciones. Lo denotamos por Fri .También podemos

expresarlo en forma de porcentaje acumulado.

F𝑘 =f1+ f2+ f3+… + fn

Fr𝑘 =fr1+ fr2+ fr3+… + frn

Utilizando los datos de las 30 familias que respondieron sobre el número de

camas que poseían al interior de la vivienda, se obtiene lo siguiente.

DISTRIBUCIONES DE FRECUENCIASOTROS TIPOS DE DE FRECUENCIAS. EJEMPLOS.

Xi(N° de camas)

fi Fifr

(Proporción)Fr

fr(Porcentaje)

Porcentaje

acumulado

0 2 2 0,067 0,067 6,7% 6,7%

1 4 6 0,133 0,200 13,3% 20%

2 6 12 0,200 0,400 20,3% 40%

3 7 19 0,233 0,633 23,3% 63,3%

4 5 24 0,167 0,800 16,7% 80%

5 3 27 0,100 0,900 10,0% 90%

6 3 30 0,100 1,000 10,0% 100%

Total 30 1,00 100,0%

ESTADÍSTICOS DESCRIPTIVOS

ANÁLISIS DE VARIABLES CUANTITATIVAS


Johnson, R., & Kuby, Patricia. H. (2008). Estadística elemental: lo esencial.

Var

iable

s cu

antita

tiva

sMedidas de

posición

Medidas de tendencia central

Medidas de tendencia no

central

Medidas de dispersión o

variación

Medidas de forma

ESTADÍSTICA DESCRIPTIVA

ANÁLISIS DE VARIABLES CUANTITATIVAS (INTERVALO/RAZÓN)

Var

iable

s cu

antita

tiva

s

Medidas de posición

Medidas de tendencia central

Media

Mediana

Moda

Medidas de tendencia no

central

Cuartiles

Percentiles

Deciles

Medidas de dispersión o

variación

Rango

Varianza

Desviación Estándar

Coeficiente de variación

Medidas de forma

Asimetría

Curtosis

MEDIDAS DE TENDENCIA CENTRAL

¿QUÉ ENTENDEMOS POR TENDENCIA CENTRAL?

Una medida de tendencia central es aquel valor que se localiza en el centro o a la

mitad de un determinado conjunto de datos. En general, los estadísticos de

tendencia central proporcionan una estimación de una puntación que puede

ser típica, común o normal.

Para determinar el centro de una determinada distribución de datos, existen

determinadas medidas de tendencia central. Entre estas podemos mencionar la

media, mediana, moda y la mitad de rango.


DESVENTAJAS LA MEDIA ARITMÉTICA.

Desventajas

• Como vimos en el ejemplo de los ingresos mensuales, la media puede versedistorsionada por valores extremos (máximos o mínimos) o sesgos en ladistribución. Cuando sucede esto, es preferible la utilización de este estadísticocon otros como la mediana o la moda.

Ventajas

• Entre las ventajas de la media se cuenta que en su cálculo se involucran latotalidad de los valores 𝑥 de la distribución.

• Por otra parte, a diferencia de otras medidas como la moda, es única para unadistribución determinada.

• Se presenta como una buena forma de analizar la totalidad de los datos ya quees el centro de gravedad de la distribución.


DESVENTAJAS DE LA MEDIANA.

Desventajas

• No utiliza la totalidad de los valores de 𝑥 para su cálculo, por lo que esinsensible a los valores de las puntuaciones de una distribución

• Al depender del número de casos de la distribución, cualquier cambio en eltamaño de la muestra puede afectar este estadístico.

Ventajas

• No es sensible a valores extremos, por lo que permite trabajar endistribuciones de frecuencias con algún sesgo o con la existencia de valoresextremos.


DESVENTAJAS DE LA MODA.

Desventajas

• A diferencia de la media, en una determinada distribución de frecuencias puedeexistir más de una moda.

• Al igual que la mediana, no utiliza todos los valores disponibles sino que soloalgunos (el que más se repite)

Ventajas

• Al igual que la mediana, en su identificación no influyen los valores extremos porlo que no es sensible a los sesgos de la distribución.

MEDIDAS DE DISPERSIÓN

LA DESVIACIÓN ESTÁNDAR

La desviación estándar “describe la forma en que las puntuaciones de una

variable de intervalo/razón se dispersan por la distribución en relación con la

puntuación media” (Ritchey et al, 2002: 140). En otras palabras, la desviación

estándar de datos muestrales es un tipo de desviación promedio de los valores con

respecto de la media.

MEDIDAS DE DISPERSIÓN

LA DESVIACIÓN ESTÁNDAR ¿CÓMO INTERPRETARLA?

Para interpretar la desviación estándar debemos tener algunas consideraciones

previas, entre estas Triola (2009) señala las siguientes:

1. La desviación estándar se presenta como una medida de dispersión o variabilidad de

los valores de una variable determinada con respecto a la media (siempre se deben

interpretar conjuntamente).

2. Los valores posibles de la desviación estándar siempre serán positivos, nunca

negativos. Si se obtiene un valor de desviación estándar igual a cero significa que los

valores de los datos son el mismo número.

3. Valores grandes de desviación estándar implica que existe mayor cantidad de

variación.

4. Al ser una medida respecto de la media, al igual que esta es sensible a los datos

extremos, por lo que cambiará drásticamente si se incluyen valores extremos.

5. Las unidades de la desviación estándar serán las mismas que los datos originales, es

decir, minutos, años, kilogramos, puntos de evaluación, etc.

Las medidas de posición nos permiten describir la posición de un dato

específico en relación al resto de los otros datos de la distribución de

datos. En particular, este tipo de medidas nos permiten visualizar una

distribución de puntuaciones como fraccionada o “fracturada” en grupos que

están arriba y debajo de una puntuación.

Los llamados cuantiles son “puntuaciones que separan una fracción de los casos de

una distribución” (Ritchey, 2002:59). Estos refieren a la división de la distribución

en grupos (partes) de igual tamaño, es decir, con igual porcentajes de casos.

Los más conocidos son los cuartiles, deciles, deciles y percentiles

MEDIDAS DE POSICIÓN

¿QUÉ ES UNA MEDIDA DE POSICIÓN? ¿QUÉ SON LOS CUANTILES?

MEDIDAS DE FORMA¿QUÉ SON LAS MEDIDAS DE FORMA?

Como vimos anteriormente, los valores de la media, mediana y moda nos

permiten conocer la forma de la distribución, en específico si la distribución

posee algún sesgo o es simétrica. Recordemos que una distribución simétrica es

una en la cual los valores de la media, mediana y moda coinciden, así como

también la cantidad de datos a la izquierda es igual a la derecha.

En específico, las medidas de forma nos proporcionan información numérica

sobre la forma de la distribución, su simetría y su apuntamiento o curtosis.

Principalmente, nos informan si es que la distribución de datos analizada se

acerca o aleja de una distribución normal (Campana de Gauss).

¿ ?

MEDIDAS DE FORMAASIMETRÍA O DEFORMACIÓN

En una distribución simétrica (o normal) la cantidad de observaciones de la

variable se encuentran igualmente repartidas, es decir, tanto al lado izquierdo

como derecho de la distribución se encuentra la misma proporción de

observaciones. Sin embargo, existen distribuciones que no ocurre tal situación,

por lo que reciben el nombre de distribuciones asimétricas.

La asimetría de una distribución puede calcularse de dos formas, una es con la

medida de asimetría de Fisher o con la medida de asimetría de

Pearson. Cuyas fórmulas son:

Medida de Fisher Medida de Pearson

3

3

*

)(

sn

xxAS

i

s

ModaxAS

MEDIDAS DE FORMAASIMETRÍA O DEFORMACIÓN ¿CÓMO LA INTERPRETAMOS?

AS<0 AS=0 AS>0

MEDIDAS DE FORMACURTOSIS O COEFICIENTE DE APUNTAMIENTO

La curtosis mide hasta qué punto las observaciones de la variable se acumulan

en la parte central de la distribución de los datos. Al igual que con la asimetría, la

distribución de comparación es la distribución normal, en específico nos

interesa saber si la distribución es muy “achatada” o “puntiaguda”. Las

distribuciones pueden tomar la forma de una distribución:

Mesocúrtica (concentración normal)

Leptocúrtica (gran concentración)

Platicúrtica (baja concentración)

La forma de cálculo es mediante la siguiente fórmula:

3*

)(4

4

sn

xxK

i

MEDIDAS DE FORMACURTOSIS O COEFICIENTE DE APUNTAMIENTO. FORMAS.

K>0 K=0 K<0

Más apuntada que lo

normal

Normal Menos apuntada que lo

normal

TABLAS DE CONTINGENCIAANÁLISIS BIVARIADO DE VARIABLES CUALITATIVAS


Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. Capítulo N°3

Agresti,A., & Franklin, C.A. (2007). Statistics: the art and science of learning from data. Capítulo N°3

Weiss, N.A. (2011). Elementary Statistics. Capítulo N°12.3

ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA?

Las tablas de contingencia buscan describir la relación entre dos variables

cualitativas. A estas se le conocen también como tablas de doble entrada, tablas

cruzadas o tablas de frecuencia conjunta. Al ser una tabla bidireccional, involucra

dos dimensiones o dos variables que se encuentran cruzadas.

B1 B2 … BJ

A1 n11 n12 … n1j

A2 n21 n22 … n2j

… … … … …

AI ni1 ni2 … nij

Distribución conjunta o

distribución condicional


La tabla muestra dos variables, en las filas (horizontales) se encuentra la variable

A y en las columnas (verticales) la variable B. En las celdas representadas por nij

se indican el número de observaciones que presentan las características tanto de

la variable A y la variable B.

En general, las celdas pueden contener la frecuencia absoluta o relativa del cruce

entre las filas y las columnas.

Lo que nos interesa conocer es: ¿existe relación entre las variable A y la variable

B? ¿hay asociación entre estas variables?

Tabla de contingencia NSE * EN GENERAL, ¿USTED DIRÍA QUE ES...?

EN GENERAL, ¿USTED DIRÍA QUE ES...?

Nada Feliz No Muy Feliz Bastante Feliz Muy Feliz

NSE ABC1 0 8 141 54

C2 2 37 180 84

C3 6 135 447 247

D 9 176 323 168

E 17 137 242 110


En su construcción, las tablas de contingencia generalmente ubican la variable

independiente en las filas y la variable dependiente en las columnas. Sin

embargo, esto puede quedar a criterio del investigador privilegiando la lectura e

interpretación adecuada de la tabla.

Otro punto a considerar, es la existencia de los totales en las tablas de

contingencia. Que indican el total fila y de columna.



TotalNada Feliz

No Muy

Feliz

Bastante

Feliz Muy Feliz

NSE ABC1 0 8 141 54 203

C2 2 37 180 84 303

C3 6 135 447 247 835

D 9 176 323 168 676

E 17 137 242 110 506

Total 34 493 1333 663 2523

Distribución marginal

ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA? ¡LOS PORCENTAJES!

Sin embargo, para una mejor lectura e interpretación de los datos debemos

pensar proporcionalmente por lo que las tablas de contingencia se

construyen con la frecuencia relativa, es decir, con porcentajes en cada una de las

celdas. Estos pueden ser solicitados:

Por fila

Por columna

Por el total


% del total


TotalNada Feliz No Muy Feliz Bastante Feliz Muy Feliz

NSE ABC1 ,3% 5,6% 2,1% 8,0%

C2 ,1% 1,5% 7,1% 3,3% 12,0%

C3 ,2% 5,4% 17,7% 9,8% 33,1%

D ,4% 7,0% 12,8% 6,7% 26,8%

E ,7% 5,4% 9,6% 4,4% 20,1%

Total 1,3% 19,5% 52,8% 26,3% 100,0%

Por total

ANÁLISIS BIVARIADO¿QUÉ SON LAS TABLAS DE CONTINGENCIA? ¡LOS PORCENTAJES!


% dentro de NSE


TotalNada Feliz No Muy Feliz Bastante Feliz Muy Feliz

NSE ABC1 3,9% 69,5% 26,6% 100,0%

C2 ,7% 12,2% 59,4% 27,7% 100,0%

C3 ,7% 16,2% 53,5% 29,6% 100,0%

D 1,3% 26,0% 47,8% 24,9% 100,0%

E 3,4% 27,1% 47,8% 21,7% 100,0%

Total 1,3% 19,5% 52,8% 26,3% 100,0%


% dentro de EN GENERAL, ¿USTED DIRÍA QUE ES...?


TotalNADA FELIZ

NO MUY

FELIZ

BASTANTE

FELIZ MUY FELIZ

NSE ABC1 1,6% 10,6% 8,1% 8,0%

C2 5,9% 7,5% 13,5% 12,7% 12,0%

C3 17,6% 27,4% 33,5% 37,3% 33,1%

D 26,5% 35,7% 24,2% 25,3% 26,8%

E 50,0% 27,8% 18,2% 16,6% 20,1%

Total 100,0% 100,0% 100,0% 100,0% 100,0%

Por fila

Por columna

DIAGRAMA DE DISPERSIÓN Y CORRELACIÓNANÁLISIS BIVARIADO DE VARIABLES CUANTITATIVAS


Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. Capítulo N°3

Ritchey, F. J., & Cosío Martínez, E. R. (2002). Estadísticas para las ciencias sociales: El potencial de la imaginación

estadística. Capítulo N°14 y 15

ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN

Para el caso de las variables cuantitativas, al igual que con las variables

cualitativas debemos definir una variable dependiente y otra variable

independiente. Así, las variables cuantitativas son presentadas en pares

ordenados (x,y) donde x es la variable dependiente (o de entrada) e y la

variable dependiente (o de salida).

Sin embargo ¿cómo presentamos estos pares ordenados de mejor forma?

Mediante un diagrama de dispersión que es “una gráfica de todos los pares

ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de

entrada, x, se localiza en el eje horizontal, y la variable de salida, y, se localiza en el eje

vertical” (Johnson et al, 2008)


Fuente: Elaboración propia en base a datos CASEN 2011.

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

15 25 35 45 55 65 75 85

Ingr

eso

del tr

abaj

o (

Eje

Y)

Edad (Eje Y)

Ingreso del trabajo según Edad


Lo que buscamos vislumbrar mediante el diagrama de dispersión es la

existencia de alguna relación entre estas variables, en específico si es que existe

correlación entre la variable dependiente y la variable independiente, la cual

puede ser entendida como el “cambio sistemático en las puntuaciones de dos

variables de intervalo/razón” (Ritchey, 2002:511).

En específico, buscamos correlación lineal, es decir, una relación lineal entre las

dos variables. Esta puede ser medida mediante el coeficiente de correlación

lineal, pero también puede presentarse gráficamente, analizando en detalle los

diagramas de dispersión.

ANÁLISIS BIVARIADODIAGRAMA DE DISPERSIÓN Y CORRELACIÓN. TIPOS DE CORELACIÓN.

Correlación positiva

perfectaCorrelación negativa

perfecta


baja


media

No hay correlaciónNo hay correlación

ANÁLISIS BIVARIADOCORRELACIÓN LINEAL ¿QUÉ TIPOS DE CORRELACIÓN LINEAL PODEMOS ENCONTRAR?

Según Ritchey et al (2002), los tipos de correlación lineal presentados

anteriormente pueden ser definidos como:

Correlación positiva. Un incremento en x se relaciona con un incremento en y. En

específico, cuando x se incrementa, y tiene la tendencia a incrementarse.

Correlación negativa. Un incremento en x se relaciona con una reducción en y.

Conforme se incrementa x, y tiene una tendencia de disminuir.

Ausencia de correlación. Un incremento en x no se relaciona con las puntuaciones

de y. O sea, cuando aumenta x, las puntuaciones de y varían de forma aleatoria.

ANÁLISIS BIVARIADOCOEFICIENTE DE CORRELACIÓN R DE PEARSON

Si bien en el diagrama de dispersión podemos ver la existencia de correlación

lineal indicada principalmente por lo estrechamente que se acumulen los datos

en torno a una recta lineal. Mediante el coeficiente de correlación

bivariado r de Pearson (simbolizado como r si es muestral y si es

poblacional), el que mide “la estrechez del ajuste de las coordenadas x,y con

respecto a la recta de regresión. El grado al que las desviaciones de las puntuaciones

de las medias de X eY tienen a fluctuar conjuntamente” (Ritchey et al, 2002: 519).

ESTADÍSTICA DESCRIPTIVA

MÁS ALLÁ DE LAS TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS

Recuerda que siempre debes:

1. Leer los datos que resultan de tus análisis estadísticos (ya sea los

porcentajes, estadísticos descriptivos u otros). Léelos con atención y sin

apresurarte.

2. Analízalos, es decir, determina si existen tendencias, porcentajes

mayoritarios y si existe un patrón en los datos. Fíjate en cómo varían.

3. Interprétalos, intenta darles sentidos bajo la luz de la teoría (sociológica,

política, económica, etc), también puedes ligarlo al contexto actual de la

sociedad. Sin embargo, no debes sobreinterpretar los datos, o sea, no debes

sacar conclusiones apresuradas respecto de los datos. Utiliza la imaginación

sociológica

SOCIOLOGÍA E INVESTIGACIÓN SOCIAL:EN RESUMEN

1. clase nº1. repaso estadística descriptiva

Documents