clase 2

53
CLASE 2 Juan León Jara Almonte UARM

Upload: karperlar

Post on 10-Jul-2015

131 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 2

CLASE 2

Juan León Jara Almonte

UARM

Page 2: Clase 2

Investigación Social

• La investigación social es el proceso en el que aplicamos el método científico para el estudio de problemas sociales (educación, salud, empleo, pobreza, entre otros). Busca generar nuevos conocimientos en los temas estudiados sobre diferentes grupos de individuos en nuestra sociedad (población afro-peruana).

Page 3: Clase 2

Enfoques de Investigación Social

• Los principales enfoques de investigación social son:

– Investigación Cuantitativa: busca poner a prueba teorías o hipótesis, identificar relaciones causales o asociaciones, y busca hacer predicciones.

– Investigación Cualitativa: busca entender e interpretar relaciones y/o interacciones de diferentes individuos o grupos sociales.

– Investigación Mixta (Cuantitativa y Cualitativa): uso tanto de métodos cuantitativos y cualitativos para poder tener un mejor entendimiento de la pregunta y/o objeto de estudio.

Page 4: Clase 2

Diseños de Investigación Cuantitativa

• Los diseños de investigación cuantitativa son:

– Descriptiva: busca dar información respecto a un fenómeno (encuestas de medio y/o fin del curso).

– Correlacional: busca determinar la asociación entre dos o más variables pero no busca probar causalidad (¿cuál es el efecto de la desnutrición en el rendimiento de los estudiantes?)

– Cuasi-experimental: busca determinar relaciones de causa-efecto pero las variables objeto del estudio no pudieron ser manipuladas por el investigador (¿Cuál es el impacto de las clases de música en el autoestima de los estudiantes?)

– Experimental: busca determinar relaciones de causa-efecto y las variables objeto del estudio pudieron ser manipuladas por el investigador (¿Cuál es el impacto de los desayunos escolares en el rendimiento de los estudiantes?)

Page 5: Clase 2

Diseños de Investigación Cualitativa

• Los principales diseños de investigación cualitativa son:

– Fenomenología: busca determinar que aspectos comunes hay entre los diferentes individuos que son parte del estudio y busca dar un alcance de como un individuo o grupo de individuos vivieron o experimentaron el fenómeno de estudio (¿Cómo viven los docentes la enseñanza en zonas rurales?)

– Etnografía: busca descubrir o describir los valores, practicas, rituales, normas, entre otros de un grupo de individuos o sociedad (¿Cómo es el proceso de enseñanza y los resultados que obtienen los estudiantes de escuelas bilingües en nuestro país?)

– Teoría fundamentada (Grounded Theory): busca construir y verificar una teoría (¿Cuáles son los mecanismos que usan los estudiantes que vienen provincia para adaptarse en universidades de Lima Metropolitana?)

– Casos de estudio: busca dar información detallada sobre un individuo o grupos de individuos (¿Cómo viven la etapa universitaria las mujeres en las diferentes concentraciones de estudio?)

Page 6: Clase 2

CONCEPTOS Y FUNDAMENTOS BÁSICOS EN ANÁLISIS ESTADÍSTICO

DESCRIPTIVO

Page 7: Clase 2

¿Por qué hacer análisis descriptivo?

¿ Qué hacer con estos datos?

Page 8: Clase 2

Estadística DescriptivaCuando se hace una recolección de datos, al final se cuenta con una base de datos quepor si sola no dice nada y necesita ser trabajada para poder tener información acercade lo que se recogió en campo.

De esta manera, el análisis descriptivo de una base de datos sirve para tal fin, nospermite describir la información recogida en campo. Asimismo, el tipo de análisisdescriptivo que se realiza dependerá del tipo de variable que se está analizando.

Los tipos de análisis descriptivo que se pueden realizar son:

Medidas de tendencia central (p.ej.: media)

Medidas de dispersión (p.ej.: varianza)

Comparación de medias:

Test Paramétricos (p.ej.: ANOVA)

Test No Paramétricos (p.ej.: Chi cuadrado)

Page 9: Clase 2

Tipos de Variables

Los tipos de variables son:

Variables Cuantitativas

Variables Cualitativas

Page 10: Clase 2

Variables Cuantitativas

Los valores de este tipo de variables son números que se pueden ordenar y/o comparar de menor a mayor. Este tipo de variables se pueden dividir en dos:

• Discretas: aquellas que pueden tomar solo valores enteros, como por ejemplo: Número de hijos, Años de escolaridad.

• Continuas: aquellas que pueden tomar cualquier valor dentro de los números reales, como por ejemplo: la estatura de un grupo de personas, el nivel de ingresos de las personas en Lima metropolitana, entre otras.

Page 11: Clase 2

Variables Cualitativas

• Estas variables representan características y/o atributos de una persona, lugar o cosa. No se pueden ordenar, lo que implica que ningún valor que tome es mayor o menor que el otro.

• Algunos ejemplos de este tipo de variables son: el género, estado civil, etnicidad, entre otras.

Page 12: Clase 2

TIPOS DE VARIABLES

CUANTITATIVAS CUALITATIVAS (NOMINALES)

ORDINALES CONTINUAS (INTERVALOS / RAZON)

•Número de alumnos•Nivel educativo•Niveles de bienestar

•Nivel de ingresos.•La estatura de una persona•Tiempo de duración de unexamen.

•Sexo•Lugar de residencia.•Tipo de institución educativa(público o privada)

Page 13: Clase 2

Medidas de tendencia central (i)

Las medidas de tendencia central nos muestran alrededor de qué punto se agrupan la mayoría de las observaciones de una variable.

Las medidas de tendencia central más usadas son: Media

Mediana

Moda

Page 14: Clase 2

Medidas de tendencia central (ii)

Media aritmética: es el valor promedio de una serie de datos, el cual se obtiene dividendo la suma de los valores de la variable entre el número de observaciones.

Por ejemplo: 1, 2, 3, 4, 6, 8

∑ = 24 , N=6, Media = 4

N

x

N

xxxxxX

N

i

i

NN 11321 ........

Page 15: Clase 2

Medidas de tendencia central (iii)

Mediana: La mediana de una variable es el valor quedivide los datos en dos partes iguales. El número deobservaciones menores a la mediana es igual alnumero de observaciones mayores a esta.

Por ejemplo: 1, 6, 12, 72, 144

Mediana: 12

Cuando se cuenta con una serie de datos par, lamediana es el promedio de los números del medio.

Page 16: Clase 2

Medidas de tendencia central (iv)

Moda: es el valor de una variable que se presenta con mayor frecuencia en la variable.

Por ejemplo: 1, 2, 3, 3, 3, 3, 3, 4, 5, 6

Moda: 3

Page 17: Clase 2

Medidas de dispersión (i)

Medidas que permiten medir la variabilidad que presenta los valores de una variable, es decir, nos dan un alcance de la dispersión de los datos.

Las medidas de dispersión más usadas son: La varianza

La desviación estándar

El coeficiente de variación

Page 18: Clase 2

Medidas de dispersión (ii)

Varianza: es la medida de dispersión de unavariable, es decir son las diferencias entre el valorobservado y su valor medio o esperado alcuadrado. Suele denotarse con la letra griegasigma ( σ ) elevada al cuadrado.

Donde X es la variable que estamos analizando yn es el número de observaciones

1

)()(

2

2

n

XXVar

x

Page 19: Clase 2

Medidas de dispersión (iii)

Desviación estándar: es la raíz cuadrada de lavarianza. Al igual que la varianza, sueledenotarse con la letra griega sigma.

Donde X es la variable que estamosanalizando y n el numero de observaciones.

1

)()(

2

n

XXDE

x

Page 20: Clase 2

Medidas de dispersión (iv)

Coeficiente de variación (CV): se utiliza paracomparar la dispersión de dos distribucionesdistintas dado que elimina la escala (p.ej.:kilogramos, metros) de las variables que secomparan.

El CV se obtiene del ratio de la desviación estándarde una variable y su media.

X

XVar

XMedia

EDXVC

)(..).(.

Page 21: Clase 2

Ejemplo utilizando las bases de datos de la Evaluación Nacional del 2004

Utilizando los puntajes en comunicación de las siguientesInstituciones Educativas:

Promedio 1 > Promedio de 2

C.V. de 1 > C.V. de 2

Número de observaciones

Desviación estándar

N estudiantes Media DE CV

Institución Educativa 1 5 292.7 52.9 0.18

Institución Educativa 2 30 274.4 66.8 0.24

Page 22: Clase 2

Ejemplo usando diferentes variables

N Edad (años) Estatura (cm) Peso (kg)

1 18 167 60

2 35 172 85

3 20 160 70

4 46 184 67

5 51 167 55

6 24 171 74

Media

DE

Varianza

CV

Page 23: Clase 2

Ejemplo usando diferentes variables

N Edad (años) Estatura (cm) Peso (kg)

1 18 167 60

2 35 172 85

3 20 160 70

4 46 184 67

5 51 167 55

6 24 171 74

Media 32 170 69

DE 13.9 8.0 10.6

Varianza 193.9 63.8 112.3

CV 0.43 0.05 0.15

Mayor Variación

Page 24: Clase 2

Normalidad de una variable

• Para ver si una variable sigue una distribución normal, se puede realizar una prueba estadística como el Kolmogorov-Smirnovtest, Jarque-Bera tests, entre otros.

• Lo que todas estas pruebas o tests tienen en común es que evalúan la existencia de normalidad a partir de dos estadísticos: Skewness y la Kurtosis.

Page 25: Clase 2

Skewness y Kurtosis• La skewness es una medida de simetría de la

distribución de una variable. Así, una variable se le llama simétrica si la distribución luce similar tanto por encima como por debajo del promedio.

• Los tipos de skewness que hay son: i) positive skew, y ii) negative skew.

Skewness igual a 0 : normalSkewness mayor a 0: negative skewSkewness menor a 0: positive skew

Page 26: Clase 2

Skewness y Kurtosis

• La kurtosis es un estadístico que nos indica que tanto es el apuntalamiento de los datos en la variable que se está trabajando. Es decir, nos dice qué tan plana es la distribución de los datos.

• Al igual que en la skewness, existen diferentes tipos de kurtosis, que nos indican que tan aplanada es la distribución de los datos.

Kurtosis igual a 0 : normalKurtosis mayor a 0: leptokurticKurtosis menor a 0: mesocurtic

Nota: Algunos programas (como el SPSS) usan el 3 en lugar de 0

Page 27: Clase 2

Códigos para calcular los estadísticos descriptivos en STATA y SPSS

STATA• Para calcular los estadísticos

descriptivos de una o más variables, hay varios comandos en STATA que permiten obtener estos indicadores.

Los principales son:

summarize [variables], detail

tabstat [variables], s(mean sd sdskew kurtosis)

SPSS• Para calcular los estadísticos

descriptivos de una o más variables, en SPSS se tiene el comando descriptives.

Códigos para obtener los estadísticos descriptivos:

descriptives [variables]/statistics = mean stddevvariance min max semeankurtosis skewness.

Page 28: Clase 2

Ejemplo en SPSS de los estadísticos descriptivos

DESCRIPTIVES VARIABLES=rend_com rend_mat/STATISTICS=MEAN STDDEV MIN MAX.

Page 29: Clase 2

Ejemplo 1: Distribución de una variable

Page 30: Clase 2

Ejemplo 2: Distribución de una variable

Page 31: Clase 2

Comparaciones de Medias

Las pruebas de comparaciones de medias sirven para probar si las medias de dos grupos son estadísticamente diferentes.

Estas pruebas se pueden realizar asumiendo normalidad o sin asumir normalidad en la variable que se va comparar.

En el caso de normalidad en la variable a analizar, la pruebas que se pueden utilizar son paramétricas tales como: i) el análisis de varianza, o ii) el test de la t de student (ttest)

En el caso de no normalidad en la variable a analizar, las pruebas que se pueden utilizar son no-paramétricas tales como: i) la prueba de U Mann-Whitney , o ii) Wilcoxon test.

Page 32: Clase 2

Comparaciones de medias

Asimismo las comparaciones de media se pueden realizar para muestras independientes o muestras no independientes (dos observaciones en el tiempo)

Finalmente, se puede asumir igualdad o no de las varianzas en cada grupo que se va comparar.

Page 33: Clase 2

Pruebas paramétricas: ANOVA

El análisis de varianza es una prueba que permite comparar las medias de diferentes grupos de tal forma de ver si son estadísticamente diferentes.

La hipótesis nula es que las muestras para cada grupo han sido realizadas de forma aleatoria y por lo tanto las medias deben ser iguales.

Finalmente, esta prueba asume que las variables a comparar siguen una distribución normal.

Page 34: Clase 2

DET SCSCSC

Suma de cuadrados totales

Suma de cuadrados entre grupos o explicada

Suma de cuadrados dentro de grupos o no

explicada

Análisis de Varianza

Page 35: Clase 2

Ejemplo

Promedio por colegio en

comprensión de lectura

Promedio total

Page 36: Clase 2

Suma total de cuadrados o variación total

2)( totalcasoT YYSC Promedio total = 12

Page 37: Clase 2

Suma de cuadrados entre grupos o explicada

2)( totalYgrupoYSCE

Page 38: Clase 2

Suma de cuadrados dentro de grupo o no explicada

Prom(A) Prom(B) Prom(C)

2)( grupoYIndividuo

YSCD

SCD

Page 39: Clase 2

DET SCSCSC

142 10 132

Suma de cuadrados totales

Suma de cuadrados entre grupos o explicada

Suma de cuadrados dentro de grupos o no

explicada

Page 40: Clase 2

Varianza entre grupos (between)

1)-(K grupos entre libertad de grados

grupos entre cuadrados de Sumagrupos entre medio cuadrado del Varianza

Para este caso “K “ es igual a 3, pues son 3 colegios.

52

10

13

10

1-Kgrupos entre medio cuadrado del Varianza ESC

Page 41: Clase 2

Varianza al interior de los grupos (within)

K)-(n grupos de dentro libertad de grados

grupos los de dentro cuadrados de Sumagrupos de dentro medio cuadrado del Varianza

En este caso “n” es igual a 15 (observaciones) “K” es igual a 3 (colegios)

11.8312

142

3)-(15

142

K)-(n

142grupos de dentro medio cuadrado del Varianza

Page 42: Clase 2

Varianza del cuadrado medio total

1)-(n totallibertad de grados

totalescuadrados de Suma totalmedio cuadrado del Varianza

En este caso “n” es igual a 15 (observaciones)

10.14(14)

142

1)-(15

142

1)-(n

142 totalmedio cuadrado del Varianza

Page 43: Clase 2

Estadístico de prueba de la razón de F

explicada no Varianza

explicada Varianza Frazón la de oEstadístic

.42011.83

5 Frazón la de oEstadístic

3.89.4220

F de la distribución de Fisher, con 2 (K-1)grados de libertad en el numerador y 12(n-K) grados de libertad del denominador.No se rechaza la hipótesis nula deigualdad de las medias para este ejemplo.La hipótesis nula se evalúa al 95%

Page 44: Clase 2

Comandos para hacer un ANOVA en STATA y SPSS

STATA

El comando para hacer un ANOVA en STATA se llama: oneway.

El código para correr este análisis es:

oneway [outcome] [group]

SPSS El comando para hacer un t-test en

SPSS se llama oneway.

El código para correr este análisis es:

Oneway [outcome] by [group] ([values])

/statistics = all.

Page 45: Clase 2

Pruebas Paramétricas: T-Test

varianzala es

estándarerror el es

:dondeEn

2

)()1()()1()(

2

21

21

21

2

2

21

2

121

S

nn

nn

nn

XnXnXXS

Supuesto: Normalidad de la distribución de la variable

Page 46: Clase 2

)(

0 :

)(

)(

21

21

21210

21

2121

XXS

XXtprueba

H

XXS

XXtprueba

xxxx

xx

Prueba t para diferencia de medias

Prueba original

Prueba con remplazo de la hipótesis

nula

Hipótesis nula

Page 47: Clase 2

Comandos para hacer un t-test en STATA y SPSS

STATA El comando para poder hacer

un t-test en STATA se llama: ttest.

Los códigos para correr este análisis es:

Varianzas igualesttest [outcome], by([group])

Varianzas diferentesttest [outcome], by([group]) unequal

SPSS El comando para poder hacer un t-

test en SPSS se llama t-test.

Los códigos para correr este análisis es:

t-test groups = [group] ([values])

/variables = [outcome]

/criteria = CIN (.99).

El SPSS en su ventana de resultados da los resultados de la prueba asumiendo igualdad o no de varianzas.

Page 48: Clase 2

Ejemplo: Comparación de medias de notas en matemática, para rural – urbano (usando SPSS)

Se observa que se rechaza la hipótesis nulade igualdad de medias al 99% de confianza.

Page 49: Clase 2

Pruebas No-Paramétricas: Test U de Mann-Whitney

• Esta prueba tiene las siguientes características:

No asume distribución normal para las variables.

Compara las medianas en cada grupo

Se utiliza para variables discretas

La hipótesis nula es que las medianas entre gruposson iguales

Page 50: Clase 2

Pruebas No-Paramétricas: Test U Mann-Whitney

• El estadístico de U Mann-Whitney es:

U : el estadístico de U Mann Whitney

N1 o N2 : el número de observaciones en cada grupo.

R1 : La suma del ranking para el primer grupo

111

212

)1(R

NNNNU

Page 51: Clase 2

Códigos para hacer el análisis en STATA y SPSS

STATA

• El comando para hacer la prueba no-paramétrica del U Mann-Whitney es ranksum.

• El código es:

ranksum [outcome], by([group])

SPSS

• El comando para hacer la prueba no-paramétrica del U Mann-Whitney es NPAR TESTS.

• El código es:

NPAR TESTS

/ M-W=[outcome] BY [group]([values])

/ MISSING ANALYSIS.

Page 52: Clase 2

Distribución por área del número de hermanos por área de residencia

Page 53: Clase 2

Ejemplo: Comparación de medias del número de hermanos por estudiante por área (usando SPSS)