analisis de datos en ciencias sociales manejo del paquete spss mercedes fernández liporace...
TRANSCRIPT
ANALISIS DE DATOS EN CIENCIAS SOCIALES
MANEJO DEL PAQUETE SPSS
Mercedes Fernández Liporace
Alejandro Castro Solano
Colaboradora Docente: Ma. Alejandra Carreras
Universidad de Buenos Aires
Investigación científica
Planteo de problemas de investigación Descubrimiento de la organización de los
fenómenos, relaciones entre ellos, leyes que las regulan
Procedimiento para alcanzar un conocimiento riguroso y objetivo de la realidad: replicable, contrastable empíricamente y comunicable
Relevancia y transferencia
Circuito de una investigación
Problema
Teoría
Conceptos
Hipótesis
Datos (empiria)
Fases de una investigación
Planteo del problema Búsqueda de antecedentes teóricos y empíricos Formulación de objetivos e hipótesis Diseño Recogida y análisis de datos Interpretación, discusión y generalización de
resultados Transferencia de conocimientos y de tecnología
Planteo del problema
Pregunta para la que no hay respuesta Requisitos:
Resoluble Claro, sin ambigüedades Circunscripto Contrastable empíricamente
Implica apelar a conocimientos anteriores (marco teórico y antecedentes empíricos)
Objetivos
Son el “qué” de la investigación “¿Qué se va a hacer?” Generales y específicos Determinan el tipo de estudio desde el principio
Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativo
Hipótesis
“¿Qué resultado se espera obtener?” Afirmaciones que establecen relaciones entre
variables Posible explicación o descripción del problema. Debe ser contrastable empíricamente Hipótesis de trabajo e hipótesis nula Hipótesis alternativa e hipótesis rival plausible
No siempre se dispone de HIPÓTESIS (según tipo de estudio)
Diseño
Plan estructurado de acción para intentar responder al problema
Aspectos que intervienen: objetivos, naturaleza del problema y de las hipótesis, variables, universo, unidades de análisis, muestreo, instrumentos, procedimiento y análisis de datos
Tiene que ver con la estrategia científica de partida:
Observacional Selectiva Cuasiexperimental Experimental
Recogida y análisis de datos
Determinada por el diseño (procedimiento) Estadística: amplio cuadro de herramientas al
servicio del método científico
Estadística Descriptiva e Inferencial Paso previo: Análisis Exploratorio Elección de la prueba estadística: nº de
variables, papel, nivel de medición, distribución
Interpretación de resultados
En ciencia no hay verdades absolutas: los resultados deben expresarse en términos probabilísticos
Margen de error .......Significación ()
Deben relacionarse con los antecedentes y preverse sus implicaciones prácticas. Actitud prospectiva y predictiva
Aceptación o rechazo de la hipótesis de trabajo A LA LUZ DEL MARCO TEORICO
Generalización de resultados
Determinar a qué población es posible generalizar los resultados (muestreo)
Problema de la representatividad de la muestra:
* Sujetos * Contexto
Validez Externa Validez Ecológica
Redacción del informe
Oportunidad de replicación
Requisitos: completo, conciso, preciso, claro, gramaticalmente correcto y ameno
Responder breve y claramente a los objetivos planteados
Apartados de una comunicación científica
Introducción Planteo del problema Objetivos Hipótesis
Método
Resultados Discusión
Referencias y Anexos
Marco Teórico y antecedentes
General y específicosSi corresponde Estudio y diseño Variables e instrumentos Sujetos y muestreoProcedimiento y análisis de datosHallazgos en detalleRelectura de resultados a la luz del
marco teórico
Estadística
Variables
Toda característica o dimensión de un sujeto (u objeto) susceptible de adoptar distintos valores o nombres
Criterios clasificatorios– Nivel de medida (Stevens, 1951):
Nominales o cualitativas Ordinales o semicuantitativas Intervalo Razón Cuantitativas
– Su papel en la investigación Independientes (predictores) Dependientes (criterio)
Variables nominales o cualitativas
Los números no implican cantidad ni orden o jerarquía, sino cualidad, categorías, función identificatoria (sexo, estado civil, lugar de residencia).
Dicotómicas o politómicas
Ejemplos: nacionalidad sexo1. argentino 1. masc2. boliviano 2. fem3. chileno 4. peruano
Variables ordinales
Los números reflejan jerarquía, no cantidad del atributo Establecen relaciones de orden (mayor o menor)
No existe una unidad de medida objetiva Es un nivel semicuantitativo
Ejemplo: En su opinión, la calidad pedagógica de este docente es…..
* Totalmente inadecuada (1)* Algo inadecuada (2)* Bastante adecuada (3)* Muy adecuada (4)* Totalmente adecuada (5)
Variables cuantitativas, métricas o de escala
Intervalos Unidad de medida objetiva
pero no cero absoluto o “ausencia de atributo”
Ejemplos: TEMPERATURA o C.I.
Razones€ Existencia de un cero
absoluto
Ejemplo: NIVEL DE INGRESOS
Niveles de medida débiles y fuertes
Análisis de datos
Análisis descriptivo
Análisis inferencial
Análisis exploratorio
Análisis exploratorio
Razones para examinar los datos
Seguridad activa: Procedimiento de recogida de datos Seguridad pasiva: Problema I: los datos no son buenos
Archivo de datos: depuración de errores e incoherencias.
Problema II: falta de respuesta Tamaño de la muestra (potencia de los contrastes) y
sesgo de los resultados (no se distribuyen al azar) Problema III: casos anómalos
Elección de la prueba o estadístico adecuado; tratamiento de outliers
Problema IV: herramientas estadísticas adecuadas Comprobación de supuestos paramétricos: pruebas
paramétricas vs. no paramétricas.
Depuración de errores e incoherencias
Estimación de la calidad de los datos Cálculo de la cantidad de errores que pueden
contener, antes de proceder a su análisis
¿CÓMO?
Selección de una muestra de datos Comprobación de cuántos errores existen en ella Estimación del total de errores en la muestra total Decidir si es preciso revisar la matriz total o asumir el
error encontrado
Valores perdidos o missings
Se corre grave riesgo en Se corre grave riesgo en dos sentidosdos sentidos::
Reducción excesiva del tamaño de la muestra (disminución de la potencia de los contrastes)
Sesgo en los resultados si los missings no se distribuyen aleatoriamente (ingresos)
Si la ausencia de información es pequeña y al azar, es posible analizar los datos directamente
Identificación de missings
Identificar los sujetos con muchos missings
Identificar las variables con muchos missings
Pertinencia de la sustitución
EN VARIABLES CLAVE:EN VARIABLES CLAVE: Dividir la muestra en dos grupos: los que responden (1)
y los que no responden a esa variable (2) (Recodificar en una nueva variable)
Eliminar los casos missing de manera completa
EN VARIABLES SECUNDARIAS:EN VARIABLES SECUNDARIAS: Mantener los missings si no exceden un porcentaje
razonable
Imputación de missings
El boxplot
20N =
INGRESOS
600000
500000
400000
300000
200000
100000
0
9
10
Comprobación de supuestos
Elegir la prueba estadística adecuada en cada caso
Pruebas paramétricas y no paramétricas
Ejemplos: – t de Student y Anova– U de Mann-Withney y 2
¿Cuáles son esos SUPUESTOS?
LINEALIDAD: relación lineal entre las variables analizadas
ALEATORIEDAD o independencia de las medidas: que los sujetos hayan sido seleccionados al azar
NORMALIDAD: que la VD se distribuya normalmente
HOMOCEDASTICIDAD u homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar
Comprobación de supuestos
NORMALIDAD: prueba K-S
HOMOCEDASTICIDAD: prueba de Levenne
ALEATORIEDAD: prueba de las Rachas
LINEALIDAD: gráfico de dispersión y correlación
Se asume que se cumplen los supuestos, salvo que las pruebas sean significativas (p< 0.05)
Normalidad
Pruebas de normalidad
,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Este es un límite superior de la significación verdadera.**.
Corrección de la significación de Lillieforsa.
Si los supuestos no se cumplen
DOS ALTERNATIVAS:
Recurrir a una prueba no paramétrica o
TRANSFORMAR LA VARIABLE
-1/X2 -1/X log X X X X2 X3 antilog X
Fuerte Suave Sin cambio Suave Fuerte
Asimetría + Asimetría -
Cola hacia arriba Cola hacia abajo
Casos próximos al valor pequeño Casos próximo valor grande
Análisis estadístico Tipo de estudio OBJETIVOS
Descriptivo
Inferencial
Exploratorio Descriptivo
Correlacional De diferencias entre
grupos Explicativos
Estadística descriptiva
Objetivo: resumir e ilustrar en forma sencilla el comportamiento de un conjunto de datos
Frecuencias (f, f% y fa) Descriptivos
Medidas de tendencia central Medidas de variabilidad Medidas de posición Medidas de distribución
Tablas con descriptivos y/o % Gráficos
Frecuencias
Sexo
105 34,2 34,3 34,3
201 65,5 65,7 100,0
306 99,7 100,0
1 ,3
307 100,0
masc
fem
Total
Valid
SystemMissing
Total
Frequency Percent Valid PercentCumulative
Percent
Edad
10 3,3 3,3 3,3
90 29,3 29,3 32,6
110 35,8 35,8 68,4
55 17,9 17,9 86,3
27 8,8 8,8 95,1
9 2,9 2,9 98,0
4 1,3 1,3 99,3
2 ,7 ,7 100,0
307 100,0 100,0
12
13
14
15
16
17
18
19
Total
ValidFrequency Percent Valid Percent
CumulativePercent
Edades y estudios
9,6%61,5%
20,5%8,6%
0 20 40 60 80
12 años 13 años 14 años 15 años
40,5%
34,9% 24,7%
Primarios
Medios
Superiores
Descriptivos más utilizados (tendencia central, dispersión, posición)
Statistics
Edad307
0
14,17
14,00
14
4350
Valid
Missing
N
Mean
Median
Mode
Sum Statistics
Edad307
0
1,25
1,57
7
12
19
Valid
Missing
N
Std. Deviation
Variance
Range
Minimum
Maximum
Statistics
Edad307
0
12,00
13,00
13,00
14,00
15,00
16,00
17,00
18,00
Valid
Missing
N
1
5
25
50
75
90
97
99
Percentiles
Comparación de medias
21,18
22,16
20,48
19,520
20,521
21,522
22,5
1988 1993 1998
Estadística inferencial
Objetivos:
Estimación de parámetros
Contrastes de hipótesis Correlacionales De diferencias entre grupos
– Paramétricos – No paramétricos
Regresión
Permite la predicción del comportamiento de una variable (criterio), basándonos en otra variable (predictor)
R2: C.Determinación (proporción de la variación de Y explicada por la variación de x; utilidad del modelo)
Sig: signif del modelo de predicción
Model Summary
,812a ,659 ,652 7,54Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Cantidad de veces queconcurre en trimestre
a.
Correlación
Cuantifica la intensidad y sentido de la relación entre dos variables
No implica causalidad Implica asociación Afectada por los
errores de medición
Correlations
1,000 ,939**
, ,000
750 50
,939** 1,000
,000 ,
50 50
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Puntuación total 8 items
criterio externo 10 valores
Puntuacióntotal 8 items
criterioexterno 10
valores
Correlation is significant at the 0.01 level (2-tailed).**.
Supuestos cumplidos
2 grupos INDEPENDIENTES: t de Student para muestras independ
(puntuación en un test para hombres y mujeres) RELACIONADOS: t de Student para muestras relacionadas
(tasa cardíaca antes y después de la ingesta de unfármaco)
K grupos INDEPENDIENTES: ANOVA One Way
(ingresos económicos en 3 grupos de educación) RELACIONADOS: ANOVA de Medidas Repetidas
(tiempo de reacción antes y después de ingesta fármaco)
PRUEBASPARAMÉTRICAS
VD cuantitativa,normalidad y
homocedasticidad
Group Statistics
375 60,34 11,74 ,61
375 57,86 12,12 ,63
SexoMasculino
Femenino
Puntuación total 8 itemsN Mean Std. Deviation
Std. ErrorMean
Prueba t para grupos independientes
Independent Samples Test
,162 ,687 2,847 748 ,005
2,847 747,227 ,005
Equal variancesassumed
Equal variancesnot assumed
Puntuación total 8 itemsF Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)
t-test for Equality of Means
ANOVA One Way
ANOVA
PJE. BRUTO
4381,311 4 1095,328 6,603 ,000
105674,8 637 165,895
110056,1 641
Between Groups
Within Groups
Total
Sum ofSquares df Mean Square F Sig.
PJE. BRUTO
Tukey Ba,b
212 24,78
238 27,81
23 29,26
153 29,59
16 38,81
EDUCACIOADULTOterciario/universitariocompleto
secundariocompleto-terciario/univ.incompleto
NO CONTESTA
primariocompleto-secundarioincompleto
primario incompleto
N 1 2
Subset for alpha = .05
Means for groups in homogeneous subsets are displayed.
Uses Harmonic Mean Sample Size = 41,175.a.
The group sizes are unequal. The harmonic mean of thegroup sizes is used. Type I error levels are notguaranteed.
b.
2 grupos INDEPENDIENTES:
VD nominal: X2 (con corrección de continuidad si es una tabla 2 x2)(tabaquismo presente o ausente según sexo)
VD ordinal: U de Mann – Whitney(Ranking de popularidad entre políticos de dos partidos)
RELACIONADOS:VD Nominal: Mc Nemar (para variables dicotómicas)
(presencia o ausencia de alucinaciones antes y desp de fármaco)VD Ordinal: T de Wilcoxon
(ranking de severidad del trastorno antes y desp de tratamiento)
K grupos INDEPENDIENTES:
VD nominal: X2
(tipo de trastorno psiquiátrico según región geográfica)VD ordinal: Kruskal-Wallis (One Way)
(severidad del retraso intelect sec. según varias enfermed base) RELACIONADOS
VD nominal: Cochran (para variables dicotómicas)(síntoma presente o ausente a lo largo de los últimos seis meses)
VD ordinal: Friedman(ranking de rendimiento académico según ciclo EGB y Polimodal)
PRUEBAS NOPARAMÉTRICAS
VD ordinalnominal o
cuantitativasin supuestos
Prueba t para grupos independientes
Paired Samples Statistics
16,30 20 8,86 1,98
11,05 20 6,92 1,55
Nº DE CIGARRILLOSANTES DELTRATAMIENTO
Nº DE CIGARRILLOSDESPUES DELTRATAMIENTO
Pair1
Mean N Std. DeviationStd. Error
Mean
Paired Samples Test
4,682 19 ,000Nº DE CIGARRILLOS ANTES DELTRATAMIENTO - Nº DE CIGARRILLOSDESPUES DEL TRATAMIENTO
Pair1
t df Sig. (2-tailed)
Mann - Whitney
Ranks
9 6,72 60,50
11 13,59 149,50
20
SEXOHOMBRE
MUJER
Total
ACTITUD ABORTON Mean Rank Sum of Ranks
Test Statisticsb
15,500
60,500
-2,643
,008
,007a
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
Exact Sig. [2*(1-tailedSig.)]
ACTITUDABORTO
Not corrected for ties.a.
Grouping Variable: SEXOb.
X2
Fracaso escolar * Clases de apoyo Crosstabulation
Count
4 7 11
6 3 9
10 10 20
Sí
No
Fracasoescolar
Total
Sí No
Clases de apoyo
Total
Chi-Square Tests
1,818b 1 ,178
,808 1 ,369
1,848 1 ,174
,370 ,185
1,727 1 ,189
20
Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-LinearAssociation
N of Valid Cases
Value dfAsymp. Sig.
(2-sided)Exact Sig.(2-sided)
Exact Sig.(1-sided)
Computed only for a 2x2 tablea.
2 cells (50,0%) have expected count less than 5. The minimum expected count is4,50.
b.
Kruskall Wallis One Way
Ranks
10 26,20
10 13,60
10 13,60
10 28,60
40
ProvinciaCórdoba
Bs As
San Juan
Mendoza
Total
Nivel deContaminación aguas
N Mean Rank
Test Statisticsa,b
16,110
3
,001
Chi-Square
df
Asymp. Sig.
Nivel deContaminación aguas
Kruskal Wallis Testa.
Grouping Variable: Provinciab.