introducción al análisis estadístico con soporte informático
DESCRIPTION
Introducción general al análisis estadístico con soporte informático.TRANSCRIPT
UNIVERSIDAD NACIONAL DE ASUNCION
FACULTAD DE FILOSOFIA
MAESTRIA EN PSICOLOGIA CLINICA
Instructor: Enrique Morosini
Introduccion al analisis estadisticocon soporte informatico con
M ódulo de Investigaci ón Cient ífica I
Enrique Morosini - Pág. 2
Introducción
El taller tiene carácter introductorio, concentrándonos en la estructura general del software y de las operaciones básicas.
Veremos operaciones específicas conforme diseños específicos y abordaremos cuestiones técnicas relacionadas a las técnicas específicas de análisis vinculados a distintos diseños experimentales (y no experimentales), que permitan la extracción de conocimiento a partir de los datos.
No se cuenta con el tiempo suficiente para profundizar técnicas más complejas que serían útiles de abordar y que son posibles mediante la utilización del SPSS pero se ofrece una gama interesante de material de consulta.
Enrique Morosini - Pág. 3
ESTRUCTURA GENERAL
Existen dos elementos fundamentales en la estructura del software que requieren de correcta comprensión para familiarizarse con el entorno de trabajo:
1. La estructura de las bases de datos.
2. La estructura del funcionamiento del SPSS:
a. Las ventanas.
b. Los menús.
c. Los comandos y ventanas de tareas.
Enrique Morosini - Pág. 4
ESTRUCTURA GENERAL
Una base de datos es una colección de datos ORGANIZADOS y RELACIONADOS entre sí. Su estructura básica es una matriz y es la materia prima para la realización de análisis estadísticos.
MATRIZ: Es una tabla ordenada de datos compuesta de filas y columnas.
Por lo tanto las bases de datos, que pueden poseer múltiples dimensiones y variables en su estructura básica se compone de filas y columnas.
Estructura de las bases de datos
Enrique Morosini - Pág. 5
ESTRUCTURA GENERAL
Generalmente los programas informáticos interpretan que las filas son casos y las columnas son variables.
Consideremos el ejemplo utilizado para esta clase:
Estructura de las bases de datos
Base de datos
Enrique Morosini - Pág. 6
ESTRUCTURA GENERAL
Estructura de las bases de datos
Enrique Morosini - Pág. 7
ESTRUCTURA GENERAL
Estructura del SPSSEl SPSS se compone de tres tipos distintos de archivos:
1. Editor de Datos.
2. Visor de Resultados.
3. Editor de Sintaxis.
Enrique Morosini - Pág. 8
ESTRUCTURA GENERAL
Estructura del SPSS1. Editor de Datos.
Es el espacio en el cual se pueden “editar los datos”, lo que implica cargar información, modificarla, corregirla. Su apariencia es la misma a cualquier planilla electrónica, Excel o similar.
El Editor de Datos presenta a su vez dos pantallas:
- una referida a los datos
- otra referida a las propiedades de las variables.
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 9
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 10
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 11
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 12
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 13
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 14
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 15
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 16
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de datos
Enrique Morosini - Pág. 17
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de variables
Enrique Morosini - Pág. 18
ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos - Vista de variables
Enrique Morosini - Pág. 19
ESTRUCTURA GENERAL
Estructura del SPSS
Ejercicio 1
1. Abrir el programa.
2. Cargar los datos siguientes
Enrique Morosini - Pág. 20
ESTRUCTURA GENERAL
Estructura del SPSS
1 0 3 2 3
2 1 3 4 4
3 1 1 1 2
4 0 4 3 3
5 0 5 4 5
Ejercicio 1
4. Colocar nombres a las variables: ID; se; It01; It02; It035. Modificar el tipo de variable: ID = Cadena; se,
3. Examinar la “Vista de Variables”
It01, It02 y It03 = Numérico6. Indicar las etiquetas siguientes: ID = Identificación; se = Sexo; Ítem 1; Ítem 2; Ítem 3.7. Especificar la medida: ID = nominal; se = nominal; It01, It02 y It03 = escala
Enrique Morosini - Pág. 21
ESTRUCTURA GENERAL
Estructura del SPSS
Enrique Morosini - Pág. 22
ESTRUCTURA GENERAL
Estructura del SPSS2. Visor de resultados.
Es una ventana que aparece automáticamente cada vez que se activa una orden:
- Abrir un archivo.
- Alguna función de “datos”.
- Alguna función de “transformación”.
- Se ejecuta algún análisis específico.
2. Visor de resultados.
Muestra tres tipos de información:
1. Comando de ejecución.
2. Tablas.
3. Gráficos.
Enrique Morosini - Pág. 23
ESTRUCTURA GENERAL
Estructura del SPSS
2. Visor de resultados.
Muestra tres tipos de información:
1. Comando de ejecución.
2. Tablas.
3. Gráficos.
Enrique Morosini - Pág. 24
ESTRUCTURA GENERAL
Estructura del SPSS
FREQUENCIES VARIABLES=VAR00002 /BARCHART FREQ /ORDER=ANALYSIS.
Ejercicio 2
Con la misma planilla con la que se trabajó en el ejemplo anterior realizar la siguiente operación:
1. Ingresar al menú “Analizar” / “Estadístico descriptivo” / “Frecuencias”.
2. Seleccionar la variable “se” y con la flecha enviarla a la ventana derecha.
3. Seleccionar la pestaña “Gráficos...” y “Gráficos de barra”.
Enrique Morosini - Pág. 25
ESTRUCTURA GENERAL
Estructura del SPSS
Enrique Morosini - Pág. 26
Comando deejecución.
Tablas.
Gráficos.
Enrique Morosini - Pág. 27
ESTRUCTURA GENERAL
Estructura del SPSS3. Editor de sintaxis.
En el SPSS es posible trabajar en modo “comando”, introduciendo una secuencia ordenada / jerarquizada de “órdenes” o “instrucciones”, a lo que se denomina sintaxis.
Estas órdenes escritas en formato de texto permiten ejecutar las funciones que se realizan a partir de los menús. La ventaja consiste en que se puede contar con un conjunto de instrucciones para repetir una secuencia de comandos de manera automática.
Ejercicio 3
1. Ingresar a la pantalla “Visor”.
2. Copiar la secuencia de comando que aparece al inicio de la ventana; dar doble click, seleccionar el texto y copiar.
3. Seleccionar la función “Archivo” / “Nuevo” / “Sintaxis”.
4. Aparecerá una pantalla en la cual “pegaremos” la secuencia anteriormente copiada.
5. Clickear sobre el siguiente ícono del menú: [ejecutar]
6. Comentar qué es lo que se observa.
Enrique Morosini - Pág. 28
ESTRUCTURA GENERAL
Estructura del SPSS
Enrique Morosini - Pág. 29
ESTRUCTURA GENERAL
Estructura del SPSSLos menús
Son las rutas o caminos visuales a través de los cuales se ejecutan los comandos. Se accede a ellos a través de la “barra de menú” y ejecutan distintos grupos de comandos.
Enrique Morosini - Pág. 30
ESTRUCTURA GENERAL
Estructura del SPSSLas ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la misma estructura: un conjunto de ventanas, generalmente dos, en las cuales de un lado se encuentra la lista completa de “variables” y del otro lado un espacio vacío al que habrá que trasladar aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 30
ESTRUCTURA GENERAL
Estructura del SPSSLas ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la misma estructura: un conjunto de ventanas, generalmente dos, en las cuales de un lado se encuentra la lista completa de “variables” y del otro lado un espacio vacío al que habrá que trasladar aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 30
ESTRUCTURA GENERAL
Estructura del SPSSLas ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la misma estructura: un conjunto de ventanas, generalmente dos, en las cuales de un lado se encuentra la lista completa de “variables” y del otro lado un espacio vacío al que habrá que trasladar aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 31
EXPLORACIÓN
La primera fase del proceso de investigación es la exploración de los datos.
La fase exploratoria tiene una importancia en sí misma ya que permite comprender la forma de distribución de los datos, lo que contiene la esencia del comportamiento colectivo de los atributos que estamos analizando.
La exploración consiste básicamente en analizar los datos descriptivos a fin de identificar la forma de la distribución, la existencia de datos atípicos, ausencia de respuestas, etc.
Más extendidas en los últimos 30 años se han implementado técnicas específicas de exploración de datos gracias al aporte de John Wilder Tukey. una de ellas es el gráfico Box-Plot.
Enrique Morosini - Pág. 32
EXPLORACIÓN
1. El análisis descriptivo.
Se analizan la media, mediana, moda, varianza, desvío estándar, media recortada, curtosis, asimetría, cuartiles.
Estos datos permiten tener una aproximación respecto a la distribución de los datos y aproximación a la distribución normal.
2. El análisis gráfico.
Con el SPSS se obtienen dos gráficos por defecto:
- El diagrama de tallos y hojas
- El gráfico de cajas y bigotes (box-plot).
Enrique Morosini - Pág. 33
EXPLORACIÓN
- El Diagrama de “tallos y hojas” (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
2 . 1 2 2 3 3 3 3 3 4 4 42 . 5 6 6 6 6 6 6 7 7 7 8 8 8 8 9 9 9 93 . 0 1 1 3 33 . 8 94 . 1 4 65 . 2
Tallos Hojas
Enrique Morosini - Pág. 33
EXPLORACIÓN
- El gráfico de “cajas y bitotes” (box plot) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Enrique Morosini - Pág. 34
Mín Q1 Med Q3 Máx
CajaBigotes
Ejercicio 4
1. Abrir la base de datos “Ejercicio 01.xls".
2. Ejecutar la función del menú “analizar” / “estadísticos descriptivos” / “explorar”.
3. Seleccionar la variable “edad”.
4. Realizar un breve comentario al respecto.
Enrique Morosini - Pág. 35
EXPLORACIÓN
Enrique Morosini - Pág. 36
LIMPIEZA DE DATOS
Antes de aplicar cualquier tipo de análisis se debe realizar una cuidadosa depuración de la base de datos. Para ello se debe “limpiarla” verificando que no se hayan colado errores de tipeado; también se debe analizar la ausencia de datos y cualquier otra anomalía en el registro de los datos necesarios para el análisis correspondiente.
- Tratamiento de valores atípicos: existen valores atípicos porque fueron mal ingresados a la base de datos, otros porque son extraordinariamente raros u otros que son claramente explicable por la interacción de otra variable. En el primer caso lo aconsejable es corregir los errores, en el segundo convendría eliminarlos de la base de datos y en el último caso conviene mantenerlos.
Enrique Morosini - Pág. 37
LIMPIEZA DE DATOS
- Tratamiento de valores atípicos: Los valores atípicos pueden ser detectados mediante el examen de los gráficos del proceso “Exploratorio”.
Además se pueden aplicar procesos específicos para identificar los casos que presentan puntuaciones o datos fuera del rango esperado, específicamente la función “Control de calidad” / “Gráfico de control”.
- Datos ausentes: Un problema importante es la presencia de datos ausentes en la matriz base. Cuando éstos datos ausentes representan un número importante se aplican métodos de imputación para estimar la posible respuesta ausente.
Enrique Morosini - Pág. 38
LIMPIEZA DE DATOS
Ejercicio 5
1. Con la misma base “Ejercicio 01.xls” abierta
2. Ejecutar el menú “Análizar” / “Estadísticos Descriptivos” / “Explorar” y luego seleccionar las variables: edad, SAT04 y Hs03.
3. Comentar los resultados en términos de datos atípicos y variables con datos ausentes.
Enrique Morosini - Pág. 39
CONTRASTE DE HIPÓTESIS
¿Qué es un contraste de hipótesis?
Enrique Morosini - Pág. 39
CONTRASTE DE HIPÓTESIS
¿Qué es un contraste de hipótesis?
Es un procedimiento que se encuentra en el centro de las decisiones estadísticas y los errores que suponen ese procedimiento.
El razonamiento básico del contraste de hipótesis es el siguiente: ¿qué probabilidad tenemos de que los datos observados sean iguales al resultado hipotetizado?
La mayoría de las pruebas estadísticas ofrecen resultados acompañados del valor p (probabilidad) en función a la comparación del resultado con relación a la hipótesis nula (de no efecto o no diferencia).
Enrique Morosini - Pág. 40
CONTRASTE DE HIPÓTESIS
Los insumnos más importantes en la toma de decisiones es la estadística inferencial basada en la estimación de parámetros y la idea de distribución muestral.
Resumiendo se puede decir que el Contraste de Hipótesis es un proceso de decisión en el que una hipótesis formulada en términos estadísticos es puesta en relación con los datos empíricos para determinar si es o no compatible con ellos.
Los supuestos:- Que una muestra dada pertenece a una distribución poblacional conocida.
- Que existe un estadístico de contraste capaz de ofrecer información.
- Que existe un conjunto de reglas que guían la toma decisiones.
Enrique Morosini - Pág. 41
CONTRASTE DE HIPÓTESIS
Proceso para la estimación de parámetros:
- Dada la distribución muestral de determinado parámetro y la formulación de la hipótesis estadística se establecen las reglas de inferencia.
- Supongamos la distribución normal, que responde a la ley de los grandes números y al teorema central del límite, dada cierta hipótesis, se conocen las probabilidades asociadas a ciertos valores estandarizados, es decir, si conocemos la hipótesis nula y tenemos un valor empírico se podría estimar el valor probabilístico de obtener tal o cual valor en unidades estandarizadas.
Enrique Morosini - Pág. 42
CONTRASTE DE HIPÓTESIS
Probabilidad bajo la distribución normal:
Ho
90%
95%
99%
Enrique Morosini - Pág. 43
CONTRASTE DE HIPÓTESIS
Consideraciones centrales
- La mayoría de las pruebas estadísticas ponen a prueba la
hipótesis nula, por lo tanto el valor p asociado a dichas pruebas
representa la probabilidad de que el resultado obtenido sea una
desviación aleatoria de la hipótesis nula. Entendiéndose por
hipótesis nula la ausencia de efecto de la variable independiente.
- Las hipótesis nulas, estricto sensu, no se “aceptan”, lo que se
puede afirmar es que no existe evidencia suficiente para rechazar
la hipótesis nula ¿a qué se debe esta situación?
Enrique Morosini – Pág. 44
CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Introducción
Las pruebas de contraste de hipótesis se clasifican en
paramétricas y no paramétricas (también conocidas como
pruebas de distribución libre o libre de distribución). La
diferencia se basa en las suposiciones de los parámetros de la
población existentes y el tipo de datos analizables.
Enrique Morosini – Pág. 45
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Las pruebas paramétricas tienen dos características:
1. Su cálculo requiere la estimación, a partir de los datos
muestreados, de los parámetros de la población.
2. Realizan suposiciones acerca de la naturaleza de ciertos
parámetros de la población.
Enrique Morosini – Pág. 46
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Parámetros y estadísticos
Cuando realizamos un estudio
tomando una muestra de una
población N, suponemos que
ésta tiene parámetros: media
(µ); desviación (σ); varianza
(σ2); etc.
La muestra n nos proporciona
una información: media (X);
desviación (S); varianza (S2)…
Enrique Morosini – Pág. 47
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
SUPUESTOS (Clark-Carter, 2002, pp. 195-196)
Las pruebas paramétricas requieren que la población de
puntuaciones de la cual proviene la muestra, esté distribuida
normalmente [ver propiedades de la distribución normal].
Cuando se comparan grupos, se exige que las mediciones sean
independientes y las respuestas de cada individuo también.
Que los datos estén en una escala de intervalo o razón.
Esta exigencia es discutida ya que existe otra posición
considerada “abierta” que sostiene que los números no
tienen conciencia de su origen (ver Lord, 1953).
Enrique Morosini – Pág. 48
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados
Prueba t (dos grupos):
De diferencia de medias no relacionadas.
De diferencia de medias relacionadas.
Prueba f - ANOVA (ANalysis Of VAriance) (más de dos grupos):
De una sola variable independiente.
Factorial o de más de una variable independiente.
De medidas repetidas de una sola VI.
De medidas repetidas factorial de más de una VI.
Correlaciones bivariadas y múltiples:
R de Pearson, coeficientes de regresión.
Enrique Morosini – Pág. 49
CONTRASTE DE HIPÓTESIS
Pruebas no paramétricas
Cuando los datos se encuentran en una escala ordinal es posible
utilizar la prueba de una muestra de Kolmogorov-Smirnov. Sin
embargo es poco frecuente y se suele utilizar la 2 (ji o chi cuadrado).
Se suele recomendar su uso cuando no se cumplen los supuestos
para la aplicación de las pruebas paramétricas, especialmente las
relacionadas con la normalidad (simetría, homocedasticidad y
curtosis).
También se suelen recomendar su uso cuando los datos son de
tipo categórico u ordinal.
Enrique Morosini – Pág. 50
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados
Para una sola muestra:
Prueba de Kolmogorov-Smirnov.
Prueba 2 (ji o chi cuadrado).
Prueba de Wilcoxon.
Prueba de los signos.
Para dos grupos:
Prueba de Mann-Whitney.
Prueba de Wilcoxon.
Enrique Morosini – Pág. 51
CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados (cont.)
Para más de dos grupos: Prueba de Kruskal-Wallis. Prueba de Friedman.
Correlación de variables: r de Spearman.
de Kendall.
de Goodman y Kruskal. W de Kendall.
Correlación y regresión múltiple: Modelos loglineales jerárquicos. Modelos Logit.
Enrique Morosini – Pág. 52
CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Consideraciones especiales (Morales, 2006, p. 41)
Existen líneas argumentales de distintos autores que justifican la
preferencia en el uso de pruebas PARAMÉTRICAS:
1. Los números son ciegos y la aplicabilidad de los métodos estadísticos
depende de los supuestos del modelo y no del origen de los datos.
2. Las escalas de medición que se utilizan en Psicología pueden considerarse
escalas de intervalo imperfectas, ya que el rasgo latente observado
posiblemente sea continuo y no categórico.
3. Hay suficientes pruebas experimentales que avalan la aplicabilidad de los
métodos paramétricos, su robustez a pesar de la violación de sus
supuestos y la debilidad de los no paramétricos (errores de tipo II).
4. Los métodos no paramétricos son con frecuencia inconsistentes.
Enrique Morosini – Pág. 53
CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Ejemplo
Un ejemplo MONTECARLO referente a la independencia de la
distribución poblacional para la distribución “normal” de un
estadístico paramétrico (la media aritmética).
[una aproximación a la teoría de los grandes números].
1. Abrir una planilla Excel. 2. Generar números aleatorios entre 1 y 5. 3. Calcular el promedio. 4. Generar réplicas de muestras y analizar los resultados.
Enrique Morosini – Pág. 54
CONTRASTE DE HIPOTESIS
EJERCICIOS
Trabajo 1.
1. Lluvia de ideas sobre los posibles diseños que podrían
estar vinculados con los datos de la base Ejercicios 1.
2. Comparación de análisis paramétricos y no
paramétricos.
3. Análisis del caso: prueba t; r de person; ji-cuadrada.
Enrique Morosini – Pág. 55
CONTRASTE DE HIPOTESIS
EJERCICIOS
Trabajo 2: en grupo
1. Formar espontáneamente grupos de 3 o 4 personas.
2. Formular un breve y rápido plan de análisis de los datos
contenidos en la planilla Ejercicio 1.
3. Definir: Problema, objetivos, hipótesis y forma de
contrastar la hipótesis (= diseño y análisis).
4. Realizar el análisis y presentar las conclusiones.
Enrique Morosini - Pág. 58
Uno de los contrastes más habituales es el que se refiere a la comparación de dos grupos de datos. El primer elemento a considerar es si éstos fueron formados aleatoriamente y si las variables que se van a comparar están o relacionadas.
ŸEn caso de que se trate de grupos independientes y las variables no estén relacionadas se utiliza la prueba t de diferencia de medias no relacionadas.
ŸEn caso de que las medidas a compara sí estén relacionadas se utiliza la prueba t de diferencia de medias correlacionadas.
La comparación 2 de medias
CONTRASTE DE HIPÓTESIS
Enrique Morosini - Pág. 59
Ejercicio 6
1. Abrir la base de datos “Ejercicio01.xls”.
2. Seleccionar la función “Analizar” / “Comparación de medias” / “Prueba t para muestras independientes”.
3. En la ventana “Variables para contrastar” colocar la variable “edad”.
4. En la ventana “Variable agrupación” colocar la variable sexo.
5. Luego selecionar “Definir grupo” e indicar que el grupo 1 tendra valor 1 y el grupo 2 valor 2.
La comparación 2 de medias
CONTRASTE DE HIPÓTESIS