introducción al análisis estadístico con soporte informático

UNIVERSIDAD NACIONAL DE ASUNCION

FACULTAD DE FILOSOFIA

MAESTRIA EN PSICOLOGIA CLINICA

Instructor: Enrique Morosini

Introduccion al analisis estadisticocon soporte informatico con

M ódulo de Investigaci ón Cient ífica I

Enrique Morosini - Pág. 2

Introducción

El taller tiene carácter introductorio, concentrándonos en la estructura general del software y de las operaciones básicas.

Veremos operaciones específicas conforme diseños específicos y abordaremos cuestiones técnicas relacionadas a las técnicas específicas de análisis vinculados a distintos diseños experimentales (y no experimentales), que permitan la extracción de conocimiento a partir de los datos.

No se cuenta con el tiempo suficiente para profundizar técnicas más complejas que serían útiles de abordar y que son posibles mediante la utilización del SPSS pero se ofrece una gama interesante de material de consulta.


ESTRUCTURA GENERAL

Existen dos elementos fundamentales en la estructura del software que requieren de correcta comprensión para familiarizarse con el entorno de trabajo:

1. La estructura de las bases de datos.

2. La estructura del funcionamiento del SPSS:

a. Las ventanas.

b. Los menús.

c. Los comandos y ventanas de tareas.


ESTRUCTURA GENERAL

Una base de datos es una colección de datos ORGANIZADOS y RELACIONADOS entre sí. Su estructura básica es una matriz y es la materia prima para la realización de análisis estadísticos.

MATRIZ: Es una tabla ordenada de datos compuesta de filas y columnas.

Por lo tanto las bases de datos, que pueden poseer múltiples dimensiones y variables en su estructura básica se compone de filas y columnas.

Estructura de las bases de datos


ESTRUCTURA GENERAL

Generalmente los programas informáticos interpretan que las filas son casos y las columnas son variables.

Consideremos el ejemplo utilizado para esta clase:


Base de datos


ESTRUCTURA GENERAL



ESTRUCTURA GENERAL

Estructura del SPSSEl SPSS se compone de tres tipos distintos de archivos:

1. Editor de Datos.

2. Visor de Resultados.

3. Editor de Sintaxis.


ESTRUCTURA GENERAL

Estructura del SPSS1. Editor de Datos.

Es el espacio en el cual se pueden “editar los datos”, lo que implica cargar información, modificarla, corregirla. Su apariencia es la misma a cualquier planilla electrónica, Excel o similar.

El Editor de Datos presenta a su vez dos pantallas:

- una referida a los datos

- otra referida a las propiedades de las variables.

1. Editor de Datos - Vista de datos


ESTRUCTURA GENERAL

Estructura del SPSS



ESTRUCTURA GENERAL

Estructura del SPSS

1. Editor de Datos - Vista de variables


ESTRUCTURA GENERAL

Estructura del SPSS

Ejercicio 1

1. Abrir el programa.

2. Cargar los datos siguientes


ESTRUCTURA GENERAL

Estructura del SPSS

1 0 3 2 3

2 1 3 4 4

3 1 1 1 2

4 0 4 3 3

5 0 5 4 5

Ejercicio 1

4. Colocar nombres a las variables: ID; se; It01; It02; It035. Modificar el tipo de variable: ID = Cadena; se,

3. Examinar la “Vista de Variables”

It01, It02 y It03 = Numérico6. Indicar las etiquetas siguientes: ID = Identificación; se = Sexo; Ítem 1; Ítem 2; Ítem 3.7. Especificar la medida: ID = nominal; se = nominal; It01, It02 y It03 = escala


ESTRUCTURA GENERAL

Estructura del SPSS


ESTRUCTURA GENERAL

Estructura del SPSS2. Visor de resultados.

Es una ventana que aparece automáticamente cada vez que se activa una orden:

- Abrir un archivo.

- Alguna función de “datos”.

- Alguna función de “transformación”.

- Se ejecuta algún análisis específico.

2. Visor de resultados.

Muestra tres tipos de información:

1. Comando de ejecución.

2. Tablas.

3. Gráficos.


ESTRUCTURA GENERAL

Estructura del SPSS

2. Visor de resultados.

Muestra tres tipos de información:

1. Comando de ejecución.

2. Tablas.

3. Gráficos.


ESTRUCTURA GENERAL

Estructura del SPSS

FREQUENCIES VARIABLES=VAR00002 /BARCHART FREQ /ORDER=ANALYSIS.

Ejercicio 2

Con la misma planilla con la que se trabajó en el ejemplo anterior realizar la siguiente operación:

1. Ingresar al menú “Analizar” / “Estadístico descriptivo” / “Frecuencias”.

2. Seleccionar la variable “se” y con la flecha enviarla a la ventana derecha.

3. Seleccionar la pestaña “Gráficos...” y “Gráficos de barra”.


ESTRUCTURA GENERAL

Estructura del SPSS


Comando deejecución.

Tablas.

Gráficos.


ESTRUCTURA GENERAL

Estructura del SPSS3. Editor de sintaxis.

En el SPSS es posible trabajar en modo “comando”, introduciendo una secuencia ordenada / jerarquizada de “órdenes” o “instrucciones”, a lo que se denomina sintaxis.

Estas órdenes escritas en formato de texto permiten ejecutar las funciones que se realizan a partir de los menús. La ventaja consiste en que se puede contar con un conjunto de instrucciones para repetir una secuencia de comandos de manera automática.

Ejercicio 3

1. Ingresar a la pantalla “Visor”.

2. Copiar la secuencia de comando que aparece al inicio de la ventana; dar doble click, seleccionar el texto y copiar.

3. Seleccionar la función “Archivo” / “Nuevo” / “Sintaxis”.

4. Aparecerá una pantalla en la cual “pegaremos” la secuencia anteriormente copiada.

5. Clickear sobre el siguiente ícono del menú: [ejecutar]

6. Comentar qué es lo que se observa.


ESTRUCTURA GENERAL

Estructura del SPSS


ESTRUCTURA GENERAL

Estructura del SPSSLos menús

Son las rutas o caminos visuales a través de los cuales se ejecutan los comandos. Se accede a ellos a través de la “barra de menú” y ejecutan distintos grupos de comandos.


ESTRUCTURA GENERAL

Estructura del SPSSLas ventanas

La mayoría de las aplicaciones analíticas del SPSS presentan la misma estructura: un conjunto de ventanas, generalmente dos, en las cuales de un lado se encuentra la lista completa de “variables” y del otro lado un espacio vacío al que habrá que trasladar aquellas que sea de nuestro interés su análisis.


EXPLORACIÓN

La primera fase del proceso de investigación es la exploración de los datos.

La fase exploratoria tiene una importancia en sí misma ya que permite comprender la forma de distribución de los datos, lo que contiene la esencia del comportamiento colectivo de los atributos que estamos analizando.

La exploración consiste básicamente en analizar los datos descriptivos a fin de identificar la forma de la distribución, la existencia de datos atípicos, ausencia de respuestas, etc.

Más extendidas en los últimos 30 años se han implementado técnicas específicas de exploración de datos gracias al aporte de John Wilder Tukey. una de ellas es el gráfico Box-Plot.


EXPLORACIÓN

1. El análisis descriptivo.

Se analizan la media, mediana, moda, varianza, desvío estándar, media recortada, curtosis, asimetría, cuartiles.

Estos datos permiten tener una aproximación respecto a la distribución de los datos y aproximación a la distribución normal.

2. El análisis gráfico.

Con el SPSS se obtienen dos gráficos por defecto:

- El diagrama de tallos y hojas

- El gráfico de cajas y bigotes (box-plot).


EXPLORACIÓN

- El Diagrama de “tallos y hojas” (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.

2 . 1 2 2 3 3 3 3 3 4 4 42 . 5 6 6 6 6 6 6 7 7 7 8 8 8 8 9 9 9 93 . 0 1 1 3 33 . 8 94 . 1 4 65 . 2

Tallos Hojas


EXPLORACIÓN

- El gráfico de “cajas y bitotes” (box plot) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.


Mín Q1 Med Q3 Máx

CajaBigotes

Ejercicio 4

1. Abrir la base de datos “Ejercicio 01.xls".

2. Ejecutar la función del menú “analizar” / “estadísticos descriptivos” / “explorar”.

3. Seleccionar la variable “edad”.

4. Realizar un breve comentario al respecto.


EXPLORACIÓN


LIMPIEZA DE DATOS

Antes de aplicar cualquier tipo de análisis se debe realizar una cuidadosa depuración de la base de datos. Para ello se debe “limpiarla” verificando que no se hayan colado errores de tipeado; también se debe analizar la ausencia de datos y cualquier otra anomalía en el registro de los datos necesarios para el análisis correspondiente.

- Tratamiento de valores atípicos: existen valores atípicos porque fueron mal ingresados a la base de datos, otros porque son extraordinariamente raros u otros que son claramente explicable por la interacción de otra variable. En el primer caso lo aconsejable es corregir los errores, en el segundo convendría eliminarlos de la base de datos y en el último caso conviene mantenerlos.


LIMPIEZA DE DATOS

- Tratamiento de valores atípicos: Los valores atípicos pueden ser detectados mediante el examen de los gráficos del proceso “Exploratorio”.

Además se pueden aplicar procesos específicos para identificar los casos que presentan puntuaciones o datos fuera del rango esperado, específicamente la función “Control de calidad” / “Gráfico de control”.

- Datos ausentes: Un problema importante es la presencia de datos ausentes en la matriz base. Cuando éstos datos ausentes representan un número importante se aplican métodos de imputación para estimar la posible respuesta ausente.


LIMPIEZA DE DATOS

Ejercicio 5

1. Con la misma base “Ejercicio 01.xls” abierta

2. Ejecutar el menú “Análizar” / “Estadísticos Descriptivos” / “Explorar” y luego seleccionar las variables: edad, SAT04 y Hs03.

3. Comentar los resultados en términos de datos atípicos y variables con datos ausentes.


CONTRASTE DE HIPÓTESIS

¿Qué es un contraste de hipótesis?



¿Qué es un contraste de hipótesis?

Es un procedimiento que se encuentra en el centro de las decisiones estadísticas y los errores que suponen ese procedimiento.

El razonamiento básico del contraste de hipótesis es el siguiente: ¿qué probabilidad tenemos de que los datos observados sean iguales al resultado hipotetizado?

La mayoría de las pruebas estadísticas ofrecen resultados acompañados del valor p (probabilidad) en función a la comparación del resultado con relación a la hipótesis nula (de no efecto o no diferencia).



Los insumnos más importantes en la toma de decisiones es la estadística inferencial basada en la estimación de parámetros y la idea de distribución muestral.

Resumiendo se puede decir que el Contraste de Hipótesis es un proceso de decisión en el que una hipótesis formulada en términos estadísticos es puesta en relación con los datos empíricos para determinar si es o no compatible con ellos.

Los supuestos:- Que una muestra dada pertenece a una distribución poblacional conocida.

- Que existe un estadístico de contraste capaz de ofrecer información.

- Que existe un conjunto de reglas que guían la toma decisiones.



Proceso para la estimación de parámetros:

- Dada la distribución muestral de determinado parámetro y la formulación de la hipótesis estadística se establecen las reglas de inferencia.

- Supongamos la distribución normal, que responde a la ley de los grandes números y al teorema central del límite, dada cierta hipótesis, se conocen las probabilidades asociadas a ciertos valores estandarizados, es decir, si conocemos la hipótesis nula y tenemos un valor empírico se podría estimar el valor probabilístico de obtener tal o cual valor en unidades estandarizadas.



Probabilidad bajo la distribución normal:

Ho

90%

95%

99%



Consideraciones centrales

- La mayoría de las pruebas estadísticas ponen a prueba la

hipótesis nula, por lo tanto el valor p asociado a dichas pruebas

representa la probabilidad de que el resultado obtenido sea una

desviación aleatoria de la hipótesis nula. Entendiéndose por

hipótesis nula la ausencia de efecto de la variable independiente.

- Las hipótesis nulas, estricto sensu, no se “aceptan”, lo que se

puede afirmar es que no existe evidencia suficiente para rechazar

la hipótesis nula ¿a qué se debe esta situación?

Enrique Morosini – Pág. 44

CONTRASTE DE HIPOTESIS

Pruebas paramétricas y no paramétricas

Introducción

Las pruebas de contraste de hipótesis se clasifican en

paramétricas y no paramétricas (también conocidas como

pruebas de distribución libre o libre de distribución). La

diferencia se basa en las suposiciones de los parámetros de la

población existentes y el tipo de datos analizables.



Pruebas paramétricas

Las pruebas paramétricas tienen dos características:

1. Su cálculo requiere la estimación, a partir de los datos

muestreados, de los parámetros de la población.

2. Realizan suposiciones acerca de la naturaleza de ciertos

parámetros de la población.




Parámetros y estadísticos

Cuando realizamos un estudio

tomando una muestra de una

población N, suponemos que

ésta tiene parámetros: media

(µ); desviación (σ); varianza

(σ2); etc.

La muestra n nos proporciona

una información: media (X);

desviación (S); varianza (S2)…




SUPUESTOS (Clark-Carter, 2002, pp. 195-196)

Las pruebas paramétricas requieren que la población de

puntuaciones de la cual proviene la muestra, esté distribuida

normalmente [ver propiedades de la distribución normal].

Cuando se comparan grupos, se exige que las mediciones sean

independientes y las respuestas de cada individuo también.

Que los datos estén en una escala de intervalo o razón.

Esta exigencia es discutida ya que existe otra posición

considerada “abierta” que sostiene que los números no

tienen conciencia de su origen (ver Lord, 1953).




Estadísticos más utilizados

Prueba t (dos grupos):

De diferencia de medias no relacionadas.

De diferencia de medias relacionadas.

Prueba f - ANOVA (ANalysis Of VAriance) (más de dos grupos):

De una sola variable independiente.

Factorial o de más de una variable independiente.

De medidas repetidas de una sola VI.

De medidas repetidas factorial de más de una VI.

Correlaciones bivariadas y múltiples:

R de Pearson, coeficientes de regresión.



Pruebas no paramétricas

Cuando los datos se encuentran en una escala ordinal es posible

utilizar la prueba de una muestra de Kolmogorov-Smirnov. Sin

embargo es poco frecuente y se suele utilizar la 2 (ji o chi cuadrado).

Se suele recomendar su uso cuando no se cumplen los supuestos

para la aplicación de las pruebas paramétricas, especialmente las

relacionadas con la normalidad (simetría, homocedasticidad y

curtosis).

También se suelen recomendar su uso cuando los datos son de

tipo categórico u ordinal.




Estadísticos más utilizados

Para una sola muestra:

Prueba de Kolmogorov-Smirnov.

Prueba 2 (ji o chi cuadrado).

Prueba de Wilcoxon.

Prueba de los signos.

Para dos grupos:

Prueba de Mann-Whitney.

Prueba de Wilcoxon.




Estadísticos más utilizados (cont.)

Para más de dos grupos: Prueba de Kruskal-Wallis. Prueba de Friedman.

Correlación de variables: r de Spearman.

de Kendall.

de Goodman y Kruskal. W de Kendall.

Correlación y regresión múltiple: Modelos loglineales jerárquicos. Modelos Logit.




Consideraciones especiales (Morales, 2006, p. 41)

Existen líneas argumentales de distintos autores que justifican la

preferencia en el uso de pruebas PARAMÉTRICAS:

1. Los números son ciegos y la aplicabilidad de los métodos estadísticos

depende de los supuestos del modelo y no del origen de los datos.

2. Las escalas de medición que se utilizan en Psicología pueden considerarse

escalas de intervalo imperfectas, ya que el rasgo latente observado

posiblemente sea continuo y no categórico.

3. Hay suficientes pruebas experimentales que avalan la aplicabilidad de los

métodos paramétricos, su robustez a pesar de la violación de sus

supuestos y la debilidad de los no paramétricos (errores de tipo II).

4. Los métodos no paramétricos son con frecuencia inconsistentes.




Ejemplo

Un ejemplo MONTECARLO referente a la independencia de la

distribución poblacional para la distribución “normal” de un

estadístico paramétrico (la media aritmética).

[una aproximación a la teoría de los grandes números].

1. Abrir una planilla Excel. 2. Generar números aleatorios entre 1 y 5. 3. Calcular el promedio. 4. Generar réplicas de muestras y analizar los resultados.



EJERCICIOS

Trabajo 1.

1. Lluvia de ideas sobre los posibles diseños que podrían

estar vinculados con los datos de la base Ejercicios 1.

2. Comparación de análisis paramétricos y no

paramétricos.

3. Análisis del caso: prueba t; r de person; ji-cuadrada.



EJERCICIOS

Trabajo 2: en grupo

1. Formar espontáneamente grupos de 3 o 4 personas.

2. Formular un breve y rápido plan de análisis de los datos

contenidos en la planilla Ejercicio 1.

3. Definir: Problema, objetivos, hipótesis y forma de

contrastar la hipótesis (= diseño y análisis).

4. Realizar el análisis y presentar las conclusiones.


Uno de los contrastes más habituales es el que se refiere a la comparación de dos grupos de datos. El primer elemento a considerar es si éstos fueron formados aleatoriamente y si las variables que se van a comparar están o relacionadas.

ŸEn caso de que se trate de grupos independientes y las variables no estén relacionadas se utiliza la prueba t de diferencia de medias no relacionadas.

ŸEn caso de que las medidas a compara sí estén relacionadas se utiliza la prueba t de diferencia de medias correlacionadas.

La comparación 2 de medias



Ejercicio 6

1. Abrir la base de datos “Ejercicio01.xls”.

2. Seleccionar la función “Analizar” / “Comparación de medias” / “Prueba t para muestras independientes”.

3. En la ventana “Variables para contrastar” colocar la variable “edad”.

4. En la ventana “Variable agrupación” colocar la variable sexo.

5. Luego selecionar “Definir grupo” e indicar que el grupo 1 tendra valor 1 y el grupo 2 valor 2.

La comparación 2 de medias


introducción al análisis estadístico con soporte informático

Education