diseño de bases de datos. analisis e interpretacion de los resultados

96
1 Udocente MFyC Sector Zaragoza 1 “DISEÑO DE UNA BASE DE DATOS. ANÁLISIS E INTERPRETACIÓN DE LOS RESULTADOS”

Upload: cruz-bartolome

Post on 23-Mar-2016

250 views

Category:

Documents


0 download

DESCRIPTION

manual para aprender a diseñar una base de datos así como para realizar un análisis básico descriptivo y entre variables.

TRANSCRIPT

Page 1: diseño de bases de datos. Analisis e interpretacion de los resultados

1

Udocente MFyC

Sector Zaragoza 1

“DISEÑO DE UNA BASE

DE DATOS.

ANÁLISIS E

INTERPRETACIÓN

DE LOS RESULTADOS”

Page 2: diseño de bases de datos. Analisis e interpretacion de los resultados

2

Page 3: diseño de bases de datos. Analisis e interpretacion de los resultados

3

EDITORES: BARTOLOME MORENO, CRUZ VALDEARCOS ENGUÍDANOS, SANTIAGO

EDITA: UNIDAD DOCENTE DE MEDICINA FAMILIAR Y COMUNITARIA SECTOR ZARAGOZA I. IMPRIME: Unidad Docente de MFyC SECTOR Zaragoza I. Zaragoza. Junio 2010. DEPOSITO LEGAL: Z-2525-10

Page 4: diseño de bases de datos. Analisis e interpretacion de los resultados

4

CONSIDERACIONES PREVIAS

Durante el proceso de investigación en el área de ciencias de la salud, debemos siempre aplicar con rigurosidad el método epidemiológico como expresión final del original método científico, siguiendo una a una cada una de sus fases, que no son objeto de este manual, pero del cual tomaremos diferentes aspectos para el desarrollo completo de nuestros estudios.

El objetivo principal que vamos a tener va a ser el de analizar una

serie de datos que hayamos recabado en cualquiera de aquellos estudios de investigación en los que participemos, para lo cual nos ayudaremos de una herramienta estadística importante y potente, como es el programa SPSS®.

Para poder llegar a utilizar el recurso estadístico nos encontramos

ante una premisa o requisito en extremo importante, haber realizado una recogida y codificación de los datos fiable y sin errores, por lo que abordaremos algunos de los pasos más importantes necesarios.

Hay que tener en cuenta que cualquier programa estadístico

analiza datos y da resultados, sin tener en cuenta la calidad de los mismos, por lo que dependerá de nosotros realizar el correcto control de calidad y filtración, para no dar por buenos resultados erróneos desde su inicio. Sirva como comparativa el que para que un edificio sea correctamente ejecutado, se precisa de un diseño y estudio previo exento de errores que llevarían a la defectuosidad y el riesgo humano.

Si tenemos en cuenta que nuestros estudios de investigación

pueden ser publicados en revistas de impacto y servir de base a otros estudios, hay que aplicar con rigor todos los medios a nuestro alcance para la rigurosidad y metodología.

En este manual hemos optado por dar unas nociones teóricas

básicas necesarias, para después, por medio de ejercicios prácticos, aprender la utilización, manejo e interpretación de resultados con el programa SPSS de una forma básica, sin pretender abarcar todas sus posibilidades completas.

La forma de aplicación de cada técnica estadística según sus tipos

de variables a analizar y/o comparar, será determinante para trasladar

Page 5: diseño de bases de datos. Analisis e interpretacion de los resultados

5

dicho aprendizaje a cualquier otro estudio con variables de características similares.

Hay que tener en cuenta que en algunas ocasiones tendremos que

analizar y ofrecer resultados de bases de datos ya existentes, en otras ocasiones seremos nosotros los que realicemos la recogida de datos directamente desde la historia clínica o por medio del paciente, para lo cual diseñaremos una serie de cuestionarios o plantillas de recogida de datos que luego trasladaremos a nuestra base de datos, sea o no el mismo programa estadístico. Además, se nos puede presentar la posibilidad de utilizar cuestionarios ya existentes y que después de recogidos todos los datos de sus variables predefinidas, tengamos que introducir en nuestro programa estadístico o de base de datos para su posterior análisis.

Un programa estadístico como SPSS nos ofrece todas las

posibilidades contempladas en el uso de cuestionarios, bases de datos y análisis de los mismos, así como la presentación de resultados, informes y gráficos. Es por ello que nos basaremos en él preferentemente para su aprendizaje básico.

RESUMEN TIPOS DE ESTUDIOS

Antes de iniciar cualquier investigación, hay que decidir según los objetivos el estudio más adecuado.

Con un estudio EXPERIMENTAL, el investigador tiene el control

sobre el factor de estudio. Son los que mejor permiten estudiar la relación causa-efecto. El más empleado es el ENSAYO CLÍNICO ALEATORIO.

Con un estudio NO EXPERIMENTAL U OBSERVACIONAL, el

investigador no controla el factor de estudio, sino que pasa a ser un mero observador. Pueden ser meramente descriptivos como el TRANSVERSAL, o bien analíticos, como los de COHORTES y CASOS-CONTROL. Con el de cohortes podemos calcular incidencia y prevalencia. Con el de casos-control estudiaremos enfermedades poco frecuentes o con largo periodo de latencia. No permiten calcular incidencia o prevalencia pero sí riesgos. Con los transversales podremos calcular la prevalencia en la población pero no la relación causa-efecto debido a la falta de secuencia temporal.

Page 6: diseño de bases de datos. Analisis e interpretacion de los resultados

6

En nuestro caso elegiremos muestras de estudios diferentes, para poder realizar acciones descriptivas y en otros buscar una relación causa-efecto.

Page 7: diseño de bases de datos. Analisis e interpretacion de los resultados

7

PRIMERA PARTE: DISEÑO DE BASES

DE DATOS

Page 8: diseño de bases de datos. Analisis e interpretacion de los resultados

8

1 DEFINICION DE VARIABLES

Una variable es cada uno de los caracteres o aspectos que se registran en una muestra de individuos.

Medir es asignar valores a las variables del estudio. La forma de medir las variables va a determinar el análisis matemático, estadístico, de las mismas.

A la hora de poner el nombre a las variables, tendremos en cuenta que luego para introducirlas en SPSS, el nombre tiene que tener como mucho 8 caracteres en total, incluidos los espacios, y que no permite signos del tipo de ª, º, etc. Existen varias escalas de medida: 1.- Cualitativas: Miden una característica en término de cualidad, nunca de forma numérica. Cada uno de los valores que puede tomar la variable se llama categorías. Pueden ser:

- Escala nominal: Determina la igualdad o desigualdad de los individuos. En SPSS al definir la medida buscaremos: nominal.

Ejemplos:

Sexo: masculino/femenino. Fumador: Sí/No.

Clasificación Internacional de Enfermedades

- Escala ordinal: Determina el orden de los individuos de “mayor”, “menor” o “igual que”. En SPSS al definir la medida buscaremos: ordinal.

Page 9: diseño de bases de datos. Analisis e interpretacion de los resultados

9

Ejemplos: Consumo de Tabaco: no fumador, fumador moderado, fumador importante.

Cantidad de dolor: poco, moderado, intenso.

Si las variables cualitativas tienen solo dos categorías � variable cualitativa dicotómica, y si tiene más de dos, variable politómica. 2.- Cuantitativas: Miden una característica de forma numérica. En SPSS al definir la medida buscaremos: escala.

- Discretas o discontinuas: Entre dos valores consecutivos no existe otro valor. Ejemplo: Número de hijos. Número ordenadores - Continuas: Entre dos valores consecutivos se pueden encontrar infinitos valores. Ejemplo: Peso, glucemia, etc.

¡OJO! aunque a priori datos como el código postal podrían

clasificarse como cuantitativos y por lo tanto lo definiríamos como escala en SPSS, sin embargo estaría mal clasificada, puesto que SPSS la considera como nominal ya que no es estrictamente cuantitativa por no hacer cálculos con ella, no tiene sentido sumarla, restarla etc., no tiene sentido en resumen tratarla como un número. Lo mismo pasaría con el número de historia clínica.

Page 10: diseño de bases de datos. Analisis e interpretacion de los resultados

10

IMPORTANTE

¿Cuántas variables tenemos que definir en un estudio? Recogeremos exclusivamente aquellas variables necesarias para el

análisis y no otras ampliando el número de forma indiscriminada, ya que sólo se consigue enlentecer y encarecer el estudio.

Page 11: diseño de bases de datos. Analisis e interpretacion de los resultados

11

2 RECOGIDA DE DATOS

La forma más correcta y útil es a través de la creación de un formulario específico adaptado a las variables que vamos a recoger. Como ejemplo vemos el reflejado en la Figura 1.

Fecha nacimiento:

NºSS:

Sexo: Hombre Mujer

Nivel de estudios: sin alfabetizar sabe leer y escribir EGB/Estudios primarios BUP/FP1-FP2/Estudios secundarios FP3/Diplomaturas de grado medio Universitarios

Estado civil: Soltero Casado/vive en pareja Viudo Separado/divorciado

PESO: TALLA:

Fumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS

Exfumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS

FIGURA1.

Vemos que la edad se recogerá como fecha de nacimiento para evitar errores de cálculo. Por lo tanto tendremos que crear una nueva variable, la variable FECHANAC que se refiere a la fecha de nacimiento de la persona incluida en el estudio. A partir de ésta variable, "a posteriori", calcularemos la variable EDAD (explicaremos mas adelante como hacerlo).

Cuidado con el sexo, se recomienda poner el término completo puesto que aunque sea terminología poco usada pero la H podría ser hombre o hembra, la M mujer o masculino, y tenemos que tener mucho cuidado con las interpretaciones libres, alguien incluso podría añadir la V de varón, ponerlo en símbolo, por eso se recomienda hacerlo con pregunta cerrada y sin dejar espacio para la imaginación para evitar errores posteriores.

Tanto en el nivel de estudios como en el estado civil se han creado preguntas de respuesta cerrada para favorecer el análisis al limitar el nº de respuestas.

Page 12: diseño de bases de datos. Analisis e interpretacion de los resultados

12

IMPORTANTE

A la hora de seleccionar las variables tendremos siempre en cuenta que hay que recogerlas de la manera que aporten mayor información y por

ello siempre que sea posible serán cuantitativas.

Como se ha comentado anteriormente, también se pueden utilizar

cuestionarios ya existentes y validados, como por ejemplo el test de Glasgow y lo que haremos será crear una variable para cada una de las preguntas del cuestionario:

Apertura ocular' (E) • Espontánea:'4 ' • Estímulo verbal (al pedírselo):'3 ' • Al Recibir un Estímulo doloroso:'2 ' • No responde:'1 '

'Respuesta verbal' (V) • Orientado:'5. ' • Confuso:'4 ' • Palabras inapropiadas:'3 ' • Sonidos incomprensibles:'2 ' • No responde:'1 '

'Respuesta motora' (M) • Cumple Órdenes Expresadas por voz:'6 ' • Localiza el Estímulo doloroso:'5 ' • Retira ante el Estímulo doloroso:'4 ' • Respuesta en flexión (postura de decorticación):'3 ' • Respuesta en extensión (postura de descerebración):'2 ' • No responde:'1

Variables: apertura ocular, respuesta verbal y respuesta motora.

Page 13: diseño de bases de datos. Analisis e interpretacion de los resultados

13

3 TRANSFORMACION E INTRODUCCION DE VARIABLES EN LA MATRIZ

Para luego poder analizar los datos en SPSS o cualquier programa

estadístico, hay que transformar el texto recogido en números que el ordenador pueda entender. Se suelen utilizar números enteros empezando por el 1 y evitando el 0 (el cero se suele reservar por acuerdo internacional para representar la ausencia de respuesta), así, aunando nuestro primer ejemplo de cuestionario de recogida de datos y el de la escala de Glasgow tendríamos:

FECHA = se puede introducir en formato fecha. FECHANAC= igual que la anterior EDAD = Nº entero sin decimales SEXO = Hombre: 1 y Mujer: 2 NCIG (Nº cigarrillos) = Nº entero sin decimales ESTUDIOS = sin alfabetizar: 1

Sabe leer y escribir: 2 EGB/ Estudios 1º: 3

BUP/FP1-FP2/Estudios 2º: 4 FP3/ Diplomaturas de grado medio: 5 Universitarios: 6

ESTCIVIL = soltero: 1 Casado/vive en pareja: 2 Viudo: 3 Separado/divorciado: 4

ABAND = Si: 1 y No: 2 AYUDFCO = Si: 1 y No: 2 AYUDMED = Si: 1 y No: 2

PESO= Nº entero con 2 decimales TALLA= Nº entero con 2 decimales ROCULAR= Espontánea:'4 '

Estímulo verbal (al pedírselo):'3 ' Al Recibir un Estímulo doloroso:'2 ' No responde:'1 '

RVERBAL= Orientado:'5. ' Confuso:'4 ' Palabras inapropiadas:'3 ' Sonidos incomprensibles:'2 ' No responde:'1

RMOTORA= Cumple Órdenes Expresadas por voz:'6 ' Localiza el Estímulo doloroso:'5 '

Page 14: diseño de bases de datos. Analisis e interpretacion de los resultados

14

Retira ante el Estímulo doloroso:'4 ' Respuesta en flexión (postura de decorticación):'3 ' Respuesta en extensión (postura de descerebración):'2 ' No responde:'1

El siguiente paso sería crear una matriz de datos en SPSS; cuando

abrimos SPSS automáticamente se abre la pantalla EDITOR DE DATOS y sobre ella un cuadro de diálogo con distintas opciones, nosotros elegiremos INTRODUCIR DATOS y ACEPTAR.

Nos encontraremos con una ventana de datos en la que aparecen

2 pestañas en la zona inferior derecha, una con la “vista de datos” y otra con la “vista de variables”. En la primera observaremos los datos en formato tabla ya conocido, a modo de Excel o Access. Cada fila representa una persona de la muestra seleccionada (aparecen numeradas de forma automática a partir de 1) y en cada columna se reflejarán todas las variables recogidas en el estudio referentes a esa persona (inicialmente saldrá la etiqueta “var”).

Page 15: diseño de bases de datos. Analisis e interpretacion de los resultados

15

En la pestaña “vista de variables”, la segunda, observaremos las

variables que vamos a definir para cada estudio con cada una de sus características particulares y definitorias.

Al igual que existe esta ventana de datos, que

reconoceremos por la extensión “sav” en SPSS hay que conocer los otros

Page 16: diseño de bases de datos. Analisis e interpretacion de los resultados

16

tipos de ventanas con los que tendremos que trabajar, y que explicaremos a continuación.

Ventana de sintaxis: La reconoceremos por tener la extensión “sps”. Todas las acciones que se generan en SPSS al ir seleccionando en el menú y sus diferentes opciones como codificar, definir, transformar, analizar, y otras, tienen su correspondencia en la denominada “sintaxis”, que es el lenguaje de programación, por decirlo así, de éste programa estadístico, por ello cada vez que demos una orden podemos seleccionar dos formas de ejecutarla, bien directamente mediante la opción “aceptar”, con lo que nos ejecutará la orden sin mas y no es nada recomendable, bien mediante la orden “pegar”, con lo que te abrirá la pantalla de sintaxis, lo seleccionaremos y la ejecutaremos.

Aunque a priori parece que ésta última es mas complicada es la mejor opción y la que os recomendamos hacer siempre, ya que aunque en el momento hacemos en dos veces lo que desde el comando “aceptar” haces en una, en cambio te puede simplificar mucho el trabajo cuando trabajas con grandes bases de datos o con análisis repetitivos en los que solo hay que cambiar una variable, desarrollaremos este tema posteriormente en cada apartado:

De igual manera, cuando ejecutemos las acciones que nos lleven a

realizar el análisis estadístico, tendremos como consecuencia una nueva ventana en la que veremos los resultados obtenidos, los gráficos, etc...

Page 17: diseño de bases de datos. Analisis e interpretacion de los resultados

17

Esta ventana se llama visor de resultados, la reconoceremos por tener la extensión “spo” y la veremos con el siguiente aspecto:

Una vez repasado las distintas pantallas que nos podemos

encontrar en el programa, vamos a retomar nuestras variables, teníamos ya realizado el trabajo de campo y el montón de cuestionarios listos para ser introducidos en el programa estadístico. Vamos primero a crear nuestra base de datos en la que posteriormente iremos introduciendo para cada sujeto todas las variables que queremos estudiar.

Primero iremos a la pestaña “vista de variables”, Para comenzar

cambiaremos la etiqueta “var” que define a cada una de las variables por el nombre con el que queramos asignar a las variables de nuestro estudio.

Así para introducir la variable FECHA, colocaremos el cursor en la

primera columna de la primera fila, y escribiremos el nombre de la variable: FECHA.

En el recuadro TIPO elegiremos la opción FECHA y dentro de ésta

la forma que nosotros queremos, en este caso será de la forma: dd.mm.yyyy. Recomendamos este formato para evitar el tener que “interpretar” si un registro con la fecha 14-09-09 es un niño de 2009 o bien un anciano de 1909. Cuando lo tengamos damos a ACEPTAR.

Page 18: diseño de bases de datos. Analisis e interpretacion de los resultados

18

FECHANAC: Semejante a la anterior, tras ponerle el nombre, en el recuadro TIPO elegiremos la opción FECHA y dentro de ésta la forma que nosotros queremos, en este caso será de la forma: dd.mm.yyyy. Cuando lo tengamos damos a ACEPTAR.

EDAD: Tras ponerle el nombre, haremos un clic sobre el recuadro

TIPO, que nos permitirá describir nuestra variable (en este caso numérica), decir cuantos dígitos (ancho) puede llegar a tener como máximo (en nuestro caso 3, puesto que la variable edad puede constar de unidades, decenas o centenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que la edad lo expresaremos como número entero sin decimales...). Cuando terminemos daremos a ACEPTAR.

Después haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable.

Definimos ahora la MEDIDA de la variable, en este caso ESCALA,

pudiendo elegir entre ésta, ordinal o nominal, según el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta elección, en las últimas versiones del programa se tiende a que si la información que introduzcas en este campo te puede luego limitar el análisis para intentar minimizar los errores en la etapa de análisis de resultados.

SEXO: En el recuadro ETIQUETAS, ponemos en primer lugar el nombre completo de la variable, en nuestro caso SEXO, y después vamos a definir los valores y el nombre de cada valor, así en nuestro caso, hemos designado el valor 1 a los hombres y el 2 a las mujeres, para introducir ésto, lo haremos de las siguiente manera: donde pone VALOR escribimos 1, donde pone ETIQUETA DE VALOR, ponemos hombre y damos a AÑADIR. A continuación donde pone VALOR escribimos 2, donde pone

Page 19: diseño de bases de datos. Analisis e interpretacion de los resultados

19

ETIQUETA DE VALOR, ponemos mujer y damos a AÑADIR y después a ACEPTAR.

En la columna Medida, seleccionaremos nominal, puesto que se

trata de una variable cualitativa. Para introducir la variable NÚMERO DE CIGARRILLOS, con el

nombre NCIG, escribiremos el nombre de la variable: NCIG.

Después haremos un clic sobre el recuadro TIPO, que nos permitirá describir nuestra variable (en este caso numérica), decir cuantos dígitos (ancho) puede llegar a tener como máximo (en nuestro caso 2, puesto que la variable número de cigarrillos puede constar de unidades o decenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que el número de cigarrillos lo

Page 20: diseño de bases de datos. Analisis e interpretacion de los resultados

20

expresaremos como número entero sin decimales...). Cuando terminemos daremos a ACEPTAR. Después haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable, en nuestro caso: etiqueta de variable: NÚMERO DE CIGARRILLOS.

Después haremos un clic sobre el recuadro valores perdidos, en este caso, para nuestra variable NCIG, lo que nos interesa es que no haya valores perdidos, sino tener el número de cigarrillos de todas las personas incluidas en la muestra, por lo que haremos un clic sobre "sin valores perdidos".

Hay que tener en cuenta que en pequeños estudios no deben

haber valores ausentes o perdidos, pues siempre podemos recuperar la fuente de datos para completar el ausente. Además, en determinadas ocasiones, si aceptamos valores perdidos, habrá que analizar su distribución, número, etc., como si se tratara de una variable más, dado que un número elevado de ellos, puede invalidar un estudio.

Hay que tener además que prever errores en la codificación si se

trata de grandes estudios, por lo que se pueden indicar rangos de valores que pueden considerarse como perdidos. No obstante, este tipo de análisis queda fuera de los objetivos de este manual.

Page 21: diseño de bases de datos. Analisis e interpretacion de los resultados

21

IMPORTANTE Muy importante dar siempre a añadir, lo que no lo pasemos

mediante el comando añadir no quedará reflejado posteriormente.

Después haremos un clic sobre el recuadro COLUMNAS, que nos permite diseñar la matriz de datos ya que nos permite definir el ancho de la columna y luego la Alineación del texto dentro de ella.

Definimos ahora la MEDIDA de la variable, en este caso ESCALA, pudiendo elegir entre ésta, ordinal o nominal, según el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta elección, en las últimas versiones del programa se tiende a que si la información que introduzcas en este campo te puede luego limitar el análisis para intentar minimizar los errores en la etapa de análisis de resultados.

El resto de opciones que nos resta los podemos aplicar en otras variables, como veremos a continuación.

El resto de las variables, las iremos introduciendo de igual modo,

de forma que cada una ocupe una columna contigua, con algunas peculiaridades:

ESTUDIOS: será similar a la variable sexo, pero en este caso en el

recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1: sin alfabetizar 2: Sabe leer y escribir

Page 22: diseño de bases de datos. Analisis e interpretacion de los resultados

22

3: EGB/ Estudios 1º 4: BUP/FP1-FP2/Estudios secundarios

5:FP3/ Diplomaturas de grado medio 6: Universitarios En la columna medida seleccionaremos ordinal, puesto que hay un orden en las categorías de la variable.

ESTCIVIL: será similar al anterior, pero en este caso en el recuadro

ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: soltero 2: Casado/vive en pareja 3: Viudo 4: Separado/divorciado

En la columna medida seleccionaremos nominal, puesto que es

cualitativa y no hay un orden en las categorías de la variable. ABAND: será similar a SEXO, pero en este caso en el recuadro

ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No Un truco sencillo consiste en seleccionar la variable que es similar a la que vamos a construir, con el botón de la derecha se copia, se selecciona la siguiente fila que está vacía y se pega con el botón de la derecha. Después solamente deberemos cambiar los valores y etiquetas que son diferentes.

Page 23: diseño de bases de datos. Analisis e interpretacion de los resultados

23

AYUDFCO: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No

AYUDMED: será similar a SEXO, pero en este caso en el recuadro

ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán: 1: Si y 2: No

PESO: será similar a edad, pero en este caso es un número entero con dos decimales.

TALLA: será similar a edad, pero en este caso es un número entero

con dos decimales. ROCULAR, RVERBAL Y RMOTORA, serán como la variable

ESTUDIOS, en las que tendremos que definir sus valores correspondientes y en la columna de medida seleccionar ordinal, puesto que hay un orden.

Una vez introducidas todas las variables, el aspecto final de la

matriz de datos en la VISTA DE DATOS y VISTA DE VARIABLES será el siguiente, estando ordenadas según las hayamos colocado en la vista de variables:

Page 24: diseño de bases de datos. Analisis e interpretacion de los resultados

24

Poniendo el cursor sobre el nombre de cada una de las variables, podremos ver la etiqueta de cada una de ellas, que es la que nos aclara realmente el concepto de cada variable.

Llegado este punto, tenemos ya la base de datos creada, es decir la estructura de lo que va a ser la composición de los datos que hayamos recogido en nuestro estudio, y que luego veremos como los recogemos y/o analizamos. Una de las acciones que nunca deberemos olvidar, es guardar nuestro trabajo, antes que las inclemencias eléctricas o de otra índole nos hagan tener que volver a repetir. Si nos fijamos, en la barra superior de nuestro programa indica “Sin Título”, que nos está indicando que no tiene nombre de archivo, y por lo tanto no está guardado. Para ello, utilizaremos la opción ARCHIVO/GUARDAR:

Page 25: diseño de bases de datos. Analisis e interpretacion de los resultados

25

Hay que fijarse bien dónde guardamos nuestro archivo, dado que luego podemos darlo por desaparecido, de igual forma que deberemos recordar el nombre del mismo para poder encontrarlo con la opción BUSCAR, caso de que “desaparezca misteriosamente”. Buscaremos el lugar donde lo colocamos, en nuestro caso en la carpeta Spss11 que está en el escritorio de nuestro ordenador (si no está, la podemos crear previamente o sobre la marcha, con la opción crear carpeta que aparece en la ventana “guardar como”.

Observaremos que los archivos del editor de datos se guardan con la extensión “.sav”, para así diferenciarlos de los archivos de la ventana de

Page 26: diseño de bases de datos. Analisis e interpretacion de los resultados

26

sintaxis, con extensión “.sps” y de los archivos del visor de resultados, con extensión “.spo”. Cuando tengamos que abrir un archivo guardado de SPSS, podremos abrirlo clickeando 2 veces sobre el icono del archivo o sencillamente abrir el programa e ir al menú ARCHIVO/ABRIR/DATOS:

Con todos estos pasos que hemos descrito, ya estamos preparad@s para la introducción de datos para su posterior análisis. 4 INTRODUCCIÓN DE DATOS

Una vez creada la matriz vamos a pasar los datos de cada persona que tenemos en los formularios.

Hay que hacerlo con mucho cuidado ya que un error a la hora de la

transcripción sería irreparable. El aspecto una vez introducidos los datos podría ser el siguiente:

Page 27: diseño de bases de datos. Analisis e interpretacion de los resultados

27

Como hemos podido observar en los ejemplos anteriores, hemos registrado como variables la fecha actual, la fecha de nacimiento y la edad, aunque la edad no la habíamos recogido, como hemos explicado anteriormente, para evitar errores, por lo que ese campo aparecerá vacío de momento. Ya que según la muestra que hayamos elegido, su edad y su capacidad de memoria, puede haber errores a la hora de acordarse de la edad o acertar en el cálculo a través de la fecha de nacimiento. Además, realizamos el mismo trabajo 2 veces, pues siempre se podría calcular la edad a partir de la fecha de nacimiento. Por último, según lo que dure el estudio, no será la misma edad al inicio del mismo que al final, mientras que la fecha de nacimiento no se puede modificar, a pesar de la duración. Por tanto, siempre se recogerá la edad como fecha, al igual que cualquier variable se debe recoger en la forma que más información nos pueda dar, es decir, cuantitativa siempre que se pueda. Ya aprenderemos a recodificarla o transformarla, y automatizar dicho proceso. Tenemos que tener en cuenta que cualquier variable podrá convertirse en una variable diferente, con lo que se conserva la original, aunque puede codificarse en la misma variable, desapareciendo la original y conservándose la nueva variable creada. De igual forma, podremos obtener otra variable nueva calculada a partir de otras cual puede ser el caso del Índice de masa corporal, objeto del siguiente apartado. 5 CALCULAR NUEVAS VARIABLES (A partir de una de ellas) Una vez introducidos los datos vamos a calcular la variable EDAD a partir de la variable FECHA NACIMIENTO. Para ello abrimos nuestra base de datos y calcularemos la nueva variable. Nos vamos al menú TRANSFORMAR / CALCULAR VARIABLE donde aparecerá una pantalla con un listado de expresiones numéricas que nos permitirá crear una nueva variable EDAD a partir de la variable FECHA NACIMIENTO y de la fecha de fin del estudio (o de la fecha actual por ejemplo):

Page 28: diseño de bases de datos. Analisis e interpretacion de los resultados

28

Ahora introduciremos en nombre de la nueva variable EDAD y buscaremos en la columna de la izquierda el término TRUNC, que añadiremos al espacio superior donde irá representada la función matemática de reconversión:

Al hacer un clic en la flecha tras marcarlo nos subirá la expresión matemática al recuadro superior derecho:

Page 29: diseño de bases de datos. Analisis e interpretacion de los resultados

29

A continuación añadiremos en el espacio señalado en negrita que ha quedado la expresión CTIME.DAYS, que buscaremos en la misma columna (Ojo con no quitar la selección en azul, pues es donde irá la expresión matemática seleccionada). Con esta expresión le estamos diciendo que calcule tiempo en días entre dos fechas:

Buscaremos ahora la expresión DATE.DMY y la añadiremos también. Con esto le estamos diciendo que nosotros le pondremos la fecha en este formato: dos dígitos primeros será el día, los dos siguientes el mes y los cuatro últimos el año.

Page 30: diseño de bases de datos. Analisis e interpretacion de los resultados

30

Quedará un paréntesis con interrogantes sobre una fecha, que deberemos añadir. Será la fecha a partir de la cual se calcula la edad del caso, y puede ser la de fecha de cierre del estudio:

A esta fecha habrá que restarle (siempre teniendo en cuenta los paréntesis) la variable FECHA NACIMIENTO, que es la que utilizamos para calcular la variable EDAD y que la buscaremos entre los nombres de las variables que encontramos en el recuadro inferior de la izquierda de la pantalla:

Page 31: diseño de bases de datos. Analisis e interpretacion de los resultados

31

Una vez encontrado hacemos un clic sobre ella y otro sobre el recuadro con la flecha para que lo pase al recuadro superior de la derecha de la pantalla:

Finalmente, recordar que con esta expresión matemática habíamos dicho que nos calcularía los días que había entre dos fechas, para que nos de el dato en años en lugar de en días tendremos que dividir por 365.25, y así calculamos la denominada edad en años cumplidos. Se añade 0,25 para corregir el año bisiesto cada 4 años:

Page 32: diseño de bases de datos. Analisis e interpretacion de los resultados

32

A continuación pegamos la operación, lo que nos permitirá por un lado tener por escrito las órdenes de realizar las operaciones todas las veces que lo precisemos, aunque añadamos nuevos casos, abriéndose la ventana de sintaxis, en la cual seleccionaremos y ejecutaremos la orden.

Page 33: diseño de bases de datos. Analisis e interpretacion de los resultados

33

Por otro lado, podremos guardar esta sintaxis con el nombre de cálculo de edad lo que nos permitirá ya para siempre no tenerla que volver a reescribir y podremos usar en cualquier base de datos:

Obtendremos entonces la variable EDAD, que al haberla definido previamente saldrá ya con formato y por tanto sin decimales.

En caso contrario tendríamos que ir a vista de variables a modificarla como ya hemos aprendido, sin decimales y ancho necesario.

Page 34: diseño de bases de datos. Analisis e interpretacion de los resultados

34

6. CALCULAR NUEVAS VARIABLES (A partir de varias de ellas) Para calcular otra nueva variable, podemos tener que necesitar los valores de otras que hemos recogido. A estas alturas ya nos parece del todo lógico el no recoger el IMC, cuando se calcula a partir del peso y de la talla, de los cuales disponemos. Al ser un proceso automatizado, eliminamos los errores de calculadora sobre el terreno. Por tanto, como ejemplo, sobre los datos anteriores, vamos a calcular al IMC. Volveremos al mismo procedimiento TRANSFORMAR /CALCULAR ya conocido. Como sabemos, tenemos que implementar la siguiente fórmula:

( )2

PesoIMC

Talla=

Page 35: diseño de bases de datos. Analisis e interpretacion de los resultados

35

Tendremos entonces creada la nueva variable IMC, que tendremos que configurar si la queremos con decimales o no.

Page 36: diseño de bases de datos. Analisis e interpretacion de los resultados

36

7. RECODIFICAR EN UNA MISMA VARIABLE En ocasiones, tenemos en la base de datos alguna variable que

hemos definido de tal forma que o bien no es posible analizar y deberíamos haberla recogido de otra manera, o no resulta demasiado correcta al utilizarla porque puede confundir, como veremos a continuación. No obstante tenemos que estar muy seguros de este paso porque la nueva variable se pondrá sobre la anterior y ésta desaparecerá para siempre, por ello ante la mínima duda os aconsejo mejor trabajar con el paso que veremos en el apartado siguiente de decodificar en distinta variable.

Para tener un ejemplo vamos a cambiar manualmente en nuestra

base de datos, en la variable SEXO, el 1 por la H y el 2 por la M. Esta es una situación con la que podemos encontrarnos si tomamos los datos de otras base de datos o la persona que metió los datos no sabe que en SPSS no se puede trabajar con letras, sino que todas las variables tienen que estar codificadas en números.

Por si se nos diese este caso vamos a aprender como pedirle a

SPSS que cambie la codificación a modo numérico, 1 = Hombre y 2 = Mujer.

Iremos a TRANSFORMAR/RECODIFICAR en las mismas variables.

Page 37: diseño de bases de datos. Analisis e interpretacion de los resultados

37

Seleccionamos la variable que deseamos recodificar y le indicamos

los cambios que queremos.

En la nueva ventana indicaremos los valores antigüos y los nuevos

valores que les vamos asignar. Después damos a CONTINUAR:

Page 38: diseño de bases de datos. Analisis e interpretacion de los resultados

38

Finalmente Pegamos, y ejecutamos en el editor de sintaxis.

Obtendremos los nuevos cambios en la variable, quedándonos

pendiente la modificación de los valores de las etiquetas.

Veremos pues en la vista de datos que salen los valores de las

etiquetas al ir a la barra de menú y seleccionar VER/ETIQUETA DE VALORES. También puede hacerse directamente mediante un icono de una etiqueta:

Page 39: diseño de bases de datos. Analisis e interpretacion de los resultados

39

8. RECODIFICAR EN DISTINTAS VARIABLES El siguiente tipo de transformación de una variable consiste en

poder obtener una variable nueva a partir de otra, siempre conservando la original.

Generalmente ocurre cuando tenemos variables cuantitativas y las

queremos convertir a cualitativas de diferentes categorías para hacer diferentes tipos de análisis según los objetivos del estudio.

Ya hemos indicado que lo preferible es codificar una variable en el

formato en que ofrece la máxima información, que siempre que sea posible será cuantitativa. En nuestro caso, vamos a recodificar una variable como el número de cigarrillos por otra en la que cataloguemos el tipo de fumador en 4 categorías: No fumador-Fumador Leve- Moderado-Empedernido.

Por ello seleccionaremos la variable “NCIG” y seguimos idénticos

pasos, con TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES, debiendo indicar cual es la variable de entrada (NCIG) y la de resultado (en nuestro caso por ejemplo, gradtab).

Hay que recordar que hay que pegar las operaciones para

conservarlas, y ejecutarlas cada vez que añadamos datos nuevos, para actualizar las recodificaciones. Recordar que los decimales se ponen con la coma (,).

Page 40: diseño de bases de datos. Analisis e interpretacion de los resultados

40

Tendremos que indicar que número de cigarrillos corresponde a

cada rango, prestando atención a no dejarnos ningún valor sin que lo abarque alguno de los rangos o categorías.

Acordamos pues, 0 cig �No fumador, 1 a 10 cig � Fumador leve,

Page 41: diseño de bases de datos. Analisis e interpretacion de los resultados

41

11 a 20 cig � F. moderado y 21 en adelante � F. empedernido, comenzando ya a codificar desde el 1 para los no fumadores, y luego ponerle la etiqueta y sus valores:

Finalmente damos a CONTINUAR y pegamos lo realizado, así

podemos observar las operaciones en el editor de sintaxis, para comprenderlo antes de ejecutarlo. Con ello también nos daremos cuenta de los errores que hayamos podido cometer.

Así veremos la nueva variable a la que hay que recordar añadirle la

etiqueta y sus valores y el formato:

Page 42: diseño de bases de datos. Analisis e interpretacion de los resultados

42

Si ahora le damos al icono de valores de etiquetas lo veremos de

forma comprensible, y además, al meter los datos se nos facilita el no tener que recordar los códigos correspondientes:

Si cada vez que hacemos una operación la pegamos, al acabar la

sesión, tendremos en el editor de sintaxis todo el proceso completo en una sola ventana y un archivo único, sin confusiones.

Hasta ahora hemos definido prácticamente todos los tipos de

variables que podamos utilizar, así como las transformaciones más comunes que se suelen utilizar.

Para transformaciones más complejas se recomienda bibliografía

más avanzada. No obstante cuando para nuestros objetivos manejamos un programa que no conocemos, éste suele llevar en la mayoría de las ocasiones una ayuda, que puede sernos útil, en el caso de SPSS, la encontramos en el último icono de la barra superior:

Page 43: diseño de bases de datos. Analisis e interpretacion de los resultados

43

Si seleccionamos TEMAS, aparecerá la ayuda para buscar por

temas. Si señalamos TUTORIAL, aparece un curso interactivo o tutorial sencillo y útil cuando se conoce ya básicamente SPSS.

La opción SYNTAX GUIDE es una guía en inglés de uso de la

sintaxis. Finalmente existe un ASESOR ESTADÍSTICO que nos puede orientar en algunas de las operaciones de análisis estadístico, interesante abrir de vez en cuando.

En este apartado estamos viendo que estamos introduciendo los datos directamente en SPSS, lo cual a veces no suele ser lo más cómodo, pues parece mejor introducirlos en un formulario de una base de datos que manejamos bien, como Access, o que nos han prestado para que nos la trabajemos y obtengamos resultados.

9. CREACIÓN DE UNA BASE DE DATOS SPSS A PARTIR DE UN CUESTIONARIO En numerosas ocasiones, lo que pretendemos con nuestros estudios es aplicar a una muestra seleccionada de pacientes, un cuestionario validado, para después realizar el análisis de los datos obtenidos con las distintas variables, que en este caso serán los ítems del cuestionario. Hay que tener en cuenta que para obtener una clasificación final de cada paciente en un grupo u otro según los resultados de los ítems del cuestionario, deberemos crear nuevas variables con las que ya tenemos. En ocasiones bastará con añadir una variable nueva que sea sumatorio de las demás, en otras ocasiones primero tendremos que transformar las existentes tal y como se ha explicado en apartados anteriores.

Page 44: diseño de bases de datos. Analisis e interpretacion de los resultados

44

Vamos a crear una base de datos a partir de un cuestionario validado para valoración de la sintomatología prostática, el I-PSS:

Las 7 primeras preguntas del test tienen 6 posibles respuestas:

• 0: Nunca • 1: uno de cada 5 • 2: uno de cada 3 • 3: uno de cada 2 • 4: dos de cada 3 • 5: casi siempre

Las respuestas de la pregunta de calidad de vida son 7:

• 0: Encantado • 1: contento • 2: más bien satisfecho • 3: indiferente • 4: más bien insatisfecho • 5: mal • 6: muy mal

Page 45: diseño de bases de datos. Analisis e interpretacion de los resultados

45

La calidad de vida sentida por el paciente se clasificará en aceptable si

las respuestas son de la 0 a la 3, y será de alteraciones en la calidad de vida si las respuestas son de la 4 a la 6.

De forma práctica, para evitar repeticiones, crearemos directamente la

variable edad y obviaremos los campos identificativos de nombre y apellidos (teniendo en cuenta que deberemos haber recogido como se ha explicado antes, la fecha de nacimiento y calculado la edad por los procedimientos descritos).

Por ello, para empezar, crearemos las variables que corresponden a la

edad y las 7 preguntas del test y la de la calidad de vida, debiendo quedar de la siguiente manera:

Lógicamente, hay que definir las características de dichas variables

según las indicaciones previas y lo explicado al inicio del manual de forma que obtendríamos una base de datos como la siguiente:

Page 46: diseño de bases de datos. Analisis e interpretacion de los resultados

46

Tiene que quedar claro, a partir de este punto, que para obtener el total de puntos de la suma de cada pregunta, primero habrá que haberle dado las etiquetas de valor a cada una de las respuestas y asignado dicho valor como se ha visto anteriormente, para luego obtener una nueva variable que será la suma de dichos valores (var = sumaipss).

Iremos a TRANSFORMAR/CALCULAR y realizaremos las operaciones de suma de los valores absolutos de cada una de las preguntas de la forma que se describe a continuación:

Page 47: diseño de bases de datos. Analisis e interpretacion de los resultados

47

Seguidamente pegamos la operación, como se ha indicado anteriormente, para poder ejecutar la orden conforme se añadan casos y así se actualice la nueva variable:

Y seleccionando y ejecutando obtenemos la nueva variable, a la que habrá que ajustarle los decimales.

Nos quedará, a partir de los puntos totales, clasificar a cada paciente según los síntomas que padece según venía en el cuestionario, leve, moderado o grave, siguiendo el modelo descrito en recodificar en diferentes variables:

Page 48: diseño de bases de datos. Analisis e interpretacion de los resultados

48

Pegamos la operación y la ejecutamos, para darle después los valores a las etiquetas de cada tipo de síntomas:

Page 49: diseño de bases de datos. Analisis e interpretacion de los resultados

49

Para finalizar la configuración de la base de datos, debemos igualmente, como se ha dicho antes, recodificar la variable que recoge la calidad de vida en una de las 2 categorías descritas. Lo realizaremos igualmente con el RECODIFICAR/EN DISTINTAS VARIABLES:

Pondremos las etiquetas correspondientes:

Page 50: diseño de bases de datos. Analisis e interpretacion de los resultados

50

Y así tendremos todas las variables para poder empezar a registrar datos para el posterior análisis.

Finalmente, he aquí como quedaría una vez recogidos los datos y ejecutada de nuevo la sintaxis completa que previamente habremos guardado, para evitar repetir cada vez el trabajo.

Con esta base de datos ya podremos realizar análisis estadísticos, como posteriormente aprenderemos.

Page 51: diseño de bases de datos. Analisis e interpretacion de los resultados

51

NOTAS

Page 52: diseño de bases de datos. Analisis e interpretacion de los resultados

52

Page 53: diseño de bases de datos. Analisis e interpretacion de los resultados

53

SEGUNDA PARTE: ANALIZAR E INTERPRETAR

RESULTADOS

Page 54: diseño de bases de datos. Analisis e interpretacion de los resultados

54

9. ANÁLISIS DESCRIPTIVO (VARIABLES CUANTITATIVAS)

En este apartado vamos ya a comenzar con el análisis estadístico, propiamente dicho, comenzando por describir cada tipo de variables que hemos aprendido anteriormente a codificar, correspondiente a todos los tipos de variables con los que nos podemos encontrar.

Como variable, vamos a describir la variable número de cigarrillos,

que teníamos en la base de datos, utilizando las técnicas adecuadas (calculando medias, modas, cuartiles… etc.), y representándolas mediante diagramas de caja o Box-plot.

Para describir una variable cuantitativa como el número de

cigarrillos iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS:

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG o TAB según el nombre que se le haya asignado y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Page 55: diseño de bases de datos. Analisis e interpretacion de los resultados

55

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES DE PERCENTILES, señalaremos los CUARTILES y PERCENTILES, y dentro de éstos escribiremos: 25 y daremos a AÑADIR, 50 y AÑADIR, 75 y AÑADIR.

Dentro de TENDENCIA CENTRAL seleccionaremos MEDIA, MEDIANA Y MODA.

Dentro de DISPERSION, seleccionaremos DESVIACION TÍPICA, VARIANZA, AMPLITUD, MÍNIMO, y MÁXIMO.

Dentro de distribución marcaremos ASIMETRÍA y CURTOSIS. Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA,

seleccionamos ninguno en este caso porque nosotros representaremos la variable cuantitativa con un Box-plot que explicaremos más adelante, en caso de querer realizar alguna gráfica, marcaríamos aquí la opción deseada, y después damos a CONTINUAR.

Page 56: diseño de bases de datos. Analisis e interpretacion de los resultados

56

Abrimos ahora el recuadro FORMATO, en ORDENAR POR

seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

Si ya tenemos toda la selección damos a PEGAR, con esta opción,

en lugar de ACEPTAR, lo que le estamos pidiendo es no sólo que realice las órdenes, sino que además las pegue en una carpeta, con lo que en caso de error o de que queramos repetir el análisis, tendremos las órdenes guardadas, podemos volver a ejecutarlas, sin necesidad de repetir todo el proceso anterior lo que ahorraría mucho tiempo.

Una vez seleccionada la orden pegar vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde están escritas todas las órdenes, que ejecutaremos como ya hemos descrito anteriormente:

Page 57: diseño de bases de datos. Analisis e interpretacion de los resultados

57

Aparecerá lo que hemos solicitado en una buena ventana de

resultados, RESULTADOS1, donde aparece analizada la variable NCIG:

Para saber como describir la variable cuantitativa necesitamos saber si sigue una distribución normal o no. Si ésta cumple los criterios de normalidad, la podremos describir con la media y la desviación típica. Caso de no cumplirlos, lo haremos con la mediana y el IQR (percentil 75 – percentil 25).

Generalmente damos como normal cualquiera que contenga más de 30 casos, aunque esto es algo criticable como único criterio. Una forma para saber si sigue o no una distribución normal es fijarnos en los criterios de Asimetría y Curtosis. En la tabla de los resultados, 1º nos fijamos en la asimetría y su error y luego en la curtosis y su error. Empezamos con la asimetría: tenemos el valor del coeficiente de asimetría que es 0,416 y el error de asimetría que es 0,845; para saber si esta incluido el coeficiente de asimetría en el intervalo de confianza de dicho coeficiente primero vamos a calcular el intervalo, ya sabéis que la

Page 58: diseño de bases de datos. Analisis e interpretacion de los resultados

58

forma de calcular el intervalo que incluya el 95% de los valores es multiplicando el denominado error típico por +2 � (-1,69 a +1,69). Ahora nos fijamos en el valor del coeficiente de asimetría que en este caso es 0,416; Como queda incluido dentro del intervalo, sí que cumple el criterio de asimetría. Vamos ahora con la curtosis, el coeficiente de curtosis es -2,051 y su error típico 1,741; calculamos el intervalo de confianza, en este caso multiplicamos 1,741 por +2 � (-3,482 a +3,482). Ahora vemos el coeficiente de curtosis que es 1,741; Como queda dentro del intervalo, sí que cumple el criterio de curtosis. Para poder considerar que una variable cuantitativa sigue una distribución normal y describirla con su media y desviación de estándar debe cumplir los dos supuestos anteriores, no basta con uno solo. En este caso, puesto que si sigue una distribución normal, describiremos la variable consumo de cigarrillos de la siguiente manera: la media de consumo de cigarrillos es de 10 cigarrillos al día (DS 9 cig/dia):

número de cigarrillos dia

6

0

9,50

7,50

20

8,803

77,500

,416

,845

-2,051

1,741

20

0

20

1,50

7,50

20,00

Válidos

Perdidos

N

Media

Mediana

Moda

Desv. típ.

Varianza

Asimetría

Error típ. de asimetría

Curtosis

Error típ. de curtosis

Rango

Mínimo

Máximo

25

50

75

Percentiles

Page 59: diseño de bases de datos. Analisis e interpretacion de los resultados

59

Si no hubiese cumplido el criterio de normalidad lo que hubiésemos usado para describir la variable cuantitativa hubiese sido la mediana y el intervalo intercuartil (IQR). Para calcular éste último nos fijamos en los percentiles 25 y 75, en este caso 1,5 y 20, el IQR será entonces 20-1,5=18,5. Por lo que hubiésemos dicho que la mediana del consumo de cigarrillos es de 8 cig/dia (IQR 19 cig/dia).

Ahora vamos a realizar ahora la representación gráfica de la variable cuantitativa número de cigarrillos mediante un BOX-PLOT, para ello vamos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción EXPLORAR.

Se abre entonces un recuadro, en la primera columna están todas

las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG y damos a la flecha que separa esta columna de la columna DEPENDIENTES otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la columna denominada DEPENDIENTES.

Page 60: diseño de bases de datos. Analisis e interpretacion de los resultados

60

Dentro de MOSTRAR seleccionamos con un clic GRÁFICOS. Vamos

ahora al recuadro GRAFICOS, en DIAGRAMAS DE CAJAS, seleccionamos NIVELES DE FACTORES JUNTOS, en DESCRIPTIVOS, seleccionamos TALLO Y HOJAS. Damos a CONTINUAR.

Una vez seleccionado todo daremos a PEGAR. Se abre entonces de forma automática la ventana de SINTAXIS1,

donde se han pegado las nuevas órdenes a continuación de las que ya teníamos. Se seleccionan únicamente las nuevas instrucciones y las ejecutamos.

Y en la pantalla RESULTADO1, veremos el gráfico de tallo y hojas:

Page 61: diseño de bases de datos. Analisis e interpretacion de los resultados

61

Y en el DIAGRAMA DE CAJA, tendremos el BOX-PLOT:

20

15

10

5

0

La línea más gruesa representa la media o la mediana, según la distribución sea o no normal. Los límites superior e inferior de la caja corresponden al valor de la desviación estándar o a los percentiles 75 y 25 respectivamente. Por ello la caja es la representación gráfica del intervalo de confianza o del IQR.

Las “patas” que salen de la caja hacia arriba y hacia abajo son la

representación de los valores máximo y mínimo respectivamente, en este caso solo hay valores mínimos, no máximos.

En ocasiones hay también otros valores representados con un *

más allá de las “patas” del box-plot. Son los valores denominados “extremos”, aunque en este caso no había ninguno.

10 ANÁLISIS DESCRIPTIVO (VARIABLES CUALITATIVAS) Para describir la variable cualitativa SEXO iremos a ANALIZAR en la

parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS, al igual que hicimos antes, salvo que elegiremos opciones diferentes correspondientes al nuevo tipo de variable.

Page 62: diseño de bases de datos. Analisis e interpretacion de los resultados

62

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso SEXO y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES

DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribución no marcaremos nada Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA,

seleccionamos GRÁFICOS DE BARRAS en este caso y después damos a CONTINUAR.

Page 63: diseño de bases de datos. Analisis e interpretacion de los resultados

63

Abrimos ahora el recuadro FORMATO, en ORDENAR POR

seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

Si ya tenemos toda la selección damos a PEGAR, y en la ventana

de sintaxis ejecutamos la orden:

Y aparecerá la pantalla RESULTADOS1, donde aparece analizada la

variable SEXO:

Page 64: diseño de bases de datos. Analisis e interpretacion de los resultados

64

Y en el GRÁFICO DE BARRAS, tendremos el DIAGRAMA DE

BARRAS:

11 ANÁLISIS DESCRIPTIVO (VARIABLES ORDINALES) Como ya se ha comentado desde el principio de este manual,

siempre que sea posible, las variables se deben recoger de forma cuantitativa, aunque las necesitemos posteriormente con otras características, pues una variable cuantitativa siempre puede transformarse en una cualitativa ordinal.

Page 65: diseño de bases de datos. Analisis e interpretacion de los resultados

65

No obstante, cuando se valoran determinadas variables, éstas siempre se recogen de forma ordinal, como los grados de dolor, por ejemplo.

Vamos a elegir la variable ordinal ROCULAR (respuesta ocular), que

se compone de los valores:

Espontánea: 4; Estímulo verbal: 3; Al Recibir un Estímulo doloroso: 2; No responde: 1.

Para describir la variable ordinal ROCULAR iremos a ANALIZAR en

la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS.

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso ROCULAR y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Page 66: diseño de bases de datos. Analisis e interpretacion de los resultados

66

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES

DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribución no marcaremos nada. Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA, seleccionamos ninguno en este caso porque nosotros representaremos la variable ordinal con un diagrama de líneas y después damos a CONTINUAR.

Page 67: diseño de bases de datos. Analisis e interpretacion de los resultados

67

Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

Si ya tenemos toda la selección damos a PEGAR. Una vez

ejecutada la orden pegar aparecen en la SINTAXIS1, las órdenes nuevas, que seleccionaremos y ejecutamos:

Aparecerá la ventana de resultados donde vemos analizada la

variable de interés:

Page 68: diseño de bases de datos. Analisis e interpretacion de los resultados

68

Vamos ahora a GRÁFICOS en la parte superior de la pantalla y

hacemos un clic, se desplegará un menú del que elegiremos la opción INTERACTIVOS: BARRAS:

Dentro del recuadro CREAR BARRAS, ASIGNAR VARIABLES,

seleccionaremos la variable ROCULAR y la arrastraremos hasta el eje inferior del gráfico.

Page 69: diseño de bases de datos. Analisis e interpretacion de los resultados

69

En la pestaña OPCIONES GRAFICO DE BARRAS marcaremos valor y recuento:

Si ya tenemos toda la selección damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece

directamente una pantalla con el nombre de SINTAXIS1, donde están escritas las nuevas órdenes, que seleccionaremos y ejecutaremos.

Y en GRÁFICO, tendremos el DIAGRAMA DE LÍNEAS:

Page 70: diseño de bases de datos. Analisis e interpretacion de los resultados

70

12 COMPARACIÓN DE VARIABLES Cuando a lo largo de un estudio llegamos al momento de intentar relacionar unas variables con otras para ver si se cumple o no la hipótesis alternativa propuesta o la nula de partida, nos encontramos en la disyuntiva de decidir que prueba estadística debemos elegir para un correcto análisis estadístico. Para ello podemos utilizar una tabla a modo resumen que nos indica la prueba estadística según las características de las variables que queremos relacionar, cuando se cumplan las condiciones de aplicación:

Variable X (independiente) Categórica

C=2 Categórica c>2

Cuantitativa

Categórica C=2

χ2 χ2

Categórica c>2

χ2 χ2

Regresión logística

Variable Y (dependiente)

Cuantitativa

T de Student

Anova Regresión simple

Con este esquema, fácilmente podemos saber la prueba estadística que debemos aplicar. Hay que tener en cuenta, no obstante, que hay que diferenciar cual va a ser la variable independiente y cual la dependiente, pues el sentido en el que se quiere analizar la relación entre ambas determina el tipo de análisis. Cuando no se cumplan las condiciones de aplicación o para las variables ordinales, usamos correcciones como el test exacto de Fisher u otros test menos potentes, los no paramétricos, como la U de Mann Whitney o el Test de Kruskall-Wallis, a modo de resumen:

Variable X (independiente) Categórica

C=2 Categórica c>2

Cuantitativa

Categórica C=2

Test Exacto de Fisher

Asociación lineal por lineal

Categórica c>2

Asociación lineal por lineal

Asociación lineal por lineal

Regresión no Paramétrica

Variable Y (dependiente)

Cuantitativa

U de Mann Whitney

Test Kruskall Wallis

Correlación de Spearman

Page 71: diseño de bases de datos. Analisis e interpretacion de los resultados

71

13 TABLAS DE CONTINGENCIA, COMPARACIÓN DE 2 PROPORCIONES: PRUEBA DE X2

Cuando queremos saber si existe relación o no entre 2 variables cualitativas, siempre tendremos que utilizar la prueba de χ2 (Chi2), independientemente de cual de ellas sea la variable independiente. No obstante, habrá que clarificar cual de ellas es la independiente, para darle un sentido a la relación que queremos analizar, y seleccionar en SPSS el comando correspondiente. Utilizaremos la base de datos anterior, en la que queremos saber si existe una relación entre el sexo y el nivel de estudios. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (hombre, mujer), y, en nuestro caso sería la variable independiente, y que la variable ESTUDIOS es cualitativa con seis categorías (desde sin alfabetizar hasta universitarios) y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cualitativa, con seis categorías (HTA), utilizaremos pues la prueba de χ2. Hay que tener en cuenta que todas las pruebas estadísticas tienen unas condiciones de aplicación de las mismas, al igual, por ejemplo, que asumíamos normalidad cuando la muestra era mayor de 30 casos. En el caso de la χ2, las condiciones o criterios de aplicación van a ser:

� N > 20 � Menos del 20% con celdas con valor esperado <5 � Si N>40, sólo se acepta 1 celda con valor esperado <1

Conviene recordar que con χ2 se intenta estudiar la independencia de 2 variables con varias categorías. Si se acepta la hipótesis nula, que es como obtener una p>0,05, se acepta la independencia, no se encuentra relación en esas variables. Si por el contrario, p<0,05, entonces se aceptará la hipótesis alternativa, se rechaza la hipótesis de independencia y se concluye que las 2 variables están relacionadas.

Page 72: diseño de bases de datos. Analisis e interpretacion de los resultados

72

Este manual no tiene por objeto dar una amplia explicación teórica de los conceptos de cada prueba estadística, por lo que se recomienda encarecidamente que se repase en otro manual dichos conceptos para el mejor entendimiento de los análisis. Cuando no se cumplen los criterios de aplicación de la prueba, hay que utilizar otra prueba estadística, como será el Test exacto de Fischer o la Asociación lineal por lineal. Para ver como se aplica la prueba χ2, vamos ahora a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y dentro de éste la opción TABLAS DE CONTINGENCIA:

Podremos observar una nueva ventana similar a las vistas hasta

ahora, pero con varios cuadros internos. En las Filas se colocará a variable a estudiar, la dependiente según nuestra hipótesis alternativa, y en las Columnas la variable independiente.

Page 73: diseño de bases de datos. Analisis e interpretacion de los resultados

73

En la opción de Estadísticos podremos observar toda una gran variedad de ellos desconocidos para nosotros la mayoría, por lo que seleccionaremos la Chi cuadrado y los riesgos; del resto podemos encontrar una breve definición y finalidad al final de este manual.

En la opción casillas seleccionamos todas las opciones posibles,

esperadas, observadas, fila, columna y total: 1. Frecuencias:

*Observadas: Número de casos resultantes de la clasificación *Esperadas: Número de casos que debería haber en cada

casilla si las variables utilizadas fueran independientes

2. Porcentajes: *Fila: % de la frecuencia observada frente al total de fila *Columna: % de la frecuencia observada frente al total de columna *Total: % de la frecuencia observada frente al nº total de casos

Page 74: diseño de bases de datos. Analisis e interpretacion de los resultados

74

Una vez señaladas las opciones damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece

directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:

Y la pantalla RESULTADO1, donde aparecen los resultados del análisis de las dos variables, HTA y SEXO:

Claramente podemos observar que se cumplen los 3 criterios de aplicabilidad de la prueba N>20 y >40, y no hay un 20% de frecuencias esperadas <5.

Por todo ello, podremos pasar al cuadro inferior donde vienen descritos los estadísticos correspondientes, eligiendo entonces los correspondientes a la Chi cuadrado.

Page 75: diseño de bases de datos. Analisis e interpretacion de los resultados

75

Los grados de libertad están calculados multiplicando el número de columnas menos 1 por el número de filas menos 1 de la tabla de contingencia (categorías de las variables � SEXO(2-1)xESTUDIOS(2-1)=1.

Obtenemos finalmente una p= 0,180, NO estadísticamente significativa, por lo que no aceptaremos que son variables independientes y se acepta la hipótesis nula de que no están relacionadas. Concluiremos que no existe relación entre el SEXO y los ESTUDIOS. Por ejemplo podíamos decir que hay mas mujeres universitarias 64% (9/14) y mas hombres con diplomaturas 62% (8/13), aunque la diferencia no es estadísticamente significativa (χ2= 1,801; p=0,180). A continuación observaremos el cuadro resultante de los riesgos, que nos proporciona el intervalo de confianza:

Estimación de riesgo

2,880 ,603 13,749

1,723 ,756 3,927

,598 ,271 1,319

27

Razón de las ventajaspara nivel de estudios(DIPLOMATURAS /UNIVERSIDAD)

Para la cohorte SEXO= HOMBRE

Para la cohorte SEXO= MUJER

N de casos válidos

Valor Inferior Superior

Intervalo de confianzaal 95%

Page 76: diseño de bases de datos. Analisis e interpretacion de los resultados

76

14 COMPARACIÓN DE DOS MEDIAS: T DE STUDENT-FISHER Cuando lo que queremos es comparar la media de 2 grupos diferentes, la prueba que debemos elegir será siempre la T de Student-Fischer. Queremos saber si existe una relación entre el IMC y el sexo de los pacientes de una muestra seleccionada de la población. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (HOMBRE, MUJER), y, en nuestro caso sería la variable independiente, y que la variable IMC es cuantitativa, y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de T de Student-Fisher. El paso previo para la aplicación de la prueba es comprobar que cumple las condiciones de aplicación de la prueba, que en ésta serán:

A/ Normalidad B/ Homogeneidad de varianzas

Para poder realizar dichos análisis, es conveniente describir la variable cuantitativa estratificada por las 2 categorías de la variable cualitativa, utilizando para ello el método de EXPLORAR, y solicitando ciertas pruebas de normalidad por si acaso nos hicieran falta a posteriori para demostrar ésta. Seguiremos la ruta ANALIZAR/ESTADISTICOS DESCRIPTIVOS/EXPLORAR:

Page 77: diseño de bases de datos. Analisis e interpretacion de los resultados

77

Después, en la opción gráficos seleccionamos GRAFICOS CON

PRUEBAS DE NORMALIDAD y seguimos los procesos habituales:

Obtendremos los estadísticos descriptivos que nos servirán para

verificar los criterios de normalidad:

Page 78: diseño de bases de datos. Analisis e interpretacion de los resultados

78

Explicamos a continuación, los criterios que debe cumplir de normalidad:

A/ Normalidad: n1 y n2 > 30 Si no se cumple la condición, habrá que comprobar que se

cumplen los siguientes 3 requisitos siguientes en cada uno de los grupos, n1 y n2:

A1.- Comprobar que el máximo y el mínimo quedan dentro del intervalo definido por media + 3 Desviaciones estándar A2.- |Asimetría| < 2xEEAsimetría A3.- |Curtosis| < 2xEECurtosis Si no se cumplieran las 3 condiciones, entonces no podríamos confirmar la normalidad, por lo que deberíamos recurrir a comprobarla con el test de Kolmogorov-Smirnov o el de Saphiro-Wilks. Al describir la variable cuantitativa, le hemos solicitado los gráficos con pruebas de normalidad, que encontraremos en la ventana de resultados:

Pruebas de normalidad

,217 3 . ,988 3 ,792

,367 3 . ,792 3 ,096

SEXOHOMBRE

MUJER

indice de masa corporalEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Para que se acepte la normalidad, hay que recordar, que las

pruebas no deben ser significativas, es decir, no deben mostrar diferencias, pues si la significación es adecuada (p<0,05), no podrá aceptarse la normalidad y entonces, nos veremos abocados directamente a realizar una Prueba No Paramétrica, la U de Mann-Whitney, y no utilizando la T-Student. Ya no sería necesario realizar la homogeneidad de variancias, que por otro lado nos viene dada al ejecutar la T-Student, ya que con que no se cumpla uno de los criterios ya no se puede aplicar la T de Student. Como en este caso no son significativas, si se cumple la normalidad y si pasaríamos a analizar la homogeneidad de variancias.

Además si vemos los gráficos se ve la distribución que se puede

“intuir” normal:

Page 79: diseño de bases de datos. Analisis e interpretacion de los resultados

79

Hemos comprobado normalidad, para comprobar homogeneidad de

variancias tenemos que pedir que nos realice la prueba de T-Student, que nos facilitará el estadístico de Levene sobre Homogeneidad de varianzas, para poder así interpretar la T-Student de manera correcta. La ruta será ANALIZAR/COMPARAR MEDIAS/PRUEBA T PARA MUESTRAS INDEPENDIENTES:

Pasaremos las variables IMC y sexo a contrastar variables y variable de agrupación respectivamente y nos pedirá que definamos los grupos.

Page 80: diseño de bases de datos. Analisis e interpretacion de los resultados

80

Antes De interpretar la T-Student, veremos si se cumple la homogeneidad de varianzas, mediante el estadístico de Levene y su significación. Si es menor de 0,05 se asumirán que existen diferencias y se elegirá para analizar la fila que corresponda a esta situación. En este caso, no es significativa, Levene= 0,123, por lo que por ser mayor de 0,05 se asumirá que no existen diferencias, es decir que se han asumido variancias iguales por lo que la T de Student será la de la fila se han asumido variancias iguales: T=2,350; p=0,078.

Si no se hubiesen dado los supuestos de normalidad y/o de

homogeneidad de variancias, no hubiésemos podido realizar el test de Student, sino la prueba no paramétrica denominada U de Mann-Whitney para ello seguimos la ruta: ANALIZAR/PRUEBAS NO PARAMETRICAS/2 MUESTRAS INDEPENDIENTES:

Page 81: diseño de bases de datos. Analisis e interpretacion de los resultados

81

Con los resultados, podremos interpretar que las diferencias entre las medias de ambos grupos no se deben al azar, que aceptaremos la hipótesis alternativa de que existen diferencias en el IMC según el sexo, con una p<0,05 (0,10). 15 COMPARACIÓN DE X MEDIAS: ANÁLISIS DE LA VARIANCIA El Análisis de la varianza (ANOVA) de un factor, sirve para comparar una variable cuantitativa en varios grupos o categorías, por lo que se puede entender como una generalización de la T-Student. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable ESTUDIOS es cualitativa, con seis categorías (desde sin alfabetizar hasta universitarios), y, en nuestro caso sería la variable independiente, y que la variable IMC es cuantitativa, y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con mas de dos categorías (ESTUDIOS), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de análisis de la variancia o ANOVA. Seguiremos los pasos ANALIZAR�COMPARAR MEDIAS�ANOVA DE UN FACTOR, seleccionando como variable dependiente el IMC e independiente ESTUDIOS:

Page 82: diseño de bases de datos. Analisis e interpretacion de los resultados

82

En la ventana, nos iremos a OPCIONES�seleccionamos Estadísticos descriptivos y homogeneidad de varianzas:

Page 83: diseño de bases de datos. Analisis e interpretacion de los resultados

83

Una vez señaladas las opciones damos a PEGAR. Vemos que aparece directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:

Obtendremos los descriptivos que hemos solicitado para la

variable cuantitativa global y por categorías de estudios.

Antes de proseguir analizando los resultados, debemos en primer

lugar comprobar que se cumplen las condiciones de aplicación de la prueba:

Page 84: diseño de bases de datos. Analisis e interpretacion de los resultados

84

1.- Normalidad: En muestras grandes se va a dar por normalidad, aunque si somos estrictos, deberemos comprobarlo. Para ello, le solicitaremos al SPSS que realice dichas pruebas, que serán la de Kolmogorov-Smirnov y la de Shapiro-Wilk, siguiendo los pasos en ANALIZAR�ESTADÍSTICOS DESCRIPTIVOS� EXPLORAR

En GRAFICOS�PRUEBAS DE NORMALIDAD:

Pruebas de normalidad

,271 4 . ,823 4 ,150

,260 2 .

nivel de estudios5

6

indice de masa corporalEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Observamos que la diferencia en este caso no es significativa

(p=0,150), por lo que si podemos admitir normalidad.

Page 85: diseño de bases de datos. Analisis e interpretacion de los resultados

85

2.- Homogeneidad de varianzas: Nos la va a detectar el estadístico de Levene, que nos viene dado con la solicitud de la ANOVA en el momento anterior:

En este caso, es estadísticamente significativo (0,016 es menor que 0,05), por lo que no podemos asumir homogeneidad de varianzas. Si se da el caso de NO cumplir cualquiera de las condiciones anteriores, como en nuestro caso, no podemos analizar nuestros datos con la prueba paramétrica ANOVA, y deberemos usar la Prueba NO Paramétrica de Kruskall-Wallis. Debemos recordar que las desventajas de las pruebas no paramétricas, como el caso del Kruskall-Wallis, son que tienen menor potencia y sensibilidad para detectar diferencias entre los grupos, y que no permite construir intervalos de confianza. La prueba la encontraremos en ANALIZAR/PRUEBAS NO PARAMETRICAS/K MUESTRAS INDEPENDIENTES, donde introduciremos las variables como anteriormente:

Page 86: diseño de bases de datos. Analisis e interpretacion de los resultados

86

Habremos seleccionado la prueba que queríamos y definimos los grupos indicando el mínimo y el máximo de categorías. Finalmente aceptamos y obtendremos una tabla con los tamaños de la muestra y otra, presentando el estadístico H, que SPSS® llama Chi-cuadrado, con los grados de libertad y la significación:

Observaremos que la significación no es menor de 0,05 (p=1,00), por lo que no existen diferencias entre ambos grupos, aceptando la hipótesis nula. Podríamos decir que la media del IMC para los que tienen un nivel de estudios de diplomaturas de grado medio es de 22,67, menor que el de los que tienen estudios universitarios (26,82), aunque la diferencia no es estadísticamente significativa (Kruskall 0,00; p=1,00).

16 REGRESIÓN LINEAL SIMPLE

Se trata de una técnica estadística que analiza la relación entre 2 variables de tipo cuantitativo, tratando de verificar si dicha relación es lineal. Siempre habrá una variable de “respuesta” o posible “efecto” y una variable “predictora” o posible “causa”, siendo la dependiente e independiente, respectivamente.

Page 87: diseño de bases de datos. Analisis e interpretacion de los resultados

87

El primer paso debe ser siempre pedir a SPSS® un gráfico de dispersión para apreciar visualmente si se puede asumir un modelo lineal entre ambas variables. Se ajustará una regresión cuando la nube de puntos nos sugiera que existe una relación lineal. Una nube de puntos puede sugerir que no existe ninguna relación. Si no existe relación, la pendiente de la curva de regresión “b” será igual a 0.

Seleccionaremos una base de datos con datos de supervivencia

“Supervivencia cáncer de pecho”, para ver la relación entre el tiempo de supervivencia y el tamaño del cáncer.

Para ver el gráfico seguimos GRAFICOS�INTERACTIVOS�

DIAGRAMA DE DISPERSION:

En la selección de variables, en el eje vertical pondremos la

variable dependiente que será el “número de cigarrillos” y en la horizontal la independiente, que será “EDAD”:

Page 88: diseño de bases de datos. Analisis e interpretacion de los resultados

88

Pegamos y ejecutamos, obteniendo el siguiente diagrama de dispersión:

40 50 60

EDAD

0

5

10

15

20

mer

o d

e ci

gar

rillo

s d

ia

A

A

A

A

A

A

Podemos observar levemente como la mayor parte de los

fumadores se sitúan entre los de menor edad, pero no apreciamos con claridad la tendencia. Volvemos otra vez a GRAFICOS�INTERACTIVOS� DIAGRAMA DE DISPERSION, y esta vez en la segunda pestaña, AJUSTE, en método seleccionamos regresión y en ajustar líneas para: marcamos total.

Tras aceptar veremos la recta de regresión con la tendencia que

sigue “algo más clara” que con anterioridad:

Page 89: diseño de bases de datos. Analisis e interpretacion de los resultados

89

Regres ión lineal

40 50 60

EDAD

0

5

10

15

20

núm

ero

de

cig

arri

llos

dia

A

A

A

A

A

A

1número de cigarrillos dia = 31,79 + -0,47 * EDADR-cuadrado = 0,50

Una vez que se ha visto que la nube es aproximadamente lineal, aplicamos el modelo de regresión lineal, seleccionando ANALIZAR�REGRESION LINEAL

e introduciendo las variables como anteriormente, primero la dependiente y luego la independiente:

Page 90: diseño de bases de datos. Analisis e interpretacion de los resultados

90

En la opción ESTADÍSTICOS elegiremos Ajuste del modelo,

Intervalos de confianza y Estimaciones:

En la opción GUARDAR seleccionamos Residuos�NO tipificados:

Page 91: diseño de bases de datos. Analisis e interpretacion de los resultados

91

Y finalmente, en la opción GRAFICOS, seleccionamos tal como

indica la siguiente imagen:

Y tras pegar, seleccionamos todo y ejecutamos, pasando a

continuación a la ventana de resultados generada, donde vemos en primer lugar un cuadro que nos recuerda lo que hemos hecho:

Variables introducidas/eliminadas b

EDADa . IntroducirModelo1

Variablesintroducidas

Variableseliminadas Método

Todas las variables solicitadas introducidasa.

Variable dependiente: número de cigarrillos diab.

Luego viene un resumen del modelo donde aparece el Coeficiente de Correlación de Pearson, pero en valor absoluto, correspondiéndole el mismo signo que la pendiente de la curva “b” observable en un cuadro inferior:

Page 92: diseño de bases de datos. Analisis e interpretacion de los resultados

92

Resumen del modelo b

,709a ,503 ,379 6,938Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), EDADa.

Variable dependiente: número de cigarrillos diab.

Coeficientesa

31,791 11,433 2,781 ,050 ,047 63,535

-,473 ,235 -,709 -2,012 ,114 -1,125 ,179

(Constante)

EDAD

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: número de cigarrillos diaa.

Como la b es negativa (-0,5), el coeficiente indica una correlación claramente negativa (-0,709). El siguiente cuadro que observamos nos lo indica como una ANOVA, que llama medias cuadráticas a las varianzas:

ANOVA b

194,947 1 194,947 4,050 ,114a

192,553 4 48,138

387,500 5

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), EDADa.

Variable dependiente: número de cigarrillos diab.

Al no detectarse en el estadístico F significación estadística (p=0,114), no se puede rechazar la hipótesis nula de que la pendiente sea 0.

Page 93: diseño de bases de datos. Analisis e interpretacion de los resultados

93

La ecuación generada sería: y=a+bx � y=31,791-0,473x � El consumo de cigarrillos al día =31,791-0,473xla edad No se obtiene una significación estadísticamente significativa (p=0,114), y además, el intervalo de confianza engloba el 0, (-1,125 a 0,179), lo cual indica que la diferencia obtenida no es estadísticamente significativa. Tendríamos entonces, que por cada 10 años que aumenta edad, disminuye el consumo medio de cigarrillos al día (32 cigarrillos/día) en 5 cigarrillos, aunque la diferencia no es estadísticamente significativa (F 4,050; p=0,114).

Page 94: diseño de bases de datos. Analisis e interpretacion de los resultados

94

NOTAS

Page 95: diseño de bases de datos. Analisis e interpretacion de los resultados

95

17 TÉRMINOS USADOS • AMPLITUD: Medida de dispersión. Se calcula mediante la diferencia

entre el mayor valor de la muestra y el menor. • ANÁLISIS DE LA VARIANCIA:

-Prueba estadística para analizar la relación entre: una variable X independiente, cualitativa con dos o más categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.

• BOX-PLOT: Gráfico que permite representar una variable cuantitativa. • CURTOSIS: Característica de la distribución de los datos representados

en una curva. Se refiere al grado de aplanamiento de la misma. Así tendremos curvas platocúrticas (son aplanadas), leptocúrticas (son picudas), mesocúrticas (intermedias entre las dos anteriores).

• DESVIACIÓN TÍPICA: Medida de dispersión. Se calcula realizando la

raíz cuadrada de la variancia. • GRADOS DE LIBERTAD: El número de datos que se pueden variar para

que a un total fijo podamos reconstruir dicho total. así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3, si nos dan las frecuencias marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6.

• MEDIA: Medida de tendencia central. Se calcula sumando todos los

valores y dividiendo por el número de valores. • MEDIANA: Medida de tendencia central. Ordenando todos los valores

que puede toma runa variable, en orden ascendente, la mediana sería el valor que ocupe el lugar central. Se prefiere a la media cuando hay valores muy extremos.

• MODA: Medida de tendencia central. Es el valor de la variable que más

veces se repite.

Page 96: diseño de bases de datos. Analisis e interpretacion de los resultados

96

• PERCENTILES: Medida de tendencia central. Se calcula con los valores ordenados de la muestra. Así el percentil 50 será aquel que deja a tantos valores por debajo, como por encima. El percentil 25 será aquel que deje al 25% de los valores por debajo y al 75% por encima. El percentil 75 será aquel que deje al 75% de los valores por debajo y al 25% por encima.

• PRUEBA DE X2:

-Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cualitativa, con dos categorías. -Condiciones de aplicación: que los valores esperados sean mayores o iguales a cinco.

• PRUEBA DE T STUDENT-FISHER: -Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.

• REGRESIÓN SIMPLE:

-Prueba estadística para analizar la relación entre: una variable X, independiente, cuantitativa; con una variable Y, dependiente, cuantitativa.

• VARIANCIA: Medida de dispersión. Se calcula dividiendo el sumatorio

de la diferencia de cada valor de la muestra menos la media al cuadrado por en número de sujetos de la muestra, es decir:

S2 = Σ (x- media)2 / n