i. consideraciones previas · datos de sus variables predefinidas, tengamos que introducir en...

1

I. CONSIDERACIONES PREVIAS

Durante el proceso de investigación en el área de ciencias de la salud, debemos siempre aplicar con rigurosidad el método epidemiológico como expresión final del original método científico, siguiendo una a una cada una de sus fases, que no son objeto de este manual, pero del cual tomaremos diferentes aspectos para el desarrollo completo de nuestros estudios.

El objetivo principal que vamos a tener va a ser el de analizar una

serie de datos que hayamos recabado en cualquiera de aquellos estudios de investigación en los que participemos, para lo cual nos ayudaremos de una herramienta estadística importante y potente, como es el programa SPSS®.

Para poder llegar a utilizar el recurso estadístico nos encontramos

ante una premisa o requisito en extremo importante, haber realizado una recogida y codificación de los datos fiable y sin errores, por lo que abordaremos algunos de los pasos más importantes necesarios.

Hay que tener en cuenta que cualquier programa estadístico

analiza datos y da resultados, sin tener en cuenta la calidad de los mismos, por lo que dependerá de nosotros realizar el correcto control de calidad y filtración, para no dar por buenos resultados erróneos desde su inicio. Sirva como comparativa el que para que un edificio sea correctamente ejecutado, se precisa de un diseño y estudio previo exento de errores que llevarían a la defectuosidad y el riesgo humano.

Si tenemos en cuenta que nuestros estudios de investigación

pueden ser publicados en revistas de impacto y servir de base a otros estudios, hay que aplicar con rigor todos los medios a nuestro alcance para la rigurosidad y metodología.

En este manual hemos optado por dar unas nociones teóricas

básicas necesarias, para después, por medio de ejercicios prácticos, aprender la utilización, manejo e interpretación de resultados con el programa SPSS de una forma básica, sin pretender abarcar todas sus posibilidades completas.

La forma de aplicación de cada técnica estadística según sus tipos

de variables a analizar y/o comparar, será determinante para trasladar

2

dicho aprendizaje a cualquier otro estudio con variables de características similares.

Hay que tener en cuenta que en algunas ocasiones tendremos que

analizar y ofrecer resultados de bases de datos ya existentes, en otras ocasiones seremos nosotros los que realicemos la recogida de datos directamente desde la historia clínica o por medio del paciente, para lo cual diseñaremos una serie de cuestionarios o plantillas de recogida de datos que luego trasladaremos a nuestra base de datos, sea o no el mismo programa estadístico. Además, se nos puede presentar la posibilidad de utilizar cuestionarios ya existentes y que después de recogidos todos los datos de sus variables predefinidas, tengamos que introducir en nuestro programa estadístico o de base de datos para su posterior análisis.

Un programa estadístico como SPSS nos ofrece todas las

posibilidades contempladas en el uso de cuestionarios, bases de datos y análisis de los mismos, así como la presentación de resultados, informes y gráficos. Es por ello que nos basaremos en él preferentemente para su aprendizaje básico.

II. TIPOS DE ESTUDIOS

Antes de iniciar cualquier investigación, hay que decidir según los objetivos el estudio más adecuado.

Con un estudio EXPERIMENTAL, el investigador tiene el control

sobre el factor de estudio. Son los que mejor permiten estudiar la relación causa-efecto. El más empleado es el ENSAYO CLÍNICO ALEATORIO.

Con un estudio NO EXPERIMENTAL U OBSERVACIONAL, el

investigador no controla el factor de estudio, sino que pasa a ser un mero observador. Pueden ser meramente descriptivos como el TRANSVERSAL, o bien analíticos, como los de COHORTES y CASOS-CONTROL. Con el de cohortes podemos calcular incidencia y prevalencia. Con el de casos-control estudiaremos enfermedades poco frecuentes o con largo periodo de latencia. No permiten calcular incidencia o prevalencia pero sí riesgos. Con los transversales podremos calcular la prevalencia en la población pero no la relación causa-efecto debido a la falta de secuencia temporal.

3

En nuestro caso elegiremos muestras de estudios diferentes, para poder realizar acciones descriptivas y en otros buscar una relación causa-efecto. III. DEFINICION DE VARIABLES

Una variable es cada uno de los caracteres o aspectos que se registran en una muestra de individuos.

Medir es asignar valores a las variables del estudio. La forma de medir las variables va a determinar el análisis matemático, estadístico, de las mismas. Existen varias escalas de medida: 1.- Cualitativas: Miden una característica en término de cualidad, nunca de forma numérica. Cada uno de los valores que puede tomar la variable se llama categorías. Pueden ser: - Escala nominal: Determina la igualdad o desigualdad de los individuos. Sexo masculino o femenino. Fumador : Sí. No. Clasificación Internacional de Enfermedades

- Escala ordinal: Determina el orden de los individuos de “mayor”, “menor” o “igual que”. Consumo de Tabaco: no fumador, fumador moderado, fumador importante.

Consumo de tabaco : Tabaco : 0 c/d, 1-10 c/d, > 10 c/d

Si las variables cualitativas tienen solo dos categorías � variable cualitativa dicotómica, y si tiene más de dos, variable politómica. 2.- Cuantitativas: Miden una característica de forma numérica. - Discretas o discontinuas: Entre dos valores consecutivos no existe otro valor. Ejemplo: Número de hijos. Número ordenadores

4

- Continuas: Entre dos valores consecutivos se pueden encontrar infinitos valores. Ejemplo: Peso, glucemia , etc.

Nota: a la hora de poner el nombre a las variables, tendremos en

cuenta que luego para introducirlas en SPSS, el nombre tiene que tener como mucho 8 caracteres en total, incluidos los espacios, y que no permite signos del tipo de ª, º, etc. IV. RECOGIDA DE DATOS

Recogeremos exclusivamente aquellas variables necesarias para el análisis y no otras de forma indiscriminada que sólo enlentecen y encarecen el estudio.

Hay que recogerlas de la manera que aporten mayor información y por ello siempre que sea posible serán cuantitativas.

La forma más correcta y útil es a través de la creación de un formulario específico adaptado a las variables que vamos a recoger.

Como ejemplo vemos el reflejado en la Figura 1.

Fecha nacimiento:

NºSS:

Sexo: H M

Nivel de estudios: sin alfabetizar sabe leer y escribir EGB/Estudios primarios BUP/FP1-FP2 FP3/Diplomaturas de grado medio Universitarios

Estado civil: Soltero Casado/vive en pareja Viudo Separado/divorciado

Fumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS

Exfumador: SI NO Nº cig/día: Intentos previos: SI NO ¿cuántos? ¿sólo/ ayuda médico? ¿utilizó tto para dejarlo? SI NO CHICLES- PARCHES- OTROS

FIGURA1.

Vemos que la edad se recogerá como fecha de nacimiento para evitar errores de cálculo. Por lo tanto tendremos que crear una nueva

5

variable, la variable FECHA, que se refiere a la fecha de nacimiento de la persona incluida en el estudio. A partir de ésta variable, "a posteriori", calcularemos la variable EDAD (explicaremos mas adelante como hacerlo).

Tanto en el nivel de estudios como en el tipo de trabajo se han creado preguntas de respuesta cerrada para favorecer el análisis al limitar el nº de respuestas. Como se ha comentado anteriormente, también se pueden utilizar cuestionarios ya existentes y validados, como en nuestra práctica el I-PSS de valoración prostática, o el test de Glasgow.

6

V. TRANSFORMACION E INTRODUCCION DE VARIABLES EN

LA MATRIZ

Para luego poder analizar los datos en SPSS o cualquier programa estadístico, hay que transformarla en números que el ordenador pueda entender. Se suelen utilizar números enteros empezando por el 1 y evitando el 0 (el cero se suele reservar por acuerdo internacional para representar la ausencia de respuesta), así, en nuestro primer ejemplo de cuestionario de recogida de datos tendríamos:

FECHA = se puede introducir en formato fecha. EDAD = Nº entero sin decimales SEXO = Hombre: 1 y Mujer: 2 NCIG (Nº cigarrillos) = Nº entero sin decimales ESTUDIOS = sin alfabetizar: 1

Sabe leer y escribir: 2 EGB/ Estudios 1º: 3

BUP/FP1-FP2: 4 FP3/ Diplomaturas de grado medio: 5 Universitarios: 6

7

ESTCIVIL = soltero: 1 Casado/vive en pareja: 2 Viudo: 3 Separado/divorciado: 4

ABAND = Si: 1 y No: 2 AYUDFCO = Si: 1 y No: 2 AYUDMED = Si: 1 y No: 2

El siguiente paso sería crear una matriz de datos en SPSS; cuando

abrimos SPSS automáticamente se abre la pantalla EDITOR DE DATOS y sobre ella un cuadro de diálogo con distintas opciones, nosotros elegiremos INTRODUCIR DATOS y ACEPTAR.

8

Nos encontraremos con una ventana de datos en la que aparecen

2 pestañas en la zona inferior derecha, una con la “vista de datos” y otra con la “vista de variables”. En la primera observaremos los datos en formato tabla ya conocido, a modo de Excel o Access, y en la segunda observaremos las variables que vamos a definir para cada estudio con cada una de sus características particulares y definitorias.

9

Cada fila representa una persona de la muestra seleccionada (aparecen numeradas de forma automática a partir de 1) y en cada columna se reflejarán todas las variables recogidas en el estudio referentes a esa persona (inicialmente saldrá la etiqueta “var”).

Al igual que existe esta ventana de datos, en SPSS hay que

conocer los otros tipos de ventanas con los que nos tendremos que ver o trabajar, y que veremos solamente cuando utilicemos el programa a la hora de codificar, definir, transformar, analizar…..

Todas las acciones que se generan en windows al ir seleccionando

en el menú y sus diferentes opciones, tienen su correspondencia en la denominada “sintaxis”, que es el lenguaje de programación, por decirlo así, del SPSS, y vienen reflejadas en el editor de sintaxis, de la forma que podemos ver a continuación y desarrollaremos posteriormente:

De igual manera, cuando ejecutemos las acciones que nos lleven a

realizar el análisis estadístico, tendremos como consecuencia una nueva ventana en la que veremos los resultados obtenidos, los gráficos, etc..

Esta ventana se llama visor de resultados y la veremos con el

siguiente aspecto:

10

A continuación, una vez visto el aspecto que nos podemos

encontrar en el programa, tendremos que plasmar cada una de las variables que se han recogido en el cuestionario que creamos para ello.

Así pues, para comenzar cambiaremos la etiqueta “var” que define

a cada una de las variables por el nombre con el que queramos asignar a las variables de nuestro estudio.

Así, para introducir la variable NÚMERO DE CIGARRILLOS, con el

nombre NCIG, primero iremos a la pestaña “vista de variables”, colocando el cursor en la primera columna de la primera fila, donde escribiremos el nombre de la variable. En esa celda escribiremos en primer lugar el nombre de la variable, en nuestro caso: NCIG:

11

Después haremos un clic sobre el recuadro TIPO, que nos permitirá describir nuestra variable (en este caso numérica), decir cuantos dígitos (ancho) puede llegar a tener como máximo (en nuestro caso 2, puesto que la variable número de cigarrillos puede constar de unidades o decenas) y si queremos expresarla o no con decimales (en nuestro caso pondremos cero decimales, ya que el número de cigarrillos lo expresaremos como número entero sin decimales...). Cuando terminemos daremos a ACEPTAR. Después haremos un clic sobre el recuadro ETIQUETAS, que nos permite poner el nombre completo de la variable, en nuestro caso: etiqueta de variable: NÚMERO DE CIGARRILLOS.

Después haremos un clic sobre el recuadro valores perdidos, en este caso, para nuestra variable NCIG, lo que nos interesa es que no haya valores perdidos, sino tener el número de cigarrillos de todas las personas incluidas en la muestra, por lo que haremos un clic sobre "sin valores perdidos".

Hay que tener en cuenta que en pequeños estudios no deben

haber valores ausentes o perdidos, pues siempre podemos recuperar la fuente de datos para completar el ausente. Además, en determinadas ocasiones, si aceptamos valores perdidos, habrá que analizar su

12

distribución, número, etc, como si se tratara de una variable más, dado que un número elevado de ellos, puede invalidar un estudio.

Hay que tener además que prever errores en la codificación si se trata de grandes estudios, por lo que se pueden indicar rangos de valores que pueden considerarse como perdidos. No obstante, este tipo de análisis queda fuera de los objetivos de este manual.

Después haremos un clic sobre el recuadro COLUMNAS, que nos

permite diseñar la matriz de datos ya que nos permite definir el ancho de la columna y luego la Alineación del texto dentro de ella.

Definimos ahora la MEDIDA de la variable, en este caso ESCALA, pudiendo elegir entre ésta, ordinal o nominal, según el tipo de variable, aunque la mayor parte de las ocasiones no tiene trascendencia esta elección.

Ahora ya tenemos nuestra variable perfectamente definida, que

veremos si pasamos a la vista de datos.

13

El resto de opciones que nos resta los podemos aplicar en otras variables, como veremos a continuación.

El resto de las variables, las iremos introduciendo de igual modo,

de forma que cada una ocupe una columna contigua, con algunas peculiaridades:

FECHA: En el recuadro TIPO elegiremos la opción FECHA y dentro de ésta la forma que nosotros queremos, en este caso será de la forma: dd.mm.aa. Cuando lo tengamos damos a ACEPTAR.

EDAD: igual que NCIG, ya explicada.

SEXO: En el recuadro ETIQUETAS, ponemos en primer lugar el nombre completo de la variable, en nuestro caso SEXO, y después vamos a definir los valores y el nombre de cada valor, así en nuestro caso, hemos designado el valor 1 a los hombres y el 2 a las mujeres, para introducir ésto, lo haremos de las siguiente manera: donde pone VALOR escribimos 1, donde pone ETIQUETA DE VALOR, ponemos hombre y damos a AÑADIR. A continuación donde pone VALOR escribimos 2, donde pone ETIQUETA DE VALOR, ponemos mujer y damos a AÑADIR y después a ACEPTAR.

14

ESTUDIOS: será similar al anterior, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1:sin alfabetizar 2:Sabe leer y escribir 3:EGB/ Estudios 1º

4:BUP/FP1-FP2 5:FP3/ Diplomaturas de grado medio 6:Universitarios

ESTCIVIL: será similar al anterior, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1:soltero 2:Casado/vive en pareja 3:Viudo 4:Separado/divorciado

ABAND: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1:Si y 2:No Un truco sencillo consiste en seleccionar la variable que es similar a la que vamos a construir, con el botón de la derecha se copia, se selecciona la siguiente fila que está vacía y se pega con el botón de la derecha. Después solamente deberemos cambiar los valores y etiquetas que son diferentes.

15

AYUDFCO: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1:Si y 2:No AYUDMED: será similar a SEXO, pero en este caso en el recuadro ETIQUETAS, los VALORES y sus correspondientes ETIQUETA DE VALOR serán:

1:Si y 2:No

Una vez introducidas todas las variables, el aspecto final de la matriz de datos será el siguiente, estando ordenadas según las hayamos colocado en la vista de variables:

Poniendo el cursor sobre el nombre de cada una de las variables, podremos ver la etiqueta de cada una de ellas, que es la que nos aclara realmente el concepto de cada variable.

Llegado este punto, tenemos ya la base de datos, es decir la estructura de lo que va a ser la composición de los datos que hayamos

16

recogido en nuestro estudio, y que luego veremos como los recogemos y/o analizamos. Una de las acciones que nunca deberemos olvidar, es guardar nuestro trabajo, antes que las inclemencias eléctricas nos hagan tener que volver a repetir. Si nos fijamos, en la barra superior de nuestro programa indica “Sin Título”, que nos está indicando que no tiene nombre de archivo, y por lo tanto no está guardado. Para ello, utilizaremos la opción ARCHIVO/GUARDAR:

Hay que fijarse bien dónde guardamos nuestro archivo, dado que luego podemos darlo por desaparecido, de igual forma que deberemos recordar el nombre del mismo para poder encontrarlo con la opción BUSCAR, caso de que “desaparezca misteriosamente”. Buscaremos el lugar donde lo colocamos, en nuestro caso en la carpeta Spss11 que está en el escritorio de nuestro ordenador (si no está, la podemos crear previamente o sobre la marcha, con la opción crear carpeta que aparece en la ventana “guardar como”.

17

Observaremos que los archivos del editor de datos se guardan con la extensión “.sav”, para así diferenciarlos de los archivos de la ventana de sintaxis, con extensión “.sps” y de los archivos del visor de resultados, con extensión “.spo”. Cuando tengamos que abrir un archivo guardado de Spss, podremos abrirlo clickeando 2 veces sobre el icono del archivo o sencillamente abrir el programa e ir al menú ARCHIVO/ABRIR/DATOS:

18

Con todos estos pasos que hemos descrito, ya estamos preparad@s para la introducción de datos para su posterior análisis. VI. INTRODUCCIÓN DE DATOS

Una vez creada la matriz vamos a pasar los datos de cada persona que tenemos en los formularios.

Hay que hacerlo con mucho cuidado ya que un error a la hora de la

transcripción sería irreparable. El aspecto una vez introducidos los datos podría ser el siguiente:

19

Como hemos podido observar en los ejemplos anteriores, hemos registrado como variables la fecha de nacimiento y la edad, con lo que podemos encontrarnos con varios problemas. En primer lugar, según la muestra que hayamos elegido, su edad y su capacidad de memoria, puede haber errores a la hora de acordarse de la edad o acertar en el cálculo a través de la fecha de nacimiento. Además, realizamos el mismo trabajo 2 veces, pues siempre se podría calcular la edad a partir de la fecha de nacimiento. Por último, según lo que dure el estudio, no será la misma edad al inicio del mismo que al final, mientras que la fecha de nacimiento no se puede modificar, a pesar de la duración. Por tanto, siempre se recogerá la edad como fecha, al igual que cualquier variable se debe recoger en la forma que más información nos pueda dar, es decir, cuantitativa siempre que se pueda. Ya aprenderemos a recodificarla o transformarla, y automatizar dicho proceso. Tenemos que tener en cuenta que cualquier variable podrá convertirse en una variable diferente, con lo que se conserva la original, aunque puede codificarse en la misma variable, desapareciendo la original y conservándose la nueva variable creada. De igual forma, podremos obtener otra variable nueva calculada a partir de otras cual puede ser el caso del Índice Creatinina/Albúmina, IMC, etc. VII. CALCULAR NUEVAS VARIABLES (A partir de una de ellas) Una vez introducidos los datos vamos a calcular la variable EDAD a partir de la variable FECHA NACIMIENTO. Par ello vamos a utilizar una base de datos dispuesta al efecto en la que calcularemos dicha nueva variable. Para ello, abriremos el archivo “Ejercicio 1 – Calc nuevas variables” que encontraremos en la carpeta Prácticas de nuestro escritorio.

20

Nos encontraremos entonces con la siguiente ventana de datos:

Podemos observar que tenemos diferentes variables con formatos diferentes, decimales y sin ellos. A partir de aquí, nos vamos al menú TRANSFORMAR / CALCULAR donde aparecerá una pantalla con un listado de expresiones numéricas que nos permitirá crear una nueva variable EDAD a partir de la variable FECHA

21

NACIMIENTO y de la fecha de fin del estudio (o de la fecha actual por ejemplo):

Ahora introduciremos en nombre de la nueva variable EDAD y buscaremos en la columna de la izquierda el término TRUNC, que añadiremos al espacio superior donde irá representada la función matemática de reconversión:

22

A continuación añadiremos en el espacio señalado en negrita que ha quedado la expresión CTIME.DAYS, que buscaremos en la misma columna (Ojo con no quitar la selección en azul, pues es donde irá la expresión matemática seleccionada):

Buscaremos la expresión DATE.CMY y la añadiremos también. Quedará un paréntesis con interrogantes sobre una fecha, que deberemos añadir. Será la fecha a partir de la cual se calcula la edad del caso, y puede ser la de fecha de cierre del estudio:

23

A esta fecha habrá que restarle (siempre teniendo en cuenta los paréntesis la variable FECHA NACIMIENTO, que es la que utilizamos para calcular la variable EDAD:

24

Finalmente se divide por 365.25, para calcular la edad en años cumplidos:

25

A continuación pegamos la operación, porque tendremos por escrito las órdenes de realizar las operaciones todas las veces que lo precisemos, aunque añadamos nuevos casos, abriéndose la ventana de sintaxis, en la cual seleccionaremos y ejecutaremos la orden:

Obtendremos entonces la variable EDAD, que saldrá sin formato y por tanto con decimales.

26

Tendremos que ir a la vista de variables a modificarla como ya hemos aprendido, sin decimales y ancho necesario.

El editor de sintaxis podemos guardarlo para el caso de que tengamos que añadir nuevos casos, ya que así tendremos la operación realizada y guardada.

27

VIII. CALCULAR NUEVAS VARIABLES (A partir de varias de ellas) Para calcular otra nueva variable, podemos tener que necesitar los valores de otras que hemos recogido. A estas alturas ya nos parece del todo lógico el no recoger el IMC, cuando se calcula a partir del peso y de la talla, de los cuales disponemos. Al ser un proceso automatizado, eliminamos los errores de calculadora sobre el terreno. Por tanto, como ejemplo, sobre los datos anteriores, vamos a calcular al IMC. Volveremos al mismo procedimiento TRANSFORMAR /CALCULAR ya conocido. Como sabemos, tenemos que implementar la siguiente fórmula:

( )2

PesoIMC

Talla=

28

Tendremos entonces creada la nueva variable IMC, que tendremos que configurar si la queremos con decimales o no.

IX. RECODIFICAR EN UNA MISMA VARIABLE

En ocasiones, tenemos recogida alguna variable de tal forma que o

bien no es deseable para nuestros resultados y deberíamos haberla recogido de otra manera, o no resulta demasiado correcta al utilizarla porque puede confundir, como veremos a continuación.

Podemos ver como en nuestra base de datos con la que

trabajabamos anteriormente, la variable SEXO no se ha codificado numéricamente sino con letras F y M y etiquetas Femenino y Masculino.

29

Así pues, vamos a creer que precisáramos cambiar la codificación a modo numérico, 1 = Hombre y 2 = Mujer.

Iremos a TRANSFORMAR/RECODIFICAR.. en las mismas variables.

Seleccionamos la variable que deseamos recodificar y le indicamos

los cambios que queremos.

En la nueva ventana indicaremos los valores antiguos y sus nuevos

valores que deseamos. Después damos a CONTINUAR:

30

Finalmente Pegamos, y ejecutamos en el editor de sintaxis.

Obtendremos los nuevos cambios en la variable, quedándonos

pendiente la modificación de los valores de las etiquetas.

Veremos pues en la vista de datos que salen los valores de las

etiquetas al ir a la barra de menú y seleccionar VER / ETIQUETA DE

31

VALORES. También puede hacerse directamente mediante un icono de una etiqueta:

IX. RECODIFICAR EN DISTINTAS VARIABLES El siguiente tipo de transformación de una variable consiste en

poder obtener una variable nueva a partir de otra, siempre conservando la original.

Generalmente ocurre cuando tenemos variables cuantitativas y las

queremos convertir a cualitativas de diferentes categorías para hacer diferentes tipos de análisis según los objetivos del estudio.

Ya hemos indicado que lo preferible es codificar una variable en el

formato en que ofrece la máxima información, que siempre que sea posible será cuantitativa. En nuestro caso, vamos a recodificar una variable como el número de cigarrillos por otra en la que cataloguemos el tipo de fumador en 4 categorías: No fumador-Fumador Leve- Moderado-Empedernido.

Por ello seleccionaremos la variable “tab” y seguimos idénticos

pasos, con TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES, debiendo indicar cual es la variable de entrada (tab) y la de resultado (en nuestro caso, gradtab).

Hay que recordar que hay que pegar las operaciones para

conservarlas, y ejecutarlas cada vez que añadamos datos nuevos, para actualizar las recodificaciones. Recordar que los decimales se ponen con la coma (,).

32

Tendremos que indicar que número de cigarrillos corresponde a

cada rango, prestando atención a no dejarnos ningún valor sin que lo abarque alguno de los rangos o categorías.

Acordamos pues, 0 cig �No fumador, 1 a 10 cig � Fumador leve,

33

11 a 20 cig � F. moderado y 21 en adelante � F. empedernido, comenzando ya a codificar desde el 1 para los no fumadores, y luego ponerle la etiqueta y sus valores:

Finalmente damos a CONTINUAR y pegamos lo realizado, así

podemos observar las operaciones en el editor de sintaxis, para comprenderlo antes de ejecutarlo. Con ello también nos daremos cuenta de los errores que hayamos podido cometer.

Así veremos la nueva variable a la que hay que recordar añadirle la

etiqueta y sus valores y el formato:

34

Si ahora le damos al icono de valores de etiquetas lo veremos de

forma comprensible, y además, al meter los datos se nos facilita el no tener que recordar los códigos correspondientes:

Si cada vez que hacemos una operación la pegamos, al acabar la

sesión, tendremos en el editor de sintaxis todo el proceso completo en una sola ventana y un archivo único, sin confusiones.

Finalmente, llegamos a un punto del manual en el que hemos

definido prácticamente todos los tipos de variables que podamos utilizar, así como las transformaciones más comunes que se suelen utilizar.

Para transformaciones más complejas se recomienda bibliografía

más avanzada1, de la que existe abundante documentación. De todas las formas, cuando para nuestros objetivos manejamos

un programa que no conocemos, éste suele llevar en la mayoría de las

35

ocasiones una ayuda, que como en el caso del Spss, existe y suele ser útil si se emplea el tiempo necesario y de forma pausada.

Donde señalemos TEMAS, aparecerá la ayuda para buscar por

temas. Si señalamos TUTORIAL, aparece un curso interactivo o tutorial sencillo y útil cuando se conoce ya básicamente Spss.

La opción SYNTAX GUIDE es una guía en Inglés de uso de la

sintaxis. Finalmente existe un ASESOR ESTADÍSTICO que nos puede orientar en algunas de las operaciones de análisis estadístico, interesante abrir de vez en cuando.

En este apartado estamos viendo que estamos introduciendo los datos directamente en SPSS, lo cual a veces no suele ser lo más cómodo, pues parece mejor introducirlos en un formulario de una base de datos que manejamos bien, como Access, o que nos han prestado para que nos la trabajemos y obtengamos resultados.

Al final del manual y una vez duchos en la materia, se explica cómo pasar (importar) bases de datos a SPSS.

36

X. CREACIÓN DE UNA BASE DE DATOS SPSS A PARTIR DE UN CUESTIONARIO En numerosas ocasiones, lo que pretendemos con nuestros estudios es aplicar a una muestra seleccionada de pacientes, un cuestionario validado, para después realizar el análisis de los datos obtenidos con las distintas variables, que en este caso serán los ítems del cuestionario. Hay que tener en cuenta que para obtener una clasificación de cada paciente en unos grupos u otros según los resultados de los ítems del cuestionario, deberemos crear nuevas variables con las que ya tenemos, de la forma que ya se ha explicado, en otras ocasiones de otras formas y operaciones matemáticas que veremos en el siguiente ejemplo, que será un ejercicio práctico a la vez. Pues bien, vamos a crear una base de datos a partir de un cuestionario para valoración de la sintomatología prostática, el I-PSS:

37

Las 7 primeras preguntas del test tienen 6 posibles respuestas: • 0: Nunca • 1: uno de cada 5 • 2: uno de cada 3 • 3: uno de cada 2 • 4: dos de cada 3 • 5: casi siempre

Las respuestas de la pregunta de calidad de vida son 7:

• 0: Encantado • 1: contento • 2: más bien satisfecho • 3: indiferente • 4: más bien insatisfecho • 5: mal • 6: muy mal

La calidad de vida sentida por el paciente se clasificará en aceptable si

las respuestas son de la 0 a la 3, y será de alteraciones en la calidad de vida si las respuestas son de la 4 a la 6.

De forma práctica, para evitar repeticiones, crearemos directamente la

variable edad y obviaremos los campos identificativos de nombre y apellidos (teniendo en cuenta que deberemos haber recogido como se ha explicado antes, la fecha de nacimiento y calculado la edad por los procedimientos descritos).

Por ello, para empezar, crearemos las variables que corresponden a la

edad y las 7 preguntas del test y la de la calidad de vida, debiendo quedar de la siguiente manera:

Lógicamente, hay que definir las características de dichas variables

según las indicaciones previas y lo explicado al inicio del manual de forma que obtendríamos unas pantallas tales como las siguientes:

38

Tiene que quedar claro, a partir de este punto, que para obtener el total de puntos de la suma de cada pregunta, primero habrá que haberle dado las etiquetas de valor a cada una de las respuestas y asignado dicho valor como se ha visto anteriormente, para luego obtener una nueva variable que será la suma de dichos valores (var = sumaipss). Iremos a TRANSFORMAR/CALCULAR y realizaremos las operaciones de suma de los valores absolutos de cada una de las preguntas de la forma que se describe a continuación:

39

Seguidamente pegamos la operación, como se ha indicado anteriormente, para poder ejecutar la orden conforme se añadan casos y así se actualice la nueva variable:

Y seleccionando y ejecutando obtenemos la nueva variable, a la que habrá que ajustarle los decimales, claro está.

Así pues, nos quedará, a partir de los puntos totales, clasificar a cada paciente según los síntomas que padece según venía en el cuestionario, leves, moderados y graves, siguiendo el modelo descrito en recodificar en diferentes variables:

40

Pegamos la operación y la ejecutamos, para darle después los valores a las etiquetas de cada tipo de síntomas:

41

Para finalizar la configuración de la base de datos, debemos igualmente, como se ha dicho antes, recodificar la variable que recoge la calidad de vida en una de las 2 categorías descritas. Lo realizaremos igualmente con el RECODIFICAR/EN DISTINTAS VARIABLES:

Pondremos las etiquetas correspondientes:

42

Y así tendremos todas las variables para poder empezar a registrar datos para el posterior análisis.

Finalmente, he aquí como quedaría una vez recogidos los datos y ejecutada de nuevo la sintaxis completa que previamente habremos guardado, para evitar repetir cada vez el trabajo.

Con esta base de datos ya podremos realizar análisis estadísticos, como posteriormente aprenderemos.

43

XI. EJERCICIO PRÁCTICO AUTOEVALUATIVO

Como ejercicio de autoevaluación, que todo lector de este manual debería autoimponerse para ver su capacidad “constructiva”, proponemos crear una base de datos a partir de un cuestionario como la escala de Glasgow, añadiéndole además como variables la edad en formato correcto, el IMC calculado. Una vez realizada, añadir pacientes ficticios y actualizar las variables recodificadas, viendo que funciona correctamente. Hasta este momento tienes todas las herramientas para poder realizarlo, así que ánimo, será tu primer éxito.

XII. ANÁLISIS DESCRIPTIVO (VARIABLES CUANTITATIVAS)

En este apartado vamos ya a comenzar con el análisis estadístico,

propiamente dicho, comenzando por describir cada tipo de variables que hemos aprendido anteriormente a codificar, correspondiente a todos los tipos de variables con los que nos podemos encontrar.

Como variable, vamos a describir TAB, que teníamos en la base de

datos que reflejábamos en la página 20, utilizando las técnicas adecuadas (calculando medias, modas, cuartiles… etc.), y representándolas mediante diagramas de caja o Box-plot.

44

Para describir una variable cuantitativa TAB iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS:

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso TAB y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES DE PERCENTILES, señalaremos los CUARTILES y PERCENTILES, y dentro de éstos escribiremos: 25 y daremos a AÑADIR, 50 y AÑADIR, 75 y AÑADIR.

45

Dentro de TENDENCIA CENTRAL seleccionaremos MEDIA, MEDIANA Y MODA.

Dentro de DISPERSION, seleccionaremos DESVIACION TÍPICA, VARIANZA, AMPLITUD, MÍNIMO, y MÁXIMO.

Dentro de distribución marcaremos ASIMETRÍA y CURTOSIS. Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA,

seleccionamos ninguno en este caso porque nosotros representaremos la variable cuantitativa con un Box-plot que explicaremos más adelante, en caso de querer realizar alguna gráfica, marcaríamos aquí la opción deseada, y después damos a CONTINUAR.

Abrimos ahora el recuadro FORMATO, en ORDENAR POR

seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

46

Si ya tenemos toda la selección damos a PEGAR, con esta opción,

en lugar de ACEPTAR, lo que le estamos pidiendo es no sólo que realice las órdenes, sino que además las pegue en una carpeta, con lo que en caso de error o de que queramos repetir el análisis, tendremos las órdenes guardadas, podemos volver a ejecutarlas, sin necesidad de repetir todo el proceso anterior lo que ahorraría mucho tiempo.

Una vez seleccionada la orden pegar vemos que aparece directamente una pantalla con el nombre de SINTAXIS1, donde están escritas todas las órdenes, que ejecutaremos como ya hemos descrito anteriormente:

Aparecerá lo que hemos solicitado en una buena ventana de

resultados, RESULTADOS1, donde aparece analizada la variable TAB:

47

Como ya sabemos, para toda distribución de valores que queramos analizar, ésta debería seguir una distribución de tipo Normal, si queremos obtener unos resultados homogéneos y representativos de la realidad, dado que si no tendremos que utilizar análisis estadísticos mucho más complicados. Generalmente damos como normal cualquiera que contenga más de 30 casos, aunque esto es algo criticable como único criterio. En el caso de la descripción de una variable cuantitativa, si ésta cumple los criterios de normalidad, la podremos describir con la media y la desviación típica. Caso de no cumplirlos, lo haremos con la mediana y el IQR (percentil 75 – percentil 25). No obstante, en una variable cuantitativa le exigiremos para ser normal que cumpla los criterios de Asimetría y Curtosis. En la tabla de los resultados, 1º nos fijamos en la asimetría y su error y luego en la curtosis y su error. Error de asimetría=0,564; el intervalo de confianza lo multiplicamos por +2 � (-1,128 a +1,128). Ahora vemos el coeficiente de asimetría que es 1,023; Como queda dentro del intervalo, sí que cumple el criterio de asimetría. Error de curtosis=1,091; el intervalo de confianza lo multiplicamos por +2 � (-2,182 a +2,182). Ahora vemos el coeficiente de curtosis que es 0,714; Como queda dentro del intervalo, sí que cumple el criterio de curtosis. Podremos observar de igual forma un descriptivo del número absoluto de veces que se repite cada evento:

48

Ahora vamos a realizar ahora la representación gráfica de la variable cuantitativa TAB mediante un BOX-PLOT, para ello vamos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción EXPLORAR.

Se abre entonces un recuadro, en la primera columna están todas

las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso NCIG y damos a la flecha que separa esta columna de la columna DEPENDIENTES otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la columna denominada DEPENDIENTES.

Dentro de MOSTRAR seleccionamos con un clic GRÁFICOS. Vamos

ahora al recuadro GRAFICOS, en DIAGRAMAS DE CAJAS, seleccionamos NIVELES DE FACTORES JUNTOS, en DESCRIPTIVOS, seleccionamos TALLO Y HOJAS. Damos a CONTINUAR.

49

Una vez seleccionado todo daremos a PEGAR. Se abre entonces de forma automática la ventana de SINTAXIS1,

donde se han pegado las nuevas órdenes a continuación de las que ya teníamos. Se seleccionan únicamente las nuevas instrucciones y las ejecutamos.

Y en la pantalla RESULTADO1, veremos el gráfico de tallo y hojas:

Y en el DIAGRAMA DE CAJA, tendremos el BOX-PLOT:

50

La línea más gruesa representa la mediana. Los límites superior e inferior de la caja corresponden al percentil 75 y 25 respectivamente. Por ello la caja es la representación gráfica del IQR (intervalo intercuartil, que se calcula restando al percentil 75, el percentil 25).

Las “patas” que salen de la caja hacia arriba y hacia abajo son la representación de los valores máximo y mínimo respectivamente.

Los valores que están dibujados de forma aislada son valores extremos.

XIII. ANÁLISIS DESCRIPTIVO (VARIABLES CUALITATIVAS) Para describir la variable cualitativa SEXO iremos a ANALIZAR en la

parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS, al igual que hicimos antes, salvo que elegiremos opciones diferentes correspondientes al nuevo tipo de variable.

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso SEXO y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES

DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada.

51

Dentro de distribución no marcaremos nada Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA,

seleccionamos GRÁFICOS DE BARRAS en este caso y después damos a CONTINUAR.

Abrimos ahora el recuadro FORMATO, en ORDENAR POR

seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

Si ya tenemos toda la selección damos a PEGAR, y en la ventana

de sintaxis ejecutamos la orden:

52

Y aparecerá la pantalla RESULTADOs1, donde aparece analizada la

variable SEXO:

Y en el GRÁFICO DE BARRAS, tendremos el DIAGRAMA DE

BARRAS:

53

XIV. ANÁLISIS DESCRIPTIVO (VARIABLES ORDINALES) Como ya se ha comentado desde el principio de este manual,

siempre que sea posible, las variables se deben recoger de forma cuantitativa, aunque las necesitemos posteriormente con otras características, pues una variable cuantitativa siempre puede transformarse en una cualitativa ordinal.

No obstante, cuando se valoran determinadas variables, éstas

siempre se recogen de forma ordinal, como los grados de dolor, por ejemplo.

En el desarrollo de cómo vamos a describir una variable ordinal,

vamos a utilizar una base de datos como la siguiente:

De ella vamos a elegir la variable ordinal RIESGO

CARDIOVASCULAR (riesgocv), que se compone de los valores: 1: Bajo; 2: Leve; 3: Moderado; 4: Alto

54

Para describir la variable ordinal RIESGOCV iremos a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y de éste se desplegará otro menú del que elegiremos la opción FRECUENCIAS.

Se abre entonces un recuadro, en la primera columna están todas las variables de nuestro estudio, haremos un clic en las variables que queramos analizar, en este caso RIESGOCV y damos a la flecha que separa las dos columnas otro clic para que la variable seleccionada, que será la que el programa estadístico analice, pase a la otra columna.

Abrimos ahora el recuadro ESTADÍSTICOS, dentro de los VALORES

DE PERCENTILES, no señalaremos nada. Dentro de TENDENCIA CENTRAL no seleccionaremos nada. Dentro de DISPERSION, no seleccionaremos nada. Dentro de distribución no marcaremos nada. Cuando terminemos de hacer la selección damos a CONTINUAR.

Abrimos ahora el recuadro GRÁFICOS, en TIPO DE GRÁFICA, seleccionamos ninguno en este caso porque nosotros representaremos la

55

variable ordinal con un diagrama de líneas y después damos a CONTINUAR.

Abrimos ahora el recuadro FORMATO, en ORDENAR POR seleccionaremos VALORES ASCENDENTES y en MÚLTIPLES VARIABLES la opción COMPARAR VARIABLES, y damos a CONTINUAR.

Si ya tenemos toda la selección damos a PEGAR. Una vez

ejecutada la orden pegar aparecen en la SINTAXIS1, las órdenes nuevas, que seleccionaremos y ejecutamos:

Aparecerá la ventana de resultados donde vemos analizada la

variable de interés:

56

Vamos ahora a GRÁFICOS en la parte superior de la pantalla y

hacemos un clic, se desplegará un menú del que elegiremos la opción LÍNEAS:

Dentro del recuadro GRÁFICOS DE LÍNEAS seleccionamos la opción

SIMPLE, y marcamos en LOS DATOS DEL GRÁFICO SON: RESÚMENES PARA GRUPOS DE CASOS.

57

Damos al recuadro DEFINIR y seleccionamos en primer lugar el nombre de la variable que queremos representar en la gráfica, en nuestro caso RIESGOCV, una vez marcada damos a la flecha que introducirá el nombre de la variable, en el recuadro del EJE DE CATEGORÍAS.

En el apartado LA LÍNEA REPRESENTA marcaremos la opción Nº DE CASOS.

Si ya tenemos toda la selección damos a PEGAR.

Una vez ejecutada la orden PEGAR vemos que aparece

directamente una pantalla con el nombre de SINTAXIS1, donde están escritas las nuevas órdenes, que seleccionaremos y ejecutaremos.

Y en GRÁFICO, tendremos el DIAGRAMA DE LÍNEAS:

58

XV. COMPARACIÓN DE VARIABLES Cuando a lo largo de un estudio llegamos al momento de intentar relacionar unas variables con otras para ver si se cumple o no la hipótesis alternativa propuesta o la nula de partida, nos encontramos en la disyuntiva de decidir que prueba estadística debemos elegir para un correcto análisis estadístico. Para ello podemos utilizar una tabla a modo resúmen que nos indica la prueba estadística según las características de las variables que queremos relacionar, cuando se cumplan condiciones de normalidad: Variable Y (dependiente)

Variable X (independiente) Categórica

C=2 Categórica c>2

Cuantitativa

Categórica C=2

χ2 χ2 Regresión logística Categórica

c>2 χ2 χ2

Cuantitativa

T de Student Anova Regresión simple

Con este esquema, fácilmente podemos saber la prueba estadística que debemos aplicar. Hay que tener en cuenta, no obstante, que hay que diferenciar cual va a ser la variable independiente y cual la dependiente, pues el sentido en el que se quiere analizar la relación entre ambas determina el tipo de análisis. Cuando no se cumplan las condiciones de normalidad, entonces: Variable Y (dependiente)

Variable X (independiente) Categórica

C=2 Categórica c>2

Cuantitativa

Categórica C=2

Test Exacto de Fisher

Asociación lineal por lineal

Regresión no Paramétrica Categórica

c>2 Asociación lineal por lineal

Asociación lineal por lineal

Cuantitativa

U de Mann Whitney

Test Kuskrall Wallis

Correlación de Spearman

59

XVI. TABLAS DE CONTINGENCIA, COMPARACIÓN DE 2 PROPORCIONES: PRUEBA DE X2

Cuando queremos saber si existe relación o no entre 2 variables cualitativas, siempre tendremos que utilizar la prueba de χ2 (Chi2), independientemente de cual de ellas sea la variable independiente. No obstante, habrá que clarificar cual de ellas es la independiente, para darle un sentido a la relación que queremos analizar, y seleccionar en Spss el comando correspondiente. Utilizaremos la base de datos anterior, referida a factores de riesgo cardiovascular, en la que queremos saber si existe una relación entre el sexo del fumador y el ser fumador. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (hombre, mujer), y, en nuestro caso sería la variable independiente, y que la variable HTA es cualitativa con dos categorías (si, no), y que sería la variable dependiente. Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cualitativa, con dos categorías (HTA), utilizaremos pues la prueba de χ2. Hay que tener en cuenta que todas las pruebas estadísticas tienen unas condiciones de aplicación de las mismas, al igual, por ejemplo, que asumíamos normalidad cuando la muestra era mayor de 30 casos. En el caso de la χ2, las condiciones o criterios de aplicación van a ser:

� N > 20 � Menos del 20% con celdas con valor esperado <5 � Si N>40, sólo se acepta 1 celda con valor esperado <1

Conviene recordar que con χ2 se intenta estudiar la independencia de 2 variables con varias categorías. Si se acepta la hipótesis nula, que es como obtener una p>0,05, se acepta la independencia, no se encuentra relación en esas variables. Si por el contrario, p<0,05, entonces se aceptará la hipótesis alternativa, se rechaza la hipótesis de independencia y se concluye que las 2 variables están relacionadas.

60

Este manual no tiene por objeto dar una amplia explicación teórica de los conceptos de cada prueba estadística, por lo que se recomienda encarecidamente que se repase en otro manual dichos conceptos para el mejor entendimiento de los análisis. Cuando no se cumplen los criterios de aplicación de la prueba, hay que utilizar otra prueba estadística, como será el Test exacto de Fischer o la Asociación lineal por lineal. Para ver como se aplica la prueba χ2, vamos ahora a ANALIZAR en la parte superior de la pantalla y hacemos un clic, se desplegará un menú del que elegiremos la opción ESTADÍSTICOS DESCRIPTIVOS, y dentro de éste la opción TABLAS DE CONTINGENCIA:

Podremos observar una nueva ventana similar a las vistas hasta

ahora, pero con varios cuadros internos. En las Filas se colocará a variable a estudiar, la dependiente según nuestra hipótesis alternativa, y en las Columnas la variable independiente.

61

En la opción de Estadísticos podremos observar toda una gran variedad de ellos desconocidos para nosotros la mayoría, por lo que seleccionaremos la chi cuadrado y los riesgos; del resto podemos encontrar una breve definición y finalidad en el Glosario final del libro.

En la opción casillas seleccionamos todas las opciones posibles,

esperadas, observadas, fila, columna y total: 1. Frecuencias:

*Observadas: Número de casos resultantes de la clasificación *Esperadas: Número de casos que debería haber en cada

casilla si las variables utilizadas fueran independientes

2. Porcentajes: *Fila: % de la frecuencia observada frente al total de fila *Columna: % de la frecuencia observada frente al total de columna *Total: % de la frecuencia observada frente al nº total de casos

62

Una vez señaladas las opciones damos a PEGAR. Una vez ejecutada la orden PEGAR vemos que aparece

directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:

Y la pantalla RESULTADO1, donde aparecen los resultados del análisis de las dos variables, HTA y SEXO:

Claramente podemos observar que se cumplen los 3 criterios de aplicabilidad de la prueba N>20 y >40, y no hay un 20% de frecuencias esperadas <5.

Por todo ello, podremos pasar al cuadro inferior donde vienen descritos los estadísticos correspondientes, eligiendo entonces los correspondientes a la Chi cuadrado.

63

Los grados de libertad están calculados multiplicando el número de columnas menos 1 por el número de filas menos 1 de la tabla de contingencia (categorías de las variables � SEXO(2-1)xHTA(2-1)=1)

Obtenemos finalmente una p=0,003, claramente estadísticamente significativa, por lo que se acepta la hipótesis alternativa, negándose la independencia de las variables, y aceptándose su relación. Concluiremos que existe relación entre el SEXO y la HTA. A continuación observaremos el cuadro resultante de los riesgos:

Estimación de riesgo

,297 ,132 ,667

,496 ,313 ,788

1,672 1,143 2,445

109

Razón de las ventajaspara HTA (si / no)

Para la cohorte sexo =hombre

Para la cohorte sexo =mujer

N de casos válidos

Valor Inferior Superior

Intervalo de confianzaal 95%

64

Hay que tener en cuenta antes del análisis, el tipo de estudio en el que nos encontraríamos, antes de decidir el riesgo a estudiar, dado que la primera línea se refiere a la OR (Odds Ratio)(Estudios caso-control) y las otras al RR (Riesgo Relativo)(Estudios cohortes). En este caso sería un estudio de cohortes, al elegir una cohorte de hombres y otra de mujeres para estudiar la aparición de HTA. No es posible hacerlo como caso-control, seleccionando casos de ambos sexos y estudiando si la HTA ha influido en ello (¿es factible?). La segunda y terceras filas ofrecen dos índices de riesgo para un diseño de cohortes (evaluaremos el encontrarnos en cualquier categoría de la variable). Si lo que interesa encontrar es la presencia de HTA, la probabilidad de encontrar el desenlace entre los “hombre” es 1/0,496 veces menor, que la de encontrarlo entre los “mujer”. La probabilidad de encontrar el desenlace entre las “mujer” es 1,672 veces mayor, que la de encontrarlo entre los “mujer”.

Para continuar con los ejemplos aclaratorios, elegimos estudiar la relación entre otras dos variables como DIABETES (dm) y HTA:

65

En este caso elegimos estudiar si la DIABETES está relacionada con padecer HTA, que será la variable independiente. Realizando los mismos pasos obtenemos:

Tabla de contingencia diabetes * HTA

10 11 21

12,9 8,1 21,0

57 31 88

54,1 33,9 88,0

67 42 109

67,0 42,0 109,0

Recuento

Frecuencia esperada

Recuento

Frecuencia esperada

Recuento

Frecuencia esperada

si

no

diabetes

Total

si no

HTA

Total

Observamos que se cumplen las condiciones de aplicabilidad de la prueba, por lo que analizaremos la chi cuadrado directamente:

66

Pruebas de chi-cuadrado

2,106b 1 ,147

1,444 1 ,229

2,060 1 ,151

,212 ,115

2,087 1 ,149

109

Chi-cuadrado de Pearson

Corrección porcontinuidad

a

Razón de verosimilitud

Estadístico exacto deFisher

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)Sig. exacta(bilateral)

Sig. exacta(unilateral)

Calculado sólo para una tabla de 2x2.a.

0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperadaes 8,09.

b.

Obtenemos una significación p=0,147, que no es estadísticamente significativa, por lo que no aceptaremos que son variables independientes y se acepta la hipótesis nula de que no están relacionadas. La tabla del riesgo será entonces innecesario analizarla. XVII. COMPARACIÓN DE DOS MEDIAS: T DE STUDENT-FISHER Cuando lo que queremos es comparar la media de 2 grupos diferentes, la prueba que debemos elegir será siempre la T de Student-Fischer. Queremos saber si existe una relación entre el IMC y el sexo de los pacientes de una muestra seleccionada de la población. Para saber si existe o no relación entre estas dos variables y que tipo de relación tienen, sabemos que la variable SEXO es cualitativa, con dos categorías (HOMBRE, MUJER), y, en nuestro caso sería la variable independiente, y que la variable IMC es cuantitativa, y que sería la variable dependiente.

67

Para analizar una variable X independiente, cualitativa, con dos categorías (SEXO), con una variable Y dependiente, cuantitativa, (IMC) utilizaremos la prueba de T de Student-Fisher. El paso previo para la aplicación de la prueba es comprobar que cumple las condiciones de aplicación de la prueba, que en ésta serán:

A/ Normalidad B/ Homogeneidad de varianzas

Para poder realizar dichos análisis, es conveniente describir la variable cuantitativa estratificada por las 2 categorías de la variable cualitativa, utilizando para ello el método de EXPLORAR, y solicitando ciertas pruebas de normalidad por si acaso nos hicieran falta a posteriori para demostrar ésta. Seguiremos la ruta ANALIZAR/ESTADISTICOS DESCRIPTIVOS/ANALIZAR:

Después, en la opción gráficos seleccionamos GRAFICOS CON

PRUEBAS DE NORMALIDAD y seguimos los procesos habituales:

Obtendremos los estadísticos descriptivos que nos servirán para

verificar los criterios de normalidad:

68

Descriptivos

25,256 1,7254

21,579

28,934

24,810

21,092

47,632

6,9016

20

38

18,0

11,6

1,171 ,564

-,354 1,091

30,123 2,7514

24,259

35,988

29,478

23,914

121,121

11,0055

21

51

29,1

19,2

,899 ,564

-,752 1,091

Media

Límite inferior

Límite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuartil

Asimetría

Curtosis

Media

Límite inferior

Límite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuartil

Asimetría

Curtosis

SexoMujer

Hombre

Indice Masa CorporalEstadístico Error típ.

Explicamos a continuación, los criterios que debe cumplir de

normalidad: A/ Normalidad: n1 y n2 > 30 Si no se cumple la condición, habrá que comprobar que se

cumplen los siguientes 3 requisitos siguientes en cada uno de los grupos, n1 y n2:

A1.- Comprobar que el máximo y el mínimo quedan dentro del intervalo definido por media + 3 Desviaciones estándar A2.- |Asimetría| < 2xEEAsimetría A3.- |Curtosis| < 2xEECurtosis Si no se cumplieran las 3 condiciones, entonces no podríamos confirmar la normalidad, por lo que deberíamos recurrir a comprobarla con el test de Kolmogorov-Smirnov o el de Saphiro-Wilks. Curiosamente, al describir la variable cuantitativa, le hemos solicitado los gráficos con pruebas de normalidad, que encontraremos en la ventana de resultados:

69

Pruebas de normalidad

,344 16 ,000 ,708 16 ,000

,278 16 ,002 ,773 16 ,001

SexoMujer

Hombre

Indice Masa CorporalEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Para que se acepte la normalidad, hay que recordar, que las pruebas no deben ser significativas, es decir, no deben mostrar diferencias, pues si la significación es adecuada (p<0,05), no podrá aceptarse la normalidad, tal y como ocurre en nuestro ejemplo, y entonces, nos veremos abocados directamente a realizar una Prueba No Paramétrica, la U de Mann-Whitney, y no utilizando la t-student. Ya no sería necesario realizar la homogeneidad de varianzas, que por otro lado, nos viene dada al ejecutar la t-student.

Los pasos que hay que realizar para la prueba de U de Mann-

Whitney son seguir la ruta ANALIZAR/PRUEBAS NO PARAMETRICAS/2 MUESTRAS INDEPENDIENTES:

70

Con los resultados, podremos interpretar que las diferencias entre las medias de ambos grupos no se deben al azar, que aceptaremos la hipótesis alternativa de que existen diferencias en el IMC según el sexo, con una p<0,05 (0,10). Si por motivos docentes consideráramos que los pasos anteriores han demostrado que se cumplen los criterios de normalidad, entonces deberemos aplicar la prueba de t-student, que nos facilitará el estadístico de Levene sobre Homogeneidad de varianzas, para poder así interpretar la t-student de manera correcta. La ruta será ANALIZAR/COMPARAR MEDIAS/PRUEBA T PARA MUESTRAS INDEPENDIENTES:

71

Antes De interpretar la t-student, veremos si se cumple la homogeneidad de varianzas, mediante el estadístico de Levene y su significación. Si es menor de 0,05 se asumirán que existen diferencias y se elegirá para analizar la fila que corresponda a esta situación. En este caso, no se pueden asumir varianzas iguales, por lo que la significación de student será 0,146, que nos indica que hay que aceptar la hipótesis nula de que no existen diferencias en el IMC en las diferentes categorías del sexo. (Recordar que esta suposición de cumplir normalidad era para explicarlo de forma didáctica). XVIII. COMPARACIÓN DE X MEDIAS: ANÁLISIS DE LA VARIANCIA El Análisis de la varianza (ANOVA) de un factor, sirve para comparar una variable cuantitativa en varios grupos o categorías, por lo que se puede entender como una generalización de la t de Student. La variable cualitativa categórica será la independiente, mientras la cuantitativa será la dependiente. En este caso vamos a utilizar la Encuesta General USA 1991, para relacionar las variables Número de hijos con la variable RAZA (3 categorias=Blanca, negra y otras). Seguiremos los pasos ANALIZAR�COMPARAR MEDIAS�ANOVA DE UN FACTOR, seleccionando como variable dependiente el número de hijos e independiente la raza:

72

En la ventana, nos iremos a OPCIONES�seleccionamos Estadísticos descriptivos y homogeneidad de varianzas:

Una vez señaladas las opciones damos a PEGAR. Vemos que aparece directamente la pantalla de SINTAXIS1, donde están escritas las órdenes, las seleccionamos y ejecutamos:

Obtendremos los descriptivos que hemos solicitado para la

variable cuantitativa global y por categorías de raza.

73

Descriptivos

Número de hijos

1259 1,83 1,707 ,048 1,74 1,92 0 8

201 2,27 2,005 ,141 1,99 2,55 0 8

49 2,20 1,989 ,284 1,63 2,78 0 8

1509 1,90 1,765 ,045 1,81 1,99 0 8

Blanca

Negra

Otra

Total

N MediaDesviación

típica Error típico Límite inferiorLímite

superior

Intervalo de confianza parala media al 95%

Mínimo Máximo

Antes de proseguir analizando los resultados, debemos en primer

lugar comprobar que se cumplen las condiciones de aplicación de la prueba:

1.- Normalidad: En muestras grandes se va a dar por normalidad,

aunque si somos estrictos, deberemos comprobarlo. Para ello, le solicitaremos al Spss que realice dichas pruebas, que serán la de Kolmogorov-Smirnov y la de Shapiro-Wilk, siguiendo los pasos en ANALIZAR�EXPLORAR�GRAFICOS�PRUEBAS DE NORMALIDAD


,166 1259 ,000 ,878 1259 ,000

,196 201 ,000 ,887 201 ,000

,174 49 ,001 ,895 49 ,000

Raza del encuestadoBlanca

Negra

Otra

Número de hijosEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnov a Shapiro-Wilk


Detectamos que las diferencias son significativas, por lo que no

podemos admitir normalidad. Si realmente quisiéramos ser “totalmente estrictos” para llegar a

comprobar la normalidad, se debería aplicar dichas pruebas a una nueva variable que creáramos, construida con los valores residuales.

2.- Homogeneidad de varianzas: Nos la va a detectar el

estadístico de Levene, que nos viene dado con la solicitud de la ANOVA en el momento anterior:

Prueba de homogeneidad de varianzas

Número de hijos

4,551 2 1506 ,011

Estadísticode Levene gl1 gl2 Sig.

74

En este caso, dará diferencias significativas, por lo que no podemos asumir homogeneidad de varianzas. Si se da el caso de NO cumplir cualquiera de las condiciones anteriores, no podemos analizar nuestros datos con la prueba paramétrica ANOVA, y deberemos usar la Prueba NO Paramétrica de Kruskal-Wallis. Debemos recordar que las desventajas de las pruebas no paramé-tricas, como el caso del Kruskal-Wallis, son que tienen menor potencia y sensibilidad para detectar diferencias entre los grupos, y que no permite construir intervalos de confianza.

En este caso, dará diferencias significativas, por lo que no podemos asumir homogeneidad de varianzas. Si se da el caso de NO cumplir cualquiera de las condiciones anteriores, no podremos analizar nuestros datos con la prueba paramétrica ANOVA, y deberemos usar la Prueba NO Paramétrica de Kruskal-Wallis. Debemos recordar que las desventajas de las pruebas no paramétricas, como el caso de Kruskal.Wallis, son que tienen menor potencia y sensibilidad para detectar diferencias entre los grupos, y que no permite construir intervalos de confianza. La prueba la encontraremos en ANALIZAR/PRUEBAS NO PARAMETRICAS/K MUESTRAS INDEPENDIENTES, donde introduciremos las variables como anteriormente:

75

Habremos seleccionado la prueba que queríamos y definimos los grupos indicando el mínimo y el máximo de categorías:

Finalmente aceptamos y obtendremos una tabla con los tamaños de la muestra y otra, presentando el estadístico H, que SPSS® llama chi-cuadrado, con los grados de libertad y la significación:

Estadísticos de contraste a,b

8,078

2

,018

Chi-cuadrado

gl

Sig. asintót.

Númerode hijos

Prueba de Kruskal-Wallisa.

Variable de agrupación: Raza del encuestadob.

Observaremos que la significación es menor de 0,05, por lo que las diferencias entre ambos grupos existen, aceptando la hipótesis alternativa. Aunque la ANOVA no ha podido ser aplicada en este caso, vemos que la significación que da la No paramétrica es menor y no da el intervalo de confianza.

76

Si intentamos ver si existen diferencias entre el número de hijos según la categoría ocupacional, nos encontraremos con los siguientes resultados:

Descriptivos

Número de hijos

339 1,63 1,642 ,089 1,45 1,80 0 8

456 1,67 1,509 ,071 1,53 1,81 0 8

204 2,26 1,818 ,127 2,01 2,51 0 8

36 1,61 1,728 ,288 1,03 2,20 0 7

162 2,04 1,786 ,140 1,76 2,31 0 8

217 2,14 1,854 ,126 1,89 2,39 0 8

1414 1,86 1,698 ,045 1,77 1,95 0 8

Direcctivo o profesionalliberal

Empleado técnico,administrativo ocomercial

Servicios

Agricultura, forestal ypesca

Producción de precisión,manufactura o reparación

Operario, fabricación ymano de obra en general

Total

N MediaDesviación

típica Error típico Límite inferiorLímite

superior

Intervalo de confianza parala media al 95%

Mínimo Máximo

Prueba de homogeneidad de varianzas

Número de hijos

2,066 5 1408 ,067

Estadísticode Levene gl1 gl2 Sig.

ANOVA

Número de hijos

92,213 5 18,443 6,524 ,000

3980,215 1408 2,827

4072,428 1413

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrática F Sig.

Podemos ver que según el estadístico de Levene, al no ser estadísticamente significativo, podemos aceptar la homogeneidad de varianzas y utilizar la Prueba paramétrica ANOVA, encontrando una significación próxima a 0, lo cual indica que existen diferencias entre las medias de los hijos según la categoría ocupacional. Si deseamos saber cuales son los grupos que tienen diferencias entre sí, podríamos utilizar las Comparaciones a posteriori (POST HOC) o comparaciones múltiples, que utilizan diferentes métodos, siendo los más habituales los de Bonferroni y los de Scheffé.

77

En la ventana que se abría en la ANOVA de un factor, seleccionamos POS HOC y dentro las pruebas indicadas antes:

78

Comparaciones múltiples

Variable dependiente: Número de hijos

-,05 ,121 1,000 -,45 ,36

-,63* ,149 ,003 -1,13 -,14

,01 ,295 1,000 -,97 1,00

-,41 ,161 ,255 -,95 ,12

-,52* ,146 ,029 -1,00 -,03

,05 ,121 1,000 -,36 ,45

-,59* ,142 ,004 -1,06 -,12

,06 ,291 1,000 -,91 1,03

-,37 ,154 ,341 -,88 ,15

-,47* ,139 ,042 -,93 -,01

,63* ,149 ,003 ,14 1,13

,59* ,142 ,004 ,12 1,06

,65 ,304 ,473 -,36 1,66

,22 ,177 ,903 -,37 ,81

,12 ,164 ,992 -,43 ,66

-,01 ,295 1,000 -1,00 ,97

-,06 ,291 1,000 -1,03 ,91

-,65 ,304 ,473 -1,66 ,36

-,43 ,310 ,864 -1,46 ,61

-,53 ,303 ,686 -1,54 ,48

,41 ,161 ,255 -,12 ,95

,37 ,154 ,341 -,15 ,88

-,22 ,177 ,903 -,81 ,37

,43 ,310 ,864 -,61 1,46

-,11 ,175 ,996 -,69 ,48

,52* ,146 ,029 ,03 1,00

,47* ,139 ,042 ,01 ,93

-,12 ,164 ,992 -,66 ,43

,53 ,303 ,686 -,48 1,54

,11 ,175 ,996 -,48 ,69

-,05 ,121 1,000 -,40 ,31

-,63* ,149 ,000 -1,07 -,20

,01 ,295 1,000 -,85 ,88

-,41 ,161 ,157 -,88 ,06

-,52* ,146 ,006 -,95 -,09

,05 ,121 1,000 -,31 ,40

-,59* ,142 ,001 -1,01 -,17

,06 ,291 1,000 -,80 ,92

-,37 ,154 ,262 -,82 ,09

-,47* ,139 ,010 -,88 -,06

,63* ,149 ,000 ,20 1,07

,59* ,142 ,001 ,17 1,01

,65 ,304 ,495 -,24 1,54

,22 ,177 1,000 -,30 ,74

,12 ,164 1,000 -,37 ,60

-,01 ,295 1,000 -,88 ,85

-,06 ,291 1,000 -,92 ,80

-,65 ,304 ,495 -1,54 ,24

-,43 ,310 1,000 -1,34 ,48

-,53 ,303 1,000 -1,42 ,36

,41 ,161 ,157 -,06 ,88

,37 ,154 ,262 -,09 ,82

-,22 ,177 1,000 -,74 ,30

,43 ,310 1,000 -,48 1,34

-,11 ,175 1,000 -,62 ,41

,52* ,146 ,006 ,09 ,95

(J) Categoría ocupacionalEmpleado técnico,administrativo ocomercial

Servicios





Servicios











Servicios





Servicios





Servicios




Servicios





Servicios











Servicios





Servicios




(I) Categoría ocupacionalDirecctivo o profesionalliberal


Servicios






Servicios




Scheffé

Bonferroni

Diferencia demedias (I-J) Error típico Sig. Límite inferior

Límitesuperior

Intervalo de confianza al95%

Observaremos que compara las diferentes categorías, con la

significación estadística y la diferencia de las medias entre ambos grupos.

79

XIX. REGRESIÓN LINEAL SIMPLE

Se trata de una técnica estadística que analiza la relación entre 2 variables de tipo cuantitativo, tratando de verificar si dicha relación es lineal. Siempre habrá una variable de “respuesta” o posible “efecto” y una variable “predictora” o posible “causa”, siendo la dependiente e independiente, respectivamente.

El primer paso debe ser siempre pedir a Spss® un gráfico de

dispersión para apreciar visualmente si se puede asumir un modelo lineal entre ambas variables. Se ajustará una regresión cuando la nube de puntos nos sugiera que existe una relación lineal. Una nube de puntos puede sugerir que no existe ninguna relación. Si no existe relación, la pendiente de la curva de regresión “b” será igual a 0.

Seleccionaremos una base de datos con datos de supervivencia

“Supervivencia cáncer de pecho”, para ver la relación entre el tiempo de supervivencia y el tamaño del cáncer.

Para ver el gráfico seguimos GRAFICOS�DISPERSION�SIMPLE:

En la selección de variables, la primera fila corresponde a la

dependiente que será el “tiempo de supervivencia” y en la segunda la independiente, que será el “tamaño del tumor”:

80

Pegamos y ejecutamos, obteniendo el siguiente diagrama de

dispersión:

Tamaño del tumor patológico (cm)

876543210

Tie

mpo

(m

eses

)

140

120

100

80

60

40

20

0

Podemos observar levemente como la mayor parte de los casos de mayor supervivencia se sitúan al tamaño menor del tumor, pero no apreciamos con claridad la tendencia. Para ello haremos doble clic sobre el gráfico, con lo que se abrirá el editor de gráficos:

81

Iremos entonces a la opción DISEÑO, y seleccionaremos OPCIONES�AJUSTAR LINEA TOTAL:

Tras aceptar veremos la recta de regresión con la tendencia que

sigue “algo más clara” que con anterioridad:

Tamaño del tumor patológico (cm)

876543210

Tie

mpo

(m

eses

)

140

120

100

80

60

40

20

0

Una vez que se ha visto que la nube es aproximadamente lineal, aplicamos el modelo de regresión lineal, seleccionando ANALIZAR�REGRESION LINEAL e introduciendo las variables como anteriormente, primero la dependiente y luego la independiente:

82

En la opción ESTADÍSTICOS elegiremos Ajuste del modelo,

Intervalos de confianza y Estimaciones:

En la opción GUARDAR seleccionamos Residuos�NO tipificados:

83

Y finalmente, en la opción GRAFICOS, seleccionamos tal como indica la siguiente imagen:

Y aceptamos todo, pasando a continuación a la ventana de

resultados generada, donde vemos en primer lugar un cuadro que nos recuerda lo que hemos hecho:

Variables introducidas/eliminadas b

Tamaño deltumorpatológico(cm)

a, Introducir

Modelo1

Variablesintroducidas

Variableseliminadas Método

Todas las variables solicitadas introducidasa.

Variable dependiente: Tiempo (meses)b.

Luego viene un Resúmen del modelo donde aparece el Coeficiente de Correlación de Pearson, pero en valor absoluto, correspondiéndole el mismo signo que la pendiente de la curva “b” observable en un cuadro inferior:

Resumen del modelo b

,081a ,007 ,006 29,23200Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Tamaño del tumorpatológico (cm)

a.


Como la b es negativa (-2,376), el coeficiente indica una correlación claramente negativa (-0,801).

84

El siguiente cuadro que observamos nos lo indica como una ANOVA, que llama medias cuadráticas a las varianzas:

ANOVAb

6268,575 1 6268,575 7,336 ,007a

956196,439 1119 854,510

962465,015 1120

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Tamaño del tumor patológico (cm)a.


Al detectarse en el estadístico F significación estadística (p=0,007), se rechaza la hipótesis nula de que la pendiente sea 0. Podremos afirmar que existe una relación estadísticamente significativa entre ambas variables, que vendrá claramente definida en el siguiente cuadro que expresa la curva de regresión:

Coeficientes a

50,503 1,753 28,805 ,000 47,063 53,943

-2,376 ,877 -,081 -2,708 ,007 -4,097 -,655

(Constante)

Tamaño del tumorpatológico (cm)

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: Tiempo (meses)a.

La ecuación generada sería: y=a+bx � y=50,503-2,376x � Supervivencia =50,503 – 2,376*Tamaño del tumor Se obtiene una significación importante (p=0,007), y además, el intervalo de confianza no engloba el 0, (-4,097 a -0,655), lo cual refuerza las diferencias estadísticamente significativas. Tendríamos entonces, que por cada centímetro que aumenta el tamaño del tumor, disminuye su supervivencia media (50,5meses) en 2,38 meses. Podemos ahora que realice una comprobación de la normalidad de los residuos, dado que nos ha creado una nueva variable llamada Unstandardized Residual (res1) con los residuales:

85

Entonces siguiendo la ruta ANALIZAR�ESTADISTICOS DESCRIPTIVOS�EXPLORAR�DEPENDIENTES�RES1�GRAFICOS�GRAFICOS CON PRUEBAS DE NORMALIDAD obtenemos:


,070 1121 ,000 ,955 1121 ,000Unstandardized ResidualEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk


Al detectarse significación, no podemos asumir que los residuos sigan una distribución normal (p=0,000)

86

XXI GLOSARIO BASICO DE BIOESTADÍSTICA • AMPLITUD: Medida de dispersión. Se calcula mediante la diferencia

entre el mayor valor de la muestra y el menor. • ANÁLISIS DE LA VARIANCIA:

-Prueba estadística para analizar la relación entre: una variable X independiente, cualitativa con dos o más categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.

• BOX-PLOT: Gráfico que permite representar una variable cuantitativa. • CURTOSIS: Característica de la distribución de los datos representados

en una curva. Se refiere al grado de aplanamiento de la misma. Así tendremos curvas platocúrticas (son aplanadas), leptocúrticas (son picudas), mesocúrticas (intermedias entre las dos anteriores).

• DESVIACIÓN TÍPICA: Medida de dispersión. Se calcula realizando la

raíz cuadrada de la variancia. • GRADOS DE LIBERTAD: El número de datos que se pueden variar para

que a un total fijo podamos reconstruir dicho total. así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3 , si nos dan las frecuencias marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6.

• MEDIA: Medida de tendencia central. Se calcula sumando todos los

valores y dividiendo por el número de valores. • MEDIANA: Medida de tendencia central. Ordenando todos los valores

que puede toma runa variable, en orden ascendente, la mediana sería el valor que ocupe el lugar central. Se prefiere a la media cuando hay valores my extremos.

• MODA: Medida de tendencia central. Es el valor de la variable que más

veces se repite.

87

• PERCENTILES: Medida de tendencia central. Se calcula con los valores

ordenados de la muestra. Así el percentil 50 será aquel que deja a tantos valores por debajo, como por encima. El percentil 25 será aquel que deje al 25% de los valores por debajo y al 75% por encima. El percentil 75 será aquel que deje al 75% de los valores por debajo y al 25% por encima.

• PRUEBA DE X2:

-Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cualitativa, con dos categorías. -Condiciones de aplicación: que los valores esperados sean mayores o iguales a cinco.

• PRUEBA DE T STUDENT-FISHER: -Prueba estadística para analizar la relación entre: una variable X, independiente, cualitativa, con dos categorías; con una variable Y, dependiente, cuantitativa. -Condiciones de aplicación: Normalidad y Homogeneidad de variancias.

• REGRESIÓN SIMPLE:

-Prueba estadística para analizar la relación entre: una variable X, independiente, cuantitativa; con una variable Y, dependiente, cuantitativa.

• VARIANCIA: Medida de dispersión. Se calcula dividiendo el sumatorio

de la diferencia de cada valor de la muestra menos la media al cuadrado por en número de sujetos de la muestra, es decir:

S2 = Σ (x- media)2 / n

i. consideraciones previas · datos de sus variables predefinidas, tengamos que introducir en...

Documents