curso_spss_desglosado

40
 © Juan Manuel Llopis Marín (2009-2012)  1 TEMA - 1 Entrada de datos y definición de variables 1.- Entrada de datos La ventana d e i nt ro du cci ón de da tos no s pe r mi te intr oducir los d at os qu e pretend emos ana liza r, o vis ual izar los dat os pre viamente intr oducidos. De igual modo en ella se encuentran las utilidades que nos per miten importar los datos desde otros formatos como pueden ser datos ASCII, una hoja de cálculo de EXCEL, etc. 1.1.- Lectura de archivos de Excel. En primer lugar, hay que tener en cuenta las siguientes observaciones: Tipo y ancho de datos.  Cada columna es una variable. El tipo de datos y el ancho de cada variable están determinados por el tipo de datos y el ancho en el archivo de Excel. Si la columna contiene más de un tip o de datos (por ej emplo , fecha y numérico), el tipo de datos se define como cadena y todos los valores se leen como valores de cadena válidos. Casi llas en blanc o.  En las variables numér icas, las casillas en blanco se convierten en el valor perdido del sistema indicado por un punto (o una coma). En las variables de cadena, los espacios en blanco son valores de cadena válidos y las casillas en blanco se tratan como valores de cadena válidos. El pro cedimien to para leer datos de una hoja de un archivo Exce l, es el siguiente: Seleccionar en el menú sup erior: Arc hivo --- Abr ir --- Datos , aparecerá la siguiente pantalla: Elegir el tipo “Excel (*.xls)” de manera que aparecerán los archivos con esa extensión (s i los hay). A continuac n seleccionar y abrir el archivo deseado. Aparecerá un cuadro de diálogo como el presentado a continuación:

Upload: rafael-mendez

Post on 05-Nov-2015

11 views

Category:

Documents


0 download

DESCRIPTION

curso para el aprendisaje de spss

TRANSCRIPT

  • Juan Manuel Llopis Marn (2009-2012) 1

    TEMA - 1

    Entrada de datos y definicin de variables

    1.- Entrada de datos

    La ventana de introduccin de datos nos permite introducir los datos quepretendemos analizar, o visualizar los datos previamente introducidos. De igualmodo en ella se encuentran las utilidades que nos permiten importar los datosdesde otros formatos como pueden ser datos ASCII, una hoja de clculo de EXCEL,etc.

    1.1.- Lectura de archivos de Excel.

    En primer lugar, hay que tener en cuenta las siguientes observaciones:

    Tipo y ancho de datos. Cada columna es una variable. El tipo de datos y elancho de cada variable estn determinados por el tipo de datos y el ancho en elarchivo de Excel. Si la columna contiene ms de un tipo de datos (por ejemplo,fecha y numrico), el tipo de datos se define como cadena y todos los valores seleen como valores de cadena vlidos.

    Casillas en blanco. En las variables numricas, las casillas en blanco seconvierten en el valor perdido del sistema indicado por un punto (o una coma). Enlas variables de cadena, los espacios en blanco son valores de cadena vlidos y lascasillas en blanco se tratan como valores de cadena vlidos.

    El procedimiento para leer datos de una hoja de un archivo Excel, es elsiguiente:

    Seleccionar en el men superior: Archivo --- Abrir --- Datos, aparecer lasiguiente pantalla:

    Elegir el tipo Excel (*.xls) de manera que aparecern los archivos con esaextensin (si los hay). A continuacin seleccionar y abrir el archivo deseado.Aparecer un cuadro de dilogo como el presentado a continuacin:

  • Juan Manuel Llopis Marn (2009-2012) 2

    Leer nombres de variables de la primera fila de datos. Si lee la primerafila del archivo de Excel (o la primera fila del rango especificado) como nombres devariable, los valores que no cumplan las normas de denominacin de variables seconvertirn en nombres de variables vlidos y los nombres originales se utilizarncomo etiquetas de variable. Si no lee nombres de variable del archivo de Excel, seasignarn nombres de variable por defecto.

    Hoja de trabajo. Los archivos de Excel pueden contener varias hojas detrabajo. El Editor de datos lee por defecto la primera hoja. Para leer una diferente,seleccione la que desee en la lista desplegable.

    Rango. Tambin puede leer un rango de casillas. Para especificar rangos decasillas utilice el mismo mtodo que empleara en Excel.

    Al pulsar el botn Aceptar, los datos aparecern en la ventana deintroduccin de datos.

  • Juan Manuel Llopis Marn (2009-2012) 3

    1.2.- Lectura de archivos de texto

    El Asistente para la importacin de texto puede leer archivos de datos detexto de diversos formatos:

    - Archivos delimitados por tabuladores- Archivos delimitados por espacios- Archivos delimitados por comas- Archivos con formato de campos fijos

    Para leer archivos de datos de texto

    - Elija en los mens: Archivo --- Abrir --- Datos, aparecer lasiguiente pantalla:

    Elegir el tipo Texto (*.txt, *.dat) de manera que aparecern los archivoscon esa extensin (si los hay).

    Siga los pasos indicados en el Asistente para la importacin de texto paradefinir cmo desea leer el archivo de datos de texto:

  • Juan Manuel Llopis Marn (2009-2012) 4

    El archivo de texto se mostrar en una ventana de vista previa. Puede aplicar unformato predefinido (guardado con anterioridad desde el Asistente para laimportacin de texto) o seguir los pasos del asistente para especificar cmo deseaque se lean los datos.

    Este paso ofrece informacin sobre las variables. Por ejemplo, cada elemento de uncuestionario es una variable.

    Cmo estn organizadas sus variables? Para leer los datos adecuadamente, elAsistente para la importacin de texto necesita saber cmo determinar el lugar enel que terminan los valores de datos de una variable y comienzan los valores dedatos de la variable siguiente. La organizacin de las variables define el mtodoutilizado para diferenciar una variable de la siguiente.

    Delimitado. Se utilizan espacios, comas, tabulaciones u otros caracterespara separar variables. Las variables quedan registradas en el mismo ordenpara cada caso, pero no necesariamente conservando la misma ubicacinpara las columnas.

  • Juan Manuel Llopis Marn (2009-2012) 5

    Ancho fijo. Cada variable se registra en la misma posicin de columna en elmismo registro (lnea) para cada caso del archivo de datos. No se requieredelimitador entre variables De hecho, en muchos archivos de datos de textogenerados por programas de ordenador, podra parecer que los valores delos datos se suceden, sin espacios que los separen. La ubicacin de lacolumna determina qu variable se est leyendo.

    Estn incluidos los nombres de las variables en la parte superior delarchivo? Si la primera fila del archivo de datos contiene etiquetas descriptivas paracada variable, podr utilizar dichas etiquetas como nombres de las variables. Losvalores que no cumplan las normas de denominacin de variables se convertirn ennombres de variables vlidos.

    Este paso ofrece informacin sobre los casos. Por ejemplo, cada persona queresponde a un cuestionario es un caso.

    En qu nmero de lnea comienza el primer caso de los datos? Indica laprimera lnea del archivo de datos que contiene valores de datos. Si la lnea o lneassuperiores del archivo de datos contienen etiquetas descriptivas o cualquier otrotexto que no represente valores de datos, dicha lnea o lneas no sern la lnea 1.

    Cmo se encuentran representados sus casos? Controla la manera en que elAsistente para la importacin de texto determina dnde finaliza cada caso ycomienza el siguiente:

    Cada lnea representa un caso. Cada lnea contiene un slo caso. Esbastante comn que cada lnea (fila) contenga un slo caso, aunque dichalnea puede ser muy larga para un archivo de datos con un gran nmero devariables. Si no todas las lneas contienen el mismo nmero de valores dedatos, el nmero de variables para cada caso quedar determinado por lalnea que tenga el mayor nmero de valores de datos. A los casos conmenos valores de datos se les asignarn valores perdidos para las variablesadicionales.Un nmero concreto de variables representa un caso. El nmero devariables especificado para cada caso informa al Asistente para laimportacin de texto de dnde detener la lectura de un caso y comenzar ladel siguiente. Una misma lnea puede contener varios casos y los casospueden empezar en medio de una lnea y continuar en la lnea siguiente. ElAsistente para la importacin de texto determina el final de cada caso

  • Juan Manuel Llopis Marn (2009-2012) 6

    basndose en el nmero de valores ledos, independientemente del nmerode lneas. Cada caso debe contener valores de datos (o valores perdidosindicados por delimitadores) para todas las variables; de otra forma, elarchivo de datos no se leer correctamente.

    Cuntos casos desea importar? Puede importar todos los casos del archivo dedatos, los primeros n casos (siendo n un nmero especificado por el usuario) ouna muestra aleatoria a partir de un porcentaje especificado. Dado que esta rutinade muestreo aleatorio toma una decisin pseudo-aleatoria para cada caso, elporcentaje de casos seleccionados slo se puede aproximar al porcentajeespecificado. Cuantos ms casos contenga el archivo de datos, ms se acercar elporcentaje de casos seleccionados al porcentaje especificado.

    Este paso muestra la mejor opcin, segn el Asistente para la importacin de texto,para leer el archivo de datos y le permite modificar la manera en que el asistenteleer las variables del archivo de datos.

    Qu delimitador se encuentra entre las variables? Indica los caracteres osmbolos que separan los valores de datos. Puede seleccionar cualquiercombinacin de espacios, comas, signos de punto y coma, tabulaciones o cualquierotro carcter. En caso de existir varios delimitadores consecutivos sin valores dedatos, dichos delimitadores sern considerados valores perdidos.

    Cul es el calificador de texto? Caracteres utilizados para encerrar valores quecontienen caracteres delimitadores. Por ejemplo, si una coma es el delimitador, losvalores que contengan comas se leern incorrectamente a menos que estos valoresse encierre en un calificador de texto, impidiendo que las comas del valor seinterpreten como delimitadores entre los valores. Los archivos de datos conformato CSV de Excel utilizan las comillas dobles () como calificador de texto. Elcalificador de texto aparece tanto al comienzo como al final del valor, encerrndolocompletamente.

  • Juan Manuel Llopis Marn (2009-2012) 7

    Este paso controla el nombre de la variable y el formato de datos que el Asistentepara la importacin de texto utilizar para leer cada variable, as como las que seincluirn en el archivo de datos definitivo.

    Nombre de variable. Puede sobrescribir los nombres de variable predeterminadosy sustituirlos por otros diferentes. Si lee nombres de variable desde el archivo dedatos, el Asistente para la importacin de texto modificar de manera automticalos nombres de variable que no cumplan las normas de denominacin de variables.

    Seleccione una variable en la ventana de vista previa e introduzca un nombre devariable.

    Formato de datos. Seleccione una variable en la ventana de vista previa y, acontinuacin, seleccione un formato de la lista desplegable.

    Opciones para el formato de datos

    Entre las opciones de formato para la lectura de variables con el Asistente para laimportacin de texto se encuentran:

    No importar. Omite la variable o variables seleccionadas del archivo dedatos importado.Numrico. Los valores vlidos incluyen nmeros, los signos ms y menosiniciales y un indicador decimal.Cadena. Son valores vlidos prcticamente todos los caracteres del tecladoy los espacios en blanco incrustados. En los archivos delimitados, puedeespecificar hasta un mximo de 255 de caracteres para el valor. El Asistentepara la importacin de texto fija como valor predeterminado para el nmerode caracteres el valor de cadena ms largo que se haya encontrado para lavariable o variables seleccionadas. Para los archivos de ancho fijo, el nmerode caracteres en los valores de cadena queda definido por la ubicacin de laslneas de ruptura de variable en el paso 4. Defina el nmero de caracteresen el cuadro que aparece a la derecha.Fecha/hora. Entre los valores vlidos se encuentran las fechas con formatogeneral: dd-mm-aaaa, mm/dd/aaaa, dd.mm.aaaa, aaaa/mm/dd, hh:mm:ss,as como una amplia variedad de formatos de hora y fecha. Los meses sepueden representar con dgitos, nmeros romanos, abreviaturas de tresletras o con el nombre completo. Seleccione un formato de fecha de la listaque aparece a la derecha.

  • Juan Manuel Llopis Marn (2009-2012) 8

    Dlar. Los valores vlidos son nmeros con un signo dlar inicial optativo ypuntos separadores de millares tambin optativos.Coma. Entre los valores vlidos se encuentran los nmeros que utilizan unpunto para separar los decimales y una coma para separar los millares.Puntos. Entre los valores vlidos se encuentran los nmeros que utilizanuna coma para separar los decimales y un punto para separar los millares.

    Nota: Los valores que contengan caracteres no vlidos para el formatoseleccionado sern considerados valores perdidos.

    Este es el paso final del Asistente para la importacin de texto. Puede guardar suspropias especificaciones en un archivo para hacer uso de ellas cuando importearchivos de datos de texto similares. Tambin puede pegar la sintaxis generada porel Asistente para la importacin de texto en una ventana de sintaxis. As podrpersonalizar y/o guardar dicha sintaxis para utilizarla en futuras sesiones o entrabajos de produccin.

    Al pulsar el botn Finalizar, los datos pasan a la ventana de introduccin dedatos:

  • Juan Manuel Llopis Marn (2009-2012) 9

    2.- Definicin de variables

    En la figura siguiente podemos ver el aspecto de la ventana de introduccin dedatos. En la parte inferior de la misma aparecen dos pestaas: la primera (vistade datos) pertenece a la ventana de datos propiamente dicha, en donde los datosse introducen y manipulan de la misma manera y con las mismas opciones decopiado, etc. que en cualquier otro programa del sistema operativo Windows. Lasegunda pestaa (vista de variables) es ms interesante desde el punto de vistadel SPSS ya que nos da acceso a una hoja de captura de datos en la cualdefiniremos todas las variables que vamos a utilizar, as como sus caractersticasprincipales: mtrica, tipo, nmero de decimales, etc.

    Dentro ya de la vista de variables nos encontramos con la posibilidad de definir lasdistintas caractersticas de nuestras variables. As por ejemplo podemos introducirel nombre de la primera variable "NivIng" que hace referencia al nivel de ingresosde un grupo de sujetos. Debemos tener en cuenta que la extensin del nombre dela variable, a partir de la versin 12 de SPSS, ha aumentado de 8 caracteres a 64,pero sin espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ' y *).(Podramos haber introducido como nombre de variable: Nivel_de_Ingresos).

    SPSS por defecto nos definir dicha variable tal y como lo vemos en la siguientefigura, es decir, numrica, con 8 dgitos y dos decimales, sin etiquetas ni de

  • Juan Manuel Llopis Marn (2009-2012) 10

    variable ni de valor, sin definicin de datos perdidos, visualizando ocho dgitos,alineando los datos a la derecha y suponiendo que la variable tiene una mtrica deescala, es decir de intervalo o de razn.

    Veamos en que forma definiramos dichos valores para nuestro caso concreto y lasopciones que nos da el programa. En primer lugar pulsamos con el ratn sobre lapalabra numrico lo cual provoca que se abra una ventana de captura de datos enla que definimos tanto el tipo de variable como el nmero mximo de dgitos. Cabesealar que entre todas las opciones que nos presenta las ms interesantes son"Numrica" y "Cadena". La primera como es obvio hace referencia a aquellasvariables que son cifras y que no precisan de ningn tipo de presentacin especial(delimitadores, signos monetarios, etc.) mientras que cadena hace referencia avariables que no son tratadas de forma numrica, como puede ser el nombre delsujeto, etc.

    Puede observarse que en esta ventana hemos definido tambin una anchura de undgito y ningn decimal, dado que la variable NivIng, solo presentar un dgito yningn decimal.

    En la columna etiqueta podemos introducir una definicin ms amplia de lavariable de tal modo que en prximas ocasiones podamos saber a que refiere, ennuestro caso hemos introducido "Nivel de Ingresos", esta etiqueta ser tambinvisible en las ventanas de captura de datos de los anlisis que realicemos conposterioridad. Es preciso sealar la importancia de definir este tipo de etiquetas enlas versiones de SPSS anteriores a la versin 12, dado que la limitacin a ochocaracteres de las variables haca que, en muchos casos, al cabo de un tiempo nosupiramos a qu hacan referencia. En la versin 12, solamente tiene sentido si noqueremos sobrecargar la ventana de vista de datos.

    La siguiente columna; etiquetas de valor, nos permite definir etiquetasparticulares para cada valor de la variable. La utilidad de esta opcin, aparececuando trabajamos con variables categricas como la del ejemplo. As la variableNivel de Ingresos la vamos a codificar de la siguiente manera:

  • Juan Manuel Llopis Marn (2009-2012) 11

    1 Muy Bajo.

    2 Bajo

    3 Medio

    4 Alto

    5 Muy Alto

    Para ello pulsaremos sobre la casilla correspondiente y nos aparecer una ventanade captura de datos como la siguiente:

    En esta ventana introducimos el valor 1, la etiqueta Muy Bajo y a continuacinpulsamos Aadir, posteriormente hacemos lo mismo para los siguientes valores yfinalizamos pulsando Aceptar.

    A continuacin definimos los valores perdidos, es decir, aquellos valores denuestra variable que representan los casos que, o bien no hemos obtenido, o bienno son vlidos. La ventana correspondiente puede observarse en la imagen inferior.

    Esta opcin tan solo ser necesaria en aquellos casos en que los datos de quedisponemos hayan sido introducidos con un valor perdido concreto, dado que, siintroducimos los datos nosotros siempre tenemos la posibilidad de no introducirningn valor en aquella casilla que contenga un dato perdido, con lo que SPSS loreconocer as aunque no efectuemos ninguna definicin de los mismos. Podemoscomprobar que adems de introducir valores concretos, SPSS nos da la posibilidadde definir un rango de valores como valores perdidos.

  • Juan Manuel Llopis Marn (2009-2012) 12

    Las dos opciones siguientes; columnas y alineacin, se refieren a la visualizacinde las variables en la ventana "vista de datos" y modifican el nmero de columnasque se visualizan as como la alineacin (derecha, izquierda o centro) de los datos.

    Finalmente podemos introducir la mtrica en que est medida la variable, ennuestro caso al ser categrica, pero ordenable, quedara comprendida en lacategora "ordinal". Para ello utilizamos la ventana de captura de datos que vemosa continuacin.

    Una advertencia muy importante es que aunque nosotros definamos la mtrica dela variable, SPSS no nos va a advertir, en un anlisis concreto, de la inadecuacindel mismo en funcin de la mtrica de las variables. De este modo podemos vercmo es posible solicitar una regresin lineal con dos variables nominales y SPSSejecutar la misma sin generar ningn error, lo cual suele llevar a interesantestrabajos en los que se demuestra la relacin entre el color del pelo y el sexo de losngeles. Hay que tener siempre en cuenta el hecho de que si el programa no nosda ningn error no implica que no estemos equivocndonos totalmente.

  • Juan Manuel Llopis Marn (2009-2012) 13

    TEMA - 2

    Ordenacin, seleccin y ponderacin de casos

    1.- Ordenacin de casos

    La finalidad de esta manipulacin es la de ordenar de modo creciente o decrecientea los sujetos en funcin de las puntuaciones en alguna de las variables. Si, porejemplo, detectamos que al calcular la Media Aritmtica de una variable se obtieneun resultado absurdo (mucho mayor que el mximo de la escala, por ejemplo), esconveniente revisar los datos (ya que probablemente se ha cometido un error en laentrada de los mismos). Ordenando los sujetos de mayor a menor en funcin de lavariable estudiada, el sujeto con la puntuacin mayor en dicha variable quedarordenado en primer lugar (pudiendo rectificar ahora su puntuacin). Esta opcintambin es muy til en el caso de que debamos presentar un listado de los casoscon los que estamos trabajando ordenado en funcin de alguna o algunas de lasvariables incluidas en nuestros datos. Fichero: encuesta.sav

    Seleccionando la opcin Ordenar casos en el men Datos, se activa el siguientesubmen:

    En este submen se ha seleccionado la variable sexo para ser ordenada de modoAscendente (de menor a mayor). Al pulsar el botn Aceptar, los casos sereordenarn en la ventana de datos en funcin de dicha variable.

    Por otra parte es posible ordenar los casos en funcin de dos o ms criterios. Deeste modo los casos quedaran ordenados en funcin de la primera variableseleccionada, los casos con un mismo valor en dicha variable quedarn ordenadosen funcin del segundo criterio y as sucesivamente. De este modo, por ejemplo,podramos hacer un listado en el que aparecieran en primer lugar los hombres ydespus las mujeres, estando a su vez ordenados dentro de cada gnero en funcinde su nmero de hijos (variable hijos).

  • Juan Manuel Llopis Marn (2009-2012) 14

    2.- Seleccin de casos

    Seleccionar casos proporciona varios mtodos para seleccionar un subgrupo decasos basndose en criterios que incluyen variables y expresiones complejas.Tambin se puede seleccionar una muestra aleatoria de casos. Los criterios usadospara definir un subgrupo pueden incluir:

    - Valores y rangos de las variables- Rangos de fechas y horas- Nmeros de caso (filas)- Expresiones aritmticas- Expresiones lgicas- Funciones

    Seleccionando la opcin Seleccionar casos en el men Datos, se activa elsiguiente submen:

    Todos los casos. Desactiva el filtrado de casos y utiliza todos los casos.Si se satisface la condicin. Utiliza una expresin condicional para seleccionar loscasos. Si el resultado de la expresin condicional es verdadero, el caso seselecciona. Si el resultado es falso o perdido, entonces el caso no se selecciona.Muestra aleatoria de casos. Selecciona una muestra aleatoria basndose en unporcentaje aproximado o en un nmero exacto de casos.Basndose en el rango del tiempo o de los casos. Selecciona los casosbasndose en un rango de los nmeros de caso o en un rango de las fechas/horas.Usar variable de filtro. Utiliza como variable para el filtrado la variable numricaseleccionada del archivo de datos. Se seleccionan los casos con cualquier valordistinto del 0 o del valor perdido para la variable seleccionada.Casos no seleccionados. Puede filtrar o eliminar los casos que no renan loscriterios de seleccin. Los casos filtrados permanecen en el archivo de datos perose excluyen del anlisis. Seleccionar casos crea una variable de filtro, filter_$,para indicar el estado del filtro. Los casos seleccionados tienen un valor de 1; loscasos filtrados tienen un valor de 0. Estos ltimos tambin se indican con una barratransversal sobre el nmero de fila en el Editor de datos. Para desactivar el filtradoe incluir todos los casos en el anlisis, seleccione Todos los casos. Si guarda elarchivo de datos despus de eliminar casos, no podr recuperar los casoseliminados.

  • Juan Manuel Llopis Marn (2009-2012) 15

    Seleccionar casos: SiEste cuadro de dilogo permite seleccionar subconjuntos de casos utilizandoexpresiones condicionales. Las expresiones condicionales devuelven un valorverdadero, falso o perdido para cada caso.

    - Si el resultado de una expresin condicional es verdadero, el caso seselecciona.- Si el resultado de una expresin condicional es falso o perdido, no seselecciona el caso.- La mayora de las expresiones condicionales utilizan al menos uno de losseis operadores de relacin (, =, =, y ~=) en el teclado decalculadora.- Las expresiones condicionales pueden incluir nombres de variable,constantes, operadores aritmticos, funciones numricas y otras, variableslgicas y operadores relacionales.

    Seleccionar casos: Muestra aleatoriaEste cuadro de dilogo permite seleccionar una muestra aleatoria basada en unporcentaje aproximado o en un nmero exacto de casos. El muestreo se realiza sinsustitucin, de manera que el mismo caso no se puede seleccionar ms de una vez.

    Aproximadamente. Genera una muestra aleatoria con el porcentajeaproximado de casos indicado. Dado que esta rutina toma una decisinpseudo-aleatoria para cada caso, el porcentaje de casos seleccionados slose puede aproximar al especificado. Cuantos ms casos contenga el archivode datos, ms se acercar el porcentaje de casos seleccionados alporcentaje especificado.Exactamente. Un nmero de casos especificado por el usuario. Tambin sedebe especificar el nmero de casos a partir de los cuales se generar lamuestra. Este segundo nmero debe ser menor o igual que el nmero totalde casos presentes en el archivo de datos. Si lo excede, la muestracontendr un nmero menor de casos proporcional al nmero solicitado.

  • Juan Manuel Llopis Marn (2009-2012) 16

    Seleccionar casos: RangoEste cuadro de dilogo selecciona los casos basndose en un rango de nmeros decaso o en un rango de fechas u horas.

    - Los rangos de casos se basan en el nmero de fila que se muestra en elEditor de datos.

    - Los rangos de fechas y horas slo estn disponibles para datos de seriestemporales con variables de fecha definidas (men Datos, Definir fechas).

    Submen para una variable que no sea de fecha:

    Submen para datos de una serie temporal con variables de fecha definidas (menDatos --- Definir fechas):

    3.- Ponderacin de casos

    Cuando cada registro de los que componen un fichero de trabajo representa ms deun caso, SPSS permite especificar el coeficiente de ponderacin correspondiente.

    Es requisito que en el fichero exista una variable cuyos valores van a ser empleadoscomo coeficientes de ponderacin.

    Ponderar casos proporciona a los casos diferentes pesos (mediante una rplicasimulada) para el anlisis estadstico.

    Los valores de la variable de ponderacin deben indicar el nmero de observacionesrepresentado por los casos nicos del archivo de datos.

    Los casos con valores perdidos, negativos o cero para la variable de ponderacin seexcluyen del anlisis.

  • Juan Manuel Llopis Marn (2009-2012) 17

    Ejemplo: Fichero: ponderacin.sav

    Frecuencias de la variable Registros sin ponderar:

    Frecuencias de la variable Registros ponderada segn la variable Ponderacin:

  • Juan Manuel Llopis Marn (2009-2012) 18

    TEMA - 3

    Transformacin de datos: Clculo (Creacin denuevas variables) y recodificacin

    1.- Clculo (Creacin de nuevas variables)

    La creacin de variables implica el clculo de nuevas variables en funcin de lasvariables ya existentes, o bien en funcin de criterios externos a las variables yaexistentes. Un ejemplo donde se requiere la creacin de nuevas variables podra serel siguiente: se tienen dos puntuaciones de cada sujeto (cada una en una variable)y se pretende calcular la puntuacin promedio para cada sujeto en las dosvariables. Calcular manualmente el promedio sujeto por sujeto es una solucin muytediosa. En estos casos SPSS dispone de comandos que permiten generar nuevasvariables a partir de transformaciones de las existentes. Fichero: calculo.sav

    Seleccionando la opcin Calcular del men Transformar se activa el Cuadro deDilogo Calcular Variable mostrado a continuacin:

    Los aspectos que se deben considerar son:

    a.- Escriba el nombre de una sola variable de destino. Puede ser una variableexistente o una nueva que se vaya a aadir al archivo de datos de trabajo. Estenombre se especifica en la ventana Variable de destino.

    b.- El botn Tipo y etiqueta permite definir el tipo de la variable nueva, as comosus etiquetas. Para las nuevas variables de cadena, deber seleccionar Tipo yetiqueta obligatoriamente (por defecto, SPSS considera las variables de tiponumrico.

    c.- Las constantes de cadena deben ir entre comillas o apstrofos.

    d.- Las constantes numricas deben escribirse en formato americano, con el punto(.) como separador decimal.

    e.- En la ventana Expresin numrica se debe escribir la funcin que define lanueva variable. Aqu se pueden utilizar otras variables, valores constantes y lasfunciones que se muestran en la ventana Funciones. Pegue las funciones de la listade funciones y rellene los parmetros indicados por signos de interrogacin.

  • Juan Manuel Llopis Marn (2009-2012) 19

    En la figura de la pgina anterior se est creando una nueva variableSalario_Medio, que ser la media de las variables Salario_1 y Salario_2 de cadasujeto. Al pulsar el botn Aceptar, SPSS crear la nueva variable y se aadir en laventana de datos de SPSS, como se muestra a continuacin.

    Calcular variable: Si los casosEl cuadro de dilogo Si los casos permite aplicar transformaciones de los datospara subconjuntos de casos seleccionados utilizando expresiones condicionales. Unaexpresin condicional devuelve un valor verdadero, falso o perdido para cada caso.

    - Si el resultado de una expresin condicional es verdadero, latransformacin se aplicar al caso.- Si el resultado de una expresin condicional es falso o perdido, no seaplicar la transformacin al caso.- La mayora de las expresiones condicionales utiliza al menos uno de losseis operadores de relacin (, =, =, y ~=) del teclado decalculadora.- Las expresiones condicionales pueden incluir nombres de variable,constantes, operadores aritmticos, funciones numricas y otras, variableslgicas y operadores relacionales.

  • Juan Manuel Llopis Marn (2009-2012) 20

    Funciones

    Se dispone de muchos tipos de funciones, entre ellos:

    Funciones aritmticas.Funciones estadsticas.Funciones de cadena.Funciones de fecha y hora.Funciones de distribucin.Funciones de variables aleatorias.Funciones de valores perdidos.

    Para obtener una lista completa de las funciones, busque funciones en el ndice delsistema de Ayuda en pantalla de SPSS. Tambin puede pulsar con el botn derechodel ratn sobre una funcin seleccionada en la lista del cuadro de dilogo paraobtener una descripcin de dicha funcin.

    Valores perdidos en funcionesLas funciones y las expresiones aritmticas sencillas tratan los valores perdidos dediferentes formas. En la expresin: (var1+var2+var3)/3, el resultado es el valorperdido si un caso tiene un valor perdido para cualquiera de las tres variables.

    En la expresin: MEAN(var1, var2, var3) el resultado es el valor perdido slo si elcaso tiene valores perdidos para las tres variables.

    En las funciones estadsticas se puede especificar el nmero mnimo de argumentosque deben tener valores no perdidos. Para ello, escriba un punto y el nmeromnimo de argumentos despus del nombre de la funcin, como en:

    MEAN.2(var1, var2, var3)

    2.- Recodificacin de valores

    La recodificacin de datos implica el cambio de escala de alguna de las variables.Se pueden recodificar las variables numricas y de cadena. Si selecciona mltiplesvariables, todas deben ser del mismo tipo. No se pueden recodificar juntas lasvariables numricas y de cadena.

    SPSS permite recodificar los valores en la misma variable que se recodifica o enuna nueva variable. Es recomendable recodificar siempre en una nueva variableya que, de este modo, la recodificacin no implica la prdida de los valores en la

  • Juan Manuel Llopis Marn (2009-2012) 21

    variable original. En el men Transformar se encuentran las opciones posibles derecodificacin.

    Recodificar en las mismas variables

    Recodificar en las mismas variables reasigna los valores de las variables existenteso agrupa rangos de valores existentes en nuevos valores en las mismas variables,sustituyendo los valores antiguos por los nuevos.

    Para recodificar los valores de una variable, elija en los mens: Transformar ---Recodificar --- En las mismas variables.

    Seleccione las variables que desee recodificar. Si selecciona mltiples variables,todas debern ser del mismo tipo (numricas o de cadena).

    Pulse en Valores antiguos y nuevos y especifique cmo deben recodificarse losvalores. El cuadro de dilogo que aparece, permite definir los valores que se van arecodificar. Todas las especificaciones de valores deben pertenecer al mismo tipo dedatos (numricos o de cadena) que las variables seleccionadas en el cuadro dedilogo principal.

  • Juan Manuel Llopis Marn (2009-2012) 22

    Valor antiguo. Determina el valor o los valores que se van a recodificar. Puederecodificar valores individuales, rangos de valores y valores perdidos. Los rangos ylos valores perdidos del sistema no se pueden seleccionar para las variables decadena, ya que ninguno de los conceptos es aplicable a estas variables. Los rangosincluyen sus puntos finales y los valores definidos como perdidos por el usuario queestn dentro del rango. Elementos:

    Valor. Valor antiguo individual que se a recodificar en un valor nuevo. Eltipo de datos (numrico o de cadena) del valor introducido debe coincidircon el tipo de datos de las variables que se desea recodificar.

    Perdido por el sistema. Valores asignados por SPSS cuando los valores delos datos no estn definidos de acuerdo con el tipo de formato que se haespecificado, cuando un campo numrico est vaco o cuando no se hadefinido un valor generado por un comando de transformacin. Los valoresnumricos perdidos del sistema se muestran como puntos. Las variables decadena no pueden tener valores perdidos del sistema, ya que es lcitocualquier carcter en las variables de cadena.Perdido por el sistema o usuario. Observaciones que tienen valores que,o bien han sido declarados como perdidos por el usuario o bien sondesconocidos y han sido asignados el valor perdido del sistema, lo cual seindica mediante un punto (.).

    Rango. Un rango inclusivo de valores. No est disponible para variables decadena. Se incluirn cualesquiera valores perdidos definidos por el usuarioque se encuentren dentro del rango.

    Todos los dems valores. Cualquier valor no incluido en una de lasespecificaciones de la lista Antiguo-Nuevo. Aparece en la lista Antiguo-Nuevocomo ELSE.

    Valor nuevo. Es el valor individual en el que se recodifica cada valor o rango devalores antiguos. Puede introducir un valor o asignar el valor perdido del sistema.Elementos:

    Valor. Valor en el que se va a recodificar uno o ms valores antiguos. El tipode datos (numrico o de cadena) del valor introducido debe coincidir con eltipo de datos del valor antiguo.

    Perdido por sistema. Recodifica el valor antiguo especificado como valorperdido por el sistema. El valor perdido por el sistema no se utiliza en losclculos. Adems, los casos con valor perdido por el sistema se excluyen demuchos procedimientos. No est disponible para variables de cadena.

    Antiguo->Nuevo. Contiene la lista de especificaciones que se va a utilizarpara recodificar la variable o las variables. Puede aadir, cambiar y borrarlas especificaciones que desee. La lista se ordena automticamentebasndose en la especificacin del valor antiguo y siguiendo este orden:valores nicos, valores perdidos, rangos y todos los dems valores. Sicambia una especificacin de recodificacin en la lista, el procedimientovolver a ordenar la lista automticamente, si fuera necesario, paramantener este orden.

  • Juan Manuel Llopis Marn (2009-2012) 23

    El cuadro de dilogo Si los casos (Si la opcin), que se utiliza para definirsubconjuntos de casos, es el mismo que el descrito para Calcular variable.

    Por ejemplo, vamos a agrupar las variables referidas a salario en las siguientescategoras que representan rangos de salarios:

    De 1000 a 2000 --- Categora 4 (salario bajo)De 2001 a 3000 --- Categora 3 (salario medio)De 3001 a 4000 --- Categora 2 (salario alto)De 4001 a 5000 --- Categora 1 (salario muy alto)

    En las figuras anteriores, se ve cmo hay que introducir los valores antiguos ynuevos, de esta forma, los valores de las variables quedan como sigue:

    Antes de recodificar Despus de recodificar

  • Juan Manuel Llopis Marn (2009-2012) 24

    Recodificar en distintas variables

    Recodificar en distintas variables reasigna los valores de las variables existentes oagrupa rangos de valores existentes en nuevos valores para una nueva variable.

    Para recodificar los valores de una variable, elija en los mens: Transformar ---Recodificar --- En distintas variables.

    Seleccione las variables que desee recodificar. Si selecciona mltiples variables,todas debern ser del mismo tipo (numricas o de cadena).

    Introduzca el nombre de la nueva variable de resultado para cada nueva variable ypulse en Cambiar.

    Pulse en Valores antiguos y nuevos y especifique cmo deben recodificarse losvalores.

    Este cuadro de dilogo permite definir los valores que se van a recodificar.

    Valor antiguo. Determina el valor o los valores que se van a recodificar. Puederecodificar valores individuales, rangos de valores y valores perdidos. Los rangos ylos valores perdidos del sistema no se pueden seleccionar para las variables decadena, ya que ninguno de los conceptos es aplicable a estas variables. Los valoresantiguos deben ser del mismo tipo de datos (numricos o de cadena) que lavariable original. Los rangos incluyen sus puntos finales y los valores definidoscomo perdidos por el usuario que estn dentro del rango. Elementos:

  • Juan Manuel Llopis Marn (2009-2012) 25

    Valor. Valor antiguo individual que se a recodificar en un valor nuevo. Eltipo de datos (numrico o de cadena) del valor introducido debe coincidircon el tipo de datos de las variables que se desea recodificar.

    Perdido por el sistema. Valores asignados por SPSS cuando los valores delos datos no estn definidos de acuerdo con el tipo de formato que se haespecificado, cuando un campo numrico est vaco o cuando no se hadefinido un valor generado por un comando de transformacin. Los valoresnumricos perdidos del sistema se muestran como puntos. Las variables decadena no pueden tener valores perdidos del sistema, ya que es lcitocualquier carcter en las variables de cadena.

    Perdido por el sistema o por el usuario. Observaciones que tienenvalores que, o bien han sido declarados como perdidos por el usuario o bienson desconocidos y han sido asignados el valor perdido del sistema, lo cualse indica mediante un punto (.).

    Rango. Un rango inclusivo de valores. No est disponible para variables decadena. Se incluirn cualesquiera valores perdidos definidos por el usuarioque se encuentren dentro del rango.

    Todos los dems valores. Cualquier valor no incluido en una de lasespecificaciones de la lista Antiguo-Nuevo. Aparece en la lista Antiguo-Nuevocomo ELSE.

    Valor nuevo. Es el valor individual en el que se recodifica cada valor o rango devalores antiguo. Los valores nuevos pueden ser numricos o de cadena.

    Valor. Valor en el que se va a recodificar uno o ms valores antiguos. El tipode datos (numrico o de cadena) del valor introducido debe coincidir con eltipo de datos del valor antiguo.

    Perdido por el sistema. Recodifica el valor antiguo especificado como valorperdido por el sistema. El valor perdido por el sistema no se utiliza en losclculos. Adems, los casos con valor perdido por el sistema se excluyen demuchos procedimientos. No est disponible para variables de cadena.

    Copiar valores antiguos. Retiene el valor antiguo. Si algunos de losvalores no requieren la recodificacin, utilice esta opcin para incluir losvalores antiguos. Cualquier valor antiguo no especificado no se incluir en lanueva variable y a los casos con esos valores se les asignar el valor perdidodel sistema para la nueva variable.

    Las variables de resultado son cadenas. Define la nueva variablerecodificada como variable de cadena (alfanumrica). La variable antiguapuede ser numrica o de cadena.

    Convertir cadenas numricas en nmeros. Convierte los valores decadena que contienen nmeros en valores numricos. A las cadenas quecontengan cualquier cosa que no sean nmeros y un carcter de signoopcional (+ -) se les asignar el valor perdido por el sistema.

    Antiguo->Nuevo. Contiene la lista de especificaciones que se va a utilizarpara recodificar la variable o las variables. Puede aadir, cambiar y borrarlas especificaciones que desee. La lista se ordena automticamentebasndose en la especificacin del valor antiguo y siguiendo este orden:

  • Juan Manuel Llopis Marn (2009-2012) 26

    valores nicos, valores perdidos, rangos y todos los dems valores. Sicambia una especificacin de recodificacin en la lista, el procedimientovolver a ordenar la lista automticamente, si fuera necesario, paramantener este orden.

    El cuadro de dilogo Si los casos, que se utiliza para definir subconjuntos decasos, es el mismo que el descrito para Calcular variable

    Por ejemplo, vamos a agrupar las variables referidas a salario en las siguientescategoras que representan rangos de salarios:

    De 1000 a 2000 --- Categora 4 (salario bajo)De 2001 a 3000 --- Categora 3 (salario medio)De 3001 a 4000 --- Categora 2 (salario alto)De 4001 a 5000 --- Categora 1 (salario muy alto)

    Pero ahora, a diferencia del ejemplo para recodificar en las mismas variables,vamos a crear dos variables nuevas que contendrn la recodificacin, llamndolasRango_Salario_1 y Rango_Salario_2.

    En las figuras anteriores, se ve cmo hay que introducir los valores antiguos ynuevos, de esta forma, la vista de datos queda como sigue:

    Antes de recodificar Despus de recodificar

  • Juan Manuel Llopis Marn (2009-2012) 27

    Recodificacin automtica

    La recodificacin automtica convierte los valores numricos y de cadena envalores enteros consecutivos. Si los cdigos de la categora no son secuenciales, lascasillas vacas resultantes reducen el rendimiento e incrementan los requisitos dememoria de muchos procedimientos. Adems, algunos procedimientos no puedenutilizar variables de cadena y otros requieren valores enteros consecutivos para losniveles de los factores.

    La nueva variable, o variables, creadas por la recodificacin automtica conservancualquier variable ya definida y las etiquetas de valor de la variable antigua. Paralos valores que no tienen una etiqueta de valor ya definida se utiliza el valororiginal como etiqueta del valor recodificado. Una tabla muestra los valoresantiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodificanpor orden alfabtico, con las maysculas antes que las minsculas. Los valoresperdidos se recodifican como valores perdidos mayores que cualquier valor noperdido y conservando el orden. Por ejemplo, si la variable original posee 10valores no perdidos, el valor perdido mnimo se recodificar como 11, y el valor 11ser un valor perdido para la nueva variable.Para recodificar valores numricos o de cadena en valores enteros consecutivos,elija en los mens: Transformar --- Recodificacin automtica...

    Seleccione la variable o variables que desee recodificar.

    Para cada variable seleccionada, introduzca un nombre para la nueva variable ypulse en Nuevo nombre.

    Por ejemplo, vamos a recodificar automticamente las variables Salario_1 ySalario_2, empezando por el menor valor, y llamando a las variables resultadoRec_Salario_1 y Rec_Salario_2.

    Antes Visor de resultados Despus de recodificar

  • Juan Manuel Llopis Marn (2009-2012) 28

    TEMA - 4

    Anlisis descriptivos y tablas: Frecuencias,Descriptivos y Tablas de contingencia

    1.- Frecuencias

    El procedimiento Frecuencias proporciona estadsticos y representaciones grficasque resultan tiles para describir muchos tipos de variables. Es un buenprocedimiento para una inspeccin inicial de los datos. Para los informes defrecuencias y los grficos de barras, se pueden organizar los diferentes valores enorden ascendente o descendente u ordenar las categoras por sus frecuencias. Esposible suprimir el informe de frecuencias cuando una variable posee muchosvalores diferentes. Se pueden etiquetar los grficos con las frecuencias (la opcinpor defecto) o con los porcentajes. Fichero: encuesta.sav

    Para obtener tablas de frecuencias, elija en los mens: Analizar --- Estadsticosdescriptivos --- Frecuencias...

    Como ejemplo, vamos a calcular las frecuencias para la variable Nmero de hijos(hijos) del fichero encuesta.sav.

    La siguiente figura muestra los estadsticos que podemos elegir:

  • Juan Manuel Llopis Marn (2009-2012) 29

    Valores percentiles. Los valores de una variable cuantitativa que dividen losdatos ordenados en grupos, de forma que un porcentaje de los casos se encuentrepor encima y otro porcentaje se encuentre por debajo. Los cuartiles (los percentiles25, 50 y 75) dividen las observaciones en cuatro grupos de igual tamao. Si deseaun nmero igual de grupos que no sea cuatro, seleccione Puntos de corte para ngrupos iguales (por ejemplo, para calcular los deciles, habra que elegir 10 puntosde corte). Tambin puede especificar percentiles individuales (por ejemplo, elpercentil 85, el valor por debajo del cual se encuentran el 85% de lasobservaciones).

    Tendencia central. Los estadsticos que describen la localizacin de ladistribucin, incluyen: Media, Mediana, Moda y Suma de todos los valores.

    Media. Una medida de tendencia central. El promedio aritmtico: la sumadividida por el nmero de casos. El punto en el que se concentra el peso dela distribucin de frecuencias. Se la considera el Centro de Gravedad de ladistribucin de frecuencias.Mediana. Valor por encima y por debajo del cual se encuentran la mitad delos casos; el percentil 50. Si hay un nmero par de casos, la mediana es lamedia de los dos valores centrales, cuando los casos se ordenan en ordenascendente o descendente. La mediana es una medida de tendencia centralque no es sensible a los valores atpicos (a diferencia de la media, quepuede resultar afectada por unos pocos valores extremadamente altos obajos). Se la considera el Centro Geogrfico de la distribucin defrecuencias.Moda. Valor que ocurre con mayor frecuencia, el que ms se repite. Sivarios valores comparten la mayor frecuencia de aparicin, cada uno de ellases una moda. El procedimiento de frecuencias devuelve slo la ms pequeade esas modas mltiples.Suma. Suma o total de todos los valores, a lo largo de todos los casos queno tengan valores perdidos.

    Dispersin. Los estadsticos que miden la cantidad de variacin o de dispersin enlos datos (el grado en que los valores estn prximos entre s o separados),incluyen: Desviacin tpica, Varianza, Rango, Mnimo, Mximo y Error tpico de lamedia.

    Desviacin tpica. Es una medida de la dispersin en torno a la media. Enuna distribucin normal, el 68% de los casos se encuentra dentro de unaD.T. respecto a la media y el 95% de los casos se encuentra dentro de 2

  • Juan Manuel Llopis Marn (2009-2012) 30

    D.T. respecto a la media. Por ejemplo, si la media de edad es 45, con unadesviacin tpica de 10, el 95% de los casos estara entre 25 y 65 en unadistribucin normal. (Realmente, se calcula lo que se llama Cuasi-Desviacin Tpica).Varianza. Es una medida de dispersin en torno a la media, igual a la sumade las desviaciones al cuadrado respecto a la media, dividida por el nmerode casos menos 1. La varianza se mide en unidades que son el cuadrado delas de la propia variable. (Realmente, se calcula lo que se llamaCuasivarianza).Amplitud. Diferencia entre los valores mayor y menor de una variablenumrica; el mximo menos el mnimo.Mnimo. El menor valor de una variable numrica.Mximo. El mayor valor de una variable numrica.E. T. media (Error tpico de la media). Es una medida de cunto puedevariar el valor de la media entre varias muestras tomadas de la mismadistribucin. Puede utilizarse para comparar de forma aproximada la mediaobservada respecto a un valor hipotetizado (es decir, podremos concluir quelos dos valores son distintos si la razn de la diferencia respecto al errortpico es menor que -2 o mayor que +2).

    Distribucin. Asimetra y curtosis son estadsticos que describen la forma y lasimetra de la distribucin. Estos estadsticos se muestran con sus errores tpicos.

    Asimetra. Es una medida de la simetra o asimetra de una distribucin. Ladistribucin normal es simtrica y tiene un valor de sesgo (asimetra) igual a0. Una distribucin con asimetra positiva (ms valores bajos que altos)significativa presenta una cola prolongada hacia la derecha. Una distribucincon asimetra negativa (ms valores altos que bajos) significativa presentauna cola prolongada hacia la izquierda. De manera aproximada, se consideraque un valor de asimetra mayor que dos veces su error tpico es indicativode falta de simetra.Curtosis. Una medida del grado en que las observaciones se agrupan entorno a un punto central. Una distribucin normal tiene curtosis igual a cero(Mesocrtica). Una distribucin con curtosis positiva se dice que esLeptocrtica y se caracteriza por un centro apuntado y colas engrosadas.Una distribucin con curtosis negativa se dice que es Platicrtica y secaracteriza por un centro plano y colas afinadas.

    Los valores son puntos medios de grupos. Si los valores de los datos sonpuntos medios de grupos (por ejemplo, si las edades de todas las personas entretreinta y cuarenta aos se codifican como 35), seleccione esta opcin para estimarla mediana y los percentiles para los datos originales no agrupados.

    En la siguiente figura, vemos los grficos que podemos elegir:

  • Juan Manuel Llopis Marn (2009-2012) 31

    Tipo de grfico. Los grficos de sectores muestran la contribucin de las partesa un todo. Cada sector de un grfico de este tipo corresponde a un grupo, definidopor una nica variable de agrupacin. Los grficos de barras muestran lafrecuencia de cada valor o categora distinta como una barra diferente, permitiendocomparar las categoras de forma visual. Los histogramas tambin cuentan conbarras, pero se representan a lo largo de una escala de intervalos iguales. La alturade cada barra es el recuento de los valores que estn dentro del intervalo para unavariable cuantitativa. Los histogramas muestran la forma, el centro y la dispersinde la distribucin. Una curva normal superpuesta en un histograma ayuda ajuzgar si los datos estn normalmente distribuidos.Valores del grfico. Para los grficos de barras, puede etiquetar el eje de escalacon las frecuencias o los porcentajes.

    La siguiente figura nos muestra el cuadro de dilogo Formato, para indicar que tipode ordenacin queremos en la tabla de frecuencias:

    Ordenar por. La tabla de frecuencias se puede organizar respecto a los valoresactuales de los datos o respecto al recuento (frecuencia de aparicin) de esosvalores, y en orden ascendente o descendente. Sin embargo, si solicita unhistograma o percentiles, Frecuencias asumir que la variable es cuantitativa ymostrar sus valores en orden ascendente.

    Mltiples variables. Si desea generar tablas de estadsticos para mltiplesvariables, podr mostrar todas las variables en una sola tabla (Compararvariables), o bien mostrar una tabla de estadsticos independiente para cadavariable (Organizar resultados segn variables).

    Suprimir tablas con ms de n categoras. Esta opcin impide que se muestrentablas que contengan ms valores que el nmero especificado.

    En nuestro ejemplo, eligiendo las opciones que aparecen en las figuras anteriores,tendramos los siguientes resultados en el visor de SPSS:

  • Juan Manuel Llopis Marn (2009-2012) 32

    2.- Descriptivos

    El procedimiento Descriptivos muestra estadsticos de resumen univariados paravarias variables en una nica tabla y calcula valores tipificados (puntuaciones z).

    Las variables se pueden ordenar por el tamao de sus medias (en ordenascendente o descendente), alfabticamente o por el orden en el que seseleccionen las variables (el valor por defecto).

    Cuando se guardan las puntuaciones z, stas se aaden a los datos del Editor dedatos y quedan disponibles para los grficos, el listado de los datos y los anlisis.Cuando las variables se registran en unidades diferentes (por ejemplo, edad ynmero de hermanos), una transformacin en puntuaciones z pondr las variablesen una escala comn para poder compararlas visualmente con ms facilidad.

    Como ejemplo, vamos a calcular los descriptivos (guardando los valorestipificados) para las variables Nmero de aos de escolarizacin (educ), Nmerode aos de escolarizacin del padre (educpad) y Nmero de aos deescolarizacin de la madre (educmad) del fichero encuesta.sav.

  • Juan Manuel Llopis Marn (2009-2012) 33

    Las opciones que aparecen, al pulsar en el botn correspondiente, son lassiguientes, ya comentadas en el apartado Frecuencias:

    El resultado del visor de SPSS, se muestra a continuacin:

    En el editor de datos de SPSS, aparecern 3 nuevas variables, que corresponden alas puntuaciones z de las 3 variables utilizadas:

    Estas variables, mantienen el nombre original, con una Z al principio.

  • Juan Manuel Llopis Marn (2009-2012) 34

    3.- Tablas de contingencia

    Las tablas de contingencia nos permiten obtener informacin fundamentalmentedescriptiva acerca de la relacin entre los distintos niveles de dos variablesnominales u ordinales.

    En algunos estadsticos y medidas se asume que hay unas categoras ordenadas(datos ordinales) o unos valores cuantitativos (datos de intervalos o deproporciones), como se explica en el apartado sobre los estadsticos. Otrosestadsticos son vlidos cuando las variables de la tabla tienen categoras noordenadas (datos nominales). Para los estadsticos basados en Chi-cuadrado (phi, Vde Crmer y coeficiente de contingencia), los datos deben ser una muestraaleatoria de una distribucin multinomial.Las variables ordinales pueden ser cdigos numricos que representen categoras(por ejemplo, 1 = bajo, 2 = medio, 3 = alto) o valores de cadena. Sin embargo, sesupone que el orden alfabtico de los valores de cadena indica el orden correcto delas categoras. Por ejemplo, en una variable de cadena cuyos valores sean bajo,medio, alto, se interpreta el orden de las categoras como alto, bajo, medio (ordenque no es el correcto). Por norma general, se puede indicar que es ms fiableutilizar cdigos numricos para representar datos ordinales.

    Para acceder al procedimiento tablas de contingencia debemos seguir la rutahabitual Analizar>Estadsticos descriptivos>tablas de contingencia:

    Apareciendo el men que podemos observar en la siguiente figura:

    En esta ventana de captura de datos se nos solicita que seleccionemos mediante elprocedimiento habitual las variables que deseamos que aparezcan en la fila ycolumna de la tabla. Si deseamos que esta tabla se combine con los niveles de otrau otras variables, las introduciremos en la tercera ventana de datos teniendo encuenta que la salida nos facilitar tan solo tablas de 3 dimensiones, una para cadavariable de esta tercera ventana en combinacin con las que hemos introducido enfila y columna.

  • Juan Manuel Llopis Marn (2009-2012) 35

    Podemos comprobar cmo en esta ventana tenemos numerosas opciones paracompletar la informacin bsica que nos proporciona este procedimiento.

    Mostrar los grficos de barras agrupadas. Los grficos de barras agrupadasayudan a resumir los datos por grupos de casos. Hay una agrupacin de barras porcada valor de la variable especificada en el cuadro Filas. La variable que define lasbarras dentro de cada agrupacin es la variable especificada en el cuadroColumnas. Por cada valor de esta variable hay un conjunto de barras de distintocolor o trama. Si especifica ms de una variable en Columnas o en Filas, segenerar un grfico de barras agrupadas por cada combinacin de dos variables.

    Estadsticos.

    Correlaciones. Para las tablas en las que tanto las columnas como las filascontienen valores ordenados, Correlaciones da como resultado rho, el coeficiente decorrelacin de Spearman (slo datos numricos). La rho de Spearman es unamedida de asociacin entre rdenes de rangos. Cuando ambas variables de tabla(factores) son cuantitativas, Correlaciones da como resultado r, el coeficiente decorrelacin de Pearson, una medida de asociacin lineal entre las variables.

    Chi-cuadrado. Verifica la hiptesis de nulidad de que las frecuencias observadasen las distintas celdas no difieren de las que seran esperables si no existieraningn tipo de relacin entre las variables. Para las tablas con dos filas y doscolumnas, seleccione Chi-cuadrado para calcular la Chi-cuadrado de Pearson, laChi-cuadrado de la razn de verosimilitud, la prueba exacta de Fisher y la Chi-cuadrado corregido de Yates (correccin por continuidad). Para las tablas 2 2, secalcula la prueba exacta de Fisher cuando una tabla (que no resulte de perdercolumnas o filas en una tabla mayor) presente una casilla con una frecuenciaesperada menor que 5. Para las restantes tablas 2 2 se calcula la Chi-cuadradocorregida de Yates. Para las tablas con cualquier nmero de filas y columnas,seleccione Chi-cuadrado para calcular la Chi-cuadrado de Pearson y la Chi-cuadradode la razn de verosimilitud. Cuando ambas variables de tabla son cuantitativas,Chi-cuadrado da como resultado la prueba de asociacin lineal-por-lineal. Ademsde dicho ndice, este procedimiento nos proporciona diversos ndices de asociacin,la utilizacin de uno u otro depender de la mtrica de las variables.

    Nominal. Para los datos nominales (sin orden intrnseco, como catlico,protestante o judo), puede seleccionar el coeficiente Phi y V de Crmer, elCoeficiente de contingencia, Lambda (lambdas simtricas y asimtricas y tau deKruskal y Goodman) y el Coeficiente de incertidumbre.

  • Juan Manuel Llopis Marn (2009-2012) 36

    Coeficiente de contingencia. Nos da una idea del grado de asociacinentre ambas variables, sus valores oscilaran siempre entre 0 y 1, indicando1 la mxima asociacin. El principal problema de este ndice es que el valormximo que puede alcanzar depender del nmero de filas y columnas,siendo posible alcanzar el valor 1 en el caso hipottico de que el nmero defilas y columnas fuera infinito.

    Phi y V de Crmer. Estas medidas solucionan las limitaciones sealadaspor el coeficiente de contingencia, dado que pueden alcanzar el valormximo para cualquier combinacin de filas y columnas. El coeficiente Phi esadecuado en aquellos casos en que la dimensin de la tabla sea 2 x 2,mientras que el coeficiente V lo es en el resto de casos.

    Lambda. Este ndice parte de una aproximacin diferente a los vistosanteriormente. En lugar de proporcionarnos el grado de asociacin entre lasvariables, nos indica el grado de reduccin del error que se produce alutilizar una variable como predictora y otra como criterio. As por ejemplo sidos variables no estn relacionadas, no podemos realizar ninguna prediccinsobre las puntuaciones de una de ellas a partir de la otra y, porconsiguiente, el error es del 100% y el coeficiente lambda ser 0. En el casocontrario, es decir, una relacin perfecta entre ambas variables, una esperfectamente predecible a partir de las puntuaciones de la otra, por lo tantoel error de prediccin es 0 y el coeficiente valdr 1.

    Coeficiente de incertidumbre. Medida de asociacin que indica lareduccin proporcional del error cuando los valores de una variable seemplean para pronosticar los valores de la otra variable. Por ejemplo, unvalor de 0,83 indica que el conocimiento de una variable reduce en un 83%el error al pronosticar los valores de la otra variable. SPSS calcula tanto laversin simtrica como la asimtrica del coeficiente de incertidumbre.

    Ordinal. Para las tablas en las que tanto las filas como las columnas contienenvalores ordenados, seleccione Gamma (orden cero para tablas de doble clasificaciny condicional para tablas cuyo factor de clasificacin va de 3 a 10), Tau-b deKendall y Tau-c de Kendall. Para pronosticar las categoras de columna de lascategoras de fila, seleccione d de Somers.

    Gamma. Medida de asociacin simtrica entre dos variables ordinales cuyovalor siempre est comprendido entre menos 1 y 1. Los valores prximos a1, en valor absoluto, indican una fuerte relacin entre las dos variables. Losvalores prximos a cero indican que hay poca o ninguna relacin entre lasdos variables. Para las tablas de doble clasificacin, se muestran lasgammas de orden cero. Para las tablas de tres o ms factores declasificacin, se muestran las gammas condicionales.

    d de Somers. Medida de asociacin entre dos variables ordinales que tomaun valor comprendido entre -1 y 1. Los valores prximos a 1, en valorabsoluto, indican una fuerte relacin entre las dos variables. Los valoresprximos a cero indican que hay poca o ninguna relacin entre las dosvariables. La d de Somers es una extensin asimtrica de gamma que difiereslo en la inclusin del nmero de pares no empatados en la variableindependiente. Tambin se calcula una versin simtrica de este estadstico.

    Tau-b y Tau-c de Kendall. Coeficientes de correlacin no paramtricos queactan computando el nmero de inversiones existente entre los rangos detodos los pares de valores para ambas variables. La diferencia entre ambases la consideracin (Tau-b) o no (Tau-c) de los empates. El signo del

  • Juan Manuel Llopis Marn (2009-2012) 37

    coeficiente indica la direccin de la relacin y su valor absoluto indica lamagnitud de la misma, de tal modo que los mayores valores absolutosindican relaciones ms fuertes. Los valores posibles van de -1 a 1, pero unvalor de -1 o +1 slo se puede obtener a partir de tablas cuadradas.

    Nominal por intervalo. Este caso se produce cuando disponemos de una variableen una escala nominal, como por ejemplo el gnero y otra en una escala deintervalo o razn, como pueden ser por ejemplo los ingresos mensuales. La variablecategrica debe codificarse numricamente.

    Eta. Medida de asociacin cuyo valor siempre est comprendido entre 0 y 1.El valor 0 indica que no hay asociacin entre las variables de fila y decolumna. Los valores cercanos a 1 indican que hay gran relacin entre lasvariables. Eta resulta apropiada para una variable dependiente medida enuna escala de intervalo (por ejemplo, ingresos) y una variable independientecon un nmero limitado de categoras (por ejemplo, sexo). Se calculan dosvalores de eta: uno trata la variable de las filas como una variable deintervalo; el otro trata la variable de las columnas como una variable deintervalo, debiendo elegir el resultado que se corresponda con nuestrosdatos.

    Kappa. La kappa de Cohen mide el acuerdo entre las evaluaciones de dos juecescuando ambos estn valorando el mismo objeto. Un valor igual a 1 indica unacuerdo perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el quese obtendra por azar. Kappa slo est disponible para las tablas cuadradas (tablasen las que ambas variables tienen el mismo nmero de categoras y utilizan losmismos valores de categora).Este ndice es especialmente til cuando deseemosevaluar el grado de fiabilidad de un sistema de categoras observacional

    Riesgo. Para las tablas 2 x 2, medida del grado de asociacin entre la presencia deun factor y la ocurrencia de un evento. Si el intervalo de confianza para elestadstico incluye un valor de 1, no se podr asumir que el factor est asociadocon el evento. Cuando la ocurrencia del factor es poco comn, se puede utilizar larazn de ventajas como estimacin del riesgo relativo.

    McNemar. Prueba no paramtrica para dos variables dicotmicas relacionadas.Contrasta los cambios en las respuestas utilizando la distribucin de Chi-cuadrado.Es til para detectar cambios en las respuestas debidas a la intervencinexperimental en los diseos del tipo antes-despus. Para tablas cuadradasmayores, se utiliza la prueba de simetra de McNemar-Bowker.

    Estadsticos de Cochran y de Mantel-Haenszel. Estos estadsticos se puedenutilizar para contrastar la independencia entre una variable dicotmica de factor yuna variable dicotmica de respuesta, condicionada por los patrones en lascovariables, los cuales vienen definidos por la variable o variables de las capas(variables de control). Hay que tener en cuenta que mientras que otros estadsticosse calculan capa por capa, los estadsticos de Cochran y Mantel-Haenszel secalculan una sola vez para todas las capas.

    El procedimiento tablas de contingencia nos permite adems obtener informacindescriptiva sobre las celdas, incluyendo informacin sobre los residuales. Para ellodebemos pulsar el botn Casillas obteniendo la ventana de captura de datos de lafigura siguiente:

  • Juan Manuel Llopis Marn (2009-2012) 38

    As, en este caso hemos pedido que nos muestre las frecuencias observadas paracada celda y las frecuencias esperadas, es decir las que habran si no hubieraninguna relacin entre las variables.

    Las opciones que aparecen en la figura anterior son las siguientes:

    Frecuencias. El nmero de casos realmente observados y el nmero de casosesperados si las variables de fila y columna son independientes entre s.

    Porcentajes. Los porcentajes se pueden sumar a travs de las filas o a lo largo delas columnas. Tambin se encuentran disponibles los porcentajes del nmero totalde casos representados en la tabla (una capa).

    Residuos. Los residuos brutos no tipificados presentan la diferencia entre losvalores observados y los esperados. Tambin se encuentran disponibles losresiduos tipificados y tipificados corregidos.

    No tipificados. Diferencia entre un valor observado y el valor pronosticado.El valor pronosticado es el nmero de casos que se esperaran en la casilla sino hubiera relacin entre las dos variables. Un residuo positivo indica quehay ms casos en la casilla de los que habra en ella si las variables de fila ycolumna fueran independientes.

    Tipificados. Es el residuo dividido por una estimacin de su desviacintpica. Los residuos tipificados, que son conocidos tambin como los residuosde Pearson o residuos estandarizados, tienen una media de 0 y unadesviacin tpica de 1.

    Tipificados corregidos. El residuo de una casilla (valor observado menosvalor pronosticado) dividido por una estimacin de su error tpico. El residuotipificado resultante viene expresado en unidades de desviacin tpica, porencima o por debajo de la media.

    Ponderaciones no enteras. Los recuentos de las casillas suelen ser valoresenteros, ya que representan el nmero de casos de cada casilla. Sin embargo, si elarchivo de datos est ponderado en un momento determinado por una variable deponderacin con valores fraccionarios (por ejemplo, 1,25), los recuentos de lascasillas pueden que tambin sean valores fraccionarios. Puede truncar o redondearestos valores antes o despus de calcular los recuentos de las casillas o bien utilizarrecuentos de casillas fraccionarios en la presentacin de las tablas y los clculos delos estadsticos.

  • Juan Manuel Llopis Marn (2009-2012) 39

    Redondear frecuencias de casillas. Las ponderaciones de los casos seutilizan tal cual, pero las ponderaciones acumuladas de las casillas seredondean antes de calcular cualquier estadstico.

    Truncar frecuencias de casillas. Las ponderaciones de los casos seutilizan tal cual, pero las ponderaciones acumuladas de las casillas setruncan antes de calcular cualquier estadstico.

    Redondear ponderaciones de casos. Las ponderaciones de los casos seredondean antes de utilizarlas.

    Truncar ponderaciones de casos. Las ponderaciones de los casos setruncan antes de utilizarlas.

    Sin ajustes. Las ponderaciones de los casos se utilizan sin cambios y seutilizan frecuencias de casillas fraccionarias. Sin embargo, cuando sesolicitan estadsticos exactos (disponibles slo con la opcin Pruebasexactas), las ponderaciones acumuladas de las casillas se truncan o seredondean antes de calcular los estadsticos de la prueba exacta.

    Pulsando en la opcin Formato, puede ordenar las filas en orden ascendente odescendente de los valores de la variable de fila:

    Siguiendo las figuras anteriores, puede verse que hemos introducido las variablesobedecer (etiqueta: Obedecer es) y popular (etiqueta: Ser apreciado y populares), ambas en escala ordinal, en filas y columnas, respectivamente. EnEstadsticos, hemos marcado Chi-cuadrado, Correlaciones y Gamma y Tau-b deKendall, dado que tenemos variables ordinales. En Casillas hemos marcado elclculo de las frecuencias observadas y esperadas. El resultado en el visor de SPSS,es el siguiente:

  • Juan Manuel Llopis Marn (2009-2012) 40

    Tal y como podemos ver, la salida nos ofrece la tabla de contingenciacorrespondiente y los estadsticos para las celdas que habamos solicitado.

    La salida nos proporciona el valor de Chi-cuadrado y su significacin. Podemoscomprobar que en este caso y asumiendo un nivel de significacin del 5%rechazamos la hiptesis nula de que ambas variables no estn relacionadas.

    Finalmente, nos ofrece los coeficientes de correlacin entre ambas variables. Tal ycomo podemos comprobar existe una relacin moderada entre ambas variables,dado que el coeficiente gamma alcanza un valor de -0,541. De todo ello podemosdeducir que ambas variables estn relacionadas en el sentido de que las personasque dan ms importancia al hecho de ser apreciadas y populares tienden a darleuna menor importancia a obedecer rdenes y viceversa.