4. regresiÓn - uned.es · cuantitativas, se realiza un estudio de regresión y correlación. en la...

48 Master Universitario en Estadística Aplicada

4. REGRESIÓN 4.1. Conceptos básicos Cuando se quiere investigar la relación entre al menos dos variables cuantitativas, se realiza un estudio de regresión y correlación. En la regresión una de las variables es la que se quiere predecir con la ayuda de las demás. A esta variable se la denomina variable dependiente. En la correlación se considera que ambas variables son independientes. La primera vez que se acuño el término de regresión fue por Legendre en 1805, y por Gauss en 1809 con la utilización del método de los mínimos cuadrados. La ecuación general de la regresión lineal simple es:

bxay += Que es la ecuación general de una recta. Para obtener esta fórmula lo único que realizamos es partir de las fórmulas de la recta de regresión de Y sobre X, que se han determinado mediante el método de los mínimos cuadrados.

)( xxyyy

xy −+=σσ

Posteriormente se despejan los dos coeficientes, a y b, de tal manera que sus valores quedan determinados como:

2

2

y

xy

y

xy

b

xya

σσ

σσ

=

−=

En estas fórmulas Y es la variable dependiente y X es la variable independiente. Para cuantificar ese peor o mejor ajuste de la recta (bondad del ajuste) a los datos se utiliza en general el denominado coeficiente de determinación R2 que resume el grado de aproximación de la curva a los puntos. Es una medida estandarizada, cuyo valor oscila entre 0 y 1 ambos incluidos. Un valor cercano a uno (o uno), nos comunicará que existe un buen ajuste y por el contrario un

http://es.wikipedia.org/wiki/Adrien_Marie_Legendre

http://es.wikipedia.org/wiki/1805

http://es.wikipedia.org/wiki/Carl_Friedrich_Gauss

http://es.wikipedia.org/wiki/1809

http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados

http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados


valor cercano a cero (o cero) nos determina un muy mal ajuste y por lo tanto la existencia de muchos errores entre los datos y la recta. Este coeficiente informa también del grado de ganancia que se puede obtener al predecir una variable basándonos en el conocimiento de las demás variables implicadas en el modelo. Otras formas de cuantificar la bondad del modelo son las siguientes:

• Media de los residuos • Media de los residuos en valor absoluto • Mediana de alguna de estas medias • Funciones ponderadas de las medidas anteriores

La diferencia entre cada observación de la variable dependiente y el valor determinado por la recta de regresión al sustituir en su expresión las varibles independientes es lo que se denomina residual. El estudio de los residuales es muy importante en los casos en los que haya que demostrar la normalidad como se estudiará más adelante.

4.2. Ejemplo de regresión lineal simple Para este ejemplo se utiliza la base de datos del programa SPSS denominada employee_data.sav. En esta base de datos vienen reflejados los datos de varios empleados.

Residual

Recta de regresión


Las variables son las siguientes;

• Variable ID: representa el individuo de la muestra.

• Variable Sexo: genero del individuo. La variable esta codificada como m/h (mujer/hombre)

• Variable nacimiento: incluye la fecha de nacimiento de cada sujeto del

estudio

• Variable nivel educativo (educ): oscila entre 0 y 8

• Categoría laboral: Indica la categoría laboral del sujeto. Viene codificado como: 0-ausente 1-administrativo 2-seguridad 3-directivo

• Salario actual(salario): Variable que expresa el salario actual de cada

trabajador.

• Salario inicial (salini): Variable que expresa el salario inicial del trabajado en la empresa.

• Meses desde contrato: tiempo en meses del trabajador en la empresa

desde que firmo el contrato.

• Experiencia previa ( Expprev):experiencia previa del trabajador en meses

• Clasificación de minorías: Variable categórica con las siguientes

categorías:

0=no está clasificado como minoría 1= si está clasificado como en un grupo de minorías 9= no se sabe.

Se quiere determinar la influencia lineal del salario inicial (SI en adelante) en el salario actual (SA en adelante). Por lo tanto se quiere obtener una recta de la forma: SA=aSI+b Para determinar los dos coeficientes, y así identificar unívocamente la recta se utiliza el programa SPSS. El procedimiento es el siguiente:


1) Seleccionar la opción lineal, del menú regresión situado en el menú analizar

2) Trasladar la variable salario actual al cuadro de dependiente y la de salini al de independiente

3) Pulsar aceptar. El resultado obtenido es el siguiente:

El valor de la R no es más que el coeficiente de correlación múltiple, que al tener únicamente dos variables coincide con el valor absoluto del coeficiente de correlación de Pearson. El coeficiente de determinación R2 tiene un valor bastante alto, y se puede concluir que un 77% de la variabilidad de la variable SA viene expresada por su dependencia lineal con SI. La R cuadrado corregida no es más que el valor


anterior, con una corrección por el número de datos independientes en la muestra utilizada.

La tabla anterior, la del ANOVA, informa sobre la existencia de una relación significativa entre las variables consideradas en el modelo. Además de dividir la variabilidad total en la explicada por la regresión y la residual. Estos valores son interesantes para comparar los distintos modelos que se pueden realizar. El estadístico F toma el valor 1622,118 y se utiliza para contrastar las siguientes hipótesis:

• H0=la pendiente de la recta de regresión vale cero • H1=La pendiente de la recta de regresión es distinta de cero

Al ser un modelo de regresión simple la hipótesis anterior es similar a plantearse que el valor de R es nulo. Como el p-valor del test del estadístico F, es 0,000<0,05, podemos concluir que si R no es nulo, se obtiene el porcentaje de la variabilidad explicada por el modelo anterior. Calculamos el porcentaje de variabilidad explicada y aquel que no se explica en el modelo. La variable salario inicial explica efectivamente un 77,44% de la variabilidad total.

Suma de cuadrados % variabilidad Regresión 1,068x1011 77,44% Residual 3,109x1010 22,49% Total 1,379 x1011


La última tabla muestra los coeficientes de la ecuación: SA= 1,909 (SI)+ 1928,206 La interpretación de la ecuación anterior es la siguiente: a cada valor de SI le corresponde un incremento en el salario de 1,909 veces más.

4.3. Regresión múltiple 4.3.1. Definición del modelo A veces, en vez de dos variables (independiente y dependiente), se tendrán más variables dependientes y el objetivo será predecir los valores de la variable independiente con las variables dependientes. El modelo de regresión múltiple no es por tanto más que una generalización a varias variables de un modelo de regresión simple. Supongamos que haya n variables independientes: x1, x2, xn. Podemos construir la ecuación:

nxnbxbxbay ++++= ...2211 Cada variable independiente Xi tiene asignado un coeficiente denominado coeficiente de regresión bi. Este coeficiente se interpreta como el cambio de la medida en la variable dependiente Y, por unidad de cambio en cada variable independiente X1, X2 ó Xn. Para realizar una interpretación resulta imprescindible conocer las unidades de cada variable. Además se está suponiendo que las variables no tienen interacciones entre si, o lo que es lo mismo que los términos de interacción son nulos. Para poder modelizar los datos de esta forma, los datos deben satisfacer una relación lineal. Si hay solo dos variables explicativas, entonces los datos deben estar aproximadamente contenidos en un plano. Para tres o más variables explicativas, la ecuación de regresión es un hiperplano y no hay posibilidad de visualizar los datos gráficamente. Además la recta de regresión, permite predecir el valor que tomará la variable Y, sin más que sustituir los valores de las variables Xi en ella.


Las principales ventajas de este método son las siguientes:

• Permite el análisis de varios factores o varias variables independientes que influyen en el desenlace cuantitativo

• En estudios no experimentales, se puede controlar el sesgo producido por las características que hacen a los grupos heterogéneos

• Al introducir más variables se reduce el porcentaje no explicado por la regresión simple

Mientras que las principales desventajas de la regresión lineal múltiple son:

• Es difícil escoger el mejor modelo • Interpretar el resultado, cuando hay muchas variables puede ser

complicado • Se necesita un ordenador, para realizar los cálculos, especialmente

cuando hay más de 3 variables implicadas 4.3.2. Caso práctico Supongamos que se realiza un examen en un determinado colegio y se sabe que los resultados dependen de una serie de variables. Las variables implicadas en el modelo son las que se describen a continuación:

• ESCS- índice económico socio cultural de la familia. • INMIGRACIÓN- si es español o no. • NOTA- puntuación del examen.

La forma en la que dependen es

0,6INMIGR 7ESCS,050NOTA −+= Se intenta predecir la nota del examen, (que sería la variable dependiente Y) a partir de dos variables independientes, ESCS e inmigración. Como las variables son adimensionales, no hace falta indicar las unidades. Por supuesto que existen otras variables que influirán en la nota del examen, pero estas no se consideran. La interpretación es que por un índice socio cultural de un punto más, la nota del examen es 0,7 puntos más, independientemente de cuál sea el origen del estudiante. La diferencia entre inmigrantes y no inmigrantes será de 0,6 menos en los inmigrantes, a igualdad de ESCS. Esto se explica sin más que sustituir en la ecuación por sus respectivos valores. La variable INMIGRACION se codificó así: Toda persona será o


inmigrante o nacional, y dependiendo de esos valores la variable inmigrante tomará los siguientes valores:

• Inmigrantes: Todo inmigrante tomará el valor 1 • Nacionales: Toda persona del país (n este caso España), tomará el valor

0 En los inmigrantes, la ecuación será: 7xESCS),0(50,60,6x1) (7xESCS),0(50NOTA +=−+= En los nacionales, la ecuación será:

7xESCS),0(500,6x0) (7xESCS),0(50NOTA +=−+= Las dos ecuaciones anteriores son paralelas, ya que únicamente difieren en una constante. Ejemplo2 Con los datos anteriormente descritos, de la base de datos employee_data.sav, se quiere crear un modelo para predecir el salario actual en función del salario inicial y de la experiencia previa. Para llevarlo a cabo, se obtiene el cuadro de diálogo de regresión lineal descrito anteriormente e introducimos en el cuadro de “variable dependiente” la variable correspondiente al salario actual y en el cuadro de diálogo de variables independientes, aquellas variables correspondientes al salario inicial (SI) y experiencia previa (Exp). Se realiza el análisis y se obtiene el resultado mostrado en la tabla siguiente. La tabla que resume el modelo, muestra que si consideramos juntas las dos variables correspondientes a salario inicial y experiencia previa se explica un total de un 79% de la variabilidad total de la variable dependiente, salario actual. Este modelo es mejor que el que se realizaba anteriormente considerando únicamente como variable dependiente la variable salario inicial.


La R2 anterior, expresaba un 0,775 frente al 0,793 que expresa el actual modelo. Además el error típico de la estimación se ha reducido. Con respecto a la tabla de los coeficientes, podemos observar la ecuación del modelo que es: SA=1,923 (SI)-22,445 (EXPprevia)+3850,718 El coeficiente de experiencia previa nos indica que si las demás variables se mantienen constantes, a cada mes de experiencia previa le corresponde en promedio una reducción de 22,445€ en el salario actual. Estos coeficientes no son independientes entre sí, ya que se ajustan considerando el resto de las variables implicadas en el modelo. Los coeficientes de las variables ya no corresponden al coeficiente de correlación entre las variables independientes y la variable dependiente, salario actual. En este modelo puede extrañar el coeficiente negativo asociado al coeficiente de la variable experiencia previa. La razón por la que esto sucede suele ser por la existencia de una gran colinealidad entre las variables implicadas en el modelo.

En la tabla anterior, se presentan también los coeficientes tipificados. Estos son muy importantes ya que permiten comparar las variables entre ellas y determinar según su valor cuáles son las más relevantes del modelo. En el ejemplo la más importante es el salario inicial, pues adquiere un mayor valor que la experiencia previa. El estadístico T es el que se utiliza para realizar un contraste de hipótesis sobre los coeficientes del modelo. La hipótesis nula de este test es que los coeficientes son nulos. Al ser su p-valor menor que 0,05, se rechaza la hipótesis nula y se afirma que los coeficientes son distintos de cero. Por lo tanto, todas ellas contribuyen a explicar el salario actual de los trabajadores de la empresa. La tabla correspondiente el análisis de la ANOVA, muestra que el estadístico F es significativo por lo que concluimos que el valor de R, obtenido en una tabla anterior, no es nulo, o lo que es lo mismo la variable dependiente depende de al menos de una de las predictoras. El plano definido por la ecuación de regresión ofrece un buen ajuste al modelo.


Se compara este modelo y el anterior: Modelo1 Modelo2 Suma de cuadrados % variabilidad Suma de cuadrados % variabilidad Regresión 1,068x1011 77,44% 1,094x1011 79,33% Residual 3,109x1010 22,49% 2,848x1010 20,67% Total 1,379 x1011 1,379 x1011 En definitiva, este modelo es mejor ya que el porcentaje de variabilidad que expresa el modelo (79,33%) es mayor que la del anterior y por lo tanto la variabilidad complementaria o residual es menor. 4.4. Variables especiales Los modelos de regresión son un arma estadística muy potente ya que permiten trabajar con variables de muchos tipos distintos y suavizar el efecto de otras variables que puedan estar sesgando el resultado final. Se podrán introducir variables cualitativas sin más que hacer una ligera modificación en los datos, y además detectar propiedades importantes como son el efecto interacción entre las variables y el efecto confusión. 4.4.1 Variables de confusión A veces puede haber variables que indirectamente influyan en el resultado, en el sentido de que sean variables que se asocien tanto con la variable independiente como con el supuesto efecto o variable dependiente. Estas variables son los denominados factores de confusión. En general, tanto la edad como el sexo son variables que entrarán dentro de “las variables de confusión” y por lo tanto será esencial incluirlas en el análisis.


En el ejemplo citado el sexo será un valor que afecte al resultado final y a la variable inmigrante, pues en el colegio estudiado había más inmigrantes varones que inmigrantes mujeres: 4.4.2. Variables cualitativas Cuando se desea introducir como variable independiente una variable cualitativa que tenga 3 o más categorías, se debe elegir primero cuál será la categoría de referencia y después se ha de crear una nueva variable para cada una de las demás categorías. La forma en que se realiza es crear n-1 variables, siendo n el número de categorías de la variable cualitativa. Estas n-1 variables serán variables binarias, que valdrán 1 para una categoría determinada y 0 para el resto. Cuando todas las variables sean nulas, entonces el valor de la variable original será aquella categoría que no se ha representado por las n-1 variables. Estas variables solo tienen sentido cuando se introducen conjuntamente. Ejemplo Se ha realizado una encuesta a los trabajadores de una empresa para determinar su estado civil. Los valores recogidos están en la columna Estado Civil y corresponden a:

• S=Soltero/a • C=Casado/a • V= Viudo/a • D=Divorciado/a

Las siguientes columnas corresponden a las variables binarias creadas para expresar esta variable. Como existen 4 categorías, se han creado 3 categorías (soltero, casado y viudo). Estas 3 variables toman el valor de uno siempre que el individuo encuestado haya respondido lo mismo que la variable que refleja.

Inmigrantes

SEXO (factor de confusión)

NOTA


Así por ejemplo, la variable soltero valdrá 1 para todos aquellos solteros y cero para los demás. Cuando las tres variables son cero en la misma fila, significa que el individuo ha contestado que está divorciado, puesto que no está soltero, ni casado ni es viudo. Cuando se realiza un análisis, es imprescindible incluir las cuatro variables conjuntamente. Si solo se introduce una de ellas se estaría considerando el caso de tener ese estado civil u otro, así por ejemplo si solo consideramos soltero, la variable representaría a todos los solteros frente a todos los demás.

E.Civil Soltero Casado Viudo S 1 0 0 S 1 0 0 C 0 1 0 C 0 1 0 C 0 1 0 C 0 1 0 V 0 0 1 V 0 0 1 V 0 0 1 D 0 0 0 D 0 0 0 S 1 0 0 C 0 1 0

4.4.3. Interacción En apartados anteriores se ha considerado que la interacción entre las variables era nula. Existe interacción en la relación entre dos variables cuando los valores de una tercera afectan a esa relación, magnificándola o disminuyéndola, o más raramente ambas cosas, dependiendo del nivel de la tercera variable. Es decir que la magnitud de la relación es diferente según los niveles de esa tercera variable. Así, por ejemplo, podríamos encontrar que la media de la nota obtenida en el ejemplo aumenta con la edad, pero que ese aumento es mayor en el grupo de los inmigrantes que en el de los nacionales. La forma más simple de incorporar la presencia de interacción entre dos variables en una ecuación de regresión consiste en incluir en ésta el producto de ambas:


Si se supone un modelo compuesto por tres variables:

21122211 xxbxbxbay +++=

EL último término consiste en la interacción entre las variables x1,x2. 4.5. Supuestos o condiciones de aplicación El procedimiento utilizado para llevar a cabo una regresión lineal simple es el ajuste por mínimos cuadrados. El objetivo es encontrar la ecuación que mejor se ajuste a los puntos observados y que componen la muestra. En una regresión múltiple el procedimiento de estimación es semejante al utilizado en la regresión lineal simple, se estima la superficie que mejor se ajusta a la nube de puntos observados. El método se denomina ajuste por mínimos cuadrados. Es un método que minimiza las distancias desde cada punto observado hasta el plano. Los errores cometidos, serán aquellas distancias de los puntos originales al punto de la recta obtenido al sustituir la variable independiente en las rectas, y se denominan residuos. Cuando se ajusta un modelo de regresión múltiple, el ordenador devuelve coeficientes bi para cada una de las variables independientes xi que pueden considerarse como variables predictores de la variable cuantitativa considerada como respuesta (variable dependiente). Por lo tanto, al igual que en la regresión lineal simple, el modelo se basa en unos supuestos similares, que son los siguientes.

1) Las variables están relacionadas linealmente.

2) La distribución de la variable dependiente condicionada a cada posible combinación de valores de las independientes es una distribución normal multivariable.

3) Las variables son independientes unas de otras. Como consecuencia,

los residuos serán independientes entre sí y constituirán una variable aleatoria.

4) Homogeneidad de las varianzas (homocedasticidad): las varianzas de la

variable “Y” condicionadas a los valores de “X” son homogéneas. Para comprobar estos supuestos se deben guardar los residuales y valorar si se adaptan a la normalidad. Si el tamaño muestral es grande, habitualmente resultarán significativos los tests de normalidad de los residuales, pero esto


tiene poca relevancia práctica. En esta situación un test de normalidad significativo es sólo una consecuencia del tamaño muestral. Resulta entonces más importante valorar la magnitud del apartamiento de la normalidad usando métodos gráficos. Habitualmente, con tamaños muestrales grandes (n>500) la regresión suele ser suficientemente robusta. 4.6. Análisis de los residuales Los residuos son aquellas diferencias entre los valores observados y los valores pronosticados. Son muy importantes en un análisis de la regresión. En primer lugar notifican sobre el grado de exactitud en los pronósticos y además permiten la identificación de errores atípicos. Conviene comprobar en ellos las condiciones anteriormente expuestas es decir:

• Homocedasticidad • Independencia • Normalidad • Linealidad • colinealidad

Ejemplo Se continúa con el ejemplo de los datos correspondientes a una empresa. En primer lugar se obtienen los residuos que tienen una mayor magnitud. El procedimiento es el siguiente: Se pulsa la opción “Estadísticos..” en el cuadro de diálogo de regresión lineal y se selecciona la opción diagnóstico por caso. Posteriormente se selecciona la opción “Valores atípicos a mas de” y se incluye un cuatro en el cuadro de diálogo. Así se obtiene un listado de aquellos residuos que se alejen de cero en más de un número de desviaciones típicas.


Se obtienen un total de cinco casos, el 18, 106, 205, 218 y 274.

Si los residuos están normalmente distribuidos, menos del 99,9% de ellos deben estar en el rango [-3,3]. En este caso hay al menos cinco de ellos fuera de ese rango, por lo que conviene repasar cada caso de los anteriores, pues pueden ser valores anómalos. Otra de las tablas importantes que se ha obtenido corresponde a los estadísticos sobre los residuos.


Esta tabla informa sobre los valores mínimos y máximos. Lo más importante de ella es que la media de los residuos es nula, lo cual concuerda con la media de la distribución normal tipificada. Independencia Si las variables son independientes entre sí, los residuos han de serlo también. La forma de evaluar si los residuos son independientes entre si es con el test de Durbin-Watson. Este estadístico oscila entre 0 y 4, tomando el valor 2 en el caso de que los residuos sean independientes. Los valores con correlación menor que 2 indican correlación positiva y los valores mayores autocorrelacion negativa. Esta opción se elige en la opción “Estadísticos..” expresada anteriormente. En el ejemplo el valor es 1,833 que es menor que 2 luego existe una autocorrelación negativa, aunque al tener un valor próximo a 2 se asume que efectivamente los residuos son independientes.

Homocedasticidad Para evaluar la homocedasticidad se procederá gráficamente como sigue: 1) Guardar los residuos como nuevas variables: Para guardar los residuos se selecciona la opción guardar del cuadro de diálogo de la regresión lineal. En el nuevo cuadro de diálogo se marca la opción “residuos tipificados” y “pronósticos tipificados”.


2) Se obtiene un diagrama de dispersión de los residuos tipificados. Se obtiene un diagrama de las dos nuevas variables. Este es el resultado:


3) Análisis del diagrama de dispersión: Afirmamos que aparentemente no existe una diferencia de varianzas entre ambas variables, ya que en el gráfico ambas parecen tener una dispersión similar. Este gráfico es interesante también en el sentido de que si existiese un modelo no lineal que se ajustase a los datos, podría observarse aquí (se habría eliminado la componente lineal y por lo tanto solo se observaría la componente no lineal). Normalidad


En el cuadro de diálogo de gráficos, descrito anteriormente, se marcan las siguientes opciones:

• Histograma • Gráfico de probabilidad normal

Se pulsa aceptar y se obtienen dos gráficos nuevos El histograma Se obtiene un histograma de los residuos tipificados con una curva normal superpuesta. Se observa que la parte central de la distribución acumula más casos que las colas al igual que ocurre con la distribución normal. También se observa que es algo asimétrica, hay más valores en la cola positiva de la distribución que en la cola negativa. Los parámetros característicos de la distribución normal tampoco son los valores exactos que adquieren en la distribución normal estándar.

El siguiente gráfico corresponde a un diagrama de probabilidad normal. Si los residuos se distribuyesen según una distribución normal entonces estarían alineados con la diagonal del gráfico. Conviene la utilización de test estadísticos para comprobar la normalidad.


Linealidad Una vez que se haya marcado la opción “generar todos los gráficos parciales” en la opción gráficos del subcuadro de diálogo regresión lineal se generarán tantos gráficos como variables independientes se hayan incluido en el análisis. El gráfico de salario actual vs salario inicial es claramente lineal.


Si se desea realizar un análisis más detallado al modelo convendría analizar los outliers del gráfico anterior. Colinealidad La colinealidad es una de las propiedades más importantes que se han de estudiar. Su existencia puede interferir en la estimación correcta de los coeficientes de las variables dependientes del modelo y la existencia de colinealidad parcial entre las variables, incrementa el tamaño de los residuos tipificados.

Al evaluar la existencia o no de la colinealidad, se debe delimitar el nivel de correlación máxima permitida entre las variables. Para fijar este nivel se debe evaluar lo siguiente:

1) Si el estadístico F es significativo pero no así los valores de correlación entre las variables.

2) Los coeficientes de las variables independientes estandarizados de la ecuación de regresión adquieren valores mayores de uno.

Existen otras formas de evaluar la colinealidad. SPSS por ejemplo permite estudiar la colinealidad con otros estadísticos distintos a los descritos. Para ello se selecciona la opción “diágnostico de


colinealidad” en el menú Estadístico y se obtienen unas tablas similares a las que siguen: La primera de ellas es conocida, pues se parece mucho a una anteriormente descrita, pero en este caso incluye dos nuevas columnas:

1) Tolerancia 2) FIV. Que representan los denominados factores de inflación de la

varianza La tolerancia de una variable se obtiene restando a 1 el coeficiente de determinación R2. Valores pequeños indican que esta variable puede ser expresada por una combinación lineal del resto de variables, lo cual significa colinealidad. En el ejemplo la tolerancia de los correspondientes coeficientes de regresión no es muy elevada luego se concluye que no existe colinealidad. El FIV son los inversos de los niveles de tolerancia son los inversos de los coeficientes de tolerancia. Cuanto mayor es la FIV, mayor es la varianza del correspondiente coeficiente de regresión.

En la segunda tabla se observan los diagnósticos de colinealidad: Al no existir muchos autovalores próximos entre sí, se relaciona con la no existencia de colinealidad. La existencia de índices de condición menores de 30 e incluso menores de 15 indica también que en principio no existen problemas de colinealidad. Las últimas columnas de la tabla correspondientes a proporciones de varianza recogen el porcentaje de la varianza de cada coeficiente de regresión parcial expresada por cada dimensión o factor. Lo ideal es que cada factor explique en mayor medida únicamente una de las variables. Es decir que tenga valores altos para una variable y bajos para los demás. Cuando esto no ocurre se recomienda revisar el modelo diseñado.


La existencia de colinealidad en los datos puede evitarse imponiendo algunas soluciones como las siguientes:

• Aumento del tamaño de la muestra • Crear indicadores combinando varias variables • Excusión de variables redundantes

4.7. Métodos de regresión lineal Con respecto a la construcción del modelo existen distintos métodos que vienen diferenciados por la forma en que se introducen e incluyen las variables en el modelo. Si se comienza con un modelo en el que se introducen todas las variables juntas y a partir de ahí se van eliminando variables del modelo, porque así se elimina la colinealidad, o se mejora la variabilidad expresada por el modelo, entonces la técnica usada será la denominada regresión hacia atrás. Lo contrario, la regresión hacia delante, consiste en no introducir ninguna variable en el primer modelo e ir introduciendo una a una las variables que más variabilidad explican del modelo. Es decir se selecciona en un primer paso el mejor modelo compuesto por una única variable, entonces se fija esta variable en el modelo y se estudian el modelo resultante al introducir cada una de las demás variables. El método de regresión más utilizado es el denominado "stepwise", traducida habitualmente como regresión por pasos, es una versión modificada del proceso de regresión hacia adelante en la que en cada nuevo paso, se reconsidera además el mantener las que ya se había añadido previamente, es decir que no sólo puede entrar una nueva variable en cada paso sino que puede salir alguna de las que ya estaban en la ecuación. El proceso finaliza cuando ninguna variable de las que no están en la ecuación cumple la


condición para entrar y de las incorporadas a la ecuación ninguna cumple la condición para salir. 4.8. Otros tipos de regresiones. En este tema se ha expuesto principalmente el análisis de la regresión lineal entre los distintos tipos de variables. Sin embargo no todas las dependencias existentes entre las variables seguirán una forma lineal. Normalmente el análisis de regresión consiste en un componente lineal y otro no lineal. Los tipos más comunes de regresión no lineal son del tipo polinómico, y más concretamente la cuadrada o la cúbica. En algunas ocasiones para realizar la regresión también se puede necesitar un cambio previo en los datos, como puede ser tomar logaritmos de los datos, o simplemente una potencia. Es por esta causa por la que se recomienda hacer un diagrama de dispersión como paso previo a la regresión. Existen otros tipos de regresión muy importantes que vienen diferenciados de los anteriormente expuestos en la naturaleza de la variable dependiente. Por ejemplo, el modelo de regresión logística que se estudiará más adelante, se caracteriza por el hecho de que la variable a predecir, la variable dependiente, es de tipo dicotómico. Otro tipo de regresión distinto a los anteriores se produce al introducir una variable que corresponda al intervalo de tiempo transcurrido entre un acontecimiento inicial y uno terminal. Entonces tendremos un tipo de datos denominado de supervivencia como se estudiará más adelante, y se trabajara con regresiones de Cox o regresiones de Kaplan Meier, según la situación y las demás variables.

Universidad Nacional de Educación a Distancia


5. ANALISIS POR COMPONENTES PRINCIPALES 5.1. Conceptos básicos 5.1.1. Introducción Los datos que provienen de algunas disciplinas como la bioinformática, meteorología o economía tienen en la mayoría de las ocasiones un gran número de variables y por ello los métodos explicados anteriormente son poco efectivos. La idea es encontrar un número de variables de menor dimensión sin perder demasiada información, es decir, reducir la dimensión de los datos de tal forma que el nuevo conjunto de datos, sea tan bueno como el anterior o por lo menos permita una estimación con calidad de los datos originales. Las técnicas de análisis multivariante que se pueden utilizar para conseguir este objetivo son las denominadas técnicas de reducción de la dimensión. Los métodos que se pueden englobar en este grupo son los que se denominan análisis de los componentes principales o ACP y el análisis factorial. El análisis de componentes principales (ACP), es una técnica estadística que fué propuesta a principios del siglo pasado por Karl Pearson como parte del análisis de factores. Sin embargo la complejidad de los cálculos retrasó su desarrollo hasta la aparición de los ordenadores. Esta técnica ha sido fundamentalmente utilizada en la segunda mitad del siglo XX. El relativamente reciente florecimiento de los métodos basados en componentes principales hace que sean consideradas por una gran cantidad de investigadores no especialistas en estadística. El análisis factorial proviene del campo de la sociología. A principios del siglo XX Spearman postuló una teoría, en la que declaraba que todos los individuos que realizaban un test tenían un factor en común que era el propio test y otro que caracterizaba a todos los tests en general, planteando la opción de demostrar esta teoría con la matriz de correlación de los test. El desarrollo de esta teoría concluyó en el modelo teórico que hoy se conoce como análisis de factores. El objetivo principal, como ya se ha mencionado, del ACP y el análisis factorial es la representación de las medidas numéricas de varias variables en un espacio de menos dimensiones donde nuestros sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en dimensiones superiores por la dificultad que supone analizar datos en dimensiones altas. La pérdida de información se ve ampliamente compensada con la simplificación realizada.

http://www.monografias.com/trabajos11/metods/metods.shtml#ANALIT

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml

http://www.monografias.com/trabajos6/etic/etic.shtml

http://www.monografias.com/trabajos12/desorgan/desorgan.shtml

http://www.monografias.com/trabajos11/metods/metods.shtml

http://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtml

http://www.monografias.com/trabajos12/guiainf/guiainf.shtml#HIPOTES



5.1.2. Diferencias entre el ACP y el análisis factorial Al analizar un gran conjunto de variables existen dos tipos de variabilidad, una correspondiente a lo que explica cada variable por si sola y otra que se identifica con lo que tienen en común todas las variables. Esto nos diferencia entre los dos tipos de técnicas utilizadas para reducir la dimensión de un conjunto de variables. El análisis factorial es la técnica que tiene en cuenta tanto la varianza o variabilidad común de todas las variables juntas como la variabilidad única de cada variable mientras que el análisis de los componentes principales es aquel que únicamente tiene en cuenta la varianza total del conjunto a estudiar. Para conseguir estos objetivos el Análisis de Componentes Principales busca hallar las mejores combinaciones lineales de las variables originales que expliquen la mayor parte de la varianza total, mientras que el Análisis Factorial pretende hallar un nuevo conjunto de variables, menor en número que las variables originales, que exprese lo que es común a esas variables. Con la utilización de cualquiera de estos métodos se obtendrán unas variables nuevas que se denominan componentes principales o factores y son las variables que se estudiarán para extraer conclusiones de los datos originales. Una vez que se haya reducido el número de variables, el siguiente paso es el análisis de los factores y su interpretación. Esto no es una tarea trivial, ya que habrá que analizar tanto el signo como la matriz de correlaciones en profundidad. 5.2. Análisis de los componentes principales Todo lo expresado anteriormenter, aunque sugiere que el ACP es una técnica descriptiva, no niega la posibilidad de que también pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones del ACP son numerosas y entre ellas se pueden citar la clasificación de individuos, la comparación de poblaciones, la estratificación multivariada, etc. 5.2.1. Reducción de la dimensión para datos bivariados La relación entre dos variables puede ser estudiada mediante un diagrama de dispersión, como ya se ha descrito anteriormente. Por lo tanto, en la mayoría de las circunstancias no es necesario reducir la dimensión de los datos bivariantes. Sin embargo, existen situaciones en las que puede resultar útil trabajar con una variable en vez de con dos de ellas. Reducir los datos de dos variables a una significa que cada observación es representada por un dato en vez de doss. Este número puede ser simplemente



una de las variables o una combinación de ambas (tomando una media, una suma, una diferencia…) Hay muchas maneras con las que se pueden combinar matemáticamente dos variables X1 y X2 para crear una nueva variable Y. Una de estas maneras es una combinación lineal. Una variable Y es una combinación lineal de X1 y X2, si para dos constantes 21 , αα se puede obtener una expresión de la forma siguiente:

2211 iii xxy αα += Ejemplo Supóngase que X1 es la variable que representa el interés a corto plazo de un país e X2 el interés a largo plazo. Los datos para los distintos países son los siguientes:

País X1 X2

Canada 2,31 4,58

Estados Unidos 1,56 4,27

Australia 5,48 5,61

Japón 0,03 1,49

Nueva Zelanda 6,13 6,07

República Checa 2,36 4,75

Dinamarca 2,14 4,30

Noruega 2,01 4,37

Suecia 2,11 4,43

Reino Unido 4,57 4,87 Si se define 2211 XXY αα +=

Con 21 2

1 αα ==

Entonces el valor de la nueva variable Y puede calcularse, sin más que ir sustituyendo en la expresión anterior.



La variable Y tomaría entonces los siguientes valores:

País X1 X2 Y

Canada 2,31 4,58 4,872

Estados Unidos 1,56 4,27 4,122

Australia 5,48 5,61 7,842

Japón 0,03 1,49 1,075

Nueva Zelanda 6,13 6,07 8,627

República Checa 2,36 4,75 5,028

Dinamarca 2,14 4,30 4,554

Noruega 2,01 4,37 4,511

Suecia 2,11 4,43 4,624

Reino Unido 4,57 4,87 6,675 Si se define la combinación lineal de Y como hasta ahora, el valor de la media de Y viene claramente determinado por los valores de las constantes 21 y αα además de las medias de X1 y X2: 21 Xy X respectivamente. En la práctica para evitar esto, una combinación lineal de Y se define de la siguiente manera:

)()( 222111 XXXXY −+−= αα De esta forma se asegura que la media de Y es cero para cualquier valor de

21 y αα y de 21 Xy X .Las medias 21 Xy X son simplemente la media de los valores X1 y X2, y por lo tanto son constantes. Así, para cualquier valor de

21 y αα la cantidad anterior, una vez sustituidas las variables es simplemente una constante. Sin embargo, si se multiplica 21 y αα por una constante c se produce una situación similar e Y sigue siendo una constante. Existen por tanto infinitas combinaciones lineales que proporcionen una valor para Y bajo las condiciones anteriormente expuestas. Para elegir entre todas estas combinaciones lineales, que son semejantes una en concreto y que será la definitiva se impone la condición siguiente para así determinar los valores de los coeficientes 21 y αα

22

211 αα +=



Es decir, que la suma de los coeficientes al cuadrado sea uno. Nótese que una combinación de coeficientes en la que no se cumple la condición descrita más arriba puede sustituirse por una en la que si se cumpla en todo caso, sin más que realizar las operaciones pertinentes. Así, el problema de cómo elegir los coeficientes queda totalmente eliminado, y la tarea de elegir “los mejores coeficientes” de las combinaciones lineales que resulten de tener media 0, queda reducida a encontrar dos coeficientes que cumplan la condición previamente descrita. Una vez resuelto el primer problema, resta elegir de entre todas las combinaciones lineales aquella que cumpla las propiedades que interese, pues aún existen muchos posibles valores de 21 y αα . ¿Qué constituye una buena elección de 21 y αα ? Para responder a esta pregunta, las aproximaciones resultantes deben compararse. Ejemplo En el ejemplo anterior se presentaron los datos correspondientes a la variable Y con respecto a los distintos países, tomando dos coeficientes determinados ¿Qué ocurre si estos coeficientes se cambian? En primer lugar se han de estandarizar las variables para a continuación sustituir en la expresión. La siguiente tabla muestra como varía la variable Y en función de los distintos componentes.

PAIS X1 X2 21 ,

21

21 == αα 8.00 0.6, 21 −== αα

Canada -0,56 0,11 0,321 -0,421 Estados Unidos -1,31 -0,20 -1,071 -0,623

Australia 2,61 1,14 2,649 0,657 Japón -2,84 -2,98 -4,118 0,683

Nueva Zelanda 3,26 1,6 3,43 0,679 República Checa -0,51 0,27 -0,165 -0,527

Dinamarca -0,73 -0,17 -0.639 -0,299 Noruega -0,86 -0,10 -0.682 -0,433 Suecia -0,76 -0,04 -0,569 -0,421

Reino Unido 1,7 0,40 1,482 0,703



Si se analiza la tabla anterior, se observa que en el caso en que se tomen como coeficientes

21 ,

21

21 == αα , Japón es el país con puntuación más baja,

al igual que sucedía con las variables X1 y X2 por separado. Sin embargo, en el caso de los coeficientes sean 8.00 0.6, 21 −== αα , Japón está bastante más centrado. Esto proporciona una idea de la importancia de cómo escoger los coeficientes, pues una mala elección puede conllevar el cambio en la estructura de los datos. En el ejemplo anterior la primera elección es buena porque mantiene la naturaleza de los datos, no así la segunda. Por lo tanto una elección para los valores de 21 y αα es buena si el patrón dominante de los datos originales de las dos variables se tiene en el resultado de la variable nueva. La herramienta que nos facilita esta tarea es la dispersión de la variable Y. Cuanto más agrupados estén los datos de la variable Y, más difícil será identificar algún patrón de comportamiento. La medida que se tomará para evaluar esta característica es la varianza. Desafortunadamente una forma de incrementar la dispersión de todos los datos es multiplicar los coeficientes 21 y αα por una constante d>0. Así, de una aproximación con poca varianza, se puede conseguir una mucho mas dispersa, sin embargo esto haría que no se cumpliese nuestra condición previa:

22

211 αα += .

Así nuestro problema queda resuelto a toda aquella combinación que cumpla la condición anterior y maximice la varianza explicada. La manera más sencilla de calcular la varianza del componente principal Y, es con la fórmula siguiente:

),(2)()()( 21212221

21 XXCovXVXVYV αααα ++=

De esta forma, indiferentemente de los coeficientes elegidos basta con calcular las varianzas de las dos variables X1 y X2 y una covarianza. El método anteriormente descrito para encontrar la “mejor combinación lineal” de Y para aproximar datos bivariados es lo que se denomina análisis de los componentes principales. Los coeficientes 21 y αα serán los que se denominen carga o puntuaciones de las variables. En resumen, el primer y único componente de un conjunto de datos mutivariantes debe ser aquella combinación lineal:



)()( 222111 XXXXY −+−= αα

Con las siguientes condiciones:

V(y) maximicey 1 22

21 αα +=

5.2.2. Reducción de la dimensión para p variables En esta sección se intenta extender los resultados obtenidos anteriormente a datos de dimensiones mayores. Además, se muestra un método para medir la calidad de una aproximación y también se expone lo esencial que supone estandarizar las variables como fase previa a la extracción el componente principal. Si se amplía la definición anterior para el caso de p variables se tendría que el componente Y se expresa como;

∑=

−=−++−+−=p

Jjjjppp XXXXXXXXY

1222111 )()(....)()( αααα

Con las siguientes condiciones:

V(y) maximicey ...1 222

21 nααα +++=

Es decir, que la suma de los coeficientes al cuadrado sea 1 y se maximice la varianza de Y. La forma análoga de calcular la varianza de Y sin recurrir al cálculo de las observaciones de Y es la siguiente:

∑∑>=

+=jkkj

kjkjjj

p

j

XXCovXVYV,,

2

1

),()()( ααα

En otras palabras V(Y) depende del valor en las variables originales y las covarianzas entre estas variables originales. Una vez conocida la matriz de covarianzas, para un conjunto de coeficientes p21 ,.... , ααα , la varianza V(Y) puede ser calculada y los valores que maximizan la varianza de V(Y) pueden entonces ser encontrados.



5.2.3. Calidad de la aproximación A pesar de las condiciones que se habían impuesto para definir Y, esto no quiere decir que nuestra variable nueva se aproxime bien a nuestros datos. La varianza de Y es una aproximación unidimensional que mide la variabilidad de los datos que es capturada por Y. Esto necesita ser comparado con la variabilidad total de los datos para hacerse una idea de la magnitud. Para medir esta variabilidad se utilizará la denominada varianza total. Para un conjunto de datos multivariantes de dimensión p la varianza total TV se define como la suma de todas las varianzas.

)(...)()()( 211

pj

p

j

XVXVXVXVTV +++==∑=

Nótese que las covarianzas no aparecen en las fórmula de la varianza total (puede parecer extraño no tener en cuenta las covarianzas, pero hay razones matemáticas para no incluirlas como se comprobará más adelante). Para medir cuánta varianza total captura cada variable Y, se introduce el PVE que no es más que el porcentaje total de varianza explicada. Se calcula mediante la expresión siguiente:

%100)( xTV

YVPVE =

Este porcentaje será más alto, cuanto más se aproxime la variable Y a los datos originales. El porcentaje de varianza explicada varía entre el 0% y 100%. Cuando se explique un 0% de la varianza, la varianza de Y será cero. En este caso extremo la variable Yi coincide con la media de Y para cada observación i, y de esta forma Y no puede ser diferenciado de las observaciones. Cuando el porcentaje explicado es del 100%, las diferencias relativas entre las observaciones vienen representadas por las diferencias entre las yi. En este caso el conjunto original de datos multivariantes no contiene más información acerca de las diferencias entre las observaciones y la que está disponible a partir de Y. Esto únicamente ocurre cuando las variables x1..xp están perfectamente correladas, esto es, que la correlación entre xj y xk sea 1 o -1 para cada par de variables. Estandarización Cuando el porcentaje de varianza explicada se aproxima a un 100%, la variable nueva Y, representa en un principio una buena aproximación del conjunto de



datos multivariantes. Sin embargo, el porcentaje de varianza explicada a veces da una idea equivocada; el porcentaje puede estar cercano a 100%, aunque la aproximación refleje pocas o quizás solo un mínimo conjunto del conjunto total de variables. Cuando una variable es estandarizada, se transforma de tal forma que su media sea cero y la varianza de la variable sea uno. Así, si se parte de un conjunto de variables estandarizadas, todas tendrán varianza uno, y además la matriz de covarianzas será similar que la matriz de correlación de las variables no estandarizadas. Aproximaciones en dimensiones mayores Hasta ahora se ha buscado una aproximación unidimensional de un conjunto de datos multivariante. El problema es que a veces este componente, no refleja bien nuestros datos originales y se perderá mucha información. Por eso, a veces resulta necesario e imprescindible apoyarnos en otro segundo componente, e incluso calcular más de dos. Se analiza en primer lugar como se pueden elaborar estos componentes, y después se estudian una serie de técnicas para elegir cuantos componentes se quieren incluir. Un segundo componente principal En algunas ocasiones el primer componente explicará la mayoría de la variabilidad de la varianza total, indicando que la mayoría de la variabilidad de los datos había sido capturada. Sin embargo, esto no siempre es así; se encontrarán casos en los que el primer componente apenas capturará un 54% de la variabilidad de los datos. En estos casos se deberá incluir un segundo componente o incluso más componentes. Estos componentes se obtendrán de tal forma que capturen el mayor porcentaje de varianza restante. El tener más componentes principales tiene algunas ventajas como la posibilidad de poder hacer diagramas de dispersión, y así observar gráficamente el resultado. Anteriormente se ha denominado al componente principal con la letra Y, y las cargas o puntuaciones (coeficientes) de las variables con alfas. Se introduce el subíndice i para distinguir entre todos los componentes principales. Así el principal componente se denotará con Y1 y sus cargas como 1α . En el caso del segundo componente principal este se representará como Y2 y sus cargas como 2α . El segundo componente denotado por Y2 se define de una manera similar a Y1, para datos no estandarizados x1…xp será de la forma siguiente:



∑=

−==p

Jjjj XXY

122 )(α

Para los datos estandarizados la expresión anterior queda reducida a:

∑=

==p

JjjZY

122 α

1α que tales

constanes, son α,...,α escoeficient los casos ambos Enp

1j

22j

2p21

=∑=

Para seleccionar cuales serán los coeficientes de las expresiones anteriores se impone que este nuevo componente Y2, explique la variabilidad que no captura la variable Y1. Una forma de conseguir esto, es intentar que la combinación lineal Y1 e Y2 sean incorreladas. En otras palabras conseguir que Corr(Y1,Y2) sea igual a cero. Además Y2 debería capturar la variabilidad restante, es decir capturar el máximo de la variabilidad que no captura Y1. Estas dos condiciones son las que se impondrán para conseguir unas puntuaciones ,..., 221 pαα que maximicen la varianza sujeto a que su suma al cuadrado sea 1. Aproximaciones con más de dos combinaciones lineales Limitar los datos a dos componentes puede conllevar la pérdida de mucha información. Esta controversia queda resuelta con el aumento del número de componentes incluidos en el modelo. Los nuevos componentes también tendrán como objetivo principal capturar la mayor parte de la varianza restante sin explicar, sin olvidarse de que deben ser incorrelados con los anteriores componentes y sus coeficientes al cuadrado deben sumar 1.

Componente siguiente : ∑=

−==p

Jjjkjk XXY

1

)(α

Y para los datos estandarizados: ∑=

==p

JjkjZY

12 α

En ambos casos los coeficientes 1 que talconstantesson ,...,p

1j

21 =∑

=kjkpk ααα

Tal y como se describió con el segundo componente principal, el componente k-ésimo yk captura información de los datos originales, siendo incorrelado con



los demás. Esto se realiza asegurándose de que la correlación con los componentes anteriores es igual a 0. Así los coeficientes del componente k están elegidos de tal forma que maximizan la varianza sujetos a la condición de que suman 1 y de estar incorrelados con los coeficientes de los componentes anteriores. Número máximo de componentes El número máximo de componentes principales que se recomienda utilizar para aproximar un conjunto de datos, es la dimensión del conjunto de datos original. Por ejemplo, un conjunto bivariante de datos puede ser representado por un máximo de dos componentes principales y uno de tres variables por tres componentes principales. Cuando el número de componentes principales es igual a la dimensión del conjunto de datos (p), los componentes entonces representan todos los datos originales, y por lo tanto el valor del PVE es un 100%. Sin embargo esto no es un buen método, ya que uno de los objetivos principales del método de análisis de las componentes principales es reducir el número de variables a estudiar. Existen muchas técnicas para decidir el número de componentes a estudiar. Estas son las más relevantes:

• La aproximación pragmática • Cortes numéricos • Método gráfico

. La aproximación pragmática A veces se conoce de antemano el número de componentes a utilizar. Este método se basa en la cantidad de variabilidad capturada por los datos. Si el porcentaje de varianza explicado (PVE) por el número de componentes que se había fijado es alto, entonces se ha decidido correctamente el número final de componentes principales.



Cortes numéricos En lugar de fijar el número de componentes como un primer paso, lo que se realiza es fijar un mínimo de porcentaje de acumulación de varianza total explicada. Por ejemplo, podría fijarse que debe explicarse un total de al menos un 90% de la variabilidad de los datos. Esto puede tener como consecuencia que sea necesario la selección de un número elevado de componentes si cada uno por separado no explica una gran cantidad de la variabilidad de los datos. Una alternativa a este método consiste en imponer que cada componente deba explicar al menos un mínimo de la variabilidad y desechar aquellos que no llegan a este mínimo. Normalmente si se usa este método el mínimo a explicar se fija en alguno de estos casos:

• El mínimo de las varianzas de las variables del estudio. • El máximo de las varianzas de las variables del estudio. • El valor de la semisuma del máximo y el mínimo. • El valor de la media de todas las varianzas

Si los datos están estandarizados todos los métodos coinciden. Este método se califica como el criterio de Kaiser, ya que fue él quien lo sugirió por primera vez. Método gráfico Existe una corriente teórica sobre el análisis de los datos multivariantes que sostiene que la mejor estructura está en una dimensión baja, es decir con la inclusión de pocas componentes en el resultado final. Las dimensiones “extras” solo aportan ruido. Por lo tanto se asume que los componentes relevantes son aquellos que contribuyen explicando una gran cantidad de varianza. Este problema queda delimitado a encontrar el punto en el que las dimensiones “extra” solo aportan ruido No sé recomienda identificar este punto numéricamente, ya que este procedimiento suele conducir a errores. La decisión final se toma apoyándose en un gráfico, como se estudiará posteriormente. 5.3. Análisis factorial 5.3.1 Conceptos previos El análisis factorial proporciona la estructura interna de un conjunto de variables, creando una estructura más simple, con menos dimensiones y que



proporcione la misma información que el conjunto original. Además simplifica de tal modo el conjunto de variables que elimina aquellas que sean redundantes y no aporten mucha información. Para realizar un análisis factorial es imprescindible que se verifiquen una serie de condiciones que se exponen a continuación:

1) La selección de variables debe formar un conjunto correlacionado. 2) Las variables deben estar en escala métrica. 3) Han de considerarse un mínimo de 100 casos.

5.3.2. Etapas de un análisis factorial Las etapas de un análisis factorial son las siguientes:

1) Calcular la matriz de correlaciones entre todas las variables (conocida habitualmente como matriz R).

2) Extracción de los factores necesarios para representar los datos. Análisis de la matriz de cargas.

3) Rotación de los factores con objeto de facilitar la interpretación. Representación gráfica.

4) Calcular las puntuaciones factoriales de cada individuo. Matriz de correlaciones El primer paso en el Análisis Factorial es calcular la matriz de correlaciones entre todas las variables que entran en el análisis. Una vez que se dispone de esta matriz se examina para comprobar si cumple las condiciones para aplicar esta técnica es decir que las variables estén altamente correlacionadas. También se recomienda la presencia de datos heterogéneos, ya que si son homogéneos no tiene ningún sentido estudiarlos, al contener poca información. Extracción factores La extracción implica decidir el método que se utiliza. En este sentido, existen tres principalmente:

1) Factorial por componentes principales 2) Factorial Común 3) Criterios de información



El primero de ellos explora toda la varianza de cada una de las variables, estudiando lo que es común a otras y lo que no. Esta es la mejor opción cuando se busca una reducción de datos. El método factorial común solo explora de cada variable la varianza común al resto de las variables y se recomienda en conjuntos de datos en los que se quiere reducir la dimensión. El tercero método, engloba a su vez muchos otros métodos. Se trata de fijar un criterio a priori y luego captar una cantidad razonable de información. Los criterios más comunes son: por el valor autovalores, utilidad práctica… Rotacion factores La matriz de cargas relaciona factores y variables para aproximarnos a su significado. Existen dos tipos de rotaciones fundamentales para extraer los resultados que son la rotación ortogonal y las rotaciones oblicuas. Puntuaciones de factores Finalmente, se realiza un análisis de las puntuaciones de los factores y en función de sus coeficientes se valora el peso que cada uno adquiere, considerando más importantes aquellas variables con mayor puntuación en el factor. 5.4. Caso práctico En los años 1900 un investigador interesado en la teoría de las matemáticas, estudió la habilidad de los varones en esta ciencia en un colegio público. Los niños realizaron tres exámenes en tres ramas de las matemáticas distintas: uno que se basaba en geometría, otro en aritmética y el último en álgebra. Para puntuar los exámenes, el investigador se basó en el procedimiento intelectual que cada alumno usó para responder las preguntas. Así se obtuvo una calificación para 83 alumnos entre 13 y 18 años. Los datos que se manejan en este estudio están compuestos por 5 variables. La variable hombre identifica al sujeto del que se extraen los datos, la variable edad, representa la edad de cada sujeto y finalmente, las calificaciones correspondientes a las tres ramas matemáticas. En primer lugar se obtiene la matriz de covarianzas y la matriz de correlaciones para la habilidad matemática. Para la obtención de la matriz de correlaciones con respecto a las tres calificaciones se procede de la siguiente forma:



Se selecciona la opción bivariadas del menú correlaciones del menú analizar y en el cuadro de diálogo correspondiente se introducen las variables edad, geometría, aritmética y algebra.

Antes de Aceptar el cuadro de diálogo obtenido, se debe comprobar que las siguientes opciones están seleccionadas:

• Coeficiente de Pearson, • Test bilateral • Correlaciones significativas

Se selecciona el coeficiente de Pearson, ya que todas las variables son continuas. El test es bilateral, ya que no tenemos más información previa que la expuesta más arriba. Finalmente se selecciona la opción de correlaciones significativas, para que el programa marque aquellas cuyo resultado sea significativo.



El resultado obtenido es el siguiente:

Correlaciones

edad geometria aritmetica algebra

edad Correlación de Pearson 1 ,099 ,002 ,169

Sig. (bilateral) ,371 ,988 ,128

N 83 83 83 83

geometria Correlación de Pearson ,099 1 ,540** ,548**

Sig. (bilateral) ,371 ,000 ,000

N 83 83 83 83

aritmetica Correlación de Pearson ,002 ,540** 1 ,668**

Sig. (bilateral) ,988 ,000 ,000

N 83 83 83 83

algebra Correlación de Pearson ,169 ,548** ,668** 1

Sig. (bilateral) ,128 ,000 ,000

N 83 83 83 83

**. La correlación es significativa al nivel 0,01 (bilateral).

La tabla muestra el coeficiente de Pearson para cada par de variables seleccionadas. Además el programa SPSS realiza un test de hipótesis bilateral de los coeficientes, considerando como hipótesis nula que el valor de la correlación es cero, y distingue aquellos resultados significativos mediante dos asteriscos. En la última fila de cada celda se encuentra el valor correspondiente al número de datos con los que se han realizado estos cálculos. En el ejemplo, el coeficiente de correlación entre geometría y álgebra esde 0,548 y el p-valor correspondiente al test previamente explicado, obtuvo un valor de 0,000, es decir un p-valor menor de 0,0005. Este coeficiente significativo es bastante alto y se puede afirmar que existe una tendencia directa entre las dos variables (al aumentar una aumenta la otra). El programa SPSS marca aquellas correlaciones en las que el p-valor es menor que 0,01. El p-valor no se calcula en los casos en los que se realiza el coeficiente de correlación entre una variable y ella misma. A continuación se obtiene la matriz de covarianzas. EL procedimiento es el siguiente:



Se obtiene el cuadro de diálogo de Correlaciones bivariadas tal y como se explicó anteriormente y se pulsa el botón de Opciones. A continuación se selecciona la opción “productos cruzados diferenciales y covarianzas” en el área reservada a estadísticos. Finalmente se pulsa continuar y se Acepta en el cuadro de diálogo anterior.

La tabla obtenida contiene tanto los parámetros de la anterior tabla (coeficiente de correlación, test del coeficiente y número de datos total de la muestra) además de incluir en cada celda un dato nuevo que expresa la covarianza entre las dos variables correspondientes. Como el coeficiente de correlación y el de covarianza no coinciden, se afirma que los datos no están estandarizados.



Correlaciones

edad geometria aritmetica algebra

edad Correlación de Pearson 1 ,099 ,002 ,169

Sig. (bilateral) ,371 ,988 ,128

Suma de cuadrados y

productos cruzados

119,400 248,487 4,041 394,616

Covarianza 1,456 3,030 ,049 4,812

N 83 83 83 83

geometria Correlación de Pearson ,099 1 ,540** ,548**

Sig. (bilateral) ,371 ,000 ,000

Suma de cuadrados y

productos cruzados

248,487 52282,916 27114,651 26839,060

Covarianza 3,030 637,597 330,666 327,306

N 83 83 83 83

aritmetica Correlación de Pearson ,002 ,540** 1 ,668**

Sig. (bilateral) ,988 ,000 ,000

Suma de cuadrados y

productos cruzados

4,041 27114,651 48292,410 31468,964

Covarianza ,049 330,666 588,932 383,768

N 83 83 83 83

algebra Correlación de Pearson ,169 ,548** ,668** 1

Sig. (bilateral) ,128 ,000 ,000

Suma de cuadrados y

productos cruzados

394,616 26839,060 31468,964 45896,386

Covarianza 4,812 327,306 383,768 559,712

N 83 83 83 83

**. La correlación es significativa al nivel 0,01 (bilateral).

En el ejemplo, la covarianza de geometría vs geometría es de 637,597. El siguiente paso consistirá en extraer los componentes principales de estos datos. Por defecto el programa estandariza las variables al realizar un Análisis de componentes principales.



Se realiza el Análisis de los componentes principales de la forma siguiente: 1) Seleccionar la opción Factor del menú de reducción de datos situado en el menú de analizar.

Introducir las variables que quieren analizarse en la opción Variables del cuadro de diálogo obtenido. En este caso se introducen las siguientes:

• Edad • Aritmética • Geometría • Álgebra.



Finalmente se pulsa Aceptar en el cuadro de diálogo. Se obtienen un total de tres tablas, la primera de ellas, correspondiente a las Comunalidades. En esta tabla se comprueba que efectivamente el Análisis de los Componentes Principales se ha realizado sobre las variables estandarizadas, ya que en la columna de Inicial se representan los valores de la varianza inicial, que en este caso corresponden a uno. La segunda columna corresponde a la cantidad de variabilidad explicada de cada una de estas variables por le modelo que se expone a continuación.

Comunalidades

Inicial Extracción

edad 1,000 ,990

geometria 1,000 ,653

aritmetica 1,000 ,779

algebra 1,000 ,772

Método de extracción: Análisis de

Componentes principales.

La siguiente tabla está compuesta por dos partes fundamentales; una de “Autovalores iniciales” y otra de “Sumas de las saturaciones al cuadrado de la extracción”. Las cuatro filas existentes, representan los cuatro componentes principales extraídos de los datos. En la primera columna se encuentra la magnitud de la varianza del componente de la fila correspondiente. Por ejemplo, la varianza del primer componente es 2,193 y la del segundo componente es de 1,001. Nótese que la suma de los valores de esta primera columna es cuatro tal y como se esperaba, ya que se manejan un total de 4 variables que al estar estandarizadas la sumas de sus varianzas es esa cantidad. 2,193+1,001+0,495+0,311=4,00 Las columbras restantes, exponen el porcentaje de la varianza explicada por cada componente principal y la cantidad de varianza acumulada explicada respectivamente. Este último valor corresponde a la suma del porcentaje de la varianza explicada por el componente correspondiente y todos los anteriores. Así en el caso del tercer componente el total de varianza acumulada explicada correspondería a la suma de 54,827+25,019+12,379=92,224.



Y si uno decidiera quedarse con los tres primeros componentes principales se explicaría un 92,224% de toda la variabilidad de los datos. La segunda parte de la tabla representa las “Sumas de las saturaciones al cuadrado de la extracción”. Las entradas correspondientes a los dos primeros componentes principales son las mismas que las que se encuentran en las columnas correspondientes a “autovalores”, no así en el caso de los otros dos componentes. La razón fundamental por la que esto es así es que según el criterio utilizado (criterio de KAISER) no se han considerado relevantes las dos últimas componentes. Solo se han seleccionado, por tanto aquellos componentes con varianza mayor que uno. El tercero por tanto queda desechado por tener una varianza de 0,495<1 y análogamente sucede con el último componente principal. En este modelo, con las dos primeras componentes se explica un total del 79,845% de la variabilidad de los datos originales.

Varianza total explicada

Compo

nente

Autovalores iniciales

Sumas de las saturaciones al cuadrado de la

extracción

Total

% de la

varianza % acumulado Total

% de la

varianza % acumulado

1 2,193 54,827 54,827 2,193 54,827 54,827

2 1,001 25,019 79,845 1,001 25,019 79,845

3 ,495 12,379 92,224

4 ,311 7,776 100,000

Método de extracción: Análisis de Componentes principales.

En la última tabla se encuentran representadas las cargas o coeficientes asociados a los dos componentes principales extraídos. La primera columna determina las cargas asociadas al primer componente principal y la segunda las correspondientes al segundo componente principal, como no se han incluido más componentes principales, no hay más columnas. SPSS es un programa que a diferencia de la mayoría, calcula las cargas de una manera especial y además ordena las variables según su peso por ello ha de tenerse cuidado con cómo se analizan.



Matriz de componentesa

Componente

1 2

edad ,192 ,976

geometria ,807 -,042

aritmetica ,857 -,212

algebra ,878 ,031


componentes principales.

a. 2 componentes extraídos La condición impuesta en los coeficientes del k componentes principales era:

1 p

1j

2 =∑=

kjα

Sin embargo SPSS calcula los coeficientes de la forma siguiente. Impone que la suma al cuadrado sea igual a la varianza en vez de igual a uno. Es decir

)( p

1j

2*kkj YY=∑

=

α .

Si se quieren obtener los coeficientes tal y como se explicaron anteriormente basta dividirlos con la raíz de la varianza de ese componente

)(

*

k

kjkj YV

αα =

Entonces los coeficientes del primer componente principal vienen determinados como sigue:



( )0,130 0,593, , 0,579 , 545,0

193,2192,0 ,

193,2878,0 ,

193,2857,0 ,

193,2807,0

)( ,

)( ,

)( ,

)() , , ,(

1

*14

1

*13

1

*12

1

*11

14131211

=

=

=

=

YVYVYVYVαααα

αααα

Ya se ha analizado la extracción de los componentes principales. Supóngase ahora que la calificación final de las tres áreas descritas anteriormente proviene de otras que se midieron a priori. Por ejemplo el área de geometría se compuso por cuatro competencias, la aritmética por tres y finalmente el álgebra por dos. En la nueva base de datos se presentan todas las variables anteriores y además las nuevas descritas y de las cuales se obtuvieron las principales. Se obtienen en primer lugar los componentes principales de las 9 competencias que forman las 3 áreas descritas y a continuación se obtiene la gráfica de los componentes principales. Los pasos son los siguientes:

1) Obtener el cuadro de diálogo de análisis factorial 2) Pulsar reset para asegurarnos que el programa no toma como valores

iniciales los calculados en tareas anteriores 3) Introducir las variables A..I en el cuadro de dialogo en la zona de las

variables 4) Pulsar el botón de extracción y observar como se abre el cuadro de

diálogo de extracción 5) Seleccionar la opción de gráfico de sedimentación. No cambiar las

demás opciones



6) aceptar ambos cuadros. El gráfico de sedimentación es el siguiente. En el eje de la Y se observa la palabra “autovalores”; este es un término que usa SPSS para describir la varianza de un componente principal. En el gráfico se observa que la varianza disminuye considerablemente entre el componente uno y dos. Después, empieza a decaer de manera más suavizada. En la segunda componente se observa que hay un codo. Esto nos determinará que dos es el número de componentes principales a tener en cuenta.

Ya se estudio la interpretación de los principales componentes cuando los datos se encuentran estandarizados. Se obtiene los coeficientes de los tres primeros componentes. Para realizar esto se procede de la forma siguiente:

1) Se obtiene el cuadro de diálogo de Factor análisis. 2) Se incluyen las variables de A hasta I en el área de Variables 3) Se pulsa extracción y se obtiene un nuevo cuadro de diálogo. 4) Se deselecciona el gráfico de sedimentación que estará marcado por el

ejercicio anterior y en el área de extracción se cambia el valor a tres, pues queremos extraer tres componentes principales y sino solo obtendremos dos.



Como la dimensión de los datos es nueve, se podían haber seleccionado hasta 9 componentes principales para extraer. Si se seleccionan más de 9 SPSS no tiene en cuenta este número y aplica el criterio de KAISER. Finalmente se acepta el último cuadro de diálogo. Se obtienen tres tablas:

• tabla de comunalidades • tabla de la varianza total explicada • tabla con la matriz de los componentes

En la primera de ellas, la tabla de las comunalidades, se obtienen las 9 variables con su varianza y la variabilidad explicada de cada una de ellas. En la segunda tabla, la correspondiente a la varianza total explicada, se observa como esta vez sí se han incluido tres componentes principales, y hay tres filas rellenas en las columnas correspondientes a “Sumas de las saturaciones al cuadrado de la extracción”. Con este modelo se explica un total de un 82,764% de la variabilidad de los datos. Finalmente la tercera tabla expone las cargas o coeficientes de los tres componentes. Estos son los siguientes:



Matriz de componentesa

Componente

1 2 3

A ,811 ,416 ,017

B ,514 ,694 -,005

C ,864 ,376 -,006

D ,728 ,271 ,191

E ,785 -,399 ,334

F ,778 -,358 ,332

G ,754 -,310 ,208

H ,806 -,247 -,489

I ,758 -,253 -,564


componentes principales.

a. 3 componentes extraídos

Las cargas del tercer componente son pequeñas en valor absoluto para las variables A, B, C y D que corresponden a la habilidad geométrica. Los coeficientes de E, F y G correspondientes a la habilidad aritmética son positivas, y aquellas correspondientes a la habilidad aritmética son negativas, Por lo tanto se concluye que la tercera componente principal contrasta la habilidad algebraica y la habilidad aritmética. Extracción de los componentes principales A continuación se usa el programa SPSS para extraer los tres componentes principales, que se guardarán y finalmente se representarán gráficamente. Se obtiene el cuadro de diálogo de análisis Factorial como ya se ha descrito y se pulsa la opción puntuaciones. Se obtiene como resultado un nuevo cuadro de diálogo denominado “Factor Análisis: Puntuaciones factoriales” y se selecciona la opción guardar como variables. A continuación se activa la opción correspondiente a “método”. Debido a que para el análisis de componentes principales resulta irrelevante que método se aplique, no modificaremos nada, dejando las que el programa tiene seleccionadas por defecto.



Finalmente, se pulsa Continuar en este cuadro de diálogo y se Acepta el cuadro de diálogo de Análisis Factorial. Como resultados se obtienen las tres tablas anteriores ya conocidas. Sin embargo si se observa la ventana de los datos se comprueba que se han incluido tres nuevas variables. Estas tres variables corresponden a los tres componentes principales y se han creado bajo los nombres: -FAC1_1 correspondiente al primer componen principal. -FAC2_2 correspondiente al segundo componente principal. -FAC3_3 correspondinete al tercer componente principal.

Se recomienda en este paso cambiar los nombres de las variables a pc1, pc2 y pc3 además de cambiar los decimales de cinco a dos para facilitar los cálculos posteriores. Finalmente se obtiene la matriz de dispersión para estas tres variables;PC1, Pc2 y Pc3.



Esta matriz explica casi el 83% de toda la varianza presente en los datos originales de dimensión 9 .En estos nuevos gráficos es mucho más fácil encontrar valores anómalos que en las diez variables originales de las que se había partido. Como los dos primeros componentes eran los que más variabilidad de los datos explicaban, se recomienda fijarse especialmente en este diagrama de dispersión, pues de los anteriores es el que más variabilidad explica de los datos.



6. ANÁLISIS DE CLÚSTER O CONGLOMERADOS

6.1. Conceptos teóricos Cuando se esté frente a la situación en que se tiene un conjunto de datos multivariantes y se desee formar grupos en función del valor de una variable en estos conjuntos, entonces se usará el análisis de conglomerados, o clusters en inglés. Estos grupos se determinarán o bien debido a una característica que los identifique o con un significado determinado. En la mayoría de estos casos, esta técnica solo será un apoyo previo al tratamiento de los datos para lograr una compresión mejor de ellos. El análisis clúster tiene mucha importancia en algunas disciplinas como pueden ser la psicología y otras ciencias sociales como la biología, la medicina, el medio ambiente, la informática o el data mining. Pueden utilizarse para aplicaciones como reconocimiento de formas, mapas temáticos (GIS), segmentación de clientes, clasificación de documentos, etc. También tienen aplicaciones muy interesantes en Data Mining como son la exploración de datos para la segmentación y búsqueda de outliers o valores anómalos y puede usarse en la etapa del preprocesamiento de los datos con el objetivo de la reducción de los datos. Esta técnica multivariante permite agrupar conjuntos de datos multidimensionales logrando la máxima homogeneidad en cada grupo y las mayores diferencias entre los grupos. A mayor similaridad entre los elementos del clúster y mayor diferencia entre los elementos de conglomerados distintos, mayor será la separación que se encontrará entre distintos conglomerados. En muchas ocasiones los conglomerados no estarán bien definidos. El análisis de conglomerados también permite agrupar variables, no solo objetos, y puede realizarse tanto para variables cuantitativas como cualitativas. Para lograr este objetivo, se usan principalmente algoritmos jerárquicos acumulativos que no asumen ningún modelo estadístico para los datos, es decir empiezan sin ninguna hipótesis y a posteriori van formando grupos de conglomerados cada vez más grandes. Existen otros tipos de algoritmos para conseguir la agrupación de los grupos, en los que se asume un modelo definido para los datos. En el caso de los modelos jerárquicos los datos se ordenan en niveles de tal manera que los niveles superiores contienen a los niveles inferiores. La jerarquía construida permite también la obtención de grupos. El análisis conglomerado se representa mediante los dendogramas. Estos son representaciones gráficas en forma de árbol que resumen el proceso de agrupación en un análisis de conglomerados. Los objetos similares se conectan mediante enlaces cuya posición en el diagrama está determinada por el nivel



de similitud/disimilitud entre los objetos. Este tipo de gráficos favorece la compresión del análisis. Estos análisis suelen combinarse con otras técnicas que se estudian a posteriori, que homogeneizan los datos, como etapa previa a la utilización de esta técnica. 6.2. Distancia y similaridad Existen muchas medidas definidas para medir las similitudes y diferencia entre los conglomerados o grupos formados. Las más relevantes son las siguientes:

• Euclidea • Manhattan • Distancia de Power • D2 de Mahalanobis

Euclidea La distancia Euclídea (para "t" variables) se define de la forma siguiente:

∑=

−=t

kjkikij XXd

1

2)(

Esta distancia presenta dos inconvenientes: 1) Es una distancia sensible a las unidades de medida de las variables. Aquellas variables con valores altos contribuirán en mayor medida que las diferencias entre los valores de las variables con valores bajos. Como consecuencia de ello, los cambios de escala determinarán, también, cambios en la distancia entre los individuos. Una posible solución de este problema es la tipificación previa de las variables, o la utilización de la distancia euclídea normalizada. 2) El segundo inconveniente no se deriva directamente de la utilización de este tipo de distancia, sino de la naturaleza de las variables. Si las variables utilizadas están correlacionadas, estas variables nos darán una información, en gran medida redundante. Parte de las diferencias entre los valores individuales de algunas variables podrían explicarse por las diferencias en otras variables. Como consecuencia de ello la distancia euclídea inflará la disimilaridad o divergencia entre los individuos.



Distancia de Manhattan La distancia de Manhattan (o función de la distancia absoluta, o City-Block) viene expresada como:

∑=

−=t

kjkikij XXd

1

Tiene como gran inconveniente que no es recomendable su uso cuando existe una gran colinealidad en los datos. En SPSS esta medida aparece con el nombre de Block. Distancia de Power La distancia de Power en SPSS aparece como ”distancia Power”. Su variante más clásica es la de Minkowski que ocurre cuando (s=r).

( )rt

k

sjkikij XXd

1

1

−= ∑

= Y en particular la de Minkowski:

( )rt

k

rjkikij XXd

1

1

−= ∑

=

Distancia de Mahalanobis Sean Xi y Xj matrices fila de dimensiones (1 x p) de observaciones para cada sujeto y Σ la matriz de varianzas - covarianzas de las variables consideradas, entonces se define la distancia D2 de Mahalanobis de la forma siguiente:

( ) ( )jijiij XXXXd −′−=−∑ 1

Esta distancia tiene dos ventajas con respecto a las demás: 1. Suaviza el problema de la diferencia de unidades en la medida en que cada variable que se introduce en el cálculo de la distancia es corregida por su variabilidad (función del tamaño). 2. Elimina la información que es redundante. Esta sería la distancia que mejor funciona cuando se presenta un problema de elevada multicolinealidad.



Distancia de Correlación Esta distancia se basa en la correlación existente entre individuos y por tanto se trata de calcular el coeficiente de correlación entre los objetos. Cuando esta es alta hay más parecido entre los sujetos y viceversa. Los principales inconvenientes de esta distancia es que solo se puede calcular en escalas métricas. Existen muchas otras medidas de distancia o similitud cuando la variable es cualitativa que se muestran en el ejemplo siguiente. La distribución de la muestra es la siguiente:

VARIABLE INDIVIDUO A B C D E I 1 0 0 1 1 J 1 1 0 1 1 K 0 1 1 0 1

Además: (a) si los individuos I y J tienen la variable, (b) si el individuo I tiene la variable y J no, (c) el individuo J tiene la variable e I no, (d) los individuos I y J no tienen la variable y p = a + b + c + d Entonces se definen las siguientes medidas:

• SEMEJANZA SIMPLE: (a+d) /p • JACARD: a / (a+b+c) • RUSSELL Y KAO: a/p

6.3. Procedimientos Existen diversos algoritmos para componer los distintos conglomerados. El algoritmo ideal tendrá las siguientes propiedades:

• Buenos resultados para distintos tipos de datos. • Identificación de conglomerados con formas arbitrarias. • Tolerancia frente al ruido y a los outliers.



• Independencia con respecto al orden de presentación de los datos. • Posibilidad de trabajar en espacios con muchas dimensiones diferentes • Capacidad de incorporar restricciones especificadas por el usuario • Facilidad de Interpretabilidad y de Usabilidad

Sin embargo, es muy complicado encontrar un algoritmo concreto que cumpla las propiedades descritas previamente. Entre los tipos de algoritmos que existen, estos son los más importantes:

• Algoritmos secuenciales • Algoritmos jerárquicos • Algoritmos de optimización de una función coste. • Otros tipos de algoritmos

Algoritmos secuenciales En este tipo de algoritmo se define en primer lugar una medida de dissimilaridad y un threshold (“umbral”) de disimilitud θ. Se considera que la primera observación forma por si sola un clúster y luego se estudia una segunda observación. Se calcula la distancia de similaridad de esta observación con respecto al clúster inicial. Si excede a θ entonces se crea un segundo clúster, de lo contrario pasa a formar parte del primer clúster. A continuación se siguen considerando una por una las restantes observaciones y en cada paso o se crea un nuevo clúster o se asigna la observación a un clúster ya existente, dependiendo del valor de la distancia de disimilaridad. En estos algoritmos no se requiere proporcionar el número de conglomerados a formar pero estos sí que están afectados por el orden en que entran las observaciones. El método es especialmente sensible al valor del threshold θ. El dendograma que describe el proceso es similar al siguiente: p4p1 p2 p3



En el dendograma se observa que ambos “brazos” están a la misma altura, a diferencia de lo que ocurrirá en el algoritmo jerárquico. Dependiendo de en qué etapa detenga el proceso, obtendremos un número distinto final de conglomerados. Para conocer cuántos conglomerados se tienen, el dendograma suele representarse junto a una escala de tiempo o etapas del procedimiento. Seleccionado en qué momento se está, se trazaría una recta horizontal y en el momento ti y se observaría cuantos clusters hay en ese momento. Algoritmos jerárquicos. Se pueden definir dos tipos distintos según vaya aumentando o disminuyendo el número de conglomerados. Son los siguientes:

• Algoritmos jerárquicos aglomerativos. • Algoritmos jerárquicos divisivos.

A) Algoritmos jerárquicos aglomerativos: Este tipo de algoritmos producen una sucesión de conglomerados de tal manera que en cada paso el número de conglomerados va disminuyendo. Son algoritmos del tipo “botton-up”. Inicialmente se empieza con conglomerados que consisten de un solo elemento. Los conglomerados de un paso dado son obtenidos al combinar dos conglomerados del paso anterior. Los criterios más usados para unir los distintos conglomerados son los siguientes:

• Método de las distancias mínimas (basado single link): Se busca la mayor semejanza entre los elementos o grupos más cercanos.

• Método de las distancias máximas (basado en complete link):Sse calcula

la mínima distancia entre los elementos más alejados.

• Método de las distancias medias: Se calcula la media de las distancias entre elementos

• Método de Ward: Los nuevos conglomerados se crean de tal manera de

que se minimice la suma de cuadrados total de las distancias dentro de cada cluster.

Todos estos criterios usan una medida de disimilitud entre vectores. Los algoritmos jerárquicos aglomerativos son los más usados para construir conglomerados y están disponibles en la mayoría de los programas



estadísticos. También son los más rápidos computacionalmente, ya que utilizan menos espacio y memoria del ordenador. El dendograma que describe estos procesos es similar al siguiente: B) Algoritmos jerárquicos divisivos: Este tipo de algoritmos también producen una sucesión de conglomerados pero a diferencia de los aglomerativos donde el número iba decreciendo, aquí el número de conglomerados crece en cada paso. Son algoritmos del tipo “top-down”. En estos algoritmos inicialmente se empieza con un solo conglomerado que contiene a todas las observaciones y los conglomerados obtenidos en cada iteración son la consecuencia de dividir en dos un conglomerado del paso anterior. Este tipo de algoritmo suele tener una complejidad computacional mayor que la anterior (tardan más y gastan más memoria). Los principales algoritmos divisivos son los siguientes:

• Por cálculo iterativo de centros • Monothetic • IPolythetic

Algoritmos basados en optimización de una función costo: Estos algoritmos requieren la decisión previa del número de clústeres que se desea obtener y además ha de haberse definido previamente una función costo, donde a cada clúster se le asigna un costo que depende básicamente de un representante del clúster y de una medida de disimilaridad que mide la distancia entre los posibles elementos del clúster y su representante. Existen muchas versiones de estos tipos de algoritmos. Mencionaremos algunos de ellos.

p4p1 p2 p3



Algoritmos “hard” (duros). Estos algoritmos consideran que una observación pertenece exclusivamente a un clúster. Ejemplos de estos algoritmos es por ejemplo el algoritmo k-means, conocido también con el nombre de C-Means o Isodata y que se estudiará más adelante. Algoritmos probabilisticos. Este tipo de algoritmos siguen argumentos bayesianos de clasificación y una observación es asignada a un conglomerado C, para la cual la probabilidad posterior P(C/x) es máxima. Un ejemplo de estos algoritmos es el algoritmo de mezclas. Algoritmos difusos. Se considera que una observación puede pertenece a un conglomerado, pero solo con un porcentaje un ciento por ciento. De todos estos tipo de algoritmos el más usado es el algoritmo k-means que será explicado a continuación. Algoritmo k-means (MacQueen, 1967). El objetivo del algoritmo k-means es identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos. Podemos decir que tiene una naturaleza particional, en el sentido que crea subparticiones de la muestra con las que elabora los conglomerados. En un principio cada conglomerado está enfocado a un punto al que se denomina centroide, y cada punto se asignará al conglomerado con el centroide más cercano. El algoritmo requiere que el usuario especifique previamente el número de conglomerados a calcular y además permite especificar los centros iniciales de los conglomerados si se conoce de antemano dicha información. Si no se conocen los centroides lo más frecuente es tomar como punto inicial de los centroides uno de los siguientes:

• Las primeras k observaciones.



• Elegir aleatoriamente k observaciones. • Tomar cualquier partición al azar en k conglomerados y calculando sus

centroides. Los programas que usan este tipo de algoritmo en general permiten la elección de uno de los dos métodos disponibles para clasificar los casos: La actualización de los centros de los conglomerados de forma iterativa La clasificación de los datos. Asimismo, pueden guardar la pertenencia a los conglomerados, información de la distancia y los centros de los conglomerados finales. La distancia que más se utiliza cuando se usa este tipo de algoritmos es la euclidea, aunque se permite la utilización de otras. La siguiente expresión determina el error entre el centroide (mi) de cada conglomerado y el punto en cuestión.

∑∑= ∈

=K

i Cxi

i

xmdistSSE1

2 ),(

El punto será asignado al conglomerado correspondiente al ci que proporcione menos error. Por supuesto esta medida variará en función del número de conglomerados de tal manera que cuanto más se introduzcan en el análisis, el SSE global será más pequeño. El algoritmo es el siguiente: INPUT: Un conjunto de datos S y k número de clúster a formar; OUTPUT: L una lista de los conglomerados en que caen las observaciones de S Paso 1. Seleccionar los centroides iniciales de los k conglomerados: c1,c2, ..., ck. Paso 2: Asignar cada observación x del conjunto de datos al clúster cuyo centroide está más cerca a x. Paso 3. Volver al paso 2 hasta que se consiga convergencia o hasta que se cumpla un criterio de parada. Paso 4. Recalcular los centroides de los nuevos conglomerados. El algoritmo anterior se detiene o bien cuando se ha cumplido un criterio previamente determinado, como puede ser por ejemplo un número máximo de iteraciones. Otra de las razones por las que el algoritmo se detiene es porque se consigue convergencia. La convergencia de alcanza cuando la solución anterior y la nueva propuesta por el algoritmo difieren en una cantidad muy pequeño.



Algunas de las desventajas de utilizar este método es que puede dar resultados erróneos en los siguientes casos:

• El tamaño de los clústeres no es el mismo • Los conglomerados son de distinta densidad, • Los conglomerados no tiene formas regulares • Los datos presentan muchos outliers o valores anómalos

Un ejemplo de un caso en el que este algoritmo no produce un resultado óptimo, es el siguiente: A continuación se muestran los dos conglomerados antes de aplicar el algoritmo de k-medias

Y este es el resultado después de ultilizar el algoritmo:

Tras aplicar el algoritmo se han obtenido dos nuevos conglomerados. Este nuevo resultado no es óptimo, el resultado óptimo es el resultado del que se ha partido antes de aplicar el algoritmo de las k-medias. Este es un ejemplo en el que este algoritmo no proporciona el mejor resultado. Una variante del algoritmo que permite arreglar los problemas mencionados previamente es re-calcular el centroide de cada clúster, una vez que se le



asignado un punto nuevo, en vez de recalcular el centroide al final. Este algoritmo es más eficiente que el anterior, pero sin embargo es más costoso computacionalmente tanto en memoria como en tiempo. También se puede solicitar los estadísticos F de los análisis de varianza. Aunque estos estadísticos son oportunistas (ya que el procedimiento trata de formar grupos que de hecho difieran), el tamaño relativo de los estadísticos proporciona información acerca de la contribución de cada variable a la separación de los grupos. 4. Otros Métodos: Otros métodos son los siguientes:

• Métodos “Branch and Bound.” • Algoritmos Genéticos • Simulated annealing (recocido simulado) • Algoritmos de aprendizaje competitivo: SOM

6.4. Etapas Las etapas de un análisis clúster son las siguientes:

1) Selección de la muestra de datos. 2) Selección y transformación de variables a utilizar. 3) Selección de concepto de distancia o similitud y medición de las mismas. 4) Selección y aplicación del criterio de agrupación . 5) Determinación de la estructura correcta (elección del número de grupos). 6) Validación de los resultados.

1) Selección de los datos Durante la etapa de selección de los datos y por lo tanto de la muestra a utilizar es muy importante adecuar al máximo la muestra al objetivo que se persigue y además es recomendable una depuración previa de datos atípicos, ya que nos interesan los grupos, no los datos como elementos individuales. 2) Selección y transformación de variables a utilizar Estas técnicas son muy sensibles a la inclusión de variables. Por lo tanto es recomendable no incluir en el análisis ninguna variable irrelevante, ya que esto



modifica los resultados y además aumenta la probabilidad de obtener datos atípicos. En algunos casos se recomienda una previa transformación de los datos. La trasformación de los datos afectará en mayor o menor medida a la definición de distancia utilizada. Una solución, sobre todo de cara a interpretar el resultado final de un análisis puede ser el de previamente estandarizar las variables, pero no se recomienda realizarlo en el caso de que las diferencias de medidas reflejen alguna cualidad de interés conceptual. En otras ocasiones, será recomendable la utilización de técnicas de agrupación de variables como fase previa, a realizar el análisis clúster. 3) Medidas El tercer paso consiste en definir las medidas de similitud o distancia que se utilizará. Pueden ser medidas de correlación o de distancia. Algunas de estas medidas ya se han descrito en un punto anterior. El resultado final del conglomerado depende radicalmente de la medida de asociación utilizada. Se recomienda, en cada contexto, observar empíricamente esas diferencias. Y comparar el resultado obtenido al menos al utilizar dos de ellas. 4) Selección y aplicación del criterio de agrupación Aunque en la práctica se recomienda utilizar todos los algoritmos disponibles, ya que cada uno puede aportar información, esto no siempre es posible. Por eso se recomiendan técnicas exploratorias para evaluar cual es el mejor en el conjunto de datos a tratar. 5) Número óptimo de grupos No existe ninguna fórmula exacta para determinar el número de clústeres óptimos en un conjunto de datos. Sin embargo es cierto que a medida que se van formando grupos, estos serán menos homogéneos aunque si que proporcionarán una mayor claridad a la estructura final. El objetivo debe ser conseguir un punto de equilibrio tal que los grupos sean lo suficiente homogéneos y la estructura no resulte excesivamente complicada. La decisión final vendrá influida tanto por variables iníciales, como por el significado de cada una las etapas del proceso de agrupación. 6) Validación de los resultados



Para evaluar los distintos métodos se proponen una serie de técnicas de validación de los conglomerados:

1. Determinación de la tendencia de los clústeres en un conjunto de datos; distinguir si existe una estructura no aleatoria en los datos.

2. Comparar los resultados obtenidos mediante esta técnica con resultados reales.

3. Evaluar cuanto de bien los resultados de un análisis clúster encajan en los datos sin ninguna referencia ni información externa.

6.5. Caso práctico: algoritmo k-medias Un operador de telecomunicaciones quiere segmentar su base de clientes según el patrón de uso del servicio, de tal manera que pueda ofrecer a los mejores clientes productos exclusivos. Las variables estandarizadas que indican el uso del servicio están contenidas en telco_extra.sav. Se usará el procedimiento del análisis conglomerado de K-medias para encontrar subconjuntos de similares de clientes. Para ejecutar el análisis conglomerado, se elige la opción conglomerado de k-medias del menú clasificar, dentro del menú analizar. El cuadro de la forma siguiente se rellena como sigue: 1) Seleccionar desde la variable Standardized log-long distance hasta Standardized log-wireless y desde Standardized multiple lines hasta Standardized electronic billing como variables a analizar.

2) Escribir 3 como el número de conglomerados.

3) Pulsar Iterar. A Continuación se obtendrá un nuevo cuadro de diálogo:



Escribir 20 como número de iteraciones y pulsar continuar.

Como conviene analizar las medidas intragrupos y entregrupos se pulsa el botón opciones en el cuadro de diálogo del análisis conglomerado de k-medias. Y se seleccionan las siguientes opciones:

• La tabla ANOVA • Información del conglomerado para cada caso • Centros de conglomerados iniciales

Se decide también que realizar con los valores anómalos. Se selecciona la opción excluir casos según pareja. Se eliminan entonces muchos casos como es lógico puesto que hay muchos valores perdidos debido al hecho de la mayoría de los clientes no subscriben todos los servicios. Finalmente se pulsa continuar, y después Aceptar en el cuadro de diálogo del análisis conglomerado de k-medias.



Se obtiene como solución tres conglomerados, tal y como se ha indicado previamente. Los centros iniciales de los conglomerados son los valores de las variables de las k observaciones.

Centros iniciales de los conglomerados

2,48 -1,70 ,122,34 -,20 -,391,34 -,65 ,592,49 -,86 -1,281,14 -1,75 1,421,05 -,95 1,051,51 1,51 1,511,68 1,68 1,681,31 -,76 1,311,04 1,04 -,961,03 -,97 1,031,01 1,01 -,991,00 1,00 -1,00-,77 -,77 1,30

zlnlongzlntollzlnequizlncardzlnwirezmultlinzvoicezpagerzinternezcallidzcallwaizforwardzconferzebill

1 2 3Conglomerado

Los valores de la tabla representan la media de cada variable dentro de cada conglomerado (inicial). Por defecto, el programa elige casos que sean distintos y usa los valores de estos casos para definir los conglomerados iniciales. Si se especifican los centros de los conglomerados, serían stos los valores que aparecerían en la tabla.



El historial de iteración muestra el progreso del proceso de conglomeración en cada etapa y corresponde a la tabla que se muestra a continuación.

Historial de iteracionesa

3,298 3,590 3,4911,016 ,427 ,931

,577 ,320 ,420,240 ,180 ,195,119 ,125 ,108,093 ,083 ,027,069 ,094 ,032,059 ,051 ,018,035 ,085 ,063,025 ,359 ,333,068 ,439 ,287,079 ,368 ,177,125 ,139 ,078,077 ,096 ,020,041 ,047 ,015,014 ,027 ,000,019 ,038 ,000,000 ,000 ,000

Iteración123456789101112131415161718

1 2 3

Cambio en los centros de losconglomerados

Se ha logrado la convergencia debido a que loscentros de los conglomerados no presentan ningúncambio o éste es pequeño. El cambio máximo decoordenadas absolutas para cualquier centro es de,000. La iteración actual es 18. La distancia mínimaentre los centros iniciales es de 6,611.

a.

En cada iteración, como a los objetos se les reasigna a un conglomerado diferente, los centros de los conglomerados cambian a medida que esto va ocurriendo. Cada valor en la tabla anterior indica la distancia entre el nuevo centro del conglomerado y el centro del conglomerado en la etapa previa. Así, por ejemplo, tras la reasignación de casos producida entre las iteraciones 1 y 2 en el primer conglomerado, la distancia entre el centro de dicho conglomerado tras la iteración 2 es igual a 1,016 con respecto a la iteración anterior, por lo tanto ha habido un cambio importante entre los centros de los conglomerados. Como



la reasignación ha habido un cambio relevante se continua el proceso de reasignación. Cuando el cambio es suficientemente pequeño para todos los conglomerados, el proceso finaliza (ya no se continua iterando), y se alcanza la solución final. En un problema de conglomeración complejo, puede excederse el número máximo de iteraciones antes de alcanzar una solución final estable. Las razones por la que esto ocurre son diversas. Las más frecuentes son las siguientes:

• El número de conglomerados fijado para dividir el grupo sea erróneo, • Las variables elegidas para dividir el grupo no sean las adecuadas, • Haber partido de unos centros equivocados, • Por la complejidad del problema es tan alta que no existe una solución

mejor En nuestro caso, en las primeras iteraciones, los centros de los conglomerados aumentan bastante. En la iteración decimocuarta, se han establecido al área general de su ubicación final, y las últimas cuatro iteraciones son ajustes secundarios. Si el algoritmo finaliza debido a que se ha alcanzado el número máximo de iteraciones, se debe considerar la opción de incrementar el número máximo de iteraciones del algoritmo puesto que la solución obtenida puede ser inestable. En el ejemplo, esto no se ha producido, puesto que, tal y como se muestra en el pie de la tabla, se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio, o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de 0. La iteración actual es la 18. La distancia mínima entre centros iniciales es de 6,611. También se obtiene la siguiente tabla:



Centros de los conglomerados finales

,05 ,22 -,16,24 ,12 -1,05,81 -,19 -,69,17 ,02 -,17,42 -,75 -1,00,48 -,29 -,05

1,26 -,24 -,441,43 -,38 -,44

,81 -,59 -,02,82 ,71 -,81,76 ,72 -,80,78 ,69 -,79,74 ,67 -,75,70 -,63 ,05


1 2 3Conglomerado

La tabla anterior muestra los valores finales de los centros de los conglomerados. Los valores son las medias de cada variable en cada conglomerado final. Los centros de los conglomerados finales reflejan los atributos del caso prototipo para cada conglomerado. Los clientes del conglomerado 1 tienden a ser grandes derrochadores que compran muchos servicios (todos los coeficientes son positivos). Los clientes del conglomerado 2 tienden a ser gastadores moderados que compran los servicios de llamada. Los clientes del conglomerado 3 gastan muy poco y no compran muchos servicios.

Distancias entre los centros de los conglomerados finales

3,500 4,8633,500 3,3964,863 3,396

Conglomerado123

1 2 3

Esta penúltima tabla muestra las distancias euclídeas entre los centros de los conglomerados finales. Así se ve como los conglomerados más alejados entre sí son el primero y el tercero y los más próximos son el segundo y el tercero. Finalmente, se analiza la última tabla, la tabla ANOVA que indica qué variables contribuyen más a la solución de los conglomerados. Es decir cuales pesan



más a la hora de dar una solución. Aquellas variables cuyo valor de la F se grande serán aquellas que proporcionaran una mayor separación entre los conglomerados. Si se observa la tabla, la variable que proporciona mayor separación entre los conglomerados es zcallid, con un F = 802,474, mientras que la que menos es zincard, con un F = 6,402. Cuando una variable tiene un valor para el estadístico F muy pequeño o su p-valor está muy alejado del valor significativo, conviene repetir el análisis cluster pero sin considerar esta nueva variable y después comparar los resultados.

ANOVA

13,063 2 ,976 997 13,387 ,00043,418 2 ,820 472 52,932 ,00099,056 2 ,488 383 202,999 ,000

6,301 2 ,984 675 6,402 ,00252,879 2 ,646 293 81,873 ,00038,032 2 ,926 997 41,084 ,000

236,301 2 ,528 997 447,554 ,000298,992 2 ,402 997 743,348 ,000123,447 2 ,754 997 163,642 ,000308,104 2 ,384 997 802,474 ,000294,674 2 ,411 997 717,172 ,000288,343 2 ,424 997 680,718 ,000262,397 2 ,476 997 551,678 ,000112,782 2 ,776 997 145,381 ,000


Mediacuadrática gl

ConglomeradoMedia

cuadrática gl

Error

F Sig.

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que losconglomerados han sido elegidos para maximizar las diferencias entre los casos endiferentes conglomerados. Los niveles críticos no son corregidos, por lo que no puedeninterpretarse como pruebas de la hipótesis de que los centros de los conglomerados soniguales.

6.6. Ejemplo del Análisis Conglomerado Jerárquico El Análisis Conglomerado Jerárquico es una herramienta exploratoria diseñada para revelar las agrupaciones naturales (los conglomerados o conglomerados) de un conjunto de datos. Es el procedimiento más útil cuando se desea agrupar un número pequeño de objetos. Los objetos en el análisis conglomerado jerárquico pueden ser casos o variables, dependiendo de si se desea clasificar casos o examinar relaciones entre las variables.



Un fabricante de automóviles de una marca conocida de automóviles desea hacer un estudio del mercado para determinar la probable competencia para sus vehículos. Quiere conocer si es posible agrupar los coches de acuerdo a los datos disponibles. La información para los distintos modelos de coches está contenida en el fichero car_sales.sav. Contenida en el programa SPSS. Se usará el procedimiento de Análisis Conglomerado Jerárquico para agrupar los automóviles de mayores ventas de acuerdo a sus precios y propiedades físicas. En primer lugar se abre el fichero car_sales.sav que se encuentra en el directorio del programa SPSS.

Como hay muchos datos, el primer paso consiste en reducir la dimensión para que los datos no relevantes no modifiquen la solución. Los casos elegidos para el análisis de conglomerados se seleccionan eligiendo la opción seleccionar casos del menú datos:

Una vez abierto el cuadro de diálogo, como los datos más interesantes son aquellos que representan a los automóviles que más se han vendido, se realiza un filtrado de los datos, para así seleccionar únicamente estos casos. Para ello, Seleccionar si se satisface la condición. Y pulsar en “Si…” Teclear en el campo de texto, (type=0) & (sales>100). Pulsar continuar y aceptar en el cuadro de diálogo de Seleccionar Casos.



De esta forma de todos los datos originales se han seleccionado únicamente los datos de aquellos automóviles de los que al menos haya habido 100000 unidades vendidas.

Una vez seleccionados los casos, se realiza el análisis conglomerado. Se selecciona la opción conglomerados jerárquicos del menú clasificar situado dentro del menú analizar. En la tabla de dialogo resultante se selecciona desde la variable “Price in thousands” hasta la variable “Fuel efficiency” como variables del análisis, y se Etiquetan los casos mediante la variable “Model”.



El dendograma es un diagrama, que describe el proceso de creación de conglomerado y en la mayoría de las ocasiones sirve de gran ayuda para entender el proceso. Para obtenerlo, se pulsa la opción Gráficos… y se selecciona Dendrograma. También se selecciona “Ninguno” en el diagrama de Témpanos. Y se pulsa Continuar.



El siguiente paso es seleccionar el método que queremos utilizar para elaborar los conglomerados o conglomerados. Los distintos métodos pueden elegirse en el cuadro de diálogo que se obtiene al pulsar la opción Método… del cuadro de diálogo del Análisis Conglomerado Jerárquico. Se utilizará el método de conglomeración del Vecino más Próximo y además se seleccionan las puntuaciones Z como el método de estandarización el grupo de Transformar Valores. Finalmente se pulsa en Continuar.

Y finalmente se acepta el cuadro de diálogo del análisis de conglomerado jerárquico.

El dendograma es el resumen gráfico de la solución conglomerado y se muestra en la página siguiente:



* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Single Linkage

Rescaled Distance Conglomerado Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

Accord 8

Camry 11

Malibu 2

Grand Am 9

Impala 3

Taurus 5

Mustang 4

Focus 6

Civic 7

Cavalier 1

Corolla 10

Los casos se enumeran a lo largo del eje vertical de la izquierda. El eje horizontal muestra las distancias entre los conglomerados cuando son unidos.

El análisis del árbol de clasificación para determinar el número de conglomerados es un proceso subjetivo. Generalmente, se comienza buscando distancias entre los agrupamientos a lo largo del eje horizontal. Empezando



desde la derecha, hay un hueco entre las distancias 20 y 25, que divide a los automóviles en dos conglomerados. Existe otro hueco desde aproximadamente 10 a 15, que sugiere 6 conglomerados.

El Historial de conglomeración es un resumen numérico de la solución conglomerado.

Historial de conglomeración

8 11 1,260 0 0 76 7 1,579 0 0 42 9 1,625 0 0 71 6 2,318 0 2 63 5 2,619 0 0 81 10 3,670 4 0 102 8 4,420 3 1 82 3 4,505 7 5 92 4 4,774 8 0 101 2 5,718 6 9 0

Etapa12345678910

Conglomerado 1

Conglomerado 2

Conglomerado que secombina

CoeficientesConglomerado 1

Conglomerado 2

Etapa en la que elconglomerado

aparece por primeravez

Próximaetapa

En la primera etapa, se combinan los casos 8 y 11 puesto que son los conglomerados con la menor distancia entre ellos. El conglomerado creado por su unión no vuelve a aparecer hasta la etapa 7, cuando se une al conglomerado creado en la etapa 3. Después se fusionan el 6 y 7. El proceso sigue un total de diez etapas.

Cuando hay muchos casos, la tabla puede ser muy larga y difícil de interpretar, aún así puede ser más fácil revisar la columna de coeficientes y buscar los cambios de magnitudes más grandes que revisar el dendograma. Una buena solución del conglomerado es aquella que considera un salto repentino (hueco) en el coeficiente de distancia.

El mayor salto en la columna de coeficientes se da entre las etapas 5 y 6, indicando una solución de 6 conglomerados, y en las etapas 9 y 10, indicando una solución de 2 conglomerados. Estas son las mismas que se habían encontrado a partir de la revisión del dendograma.

El resultado obtenido es algo insatisfactorio como una solución, puesto que no hay una clasificación fuerte (el término coeficiente no es muy grande).



El método de conglomeración del vecino más lejano o vinculación completa como método de agrupamiento, quizás proporcione una solución más aceptable.

Para ejecutar el análisis conglomerado utilizando la vinculación completa, retomamos el cuadro de diálogo del Análisis Conglomerado Jerárquico, y se pulsa la opción Método….

Posteriormente seleccionar el método de conglomeración del vecino más lejano y pulsar en Continuar y Aceptar el cuadro de diálogo del Análisis Conglomerado Jerárquico.

En las primeras etapas, el historial para la solución del vecino más lejano es similar a la de la solución del vecino más próximo. En las etapas finales, son bastante diferentes puesto que la solución del vecino más lejano es un método construye una clasificación fuerte compuesta únicamente por dos o tres conglomerados.



Historial de conglomeración

8 11 1,260 0 0 76 7 1,579 0 0 52 9 1,625 0 0 63 5 2,619 0 0 66 10 4,012 2 0 92 3 7,333 3 4 81 8 9,183 0 1 92 4 12,440 6 0 101 6 25,486 7 5 101 2 54,607 9 8 0

Etapa12345678910

Conglomerado 1

Conglomerado 2

Conglomerado que secombina

CoeficientesConglomerado 1

Conglomerado 2

Etapa en la que elconglomerado

aparece por primeravez

Próximaetapa

Computacionalmente este método es más rápido, ya que la convergencia suele obtenerse antes. La rapidez ye ficacia de decisión de esta clasificación se refleja en el dendograma.

Dendrograma _ * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Complete Linkage Rescaled Distance Conglomerado Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ Accord 8 Camry 11 Cavalier 1 Focus 6 Civic 7 Corolla 10 Malibu 2 Grand Am 9 Impala 3 Taurus 5 Mustang 4



La división inicial del árbol forma dos conglomerados. La parte superior contiene los coches más pequeños (Corolla, Civic, Focus Cavalier Camry y Accord)y la parte de abajo contiene los coches más grandes (Mustang, Taurus, Impala, Grand Am y Malibu).

El conglomerado de los coches más pequeños puede ser dividido aún más con respecto a coches pequeños y económicos. El Civic y el Corolla son más pequeños y más baratos que El Accord y el Camry respectivamente.

La solución de vinculación completa es satisfactoria puesto que sus conglomerados son distintos, mientras que la solución de vinculación simple es menos concluyente. Utilizando la solución de vinculación completa, se puede determinar la competencia de los vehículos en la fase de diseño introduciendo sus especificaciones como nuevos casos en el conjunto de datos y rehaciendo el análisis.



7. ANÁLISIS DISCRIMINANTE 7.1. Conceptos teóricos A menudo existen situaciones en las que conviene agrupar los datos conforme a unas determinadas características. Algunos ejemplos de esta situación son por ejemplo, cuando se quiere recetar un fármaco y no se sabe si será eficaz para el paciente, o si se desea conocer de antemano las características de un moroso para limitar la clientela de un banco, o si se desea conocer el cliente estándar al que deseamos vender un determinado producto. Todos estos ejemplos, pueden resolver con técnicas de análisis discriminante. El análisis discriminante, es por tanto una técnica multivariante en la que a priori se tienen unos grupos ya separados y descritos mediante la variable dependiente y una serie de variables cuantitativas (variables independientes) medidas para cada elemento. Esta técnica tratará de encontrar relaciones entre las variables independientes que permitan una mayor discriminación o diferenciación entre los grupos. Esta técnica es de naturaleza exploratoria. El objetivo principal es conseguir por tanto, una separación de los distintos grupos a analizar además de conseguir unas reglas claras y discriminantes, además de asignar un grupo a aquellos elementos que no se conozca con seguridad en que grupo situarlos. Se definen por tanto medidas tanto para los distintos grupos como para el conjunto total. Los objetivos fundamentales del análisis discriminante son:

1) Analizar si existen diferencias entre los grupos en cuanto a su comportamiento con respecto a las variables consideradas y averiguar en qué sentido se dan dichas diferencias.

2) Elaborar procedimientos de clasificación de objetos de origen

desconocido, en uno de los grupos analizados. Con base a estos dos objetivos, se divide el análisis discriminante como el Análisis discriminante Descriptivo y el Análisis Discriminante Predictivo, respectivamente. A continuación se presenta un ejemplo de cada caso:



DISCRIMINANTE DESCRIPTIVO (Un ejemplo): Objetivo Se desea caracterizar el perfil de los compradores de un determinado automóvil.

Diseño Se diseña una muestra con 100 compradores y 100 no compradores y se toman datos de renta, edad y educación.

Resultado El análisis discriminante establecerá la importancia relativa de cada uno de estos atributos en la decisión de compra permitiendo orientar mejor la política promocional o de distribución del producto.

DISCRIMINANTE PREDICTIVO

Objetivo Se desea caracterizar el perfil de un tumor en función de una serie de características.

Diseño Se estudia el fichero histórico de los tumores en esa zona del cuerpo, y se observan marcadores y variables cuantitativas potencialmente explicativas.

Resultado Aplicando el modelo, el análisis permitirá anticipar el riesgo y perfil del tumor en nuevos pacientes.

Para realizar un análisis discriminante se deben tener en cuenta una serie de restricciones o supuestos:

• Se tiene una variable categórica que determinará los grupos a estudiar y las restantes variables son cuantitativas e independientes de la anterior. Existen métodos para el caso de variables cualitativas, pero no se tratarán.

• Es necesario que a priori existan al menos dos grupos, y que para cada

grupo existan dos o más casos. Los grupos deben ser mutuamente excluyentes.

• El número de variables discriminantes debe ser menor que el número de

objetos, de hecho debe ser menos que (n-2), siendo n el número de objetos considerado.

• Ninguna variable independiente (discriminante) puede ser combinación

lineal de otras variables discriminantes.

• El número máximo de funciones discriminantes es igual al mínimo entre el número de variables y el número de grupos menos 1 (con q grupos, (q − 1) funciones discriminantes).

• Las matrices de covarianzas dentro de cada grupo deben ser

aproximadamente iguales.

• Las variables continuas deben seguir una distribución normal multivariante.



Ha de tenerse especial cuidado también en el tamaño muestral, para evitar las sobre estimaciones. Se recomienda que por cada variable cuantitativa a incluir en el análisis, haya por lo menos 20 observaciones. Es decir, que si incluyéramos tres variables como en el ejemplo del análisis discriminante descriptivo, se recomienda un mínimo de 80 observaciones, ya que estaríamos utilizando un total de cuatro variables, una que distingue los grupos y otras tres cuantitativas. Las matrices de dispersión pueden ser utilizadas para examinar cómo se diferencian los grupos. Esto sólo será útil en los casos en los que el número de variables sea pequeño; a medida que el número de variables aumenta el número de subgráficos en la matriz de dispersión aumenta y el tamaño de cada gráfico disminuye, siendo complicada su interpretación. Una posibilidad es utilizar el análisis de componentes principales PCA para encontrar un conjunto de datos más pequeño y que capture tanta información como sea posible del conjunto original y después aplicar el método que a continuación se explica. 7.2. Etapas de un análisis discriminante Para llevar a cabo un análisis de este tipo se deben realizar los siguientes pasos:

1) Plantear el problema a resolver.

2) Analizar si existen diferencias significativas entre los grupos.

3) Establecer el número y composición de las dimensiones de discriminación entre los grupos analizados.

4) Evaluar los resultados obtenidos desde un punto de vista predictivo

analizando la significación estadística y práctica del procedimiento de discriminación.

Las diferenciales principales de esta técnica frente a las otras es que a diferencia del Análisis Cluster, se recomienda conocer los grupos previamente y a qué grupo pertenecen ciertos individuos, de los que también se conoce sus valores en las variables discriminantes. Con respecto al análisis de regresión podemos afirmar que mientras en un análisis de regresión la variable dependiente es métrica (cuantitativa) en esta técnica es cualitativa categórica., la dependiente también En el ANOVA, la



independiente es métrica y las dependientes no métricas (al contrario que en el discriminante) 7.3. Modelo matemático Como se ha mencionado previamente el objetivo principal es conseguir una serie de funciones que dependan de nuestras variables cuantitativas y que según el valor que tomen para un objeto determinado, permitan clasificar el objeto en uno de los grupos que se estudian, si es que esto es posible. Estas funciones serán las denominadas funciones discriminantes y se describen de la siguiente manera: Sean q grupos a los que se les asignan una serie de objetos y p variables medidas sobre los objetos (x1, . . . , xp), se trata de obtener para cada objeto una serie de puntuaciones que indican el grupo al que pertenecen (y1, . . . , ym), de modo que las yi sean funciones lineales de las variables cuantitativas (x1, . . . , xp). Las yi o funciones discriminantes vienen descritas como sigue: y1 = a11x1 + · · · + a1pxp + a10 · · · · · · · · · ym = am1x1 + · · · + ampxp + am0 Donde m = min(q−1, p), y las yi serán funciones tales que discriminen o separen lo máximo posible a los q grupos y los coeficientes aij son las denominadas cargas o ponderaciones de las variables originales. Estas combinaciones lineales de las p variables deben maximizar la varianza entre los grupos y minimizar la varianza dentro de los grupos. Además de ser independientes entre si (ortogonales). Es decir se busca encontrar grupos lo más homogéneos posibles y aumentar la diferencia entre los grupos. Si las variables x1,.. , xp están tipificadas (z1,.. , zp), entonces las funciones yi anteriores, para i = 1,. . m, se denominan funciones discriminantes canónicas y vendrán representadas como, sigue y1 = a11z1 + · · · + a1pzp + a10 · · · · · · · · · ym = am1z1 + · · · + ampzp + am0 Las funciones y1, . . . , ym se extraen de modo que:



(i) y1 sea la combinación lineal de x1, . . . , xp que proporciona la mayor discriminación posible entre los grupos. (ii) y2 sea la combinación lineal de x1, . . . , xp que proporciona la mayor discriminación posible entre los grupos, después de y1, tal que Corr(y1, y2) = 0. En general, yi es la combinación lineal de x1, . . . , xp que proporciona la mayor discriminación posible entre los grupos después de yi−1 y tal que Corr(yi, yj) = 0 para j = 1,.., (i−1). Extracción de las funciones discriminantes Una vez definidas, las funciones discriminantes el siguiente paso es encontrar un método para obtener este tipo de funciones. Existen diversos métodos, que siendo el más utilizado el método de Fisher, que consiste en determinar los coeficientes de la función discriminante de tal forma que se maximice el cociente de la variabilidad entre grupos dividido entre la variabilidad intra grupos. La matriz que describe la variabilidad T de todo el conjunto, puede descomponerse en términos de la matriz que expresa la variabilidad entre grupos E, y la variabilidad intragrupos D . Es decir T=E+D Las matrices E Y D vienen representadas como:

∑∑=

••=

−−=g

jjijjij

n

iXXXXD

j

1 1)')((

∑=

•• −−⋅=g

jjjj XXXXnE

1)')((

Entonces el cálculo de la varianza de Y se limita a aplicar la siguiente fórmula: V(Y)=a´Ta=a´Ea+ a´Da El problema se limita a maximizar la siguiente expresión: Se impone también la condición de normalización 1´ =Daa



La solución viene dada por el vector propio u1 de T-1E asociado al mayor vector

propio de 1λ de esta matriz. En general si se quieren calcular r funciones discriminantes con varianza 1 e incorreladas entre si, estas serán las correspondientes a los r vectores propios de los autovalores correspondientes.

DaaEaas

´´

grupos intra adVariabilidgrupo entre adVariabilid

= Estadisticos Los estadísticos que determinan la entrada de las variables en el modelo son los siguientes:

• F de Snedecor • λ de Wilks

F de Snedecor Se compara para cada variable las desviaciones de las medias de cada uno de los grupos con respecto a la media total, entre las desviaciones a la media dentro de cada grupo.

DaaEaas

´´

grupos intra adVariabilidgrupo entre adVariabilid

= Este cociente ya se ha visto que se distribuye según una F con (K-1) grados de libertad en el numerador (suponiendo que hay k grupos) y (n-K) grados en el denominador.Existen dos opciones en función del valor de La F descrita: Si F es grande para cada variable, entonces las medias de cada grupo están muy separadas entre sí y la variable discrimina bien. Si F es pequeña, la variable discriminará poco, ya que habrá poca homogeneidad en los grupos y éstos estarán muy próximos.



λ de Wilks A este estadístico también se la denomina U-estadístico. Cuando se considera a las variables de modo individual, la λ de Wilks es igual al cociente entre la suma de cuadrados dentro de los grupos y la suma de cuadrados total (sin distinguir grupos). Es decir, equivale a las desviaciones de la media dentro de cada grupo, entre las desviaciones a la media total sin distinguir grupos. Si su valor es pequeño,(próximo a 0), la variable discrimina mucho y la variabilidad total se debe a las diferencias entre grupos, no a las diferencias dentro de grupos. Por el contrario si su valor es próximo a 1, los grupos estarán poco diferenciados y por ello estas variables carecerán de poder discriminante. Para estudiar que grupo es en el que más difiere, se compara para cada variable las desviaciones de las medias de cada uno de los grupos a la media total, entre las desviaciones a la media dentro de cada grupo. Todos estos estadísticos son los que se principalmente se usarán como criterio de entrada de las variables a considerar. Es decir, en general se apoyarán en el valor que toman considerando cada variable, y se irán incluyendo en el modelo según el valor que tengan. Así por ejemplo si se considera la F como el criterio de entrada, la variable que se introducirá será aquella que tenga más valor para la expresión de la F de Snedecor descrita más arriba. 7.4. Caso práctico Distinguir entre billetes falsos verdaderos puede ser relativamente difícil. Para facilitar esta tarea se han contrastado unos datos que se sabe que provienen de billetes verdaderos frente a unos que se sabe que son falsos. El conjunto de datos correspondiente a los billetes verdaderos fue recolectado por el banco Nacional de Suiza entre 1911 y 1956. Para realizar el estudios e tomaron un total de 100 datos de los billetes falsos y otros 100 datos de los billetes verdaderos. A cada billete se le tomaron las siguientes medidas. Las medidas son las siguientes: X1: longitud del billete X2: anchura del billete en la esquina izquierda.



X3: anchura del billete en la esquina derecha. X4: anchura del billete en la mitad del borde inferior. X5: anchura del billete en la mitad del borde superior. X6: longitud de la diagonal que transcurre desde el borde inferior izquierdo, al superior derecho. La variabilidad de cada una de estas medidas no era demasiado notable debido a las dimensiones. Para hacer esta variabilidad más presente se tomo como unidad de medida los milímetros (mm) y así se aumentaron las diferencias. En primer lugar se muestra la matriz de dispersión de las diferentes medidas con el fin de realizar un análisis previo de los datos, y así decidir cuál puede ser la mejor técnica.

Este diagrama revela que algunas medidas difieren sistemáticamente entre los dos grupos de billetes. Por ejemplo, si observamos la variable diagonal, en general se puede distinguir claramente los dos grupos. Los billetes originales tienen una diagonal mayor que la que tienen los billetes falsos.



De forma similar, observando la cuarta fila, aparentemente los billetes falsos tienen una medida del grosor en la parte de abajo que los billetes falsos, aunque esto está menos claro que el caso anterior. Se usará el programa SPSS para obtener funciones discriminantes que permitan separar estas dos clases de billetes, una vez conocidas las medidas descritas anteriormente. Para realizar esto, se selecciona la opción Discriminante del menos Clasificar, en el menú de Analizar del SPSS Analizar>Clasificar> Discriminante…

A continuación obtendremos un cuadro de diálogo que debe rellenarse de la forma siguiente: En la variable agrupación, se introduce la variable que distingue a los dos tipos de billetes (tipo). El programa SPSS necesita que se defina el rango de esta variable, por ello se insertará un 1 en el mínimo y un 2 en el máximo, pues la variable se ha definido de esta forma (1 correspondiente a los billetes originales y 2 para los billetes falsos). En el campo reservado a la variable independiente; se introducirán las 6 variables correspondientes a las seis medidas descritas previamente. El resto de las opciones se dejaran tal y como el programa las tiene configuradas por defecto.



A continuación se pulsa Aceptar y el resultado se observará en la ventana de resultados. En esta ventana, aparecerán 7 tablas. La mayoría de ellas son poco relevantes. La primera de ellas, muestra el número de casos que se estudia. Esta tabla es interesante cuando no queremos utilizar todos los datos, es decir si tuviéramos varios grupos y solo quisiéramos estudiar algunos de ellos. A continuación se muestra la tabla obtenida. Como se están considerando todos los datos, la tabla muestra que la N tiene el valor de 200.

Resumen del procesamiento para el análisis de casos

Casos no ponderados N Porcentaje

Válidos 200 100,0

Excluidos Códigos de grupo para

perdidos o fuera de rango

0 ,0

Perdida al menos una

variable discriminante

0 ,0

Perdidos o fuera de rango

ambos, el código de grupo y

al menos una de las

variables discriminantes.

0 ,0

Total excluidos 0 ,0

Casos Totales 200 100,0



En la siguiente tabla se obtiene el valor del estadístico lambda de Wilks, que mide las desviaciones que se producen dentro de cada grupo respecto a las desviaciones totales sin distinción de grupos. El método seleccionado por defecto, introduce la variable que tenga este parámetro mas pequeño (la que más discrimina). Este estadístico contrasta la hipótesis nula H0 de que los centros de los grupos son iguales. Si el p-valor asociado al estadístico es inferior a 0,05, rechazamos la hipótesis nula, es decir la hipótesis de igualdad de que los grupos son iguales.

Lambda de Wilks

Contraste de

las funciones

Lambda

de Wilks Chi-cuadrado gl Sig.

1 ,076 502,907 6 ,000

El valor de la lambda de Wilks es bastante bajo (0,076), lo cual indica que no hay solapamiento entre los grupos. El valor transformado de lambda (Chi-cuadrado) tiene asociado, con 6 grados de libertad una significación de 0,000, menor que el valor de significación considerado, por lo que podemos rechazar la hipótesis nula de que los grupos comparados tienen promedios iguales en las variables discriminantes. La tabla de coeficientes estandarizados de funciones discriminantes canónicas es la más importante. En ella se representan los coeficientes estandarizados de las funciones discriminantes; es decir se trata de la tabla que proporciona las funciones discriminantes. Al estar estandarizados los coeficientes, las funciones discriminantes canónicas son independientes de la métrica original de los datos. Esta tabla se muestra a continuación:



Coeficientes

estandarizados de las

funciones discriminantes

canónicas

Función

1

long -,002

lancho -,262

rancho ,278

abajo 1,028

arriba ,757

diagonal -,787

Por lo tanto la función discriminante es la siguiente: Y1=-0,002longitud-0,262lancho+0,278rancho+1,028abajo+0,757arriba-0,787diagonal. Analizando estos coeficientes puede concluirse que las variables con mayor peso en la función discriminante son la que mide la anchura del borde inferior del billete y la variable correspondiente a la longitud de la diagonal principal y la que mide la anchura en la mitad superior, ya que son en valor absoluto las que tienen un coeficiente mayor. Otra tabla relevante es la que contiene los autovalores, pues cada función discriminante viene asociada a un autovalor de la matriz T-1E. La cantidad denominada “autovalor”, corresponde a la discriminación producida por la primera función discriminante Y1. En el caso de tener más de dos grupo, esta tabla es muy importante, ya que informa sobre la cantidad de varianza explicada por cada función discriminante, y es en esta tabla en la que decidiremos cuantas funciones discriminantes incluiremos, de forma análogo a como se realizaba cuando se obtenían los componentes principales. En el ejemplo, al tener únicamente dos grupos, solo existe una función discriminante y esta expresa un 100% de la varianza total.

Autovalores



Función Autovalor % de varianza % acumulado

Correlación

canónica

1 12,184a 100,0 100,0 ,961

a. Se han empleado las 1 primeras funciones discriminantes canónicas en

el análisis.

La cantidad que el SPSS denomina “autovalor”, corresponde al cociente entre la variación debida a las diferencias entre grupos (medida mediante la suma inter-grupos) y la variación que se da dentro de cada grupo combinada (mediante la suma de cuadrados intra-grupos). Este estadístico se diferencia de la F que se utiliza en el análisis de varianza multivariante en que no intervienen los grados de libertad. Por lo tanto la separación que se consigue con esta función discriminante es de 12,184. La correlación canónica corresponde al valor de correlación entre la combinación lineal de las variables independientes (la función discriminante) y una combinación lineal de variables que recojan la pertenencia de los objetos medidos en los grupos a estudiar. En este caso, al tener únicamente dos grupos, es la correlación simple entre las puntuaciones discriminantes y la pertenencia a uno u otro grupo. Su valor, al ser 0,961, es decir alto, indica que las variables discriminantes, permiten diferenciar los grupos. En otra de las tablas se obtiene la matriz de estructura en la que se presentan las variables ordenadas por su grado de correlación con respecto a la función discriminante. En el caso de los billetes se observa que la mayor correlación se obtiene con la variable que indica la longitud de la diagonal principal de los billetes.



Matriz de estructura

Función

1

diagonal -,589

abajo ,348

encima ,216

rancho ,208

lancho ,163

long -,057 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

Si ahora tuviéramos un billete que no conocemos si es falso o verdadero, la función discriminante anterior no nos sería útil, puesto que sus coeficientes estaban estandarizados. Interesa entonces, estudiar la función discriminante sin coeficientes estandarizados. Para esto en la ventana del análisis discriminante se selecciona la opción “Estadísticos..” y en el cuadro correspondiente la opción No tipificados tal y como se muestra a continuación:



El resultado es la tabla que se muestra a continuación:

Coeficientes de las

funciones canónicas

discriminantes

Función

1

long -,005

lancho -,832

rancho ,849

abajo 1,117

arriba 1,179

diagonal -1,557

(Constante) 194,649

Coeficientes no tipificados

La función discriminante es: Y1=-0,005longitud-0,832lancho+0,849rancho+1,117abajo+1,179arriba-1,557diagonal



Como solo existen dos grupos, únicamente hay una función discriminante. Cuando introducimos más grupos, lo normal es que haya más funciones discriminantes. Los coeficientes se mostrarán en las tablas anteriores y en la tabla de los autovalores, se observará una columna para cada función discriminante. El siguiente paso, consiste en guardar los coeficientes de las funciones discriminantes y obtener histogramas correspondientes a los diferentes grupos, para comprobar gráficamente el grado de separación entre las variables Para guardar los resultado, se selecciona en el cuadro de diálogo del análisis discriminante la opción guardar y en el nuevo cuadro de diálogo que se obtendrá la opción puntuaciones discriminantes, tal y como se muestra a continuación

Posteriormente se pulsa Aceptar y Continuar. Si se observa la ventana de las variables, puede comprobarse que efectivamente existe una variable nueva denominada Dis1_1correspondiente a la primera y única función discriminante. A continuación se recomienda realizar los siguientes cambios para facilitar los siguientes pasos y conseguir unas tablas mucho más claras y sencillas de entender: Cambiar el nombre de la variable Cambiar el número de decimales de 5 a 2 Borrar las etiquetas Para la obtención de los histogramas correspondientes a los dos grupos se seleccionará la opción histograma de la Opción Cuadros de diálogo antiguos en el menú gráfico.



A continuación se introducirá Disc1, la variable obtenida anteriormente, en el cuadro de variable y en el panel por área el tipo de los billetes y se pulsa Aceptar.

El histograma resultante es el siguiente:



Este gráfico está compuesto por dos histogramas. Ambos gráficos están diseñados en la misma escala lo que permite realizar una comparación visual. El análisis de la tabla correspondiente a los centroides de los grupos, informará sobre la media de la función discriminante en cada tipo de billetes. Nótese como en el caso de los billetes originales, todas las barras del histograma a excepción de una están a la derecha del cero y en el caso de los billetes falsos, todas obtienen valores positivos. Esto sugiere que la función discriminante ha separado de forma efectiva los dos grupos.

Funciones en los

centroides de los grupos

tipo

Función

1

Originales -3,473

Falsos 3,473

Funciones discriminantes

canónicas no tipificadas

evaluadas en las medias de

los grupos



El siguiente paso debe ser clasificar los billetes de forma que no se sepa con seguridad si son verdaderos o falsos. Para este fin se precisa de una regla de decisión que separará en función de las puntuaciones en la función discriminante los dos grupos que se tratan billetes falsos y billetes verdaderos. Conociendo las medias de la función disc1 para los dos tipos de billetes, se puede tomar como punto de corte la semisuma de ambos, es decir

02

473,3473,31 =

+−=l

Por lo tanto la regla de localización de los billetes verdaderos y falsos es la siguiente:

falso como clasifica se billete el0d sio verdadercomo clasifica se billete el 0d Si

→>→≤

A continuación se creará una nueva variable que se nombrará como “localización”, y en la que estará indicado el grupo al que pertenece cada billete analizado. Para crear esta nueva variable se seleccionará la opción recodificar en distintas variables del menú transformar e introduciendo las etiquetas correspondientes a cada casos. Esta variable contiene los dos grupos: billetes verdaderos y falsos. Haciendo una tabla de frecuencias de la nueva variable se obtienen los siguientes resultados:

Localización

Frecuencia Porcentaje Porcentaje válido

Porcentaje

acumulado

Válidos Verdaderos 99 49,5 49,5 49,5

Falsos 101 50,5 50,5 100,0

Total 200 100,0 100,0 En la tabla se observa que obtenemos 99 billetes verdaderos y 101 falsos.



Finalmente como última actividad, se analiza la tasa de billetes mal clasificados. Esto puede analizarse de forma muy sencilla, con una tabla de contingencia en la que incluyamos la clasificación previa a todo el análisis y la clasificación correspondiente a la última variable creada. Se obtiene el cuadro de diálogo de tablas de contingencia. Esta opción está en el menú de estadísticos descriptivos, del menú analizar. Se introduce en la opción de fila la variable tipo, que identificaba el tipo original de los billetes y la variable nueva “localización” se inserta en el cuadro correspondiente a columna.

Finalmente en la opción casillas, se selecciona la opción de observados en recuentos y fila en porcentajes tal y como se muestra a continuación.



Se pulsa continuar y Aceptar. La tabla resultante es la siguiente:

Tabla de contingencia tipo * localización

localización

Total Verdadero Falso

tipo Verdaderos Recuento 99 1 100

% dentro de tipo 99,0% 1,0% 100,0%

Falsos Recuento 0 100 100

% dentro de tipo ,0% 100,0% 100,0%

Total Recuento 99 101 200

% dentro de tipo 49,5% 50,5% 100,0%

Las casillas reefrentes a recuento corresponden al número de billetes en cada una de las categorías. De los 100 billetes verdaderos uno ha sido mal clasificado y no era verdadero. Sin embargo los 100 billetes falsos eran efectivamente falsos. Existe por lo tanto un único billete mal clasificado.



La tasa de los elementos mal clasificado se calcula como:

%05,0100200

01=

+= xMC



ANEXO 1 Obtención de la recta de regresión de Y sobre X Utilizando la técnica de mínimos cuadrados para el ajuste de una recta, es decir, haciendo mínimo Se obtiene el siguiente sistema de ecuaciones normales Dividiendo ambas ecuaciones por N, expresamos este sistema en función de los momentos respecto al origen: Para resolverlo multipliquemos la primera de ecuación de (1) por -a10 y se suman las dos ecuaciones: Es decir

n)xb-a-y( = ij2

ijji

1 ∑∑Φ

(*) nxb + nxa = nyx

nxb + aN = ny

i.2i

ii.i

iijji

ji

i.ii

.jjj

∑∑∑∑

∑∑

(1) a b + a a = a

a b + a = a

201011

1001

••

•

)a - ab( + = a a - a

a b + a a = a

a b - a a- = a a-

21020011011

201011

210100110

•

••

•••

SS =

mm =

a - aa a - a = b 2

x

xy

20

1121020

011011 •



Despejando a en la primera ecuación de (1) tenemos que: Luego las estimaciones mínimo cuadráticas de los parámetros a y b son: Por tanto la recta de regresión de Y sobre X, y = a + bx, en función de los momentos quedará que reordenando, es

)x - (xSS = y -y 2

x

xy

x SS - y = a

SS - a = a

2x

xy2x

xy01 10

SS = b 2

x

xy

x SS - y = a

2x

xy

xSS + x

SS - y =y

2x

xy2x

xy

4. regresiÓn - uned.es · cuantitativas, se realiza un estudio de regresión y correlación. en la...

Documents