tema 2. análisis preliminar de los datos

46
Profesores: Jesús Varela Mallou Antonio Rial Boubeta www.usc.es/psicom 1 ANÁLISIS MULTIVARIANTE Área de Metodología de las Ciencias del Comportamiento Facultad de Psicología Universidad de Santiago de Compostela Curso 2011-2012

Upload: jose-manuel-masanet-garcia

Post on 31-Oct-2015

44 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: tema 2. Análisis preliminar de los datos

Profesores: Jesús Varela MallouAntonio Rial Boubeta

www.usc.es/psicom1

ANÁLISIS MULTIVARIANTE

Área de Metodología de las Ciencias del Comportamiento

Facultad de Psicología

Universidad de Santiago de Compostela

Curso 2011-2012

Page 2: tema 2. Análisis preliminar de los datos

Análisis Multivariante 2

1. Contextualización y Revisión General de las Técnicas Multivariantes

2. El Análisis Preliminar de los Datos

3. Análisis de Regresión Lineal Múltiple

5. Análisis de Regresión Logística

TEMARIO

4. Análisis Conjunto

6. Análisis de Supervivencia

Page 3: tema 2. Análisis preliminar de los datos

TEMA IITEMA II

EL ANÁLISIS PRELIMINARDE LOS DATOS

Análisis Multivariantes

Page 4: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 4Modelos Multivariantes 4

Preparación del Archivo de Datos. En Rial, A. y Varela, J.(2008). Estadística Práctica para la Investigación enCiencias de la Salud. Coruña: Netbiblo. Páginas 17-27.

Análisis de Datos para una sola variable. En Rial, A. y Varela, J.(2008). Estadística Práctica para la Investigación enCiencias de la Salud. Coruña: Netbiblo. Páginas 31-57.

RECOMENDADARial, A.; Varela, J. y Rojas, A. (2001). Depuración y AnálisisPreliminares de Datos en SPSS . Ra-ma. Madrid

LECTURA OBLIGATORIA

Page 5: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 5

Desde que se recogen los datos hasta que éstos son procesados,se experimentan una serie de procesos que pueden escaparse delcontrol del investigadorAlgunos de los errores más frecuentes: � Utilización de un valor inválido� Ausencia de valores dentro del rango de la distribución. ¿será porque nadie

tiene tales ingresos?, ¿o se trata de un problema de selección muestral?.Nos alerta de un “fenómeno extraño”. Missing

� Outliers. 3 sujetos tienen ingresos que cuadriplican el ingreso medio !!!

� Exploratory Data Analysis (EDA): Técnicas gráficas y analíticaspara conseguir un conocimiento previo de los datos, propugnandoun cambio de actitud y enfoque metodológico ante el análisis de lainformación. Tukey, 1977

Análisis Preliminar de los Datos

Page 6: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 6

Todo Análisis Estadístico de los datos debe iniciarse con lapreparación y realización de un estudio detallado del archivoo base de datos

La aplicación de cualquier Técnica Multivariante carece devalidez alguna si el archivo de datos contiene errores oincoherencias, casos perdidos de manera no aleatoria ovariables que no se adecuan a los supuestos de las técnicasempleadas

Preparar la información recogida también significa llevar acabo transformaciones o creaciones de nuevas variables apartir de las empíricas o directas (ej.: el Índice de MasaCorporal, IMC (peso/talla2); o la segmentación del archivo)

Análisis Preliminar de los Datos

Page 7: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 7

� Depurar errores e incoherencias y Transformación de Variables: Preparar elarchivo de datos

� Missing: Resolver el problema de la falta de respuesta: tamaño de la muestra(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)

� Outliers: Tratar los casos anómalos: elección de la prueba o estadísticoadecuado

� Comprobación de supuestos paramétricos: pruebas paramétricas vs. noparamétricas, elección de la técnica multivariante concreta

� Y, en general, Resumir la información que contienen los datos, informar de lastendencias, (análisis univariable)

5 Razones para el Análisis Preliminar de los datos

Page 8: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 8

Errores de introducción de datos:

Razón 1. La depuración de Errores e Incoherencias

Valores fuera de rango o no permitidos:

Ej. Sexo (1: hombre, 2: mujer. No deberíamos de encontrar ningún 3

Tablas de Frecuencias para todas las variables

� Depuración de Incoherencias entre respuestas (preguntas filtro):

Ej. Variable uno: número de cigarrillos que fuma al día (=7)

Variable dos: Es fumador (1=si; 2=no)

Tablas de Contingencia para pares de variables

Errores durante la recogida:

Page 9: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 9

Crear una nueva variable que sea la combinación de dos variablesoriginales como puede ser el Índice de Masa Corporal (Peso/Altura2 )

Otro tipo de transformación es el cálculo de las puntuaciones Diferenciales(de desviación) y Típicas (Estandarizadas), reescalar, …

– Las puntuaciones típicas no tienen una unidad de media particular. Suunidad siempre es la misma (indica cuántas desviaciones típicas porencima o por debajo de la media se sitúa una puntuación determinada).Por ello son comparables entre sí, independientemente de la unidad demedida de la puntuación original

– También sirven para detectar puntuaciones anómalas o outliers:sujetos que tienen un comportamiento que se aleja de la normalidad. El95% de los casos tienen puntuaciones Z comprendidas entre ±1.96

Análisis Preliminar de los Datos también significa CREAR y TRANSFORMAR Variables

Page 10: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 10

Hay que conocer la base de respuestas para saber si estamos ante unapérdida de representatividad. La reducción excesiva del tamaño de lamuestra condiciona las estimaciones (INTERVALOS DE CONFIANZA) y lascomparaciones (SIGNIFICACIÓN ESTADÍSTICA).

LA CAPACIDAD DE GENERALIZACIÓN DE LOS RESULTADOS (lo que enprincipio era una muestra adecuada se convierte en inadecuada y norepresentativa). Atentamos contra la validez externa

LOS MISSING. Tenemos que preguntarnos: ¿Son iguales los que respondena una encuesta que los que no responden?, ¿de quién estamos informandorealmente?, ¿siguen algún patrón o se distribuyen de manera aleatoria?,¿están sesgados los resultados?

Razón 2. Determinación de la base de Respuesta (MISSING)

Page 11: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 11

Identificar los sujetos con missing (filas)

Identificar las variables con missing (columnas)

SPSS: Análisis de Valores Perdidos

IDENTIFICACIÓN DE LA NO RESPUESTA O MISSING

Page 12: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 12

Varias estrategias:Comprobar si los distintos segmentos presentan un porcentaje similar de falta de repuesta (Provincia, Centro, Grupos de Edad, ...) χχχχ2

Estudiar posibles patrones o tendencias

Identificar variables relacionadas y comprobar que los que responden y los missing se comportan igual, que no existen diferencias estadísticamente significativas… t

EN CASO DE QUE INFLUYAN o presenten diferencias, ¿qué

hacer con ellos?: Sustitución vs. Imputación

Ahora debemos preguntamos… ¿Se distribuyen al azar?

Page 13: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 13

2 POSIBILIDADES:

SUSTITUIR: TRANSFORMAR / REEMPLAZAR por…

� Media de la serie

� Media de puntos adyacentes

� Mediana de puntos adyacentes

IMPUTAR: ANALIZAR LOS VALORES PERDIDOS con el fin de examinar patrones en diferentes variables relacionadas con la variable con missing

• Método de Regresión, Fichero caliente (hot deck)

¿Cómo hacerlo en SPSS?

Page 14: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 14

“Valores que caen fuera del rango normal de los datos” Ej. Media edad en el aula

CRITERIO de OUTLIER: son aquellos valores que se alejan delcuerpo central de la distribución entre 1.5 y 3 veces el valor del IQR

IQR: Recorrido o Amplitud Intercuartílica se trata de una medidade variabilidad de los datos. Si los valores se alejan más de tresunidades del cuerpo central de los datos entonces es un caso“EXTREMO” (±±±± 3 IQR)

Razón 3: Los valores ANÓMALOS o atípicos

Amplitud intercuartílica = tercer cuartil - primer cuartil = Q3 - Q1

Page 15: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 15

A nivel univariante:� IQR

� Gráficos de Caja o Boxplot

� Gráficos de Tallo y Hojas

A nivel bivariado: Gráficos de Dispersión

A nivel multivariado:� Residuos (tipificados, studentizados, etc.)

� Distancia de Mahalanobis

� Distancia de Cook

Outliers: ¿Cómo detectarlos?

Page 16: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 16

• Límites inferior y superiorson los percentiles 25 y 75respectivamente

• La línea horizontal indicala mediana o percentil 50. Siestá en el centro de la cajaíndica que se trata de unadistribución simétrica

20N =

INGRESOS

600000

500000

400000

300000

200000

100000

0

9

10

Gráficos de caja o BOXPLOT

Outlier

Extremo

Page 17: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 17

1010N =

SEXO

MUJERHOMBRE

ING

RE

SO

S600000

500000

400000

300000

200000

100000

0

10

Comparar la distribución de dos o más grupos

Asimétrica negativa (próxima al tercer cuartil) y Asimétrica Positiva (si aproxima al primero)

Page 18: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 18

SOLUCIONES:Acudir a estadísticos distintos de los habituales y “RESISTENTES” (Mediana, Media reducida, M-estimadores: Andres, Huber, Tukey, Hampel)

Utilizar Contrastes no paramétricos: Mann-Withney, Prueba de la Mediana, Kruskal-Wallis

Detectarlos y eliminarlos de la muestra, recurrir a un procedimiento de remuestreo o a procedimientos de estimación robustos

¿Qué hacer ante la presencia de casos anómalos?

Page 19: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 19

Para elegir la prueba estadística adecuada en cada caso……

� t de Student ó Mann-Withney

� Anova ó Kruskal-Wallis

� Discriminante o Regresión Logística

Pruebas Paramétricas y No Paramétricas

Razón 4: comprobación de supuestos paramétricos

Page 20: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 20

NORMALIDAD: que la VD se distribuya normalmente

ALEATORIEDAD o Independencia de las medidas: que lossujetos hayan sido seleccionados al azar (ANOVA)

HOMOCEDASTICIDAD u Homogeneidad de varianzas:que los distintos grupos posean una variabilidad similar

LINEALIDAD: Relación lineal entre las variables analizadas

¿Cuáles son esos SUPUESTOS?

Page 21: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 21

NORMALIDAD: Prueba K-S de Lilliefors

(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)

ALEATORIEDAD: Prueba de las Rachas

(SPSS: ANALIZAR / Pruebas no paramétricas / Rachas)

HOMOCEDASTICIDAD: Prueba de Levene

(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)

LINEALIDAD: Gráfico de dispersión

(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)

¿Cómo se comprueban?

Page 22: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 22

Gráfico Q-Q normal de INGRESOS

Valor observado

5000004000003000002000001000000-100000

Nor

mal

esp

erad

o

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Pruebas de normalidad

,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Este es un límite superior de la significación verdadera.**.

Corrección de la significación de Lillieforsa.

NORMALIDAD

Lilliefors: se desconoce la varianza poblacional (habitual)

Shapiro-Wilk: muestras pequeñas (n<30)

Hipótesis nula: la población de la que se ha estraído la muestra es normal

Se rechaza

Ho (p<0.05)

Page 23: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 23

2 ALTERNATIVAS:

TRANSFORMAR LA VARIABLE

� Posibles transformaciones� Asimetría Positiva FUERTE: -1/X3

, ó -1/XSUAVE: log X ó √√√√X

� Asimetría Negativa FUERTE: antilog XSUAVE: X2 ó X3

Recurrir a una prueba no paramétrica o a técnicas multivariantes más robustas

y... si no se distribuye NORMALMENTE

Page 24: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 24

* En el que lo primero es realizar un análisis detallado de lasvariables incluidas en la matriz de datos:

� Estudiando gráficamente la forma de cada distribución

� Detectar posibles valores extremos

� Distribuciones asimétricas, varianzas desiguales, etc

* Y lo segundo es preguntarnos si es conveniente realizaralguna transformación de las variables con el fin de “prepararel camino” para la correcta aplicación de las técnicasconfirmatorias

EDA, un cambio de actitud………

Page 25: tema 2. Análisis preliminar de los datos

Modelos Multivariantes

25

UN REPASO MEDIANTE UN EJEMPLO

� Supongamos que deseamos relacionarel nivel de renta del hogar con el lugarde residencia (hábitat rural, semirrural,semiurbano y urbano) y el número demiembros en el hogar

� Supongamos que una vez recogida lainformación elaboramos una matriz dedatos donde expresamos los ingresosbrutos de la unidad familiar (en miles).

� Veamos los datos correspondientes alos 16 primeros entrevistados:

Ing: 150, 81, 102,195, 375, 99, 147, 171, 87, 192, 75,147, 159, 252, 57, 201

Lug: 4, 4, 4, 4, 4, 4, 4, 4, 2, 3, 4, 4, 4, 4, 2, 4Miemb: 2, 2, 3, 5, 4, 3, 5, 5, 3, 3, 3, 2, 5, 2, 4, 2

Page 26: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 26

Para realizar un análisis exploratorio es necesario pulsarAnalizar, a continuación Estadísticos descriptivos y, porúltimo Explorar….

seleccionamos la variable Ingresos unidad familiar y la colocamos en el recuadro de Variables Dependientes:

Page 27: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 27

1. Estadísticos Descriptivos:a) Medidas de localización y tendencia central:

media, mediana, media recortada al 5%,intervalo de confianza

b) Medidas de dispersión: errores típicos,varianza, mínimo, amplitud intercuartílica

c) Medidas de forma de la distribución:asimetría, curtosis y sus errores típicos

2. Estimadores Robustos Centrales:alternativas robustas a la mediana y a la mediacomo son el estimador M de Huber, onda deAndrews, M de Hampel y bioponderado deTukey

3. Valores atípicos: muestra los 5 valoresmayores y menores

4. Percentiles: los valores que aparecensituados en los percentiles 5, 10, 25, 50, 75, 90 y95

Botón Estadísticos:

Page 28: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 28

1. Diagramas de Caja: Gráficos de cajapara el estudio de las colas de ladistribución (los extremos). Es posibleelegir entre dos formas derepresentación : niveles de factores,dependientes juntas

2. Gráficos descriptivos de tallo yhojas e histogramas: útiles para elanálisis del centro de la distribución

3. Gráficos con pruebas denormalidad: presenta los diagramasde probabilidad normal y deprobabilidad sin tendencias. Elprograma realiza también el test deKolmogorov-Smirnov con el nivel designificación de Lilliefors, o el test deShapiro-Wilk cuando la muestra tienemenos de 50 observaciones

4. Gráficos de dispersión por nivelcon pruebas de Levene: …/…

Botón Gráficos:

Page 29: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 29

4. Gráficos de dispersión pornivel con pruebas de Levene:sólo disponible cuando en el cuadroanterior se selecciona una variableFACTOR. Y se utiliza para controlar latransformación de los datos para losgráficos de dispersión por nivel. Encada gráfico se muestra la pendientede la recta de regresión y las pruebasde Levene de igualdad de varianzas.

Estos gráficos presentan 3opciones: Estimación de potencia,no transformados y transformados(permite llevar a cabo diversastransformaciones comologarítmicas, raíz cuadradas,cubo, inversa, etc.)

Botón Gráficos:

Page 30: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 30

Botón Opciones:

Opciones: Está dedicado altratamiento de los valores perdidos…

Excluir casos según pareja:permite trabajar con los sujetos quetienen valores perdidos para cada parde variables Excluir casos según lista: Incluyeúnicamente aquellos que disponen devalores válidos para todas lasvariables analizadas Mostrar Valores: En lugar deeliminar los valores perdidos, losconsidera como una categoríadiferente

Page 31: tema 2. Análisis preliminar de los datos

VISUALIZACIÓN DE LA DISTRIBUCIÓN DE LA VARIABLE ing(EXÁMEN GRÁFICO DE LOS DATOS…

31

Si ejecutamos todo… cuál es la visualización de la distribución o examen gráfico de los datos?:

Recomendamospulsar el botón Pegarpara mostrar loscomandos de sintaxisdel programa SPSS parael procedimientoEXAMINE

Page 32: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 32

PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LADISTRIBUCCIÓN: El histograma, los gráficosdescriptivos de tallo y hojas y los gráficos de pruebasde normalidad.

INTERPRETACIÓN

Histograma: representa lasfrecuencias obtenidas por cadacategoría

Hay 15 rectángulos de amplitud50.000

Casi 300 personas viven enhogares con ingresos entre 125 y175.000

Fijémonos ahora en las 200personas con ingresos inferiores a75.000 ¿se distribuyenuniformemente en todo el intervaloo puede ser que prácticamentetodos ganen 74.000. Ello nos lopermite saber el gráfico de tallo yhojas

Page 33: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 33

PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LADISTRIBUCCIÓN: El gráfico de caja, los gráficosdescriptivos de tallo y hojas, el histograma y losgráficos de pruebas de normalidad.

En el histograma vimos que menosde 200 entrevistados tienen ingresosinferiores a las 75.000.

Tallo y hojas: Vemos que de los200 (64+100+72) con ingresosinferiores a 74.000:

64 ganan entre 54 y 57 100 ganan entre 60 y 69 y el resto entre 72 y 75.000

Nota: cada hoja representa a trescasos

En la última línea aparecen 4casos “extremos” con ingresossuperiores a 280.000

Page 34: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 34

VENTAJAS DEL GRÁFICO TALLO Y HOJAS

Tallo y hojas:

1. Mantiene los valores originales y no los agrupa en intervalos2. es muy sencillo localizar los valores centrales de la distribución3. facilita la identificación de concentraciones de datos y posibilita la

localización de saltos o discontinuidades en la serie de datos (ausenciade determinados niveles de ingresos…)

4. Permite la identificación de aquellos valores poco frecuentes y losvalores desviados del conjunto

5. Facilita el estudio de la forma de la distribución

PUNTOS DÉBILES

Tallo y hojas informa de los valores centrales de las distribució, perocontribuye poco al estudio de los casos extremos. El DIAGRAMA DECAJA o boxplot permite solventar este problema con información delcentro de la distribución, pero también permite un análisis detallado delas colas

Page 35: tema 2. Análisis preliminar de los datos

35

GRÁFICO DE CAJA O BOXPLOT

La parte oscura dividida por una líneahorizontal informa de:

Límites inferior y superior de la caja son lospercentiles 25 y 75 respectivamente

La línea horizontal indica la mediana opercentil 50. Si está en el centro de la cajaíndica que se trata de una distribuciónsimétrica

Asimétrica negativa la media está por debajode la mediana (si la mediana está próxima altercer cuartil) y asimétrica positiva siaproxima al primero y, en ese caso, la mediaestá por encima de la mediana

Entre los percentiles 25 y 75 se concentra el50% de los casos y esta “distancia” indica ladispersión (similar al recorrido intercuartílico)

Pero… ¿dónde está el resto de casos dela distribución?

La “T” invertida informa del menorvalor observado que no es un atípico

La parte más alta de la “T” indica elmayor valor observado, sin atípicos

El resto son ATÍPICOS, con valoresextremos en la variable

Page 36: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 36

LOS CASOS ATÍPICOS

Definición: Son observaciones convalores extremos, observaciones muydiferentes del resto de valores de ladistribución y que tienen un importanteefecto sobre las medidas de tendenciacentral y variabilidad

Dos tipos de casos atípicos:

Extremos: símbolo “*” los que seencuentran a una distancia de la medianatres veces superior a la longitud de la caja orecorrido intercuartílico

Outliers: símbolo “0”, separados de lamediana entre 1,5 y 3 veces la longitud dela caja

En la gráfica se observan 4 casos atípicos(1 outlier y 3 extremos)

Page 37: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 37

Gráfico de caja con variasvariables dependientes

La opción de “dependientesjuntas” permite comparar fácilmentevarias distribuciones

examinar la situación del 50%central de la distribución definidopor la longitud de la caja

Examinar la forma del 50%central de la distribución enfunción de la posición que ocupala mediana dentro de la caja

evaluar el posible sesgo en lascolas de la distribución enfunción de la longitud de las“patas”

detectar posibles valoresatípicos

Page 38: tema 2. Análisis preliminar de los datos

38

Gráfico Q-Q normal de INGRESOS

Valor observado

5000004000003000002000001000000-100000

Nor

mal

esp

erad

o

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Pruebas de normalidad

,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Este es un límite superior de la significación verdadera.**.

Corrección de la significación de Lillieforsa.

Test de Normalidad: Contraste de Lilliefors

Gráfico Q-Q: La distribución Normal serepresenta con una recta inclinada. Los datosdesvelan una diferencia o falta de ajusteentre la Normal y la dibujada por la variable.No coinciden o se superponen.

SPSS también ofrece el contraste deLilliefors basado en el test de KolmogorovSmirnov, cuando las medias y lasvarianzas son desconocidas:

Prueba de Normalidad para Ingresos UnidadFamiliar

Hipótesis nula: la población de la que se haextraído la muestra es normal

El nivel de significación indica la probabilidad deequivocarnos cuando rechazamos la Ho y ésta esverdadera (error tipo I). (p<.05)

El valor obtenido es 0.257, que con 20 grados delibertad presenta una significación del 0.001. Porlo que rechazamos que esa variable tenga unadistribución normal, con una probabilidad deequivocarnos del 0.0%

Page 39: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 39

Gráfico Q-Q normal de INGRESOS

Valor observado

5000004000003000002000001000000-100000

Nor

mal

esp

erad

o

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Transformaciones para la Normalidad

EL PROBLEMA ES QUE CUANDO TENEMOSDISTRIBUCIONES NO NORMALES, entoncesno deberíamos utilizar determinados testestadísticos como, por ejemplo, la F de Snedecor.Así que deberíamos adaptar o ajustar esta variablea este requisito, mediante transformaciones

No obstante, antes de TRANSFORMACIONEShemos de saber que la ausencia de normalidadpuede deberse a la violación de otrossupuestos. Por ello, ANTES debemos comprobartodos los supuestos multivariantes. Muchas veces,remediar estos supuestos solucionan el problemade la no normalidad.

Pero si no es así, entonces recurrimos a laTransformación de la distribución…

Page 40: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 40

Transformaciones de la distribución

El ADE busca realizar transformaciones en las distribuciones para conseguircambios en la distribución de las variables, para obtener modelos más ajustados

4 tipos de Transformaciones sobre los datos observados:

1. Cambios lógicos originados por la Unión de Categorías para reducir laamplitud de la variable. Uniendo unas categorías con otras, eliminandocategorías sin respuestas, convirtiendo variables de intervalo en ordinales onominales, creando variables ficticias o dummy, etc. (SPSS:Transformar/Recodificar)

2. Transformaciones Lineales. Al sumar, restar, multiplicar o dividir los datosoriginales por una contante no se cambia la distribución, ni las distancias entrevalores, ni el orden porque es una combinación lineal de los datos originales.Con ello mejoramos la interpretación sin generar cambios importantes en lasvariables

Page 41: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 41

Transformaciones de la distribución

3. Transformaciones algebraicas o no lineales monotónicas. Al aplicaroperaciones como la raíz cuadrada, cúbica, logaritmos. Cambian las distanciasentre los valores originales modificando la forma de la distribución aunquemantienen el orden.

Según la función aplicada produciremos una DISPERSIÓN en una partede la distribución. Su elección dependerá de dónde deseamos efectuardichos cambios

Tukey propone una “escalera de las transformaciones” donde se muestrael tipo de transformación más conveniente atendiendo al grado deasimetría de la distribución original, y al lugar (izquierda o derecha)donde se produce esa asimetría……

• Asimetría negativa se corrige mediante antilogaritmos• distribuciones asimétricas positivas se corrigen con raíces

cuadradas

4. Transformaciones no lineales no monotónicas: cambian las distancias y elorden entre los valores. Son las más difíciles de utilizar porque cambiantotalmente la información original

Page 42: tema 2. Análisis preliminar de los datos

Comprendiendo la distribución utilizando Medidas de Tendencia Central

Además de representaciones gráficas, los estadísticos univariantes completan el conocimiento de la distribución de una variable:

De Tendencia Central: moda, mediana y media Error típico de la media es la desviación de la distribución muestral del

estadístico. Se utiliza para calcular el valor de la media de la población de la quese han extraído los datos. Cuanto menor sea, mayor es la probabilidad de que unestadístico extraído de una muestra aleatoria se acerque al valor poblacional

Intervalo de confianza para la media: Son los valores entre lo que se situará lamedia en la población, con un nivel de confianza del 95%

Media truncada o trimedia: media de los casos centrales de la distribuciónrecortada al 5%, eliminando casos inferiores y superiores. Un estadístico másresistente porque elimina la influencia de posibles valores extremos

La mediana, el valor central de la distribución. Por debajo y encima el 50%. Ladistribución normal es simétrica de modo que deben coincidir los valores de lamoda, media y mediana

Los cuartiles: valores que dividen la distribución en cuatro partes iguales Un percentil, es el valor de la variable que deja por debajo a un correspondiente

porcentaje de datos, y por encima el resto. Los percentiles 10, 20, 30…., 90reciben el nombre de deciles. Primer cuartil es el percentil 25.

Además de la media truncada, otros estadísticos que no están afectados por loscasos atípicos son los M-estimadores. Estimadores Robustos centrales

Page 43: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 43

Los M-estimadores reducen la influencia de los casos extremos ponderando cadavalor en función de su distancia al centro de la distribución. Las observacionescentrales se ponderan por el máximo valor (1) y el coeficiente de ponderacióndisminuye cuanto más se aleje se encuentre reduciéndose así su contribución en elcálculo del estadístico correspondiente. Pudiendo llegar a recibir, incluso, unaponderación nula (0).

La diferencia entre los M-estimadores está en el tipo de ponderación: Huber pondera con un valor de 1 todos los valores situados a menos de 1,339 de la

mediana. Se recomienda cuando la distribución se acerca a la normalidad sin valoresextremos

Tukey y Andrews ponderan con un valor de 0 los valores situados a 4,385 y 4,2 de lamediana. Se recomienda cuando hay valores extremos o atípicos

Hampel, utiliza tres coeficientes de ponderación según cada valor se encuentre a unadistancia de la mediana de 1,7; 3,4 y 8,5

Comprendiendo la distribución utilizando Medidas de Tendencia Central

Page 44: tema 2. Análisis preliminar de los datos

Modelos Multivariantes

44

Reflejan el grado en el que los datos tienden a extenderse respecto a un valormedio. Dos tipos de medidas de variabilidad:

1. Según la amplitud de la escala en la que se distribuyen las puntuaciones Rango o amplitud total: diferencia entre el valor más alto y más bajo. Muy

sensible a la presencia de valores atípicos y depende de los valoresextremos

Recorrido Intercuartílico: elimina estos problemas. Es la diferencia entreel tercer y el primer cuartil. Es menos sensible a la presencia de datosextremos

2. Según la variación producida entre todos los valores de la distribución y uníndice de tendencia central:

Desviación media: promedio desviaciones absolutas respecto a la media La varianza: media de los cuadrados de las desviaciones de los datos Desviación típica: la raíz cuadrada de la varianza. Es, sin duda, la más

utilizada. (El 68.26% ±1Sx; el 95,44% ± 2Sx; y el 99% entre ±3Sx) La mejor forma de saber si una desviación típica es alta o baja, es

calcular el cociente de la desviación típica entre la media. Unapuntuación lejana de la unidad está indicando homogeneidad o escasadiferenciación

Comprendiendo la distribución utilizandoMEDIDAS DE DISPERSIÓN O VARIABILIDAD

Page 45: tema 2. Análisis preliminar de los datos

Modelos Multivariantes

45

Grado de Simetría: Hasta qué punto la median divide unadistribución en dos partes con formas iguales

• Asimetría positiva: muchas puntuaciones en la izquierda.media > mediana

• Asimetría negativa: muchas puntuaciones altas.media < mediana

• Otros estadísticos de asimetría más robustos son los índices desimetría Yulle y Kelley

• Kelley utiliza los deciles primero y noveno, que son sumados ydivididos entre dos. El valor resultante es restado de la mediana.

• Un valor negativo significa una asimetría positiva (hacia laderecha); es decir, el promedio de deciles supera la mediana

Comprendiendo la distribución utilizandoMEDIDAS DE FORMA O ASIMETRÍA

Page 46: tema 2. Análisis preliminar de los datos

Modelos Multivariantes 46

� Potenciar el uso de técnicas gráficas. Observar el gráfico de la distribución delas variables proporciona información excelente

� Durante el Análisis de los Datos, tenemos que detenernos en el análisis de lasdiferencias entre los datos reales y el ajuste del modelo (residuales). El EDAtambién contribuye a reducir los residuos al mínimo y así encontrar el mejorajuste a los datos. Los residuales no siempre significan un error de prediccióndel modelo estadístico!!

� Utiliza transformaciones de los datos para conseguir modelos más ajustados

� Cuestionar las propiedades de algunos estadísticos. En ocasiones éstospueden resultar inservibles ante la presencia de datos alejados de la mayoríade los valores de la distribución (ej. Media Aritmética)

� Existen otros estadísticos más robustos ante posibles desviaciones de lossupuestos modelos probabilísticos. Por ejemplo, la mediana y la amplitudintercuartílica frente a la media y la varianza

EDA, Un cambio de actitud en el que debemos……