tema 3 - uco · 2011-07-03 · el supuesto de igualdad de varianzas, implica que la variación de...

Post on 17-Mar-2020

14 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

TEMA 3

ANÁLISIS DE VARIABLES ECONÓMICASESTADISTICA ECONÓMICA

ESTADÍSTICA DESCRIPTIVA

� Estudia las variables en sus valores actuales o pasados.

� Objetivo: Describir la realidad que se estáestudiando, proponer relaciones y aconsejar soluciones.

VARIABLE

� Es la representación del fenómeno en estudio.

� Normalmente un fenómeno económico está definido por distintas variables.

� Valores, son los distintos estados que puede tomar la variable.

TIPOS DE DATOS

� MICRODATOS.

� METADATOS.

CLASIFICACIÓN

� Cualitativa: Atributo.� Cuantitativa: Valor numérico.

� Discretas: Valores enteros.� Contínuas: Tienen infinitos valores.

PROPIEDADES DE LAS VARIABLES

� ESCALA NOMINAL: Se clasifican en categorías mutuamente excluyentes y no se pueden ordenar.

� ESCALA ORDINAL: Se pueden establecer un orden.

� INTERVALO: Se puede establecer la medida existente entre dos observaciones.� MARCA DE CLASE. Semisuma de los límites del intervalo.

� ESCALA DE PROPORCIÓN: Se puede establecer un cero absoluto.

REPRESENTACIÓN DE LAS VARIABLES

� CAMPO DE VARIABLE: Conjunto de valores que puede tomar la variable.

� RECORRIDO: Diferencia entre el valor máximo y mínimo que puede tomar la variable.

REPRESENTACIÓN DE LAS VARIABLES

� FRECUENCIA: El nº de veces que un dato se repite.

� FRECUENCIA ABSOLUTA: El nº de veces que el dato aparece.

� FRECUENCIA TOTAL: El nº de veces que observamos el fenómeno o hacemos el experimento.

REPRESENTACIÓN DE LAS VARIABLES

� FRECUENCIA RELATIVA: Es el º/1 - % sobre el valor total del fenómeno 0<fr<1

� FRECUENCIA ACUMULADA: Suma de frecuencias ordenadas hasta el dato i.

� FRECUENCIA RELATIVA ACUMULADA: Es la suma de frecuencias relativas hasta el dato i.

REPRESENTACIÓN DE LOS VALORES

� Variable dependiente / independiente.

� SECTORIAL � HISTOGRAMA � BARRAS

VARIABLES ECONÓMICAS

� PIB, Y, C, G, S, FBKF, M, r, x, m� W, L, r, tipos de cambio.� IBEX 35, ITBM, IGBM� EPA, PA, PR, PO, P� IPC, producción por sectores.� Pernoctaciones, turistas extranjeros.

REDUCCIONES DE DATOS

� REPRESENTACIÓN GRÁFICA.� MEDIDAS DE TENDENCIA CENTRAL.� MEDIDAS DE DISPERSIÓN.

MEDIDAS DE TENDENCIA CENTRAL

� MEDIA ARITMÉTICA:

MEDIDAS DE TENDENCIA CENTRAL

� MEDIA PONDERADA.

MEDIDAS DE TENDENCIA CENTRAL

� MEDIA GEOMÉTRICA:� SE USA CUANDO LOS DATOS YA ESTÁN PONDERADOS

� ES MENOR QUE LA MEDIA ARITMÉTICA

MEDIDAS DE TENDENCIA CENTRAL

� MEDIA ARMÓNICA:

MEDIDAS DE TENDENCIA CENTRAL

� MEDIANA: Es el valor central de la distribución ordenada que deja a la izquierda y a la derecha el 50 % de las frecuencias.

MEDIDAS DE TENDENCIA CENTRAL

� MODA: Es / son los valores que más se repiten, o de mayor frecuencia absoluta.

� Moda Absoluta, el que tiene mayor fr.� Modas Relativas, las que tienen un valor alto.

ESTUDIO DE LA DISTRIBUCIÓN

CUANTILES: De orden k, dividen la distribución en k partes.� Cuartiles.� Deciles.� Percentiles.

� Q2 = D5 = P50 = ME

� Se usan para evaluar la progresión en la variable.

ESTUDIO DE LA DISTRIBUCIÓN� MOMENTOS: Acentúan las características de la distribución a estudiar. Existen de tendencia central y de dispersión.� Tendencia central. MOMENTO DEL ORIGEN.

� Dispersión. MOMENTO RELACION A LA MEDIA

MEDIDAS DE DISPERSION

� DESVIACIÓN ABSOLUTA MEDIA RESPECTO DE LA MEDIA.� Media de las diferencias en valor absoluto entre el valor y la media.

MEDIDAS DE DISPERSIÒN

� VARIANZA. � Media aritmética del cuadrado de las desviaciones entre los valores de variable y el promedio.

� S2 =(1/N Σ (Xi)2 ) – µ2

MEDIDAS DE DISPERSIÒN

� PROPIEDADES DE LA VARIANZA.� Es siempre positiva.� Si es próximo a cero, casi todos los valores están cercanos a la media, es decir, la distribución es uniforme.

� Las unidades no tienen mucha lógica, pues están elevadas al cuadrado.

� Difícil interpretación. Es la media de la distancia entre cada valor y la media.

MEDIDAS DE DISPERSIÓN

� DESVIACIÓN TÍPICA.� Es la raíz cuadrada de la Varianza.

� Tiene las mismas características, solo que las unidades ya no están al cuadrado.

� Una distribución estará mas concentrada, en cuanto a la desviación típica sea menor.

MEDIDAS DE DISPERSIÓN

� COEFICIENTE DE VARIACIÓN DE PEARSON.� Es adimensional y sirve para comparar qué distribución

tiene mayor grado de dispersión.� Mide el grado de dispersión V=0 poca, y cuanto mayor

sea la varianza, es más alta y el promedio no es representativo (normalmente > 1).

� Inconveniente, cuando la media tome valores cercanos a cero, el coeficiente tenderá a infinito.

� Sirve para comparar distribuciones.

OTRAS MEDIDAS DE DISPERSIÓN

� DESVIACIÓN ABSOLUTA MEDIA, RESPECTO A LA MEDIANA

� DESVIACIÓN MEDIANA� COEFICIENTE DE VARIACIÓN MEDIANO:

CVMe= DME/Me

CAMBIOS DE ORIGEN Y DE ESCALA

� CAMBIOS DE ORIGEN� SUMAR O RESTAR UNA CANTIDAD A LA DISTRIBUCIÓN.

� CAMBIOS DE ESCALA.� MULTIPLICAR O DIVIDIR UNA CANTIDAD A LA DISTRIBUCIÓN.

CAMBIOS DE ORIGEN Y ESCALA� Cambios de origen y escala, afectan a las medidas de posición central, en la misma medida que el cambio (origen y/o escala) Para conseguir el dato original se deshace la transformación.

� Los cambios de origen y escala, no afectan a la varianza ni a la desviación típica, se elimina el efecto de la transformación al restar dato y media.

FORMA DE LA DISTRIBUCIÓN

� SIMETRIA.- Muestra el sesgo de la distribución a un lado u otro del promedio.

� Coef. Asimetría Fisher: g1=m3/S3

� g1>0 valores cargan a la derecha (+)� g1=0 distribución simétrica� g1<0 valores cargan a la izquierda (-)

FORMA DE LA DISTRIBUCIÓN

CURTOSIS� g2 = (m4/S4) – 3

� g2 > 0 Leptocúrtica (+)� g2 = 0 Mesocúrtica� g2 < 0 Platicúrtica (-)

FORMA DE LA DISTRIBUCIÓN

� CURTOSIS. Mide el grado de concentración de los valores en torno al promedio.

g2 > 0 g2 = 0 g2 < 0

VARIABLE TIPIFICADA

� TODA DISTRIBUCIÓN SE CARACTERIZA POR UN PROMEDIO Y UNA MEDIDA DE DISPERSIÓN, PERO ESTÁ DETERMINADA POR SUS PROPIAS UNIDADES DE MEDIDA LO CUAL IMPIDEN SU COMPARACIÓN.

� CONSISTE EN TRANSFORMAR LA DISTRIBUCIÓN EN OTRA DE MEDIA 0 Y VARIANZA 1

REGRESIÓN Y CORRELACIÓN

CORRELACIÓN

REGRESIÓN Y CORRELACIÓN

� Objetivo.- Conocer el grado de dependencia entre variables y hacer estimaciones.

� CORRELACIÓN: Mide la dependencia.

� REGRESIÓN: Estima el valor de una variable en función de la otra.

CORRELACIÓN. COVARIANZA

� COVARIANZA:

SXY = 1/N Σ [(XY) – ( x Y)[

•Sxy > 0 hay dependencia directa.•Sxy = 0 no existe relación lineal. •Sxy < 0 hay dependencia inversa o negativa.

CORRELACIÓN. COVARIANZA

� Viene dado en unidades, por lo tanto no puede compararse y es difícil establecer criterios para ver si es grande o pequeña.

� Cambio de origen: Si a cada x é y le sumamos una constante k ó k’ la covarianza no varía.

� Cambio de escala: Si a cada x é y; los multiplicamos por una constante k ó k´ su covarianza queda multiplicada por el producto de las constantes.

COEFICIENTE DE CORRELACIÓN DE PEARSON

� Vxy = r = Sxy / Sx Sy

� -1 =< r =< 1� r = 1 Correlación positiva ∆ X ∆ Y� r = -1 Correlación negativa ∆ X ∇Y� r = 0 Incorrelación pero no es independencia.

� Es adimensional, por lo que se puede comparar

REGRESIÓN SIMPLE

REGRESIÓN

� x = f(y) = a + by� Para un valor de x pueden existir varios valores de y.

� El centro geométrico, es el óptimo, la curva que pasa por el promedio de xy.

� Para hallar la curva optima, se siguen métodos de ajustes.

REGRESIÓN LINEAL

� y = a + bx

�b = Sxy/S2x�a = ÿ – b Χ

COEFICIENTE DE DETERMINACIÓNMide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien.

0 < R2 < 1.

R2 = 0 Mal ajusteR2 = 1 Ajuste Perfecto

COEFICIENTE DE DETERMINACIÓN DE PEARSON

� Var (y) = Var (^y) +- Var (e)

� ( - ) =

� R2 = S2xy / S2x S2y

ANALISIS VARIANZAS

� MEDIA ERRORES = 0

� Media Y = Media de Y estimada

� VAR(Y) = VAR (^Y) + VAR(ε)

� VAR (^Y) = R2 X VAR (Y) = m COV(X,Y)

REGRESIÓN EXPONENCIAL

� Υ = a ebx

� ln Y = ln a + bx ln e� Z = ln y� α = ln a

� Z = α + bx� α = Ζ - bΧ

� b = Szx / S2x� a= ant ln α

REGRESION POTENCIAL� Y = aXb

� ln y = ln a + b ln x� Z = ln y� α = ln a� V = ln x

� z = α + bv� b = Szv / S2v� a= ant ln α

FUNCION CUADRATICA

y = b0+b1�x+b2 x2

FUNCION COMPUESTA

Y = a x bx

LOGARITMICA

Y = b0 + b1 ln X

FUNCION INVERSA

Y = b0 + b1/X

FUNCION CURVA S

Y = eb0+ b1/X

FUNCION CRECIMIENTO

Y = eb0 + b1X

FUNCION LOGISTICA

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE

� Nos permite introducir un conjunto de variables independientes, para determinar su influencia en la dependiente.

� Nos ofrecerá una ecuación en función de las variables independientes.

� PIB=674+0,34 VIV+0,12 MAT+0,45 CEM

ANALISIS MULTIVARIANTE

La correlación se mide ahora en:Orden Zero: Es la r ya vista.Parcial: Mide la varianza no explicada por las otras

variables. Es decir el efecto en la varianza, después de quitar en ambas variables, el efecto de las otras independientes. Al cuadrado mide el incremento relativo en R2, al introducir esa variable independiente.

Semi Parcial: Mide la varianza, tras eliminar de una de ellas el efecto del resto de variables independientes. Al cuadrado mide el incremento absoluto en R2, debido a esa variable indepd. que contiene al resto de variables independientes o predictoras.

ANALISIS MULTIVARIANTE

CONDICIONES QUE DEBE OFRECER EL MODELO:

1. LINEALIDAD.2. INDEPENDENCIA.3. HOMOCEDASTICIDAD.4. NORMALIDAD5. NO COLINEALIDAD NI MULTICOLINEALIDAD.

ANALISIS MULTIVARIANTE1.- LINEALIDAD.

Origen + combinación lineal de variables independientes + resíduos.Error de especificación: No es lineal.Causas de no linealidad:� Omisión de variables importantes.� Inclusión de variables irrelevantes.� No linealidad. La relación no es lineal.� No aditividad el nivel de una var. Indep. Es sensible a los niveles de otra.� Párámetros cambiantes. Las circunstancias de la recogida de datos no son

constantes.

Se estudian los coeficientes de regresión parcial, permite examinar la relación entre la variable dependiente y cada independiente, independientemente (tras eliminar el efecto del resto de independientes)

Ver representaciones gráficas parciales.Se pueden hacer transformaciones

ANALISIS MULTIVARIANTE

2.- INDEPENDENCIA.

Estadístico Durbin-Watson. Mide si existe autocorrelación,

DW oscila entre 0 y 4.

DW = 2 - Los residuos son independientes.

DW < 2 – Autocorrelación positiva.

DW > 2 – Autocorrelación negativa.

Si DW 1,5 < DW < 2,5 aceptamos que existe independencia.

ANALISIS MULTIVARIANTE3.- HOMOCEDASTICIDAD.

La VAR residuos es constante para cada par de valor estimado de las variable dependiente y las independientes.

Diagrama de dispersión de ZPRED ZRESID, no deben estar correlacionadas.

El supuesto de igualdad de varianzas, implica que la variación de los residuos, tiene que ser uniforme en todo el rango de Y pronosticada.

Se puede corregir, con cambio de escala en la variable dependiente, (logarítmica, raíz cuadrada, etc..) cuidado con la interpretación.

ANALISIS MULTIVARIANTE

4.- NORMALIDAD.

Los residuos se distribuyen con media 0.

Histograma de los residuos tipificados. probabilidad esperada y observada.

Ver Simetría y Curtosis.Gráfico de probabilidad normal.

X= Probabilidad acumulada observada.Y= Probabilidad acumulada esperada.

Debe aparecer nube de puntos alineada con diagonal.

ANALISIS MULTIVARIANTE5.- COLINEALIDAD y MULTICOLINEALIDAD.

Existe colinealidad cuando una variable independiente se relaciona con otra independiente.

Indicios de la existencia de colinealidad:� Estadístico F es significativo pero habrá que ver los r parcial.� Tolerancia = 1- R2; Valores de tolerancia pequeños = 0,01,

existe colinealidad.� r estimados > |0,90| Existe colinalidad.� FIV = 1/tolerancia Si son grandes existe colinealidad.� Autovalores = 0 - Existen variables independientes

correlacionadas.� Indices de condición < 15 -no existe combinación lineal entre

las variables independientes.� Indices de condición > 15 existe problema…� Indices de condición > 30 Existe un serio problema.

ANALISIS MULTIVARIANTE

La colinealidad es un problema que hay que remediar:� Aumentando los datos o la muestra.� Crear indicadores múltiples combinando variables coalineadas (análisis componentes principales).

� Excluir variables redundantes.

ANALISIS MULTIVARIANTE

PUNTOS DE INFLUENCIA.� Son observaciones que influyen con fuerza en la ecuación de regresión.

� El analista, debe observar su estructura y determinar la influencia en el estudio.

� Se observa por concetración de puntos.

ANALISIS MULTIVARIANTE

� Elección de variables independientes.� Estudios y formulaciones científicamente probadas. Objetivo no

es probar la formulación, sino medir la dependencia.

� Criterios para nuevos estudios:� R2, r (orden cero, parcial o semi-parcial)� Reducción del error al incorporar una variable.� Si al entrar Probabilidad de F < 0,05 se queda.� Si al entrar P F > 0,10 sale.� F < 2,71 Variable sale.� F > 3.84 Se queda.� Criterio de tolerancia > (defecto 0,0001) r parcial <> 0� Ver cambios en R2 y St error, cuando hacemos cambios.

ANALISIS MULTIVARIANTE

� Una vez elegidas las variables, optamos por el MÉTODO de SELECCIÓN de variables:� INTRODUCIR.- Introduce en un solo paso, todas las variables aceptadas como independientes.

� ELIMINAR.- Elimina en un solo paso, todas las variables de la lista independientes y nos da los rsolo en el caso que entraran a formar parte de la ecuación de regresión.

ANALISIS MULTIVARIANTE

Métodos paso a paso:

1. Hacia delante.2. Hacia atrás.3. Pasos sucesivos.

ANALISIS MULTIVARIANTE

HACIA ADELANTE.-� Se incorporan una a una las variables independientes, que además de superar los criterios de entrada, correlaciona (+/-) con la dependiente.

� En el siguiente paso se usa rxy parcial, parándose el proceso cuando no existan variables que superen los criterios de entrada. (mayor rxy parcial equivale a mayor F).

ANALISIS MULTIVARIANTE

HACIA ATRÁS.-� Incluye todas las variables seleccionadas en la lista de independientes y procede a eliminarlas una a una.

� Los criterios de salida son. no cumplir los requisitos de entrada y r más bajo.

� El proceso se detiene cuando no existan variables que cumplan los criterios de salida.

ANALISIS MULTIVARIANTE

PASOS SUCESIVOS.-� Mezcla de los dos anteriores.� Comienza hacia delante, introduciendo la variable

independiente que supere los criterios de entrada más alto, luego selecciona la variable independiente con |rxy|más alto.

� Cada vez que incorpora una variable controla, si alguna cumple los requisitos de salida.

� Se para el proceso cuando no existen fuera variables que cumplen los requisitos de entrada y dentro variables que no cumplen los requisitos de salida.

ANALISIS MULTIVARIANTE

VARIABLES QUE QUEDAN EN LA REGRESIÓN.� Se puede repetir el modelo por varios métodos, para ver

que R2 ofrece cada uno y que variables introduce.

� Valoraremos mejoras en R2 y errores, con el número de variables introducidas. A veces mas variables empeora R2 y otras veces no mejora sustancialmente.

� Cada p que se incorpora, la SCR gana 1 gl y SCE lo pierde, por tanto el error típico aumenta cuando el descenso en la variación residual es pequeño y no compensa la pérdida de ese gl en SCE.

ANALISIS MULTIVARIANTE

� ¿CUÁLES SON LAS VARIABLES BUENAS?� Criterios estadísticos.

� F Mide la significación de las variables.� t Mide la significación de la dep. en cada una de las independientes.

� Coste de la adquisición de datos (dinero, tiempo, dificultad…)

� Consecuencias de los residuos.

ANALISIS MULTIVARIANTE

� EFECTUAR PRONÓSTICOS.-� Reproducimos la ecuación, sustituimos y hallamos

los valores. (calcular+transformar)� Al hacer pronósticos podemos optar entre:

1. Efectuar un pronóstico individual.2. Pronosticar para cada caso la media de los pronósticos,

correspondientes a todos los casos con el mismo valor en la(s) variable(s) independiente(s). Pronóstico promedio.

� INTERVALOS DE CONFIANZA. Ofrece los intervalos de confianza para los pronósticos, para un nc.

ANALISIS MULTIVARIANTE

� Se pueden crear cuatro nuevas serie de datos que son:

� Pronósticos NO TIPIFICADOS: pre_# derivados de la ecuación en puntuaciones directas.

� Pronósticos TIPIFICADOS: zpr_# Se resta a cada pronóstico la media y se divide por Sx pronósticos.

� CORREGIDOS: adj_# Pronóstico de cada caso sin incluir ese caso.

� E.T. del pronóstico medio: sep_# Error típico de los pronósticos correspondientes a los casos que tienen el mismo valor en las variables independientes.

ANALISIS MULTIVARIANTE

VALIDACIÓN DEL MODELO.� Si tenemos nuevos casos, los introducimos en la ecuación de regresión y comparamos el resultado. El coeficiente de correlación para los valores observados y los pronosticados deben ser coincidentes.

� Si tenemos dificultad para obtener nuevos casos y disponemos de una muestra suficientemente grande podemos dividirla en dos y hacer el análisis en cada una de ellas, para ver si llegamos a las mismas conclusiones.

top related