ventajas y desventajas de correlacion lineal

46
Licenciatura en Relaciones Internacionales Medidasde dispersión Clase dictada por Ana Vigna Aspirante a Estadística Licenciatura en Relaciones Internacionales

Upload: jesusluque123

Post on 09-Nov-2015

1.446 views

Category:

Documents


10 download

DESCRIPTION

Correlacion linal

TRANSCRIPT

Microsoft PowerPoint - Clase_dispersin_pdf.ppt [Compatibility Mode]

Licenciatura en Relaciones Internacionales

Medidasdedispersin

Clase dictada por Ana Vigna

Aspirante a Estadstica

Licenciatura en Relaciones Internacionales

8 de noviembre de 2010

Contenidos delaclase:

|Medidas de dispersin:

z qu son?

z en

qu se diferencian

y cmo se relacionan con las

medidas de tendencia central?

|Medidas:

z Rango o recorrido

Frmulas

para

Medidas de dispersin:z Rango o recorrido intercuartlico

z Varianza

z Desvo estndar o tpico

z Coeficiente de variacin

|Ejercicios de aplicacin

datos originales yagrupados

Ventajas y desventajas

Indican si las pntaciones son mparecidas o mdistintas entrediferencia?Cidlidlitd dlll

Medidasdedispersin

|Indican si las puntuaciones son muy parecidas o muy distintas entre s.|Las siguientes distribuciones tienen todas una media de 4. Qu las diferencia? 7, 6, 3, 3, 1

3, 4, 4, 5, 4

4, 4, 4, 4, 4

|Existen dos procedimientos:

zConsiderar el recorrido o amplitud de la escala en la que se distribuyen las puntuaciones;

zDescribir la variacin por medio de las diferencias que se producen entre todas las puntuaciones y un ndice de tendencia central.

Medidasdedispersin

|En

qu se diferencian con las medidas de tendencia

central?

|Mientras las medidas de tendencia central nos indican dnde se concentra un grupo de puntuaciones, las medidas de dispersin refieren a la homogeneidad / heterogeneidad de una distribucin.|Cmo se relacionan con las medidas de tendencia central?

|Son

complementarias

|Para calcular algunas medidas de dispersin es necesario conocer los valores de otras medidas

|Ambos tipos de medidas son necesarias para una descripcin acabada de una distribucin

Rangoorecorrido

| Se calcula restndole al valor ms alto deuna distribucin, el valor ms bajo

| Se aplica tanto a distribuciones de datos originales, como a distribuciones de datos agrupados.

SlltdlllltddRango

= Valor .mximo

Valor .mnimo

Rango = Valor .mximo

Valor .mnimo

|Distribucin de datos originales

Distribucin de encuestados segn edad:

z20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

zRango = 63 18 = 45 aos

Entre el encuestado de mayor edad yel ms joven, hay una diferencia de

|Distribucin de datos agrupados

Distribucin de pases segn porcentaje de la poblacin de 15 y ms aos de edad analfabeta, Amrica Latina y el Caribe. Ao 2010L. Inf. L. SupXcfifr (%)FiFr(%)Ai0 a 52,5145014505

45 aos

Entre el pas con mayor porcentaje de analfabetismo y el

5 a 107,582822785

pas con

menor

10 a 201531125891020 a 42313112810022

porcentaje, hay unadiferencia de 42

n (total)

28100

puntos porcentuales

Fuente: Elaboracin propia en base a datos de CEPAL: Anuario estadstico de Amrica Latina y el Caribe, 2009

z Rango = 42 0 = 42 puntos porcentuales

MEDIDAVENTAJASDESVENTAJAS

Es muy general, tan slo nos da una idea de cun amplia es

Rango o recorridoEs fcil de calcular, y tiene una interpretacin intuitivala variacin entre puntajes extremos.No toma en cuenta los valores intermedios de la distribucin.

Recorrido o rango intercuartlico

|Es la diferencia entre el Q1

y el Q3

|Nos indica la dispersin en el 50% central de la distribucin

|Es ms sensible a la concentracin de los datos que el recorrido ordinario|Su clculo es indistinto para datos originales como para datos agrupados.

RI = Q3

Q1

RIQ

Rango intercuartlico

Q1 Q2 Q325%25%25%25% P25 P50 P75

RI = Q3

Q1

|Datos originales

|20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

Q1 = 1/ 4n

= 0,25

* 12 = 3

Q3 = 3/ 4n

= 0,75*12 = 9

18, 20, 20, 24, 32, 32, 32, 48, 49, 53, 59, 63

oA partir de los 22 aos

Q1Q3

hasta los 51 se ubica el

=(20+24)/2=22

=(49+53)/2=51

50% central de ladistribucin

o29

aos es

la distancia

existente

=(20+24)/2=(49+53)/2RI =

51 22 =

29.aos

en el 50% central de la distribucin

RI = Q3

Q1

|Datos

Distribucin de pases segn porcentaje de la poblacin de 15 y ms aos de edad analfabeta, Amrica Latina y el Caribe. Ao 2010

agrupadosL. Inf. L. SupXcfifr (%)FiFr(%)Ai

Lmite inferior del intervalo que contiene al primer cuartil (Fr% supera al 25%)

0 a 52,51450145055 a 107,58282278510 a 201531125891020 a 42313112810022n (total)28100

Total de casosFrecuencia acumulada absoluta de la clase anterior a la que contiene al primer cuartil

Q1 =

L.Inf . +

(1/ 4N

Fi

fi

1)

* Ai

Q1 = 0 +

(1/ 4 * 28 0) * 514

= 2,5

frecuencia absoluta simple de la clase que contiene al

Q3 = 5 +

(3 / 4 * 28 14) * 58

= 9,4

102032510primer cuartil

Amplitud del intervalo quecontiene al primer cuartil

RI =

9,4 2,5

= 6,9

MEDIDAVENTAJASDESVENTAJAS

Es muy general, tan slo nos

da una idea de

cun amplia es

Rango o recorrido

Es fcil de calcular, y tiene una interpretacin intuitiva

la variacin entre puntajes extremos.No toma en cuenta los valores intermedios de la distribucin.

Solo mide la dispersin en el

No sufre la influencia de losSolo mide la distancia entre elRangoFcil de calcularintercuartlicoNo sufre la influencia de losvalores extremos

centro de la distribucinSolo mide la distancia entre el Q1 y Q3, y no la forma en que los datos estn distribuidos

Varianza

|Se basa en las diferencias entre la media aritmticauna de las puntuaciones

y cada

|Es el promedio de los cuadrados de las distancias de las

observaciones a negativo).

partir

de la

media

(su

valor

nunca

ser

|La frmula del clculo depender si la distribucin es de datos originales o agrupados, as como de si se trabaja con poblaciones (se usa en el denominador N) o con una muestra (se usa n-1).

Datos

originales:

N ( X i

X ) 2

N

2 X i

nX 2

datos originales o agrpadosas como de si se trabaja conSi 1S 2 =

i =1 n 1

= i =1 n 1

Varianza

n 1n 1|Se basa en las diferencias entre la media aritmticauna de las puntuaciones

y cada

|Es el promedio de los cuadrados de las distancias de las

observaciones a negativo).

partir

de la

media

(su

valor

nunca

ser

datos originales o agrpadosas como de si se trabaja con|La frmula del clculo depender si la distribucin es de datos originales o agrupados, as como de si se trabaja con poblaciones (se usa en el denominador N) o con una muestra (se usa n-1).

Tabla de frecuencia

N ( X i

X )2 * fi

N

2 X i

fi nX 2

2de datos:

S 2 =

i =1

= i =1

Varianza

|Se basa en las diferencias entre la media aritmticauna de las puntuaciones

y cada

|Es el promedio de los cuadrados de las distancias de las

observaciones a negativo).

partir

de la

media

(su

valor

nunca

ser

datos originales o agrpadosas como de si se trabaja con|La frmula del clculo depender si la distribucin es de datos originales o agrupados, as como de si se trabaja con poblaciones (se usa en el denominador N) o con una muestra (se usa n-1).

Tabla de frecuencia

N ( Xci

X ) 2 * fi

N

2 Xci

fi nX 2

de clases:

S 2 =

i =1

= i =1

N ( X i2

X )2 * fi

N

2 X i

fi nX 2

S= i =1

= i =1

|Datos

originales

n 1

n 1

|20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

x = 20 + 49 + 59 + 18 + 32 + 32 + 63 + 24 + 20 + 32 + 53 + 48 =12

450

12

= 37,5.aos

iEdadfiX 2

2 *fi

Xi181324324202400800241576576323102430724812304230449124012401531280928095913481348163139693969 (Xi2 *fi)=

S 2 =

X 2 = 1406,25

19736 12 * 1406,25

11

= 260,1

2 15 aos482304n (Total)12

19736

N( Xci

X )2

* fi

N Xci

2fi

nX 2

S 2 =

i =1 N

= i =1 N

Tabla de

frecuencia

de clases: x =

23328

= 8,32.puntos.porcentuales

L. Inf. L.SupXcfi(Xc*fi)Xc2Xc2*fi0 a 52,51435687,55 a 107,58605645010 a 201534522567520 a 42313939612883(Xc*fi)(Xc2*fi)n (total)28= 233= 4095,5

223310203225n (total)==1

S 2 =

4095,5 28 * (8,32)2

28

= 4095,5 28 * (69,2)28

= 77,1

MEDIDAVENTAJASDESVENTAJAS

Es muy general, tan slo nos da una idea de cun amplia es

Rango oEs fcil de

calcular, y tiene

la variacin entre puntajes

recorrido

Rango intercuartlico

una interpretacin intuitiva

Fcil de calcularNo sufre la influencia de los valores extremos

extremos.No toma en cuenta los valores intermedios de la distribucin.

Solo mide la dispersin en el centro de la distribucinSolo mide la distancia entre el Q1 y3, y no la forma en que los datos estn distribuidos

Al expresarse en el cuadrado

VarianzaConsidera todos los valores

de las unidades de los

datos, es

de la distribucin

de difcil interpretacin.

Desvo estndar o tpico

Es la medida ms frecuentemente usada de variabilidad, y se calcula como la raz cuadrada de la varianza.

Expresalacantidaddevariabilidadpromedioenuna distribucin.

|Nos permite determinar cmo se distribuyen los valores

en relacin

con la

media

|Su frmula es indistinta para distribuciones de datosoriginales o agrupados.

NiS = i =1 =S 2N

S =S 2

|Datos

originales

|20, 49, 59, 18, 32, 32, 63, 24, 20, 32, 53, 48

S 2 =

260, S =

260,1

= 16,1.aos

1Tabla de frecuencia de clases:

S2 1 11S 2 =

77,1

S =77,1 =

8,8.puntos.porcentuales

MEDIDAVENTAJASDESVENTAJAS

Es muy general, tan slo nos da una idea de cun amplia es

Rango o recorrido

Es fcil de calcular, y tiene una interpretacin intuitiva

la variacin entre puntajes extremos.No toma en cuenta los valores intermedios de la distribucin.

Solo mide la dispersin en el

RangoFcil de calcularintercuartlicoNo sufre la influencia de losvalores extremos

VarianzaConsidera todos los valores de la distribucin

centro de la distribucinSolo mide la distancia entre el Q1 y Q3, y no la forma en que los datos estn distribuidos

Al expresarse en el cuadrado de las unidades de los datos, es de difcil interpretacin.

da una idea de cun amplia esSlidldiilAlxpresarse en el cuadradoDesvo estndar o tpico

Se expresa en las unidades originales de la variable

Es sensible a las unidades de medida

Coeficiente de variacin

|Hace referencia a la variabilidad relativa,media con el desvo

relaciona la

|Nos indica el porcentaje de variacin que existe conrespecto al valor promedio de la distribucin.

|Su frmula es igual para datos originales que para datos agrupados.

CV100

CV=

S*100X

CV=

S*100X

|Datos originales

CV =

16,1

37,5

* 100

= 43%

Tabla de frecuencia de clases:

100%

CV =

8,8

8,32

* 100

= 106%

MEDIDAVENTAJASDESVENTAJAS

Es muy general, tan slo nos da una idea de cun amplia es

Rango o recorrido

Es fcil de calcular, y tiene una interpretacin intuitiva

la variacin entre puntajes extremos.No toma en cuenta los valores intermedios de la distribucin.

Solo mide la dispersin en el

RangoFcil de calcularintercuartlicoNo sufre la influencia de losvalores extremos

VarianzaConsidera todos los valores de la distribucin

centro de la distribucinSolo mide la distancia entre el Q1 y Q3, y no la forma en que los datos estn distribuidos

Al expresarse en el cuadrado de las unidades de los datos, es de difcil interpretacin.

da una idea de cun amplia esSlidldi titlAlxpresarse en el cuadradoSliddDesvo estndar o tpico

Coeficiente de variacin

Se expresa en las unidades originales de la variable

Es til para comparar la variabilidad entre conjuntos de datos (de diferentes o iguales unidades de medida)

Es sensible a las unidades de medida

Arrastra las limitaciones que tiene la media como medida de tendencia central

Bibliografa

zGarca Ferrando, M. Socioestadstica.Introduccin a la estadstica en sociologa

zLind, Marchal, Mason: Estadstica paraAdministracin y Economa

zRepetto, D. Material de apoyo para el curso deEstadstica de Relaciones Internacionales