técnicas de investigación social - um.es · 1 técnicas de investigación social medir la...

18
Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico y aventurero Fundador (con otros) de la estadística moderna para explicar las teorías de Darwin. Primo de Darwin La regresión (relación entre variables) El término REGRESIÓN fue introducido por GALTON en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor”. Regresión a la media Regresión a la media Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable). PEARSON (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: Altura del hijo = 85cm + 0,5 altura del padre (aprox.) Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.

Upload: vuminh

Post on 30-Sep-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

1

Técnicas de Investigación Social

Medir la realidad social (4)

Licenciatura en Sociología – Curso 2006/07

FRANCIS GALTONEstadístico y aventureroFundador (con otros) dela estadística modernapara explicar las teoríasde Darwin.Primo de Darwin

La regresión (relación entre variables)

El término REGRESIÓN fue introducido por GALTON en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”:

“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor”.Regresión a la media Regresión a la mediaSu trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).PEARSON (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.

Page 2: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

2

...

163

176

166

169

171

158

180

154

162

Altura en cm.

...

68

84

54

60

66

62

78

60

61

Peso en Kg.

Estudio conjunto de dos variablesA la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables en varios individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una variable sobre los mismos.Las individuos no se muestran en ningún orden particular.

Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Mid

e 18

7 cm

.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Diagramas de dispersión o nube de puntosTenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Page 3: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

3

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Parece que el peso aumenta con la altura

Relación entre variablesTenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

10 cm.

10 kg.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Predicción de una variable en función de otra

Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,el peso aumenta en una unidad por cada unidad de altura.

Page 4: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

4

Incorrelación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Fuerte relacióndirecta.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relacióninversa

0

10

20

3040

50

60

70

80

140 150 160 170 180 190 200

Cómo reconocer relación directa e inversa

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelación.

Para los valores de X mayores que la media le corresponden valores de Ymenores. Esto es relación inversa o decreciente.

Se llama relación directa o creciente entre X e Y cuando:

Para los valores de X mayores que la media le corresponden valores de Y mayores también.Para los valores de X menores que la media le corresponden valores de Y menores también.

Poca relación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Fuerte relacióndirecta.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relacióninversa

0

10

20

3040

50

60

70

80

140 150 160 170 180 190 200

o

o

o

o

o

Cómo reconocer buena o mala relación

Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia.

Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación.

Lo de “horquilla estrecha” hay que entenderlo con respecto a la dispersión que tiene la variable Y por si sola, cuando no se considera X.

Page 5: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

5

Relación entre variables (Definición)Se considera que dos variables cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían de forma sistemática con respecto a los valores homónimos de la otra; en otras palabras, si tenemos dos variables, A y B, existe relación entre ellas si al aumentar los valores de A también lo hacen los de B, o por el contrario si al aumentar los valores de A disminuyen los de B.

Relación entre variables (Significado)

La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, que es la que esquematiza las condiciones de la nube de puntos y de la relación. Los componentes elementales de una línea de ajuste y por extensión de una relación entre dos variables son:

La fuerza

El sentido

La forma

Page 6: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

6

Relación entre variables (Definición)

La fuerza mide el grado en que la línea representa a la nube de puntos. Si la nube es estrecha y alargada una línea recta representará adecuadamente a la nube de puntos y a la relación y por tanto ésta será fuerte. Si por el contrario, la nube de puntos tiene una tendencia elíptica o circular, una línea recta que trate de representar a la misma será consecuencia de una relación débil y poco representativa, con amplios residuos.

El sentido de la relación se refiere a cómo varían los valores de B con respecto a A. Si al crecer los valores de la variable A lo hacen los de B, será una relación positiva (a valores bajos de A le corresponden valores bajos de B). Si al aumentar A, disminuye B, será una relación negativa (a valores bajos de A le corresponden valores altos de B y viceversa).

La forma establece el tipo de línea a emplear para definir el mejor ajuste. Se pueden emplear tres tipos de líneas: una línea recta, una curva monotónica y una curva no monotónica.

Relación entre variables (Definición)

En el caso de usar una recta, se admite que existe una proporción entre la diferencia entre dos valores A y la diferencia entre dos valores de B. A ese factor de ajuste entre ambas series se le llama pendiente de la recta, y se asume que es constante a lo largo de toda la recta de ajuste.

En el caso de usar una curva monotónica, ese factor de proporción entre las dos variables no es constante a lo largo de toda la recta, y por lo tanto la pendiente de la misma es variable en su recorrido. Se dice entonces que la línea de ajuste es no lineal monotónica, puesto que la línea se ha convertido en curva. Sin embargo, lo que no varía es el sentido de la relación: si la relación es positiva lo será a lo largo de todo el recorrido de la curva y si es negativa, será negativa en toda la curva.

Por último, en el caso de usar una curva no monotónica varía tanto la pendiente de la curva como el sentido de la relación, que en unos sectores puede ser positiva (ascendente) y en otros negativa (descendente).

Page 7: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

7

Relación entre variables no lineales

))((1 yyxxn

S ii

ixy −−= ∑

Covarianza de dos variables X e YLa covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa.

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

Directa: Sxy > 0 Directa: Sxy < 0

Directa: Sxy = 0

Page 8: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

8

))((1 yyxxn

S ii

ixy −−= ∑

Cálculo de la covarianza

La covarianza entre dos variables Var1 y Var2 viene dada por:

Donde xi indica el valor de la variable Var1 para el individuo i, yi indica el valor de la variable Var2 para el individuo i, x la media de Var1 e y la media de Var2.

Indicadores de correlaciónLa correlación mide la relación lineal entre dos variables y su sentido (si es directo o inverso). Cuando la relación es perfectamente lineal dicho coeficiente vale 1 (ó -1). Cuando el coeficiente tiene un valor próximo a cero, o bien no existe relación entre las variables analizadas o bien dicha relación no es lineal.La correlación habitualmente denotada por r se puede estimar de dos maneras diferentes:

El coeficiente de correlación de Pearson denotado por r es utilizado cuando ambas variables son cuantitativas siguiendo una distribución normal

El coeficiente de correlación de Spearman denotado por rs se utiliza cuando alguna de las variables es ordinal o incluso dicotómica o para variables cuantitativas con muestras pequeñas.

Page 9: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

9

yx

xy

SSS

r =

Coeficiente de correlación lineal de Pearson

El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

yx

xy

SSS

r =

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson se obtiene calculando en primer lugar la covarianza entre las variables, que es una medida de asociación con dependencia de las unidades de medida de las variables. Después se divide por el producto de cada una de las desviaciones típicas de ambas variables,resultando una medida de asociación adimensional.

Page 10: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

10

Coeficiente de correlación lineal de Pearson

Principio de isomorfía: sólo si la estructura de la hipótesis sustantiva supone una relación lineal, tendrá sentido utilizar el coeficiente de Pearson.

Si la relación hipóteticamente se supone no lineal, no deberá utilizarse este coeficiente para contrastar la hipótesis.

Si el coeficiente de Pearson calculado para la distribución conjunta informa que no existe relación, deberá tenerse muy presente de que la conclusión es que No hay relación lineal.

-1 +10

Relación inversa perfecta

Relación directa

casi perfecta

Variables incorreladas

Propiedades de rEs adimensionalSólo toma valores comprendidos entre [-1,1]

Las variables son incorrelada si r = 0

Relación lineal perfecta entre dos variables se produce si r = +1 o r =-1

Excluimos los casos de puntos alineados horizontal o verticalmente.

Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

Siempre que no existan observaciones anómalas..

Page 11: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

11

Correlación de SpermanEl coeficiente de correlación de Spearman es una técnica no paramétrica que se basa en los rangos en vez de en los valores originales de la variable.Cálculo de Rangos

Para los datos de las variables Var1 y Var2 se calculan los rangos de los valores de éstas, a los que se denota por: Ri(Var1) y Ri(Var2), siendo Ri(Var1) los rangos de la variable Var1 asociados al individuo i y Ri(Var2) los rangos de la variable Var2 asociados al individuo i. Ejemplo:

415

622

377

1,5710

5617

1,5810

Ri(Var2)R1(Var1)Var2Var1

Empate rangos 1 y 2rango 1,5

Máximo valor rango mayor

Correlación de Sperman (valores intermedios)

Cálculo de valores intermedios

A continuación, se realizan los siguientes cálculos intermedios:

Page 12: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

12

Coeficiente de SpearmanCálculo del coeficiente de correlación de Spearman.

“A partir de los coeficientes calculados con anterioridad, se calcula el coeficiente de correlación rs de Spearman dado por:

Page 13: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

13

Page 14: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

14

Page 15: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

15

Page 16: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

16

r=0,630405060708090

100110

140 150 160 170 180 190 200

r=0,130

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,430405060708090

100110120130

140 150 160 170 180 190 200

r=0,830

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Entrenando el ojo: correlaciones positivas

r=130

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,930

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,9930

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Entrenando el ojo: casi perfectas y positivas

Page 17: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

17

r=-0,50

102030405060708090

140 150 160 170 180 190 200

r=-0,70

10203040

50607080

140 150 160 170 180 190 200

r=-0,950

10203040

50607080

140 150 160 170 180 190 200

r=-0,9990

10203040

50607080

140 150 160 170 180 190 200

Entrenando el ojo: correlaciones negativas

Preguntas más frecuentes¿Si r = 0 eso quiere decir que no las variables son independientes?.

Me ha salido r =1’2 ¿la relación es “superlineal”?

En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos.

Lo contrario si es cierto: Independencia implica incorrelación

¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.

¿A partir de qué valores se considera que hay “buena relación lineal”?

Es difícil dar un valor concreto. Podemos decir que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación.

Page 18: Técnicas de Investigación Social - um.es · 1 Técnicas de Investigación Social Medir la realidad social (4) Licenciatura en Sociología – Curso 2006/07 FRANCIS GALTON Estadístico

18

Maurice George Kendall

Charles Edward Spearman

Otros coeficientes de correlación

Cuando las variables en vez de ser numéricas son ordinales, se utilizan otro tipo de indicadores.

Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase:

ρ (‘ro’) de Spearman

τ (‘tau’) de Kendall