correlacion y regresion dr paul pachas ok

15
Bioestadística Paúl E. Pachas MD, MPH (C), MSc (C) Instituto Nacional de Salud Ministerio de Salud

Upload: jhonatan-portilla

Post on 15-Jan-2016

218 views

Category:

Documents


0 download

DESCRIPTION

Correlacion y Regresion

TRANSCRIPT

Page 1: Correlacion y Regresion Dr Paul Pachas Ok

Bioestadística

Paúl E. Pachas MD, MPH (C), MSc (C) Instituto Nacional de Salud

Ministerio de Salud

Page 2: Correlacion y Regresion Dr Paul Pachas Ok

Correlación y

regresión

Page 3: Correlacion y Regresion Dr Paul Pachas Ok

Estudio conjunto de dos variables

• A la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables en varios individuos de una muestra.

– En cada fila tenemos los datos de un individuo

– Cada columna representa los valores de cada variable.

– Las individuos no se muestran en ningún orden particular.

• Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

• Intentaremos reconocer a partir de estos valores si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.

Altura en cm.

Peso en Kg.

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

Page 4: Correlacion y Regresion Dr Paul Pachas Ok

Relación entre variables

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Tenemos las alturas y los pesos de 30 individuos en un diagrama de dispersión.

Parece que el peso aumenta con la alturaPeso

Talla

Page 5: Correlacion y Regresion Dr Paul Pachas Ok

Coeficiente de correlación de Pearson• El coeficiente de correlación lineal de

Pearson de dos variables cuantitativas, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

• r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

Page 6: Correlacion y Regresion Dr Paul Pachas Ok

Propiedades de r• Es adimensional• Sólo toma valores en [-1,1]• Las variables son incorreladas r=0• Relación lineal perfecta entre dos variables r=+1 o r=-

1– Excluimos los casos de puntos alineados horiz. o verticalmente.

• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.– Siempre que no existan observaciones anómalas.

-1 +10

Relación inversa perfecta

Relación directa

casi perfecta

Variables incorreladas

Page 7: Correlacion y Regresion Dr Paul Pachas Ok

Correlaciones positivas

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30405060708090

100110120130

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Page 8: Correlacion y Regresion Dr Paul Pachas Ok

Correlaciones negativas

r=-0,5

0

10

20

30

40

50

60

70

80

90

140 150 160 170 180 190 200

r=-0,7

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,95

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,999

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Page 9: Correlacion y Regresion Dr Paul Pachas Ok

Otros coeficientes de correlación

• Cuando las variables en vez de ser cuantitativas son ordinales, es posible preguntarse si hay algún tipo de correlación entre ellas.

• Disponemos para estos casos de dos estadísticos :– ρ (‘ro’) de Spearman– τ (‘tau’) de Kendall

• Son estadísticos análogos a r y que se usan cuando las variables son ordinales o cuantitativas con distribución no normal.

Maurice George Kendall

Charles Edward Spearman

Page 10: Correlacion y Regresion Dr Paul Pachas Ok

Análisis de Regresión• Estudia la relación funcional entre variables; la

finalidad es predecir una variable en función de la(s) otra(s).

– X = Variable independiente• Predictora• Explicativa• Exógena

– ¿Es posible descubrir una relación? Y = f(X) + error

– f es una función de un tipo determinado– el error es aleatorio, pequeño, y no depende de X

– Y = Variable dependiente• Predicha• Explicada• Endógena• Respuesta

Page 11: Correlacion y Regresion Dr Paul Pachas Ok

Análisis de Regresión Simple

• Intervienen solo dos variables:– Y (dependiente)– X (independiente, explicativa, predictora)

• buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante la ecuación:

Ŷ = a + bXDonde

• Ŷ es el valor estimado de Y para distintos valores de X• a es la intersección o el valor estimado de Y cuando X=0, es

constante)• b es la pendiente de la línea, o el cambio promedio de Y’ para

cada cambio en una unidad de X

Page 12: Correlacion y Regresion Dr Paul Pachas Ok

X

Y

Línea de regresión

a es la intersección o el valor estimado de Y cuando X=0, es constante)

a

(var. dependiente)

(var. independiente)

b

b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de X

Ŷ = a + bX

Análisis de Regresión Simple

Page 13: Correlacion y Regresion Dr Paul Pachas Ok

Trazando líneas de regresión

• Esta gráfica corresponde a un valor fijo de a= 10 y un valor de b diferente.

• Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de b.

• Esta gráfica corresponde a un valor diferente de a y un valor fijo de b.

10

20

10

5

Ordenada

Abcisa

Page 14: Correlacion y Regresion Dr Paul Pachas Ok

Líneas posibles de regresión en la regresión lineal simple

xx

Y

Relación lineal positiva

Línea de regresión

La pendiente b es positiva

a

x

Y

Relación lineal negativa

Línea de regresión

La pendiente b es negativaa

No hay relación

Y

Línea de regresión

La pendiente b es 0

a

Ordenada cuando X=0

a

Page 15: Correlacion y Regresion Dr Paul Pachas Ok

Resumen sobre bondad de ajuste

• La bondad de ajuste de un modelo de regresión se mide con el coeficiente de determinación R2

• R2 es la proporción de la variación total en la variable dependiente Y, que es explicada por la variación en la variable independiente X

• A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.

• R2 es el cuadrado del coeficiente de correlación (R2=r2 ), es una cantidad adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, R2 será cercano a uno, es malo cuando R2 es cercano a cero.