biometria sesion teorica_martes_12_junio_2012

25
Regresión y Correlación Barrio Universitario, junio 12 de 2012

Upload: javiera-isidora-burgos-saavedra

Post on 16-Jul-2015

35 views

Category:

Engineering


0 download

TRANSCRIPT

Regresión y Correlación

Barrio Universitario, junio 12 de 2012

Regresión y CorrelaciónCuando se mide 2 ó más variables (X, Y) de cada individuo deseamos expresar la naturaleza de ambas variables.

Regresión

relación de una variable con otra expresando una como función de la otra (u otra función más compleja).

Correlacióngrado en el que dos variables varían conjuntamente

Regresión Lineal Simple

* Se dispone de una muestra con observaciones de 2 variables: (X1, Y1), (X2, Y2), …, (Xn, Yn)

¿Se entiende de qué estamos hablando?

¿Cuál es el grado de asociación entre ambas variables?

* Covarianza = medida de variación conjunta entre variables X e Y

Si COV es (+), entonces X e Y tienden a variar de la misma forma(-), entonces una ↑ y la otra ↓, o vice versa~ 0 , entonces no hay asociación entre X e Y

EJEMPLO. Datos de 20 empleados de una empresa:

X = pulsaciones por minuto en reposo (nº)Y = tiempo en correr una milla (segundos) COVARIABZA

(valores centrados y productos)

Cov = 239,41

¿Usos de la regresión?

* Estudio de causalidad (variación de una variable causada por la otra, lo que debemos probar experimentalmente)

* Descripción de leyes científicas y predicción (descripción matemática de relaciones entre variables en la naturaleza y uso de un modelo de regresión, el que puede ser útil para predicciones, preferiblemente simples, aunque pueden ser complejas)

* Comparación de valores dependientes (¿en qué grado la diferencia en la supervivencia observada de 2 grupos de coleópteros es función de la densidad a la que han crecido?)

* Sustitución de variables (¿se relaciona la presión sanguínea de ratones experimentales con la edad? En caso (+), entonces se podría registrar la edad de los ratones, simplemente, y predecir la presión sanguínea si los equipos son muy escasos y caros, por ejemplo)

Cov tiene el problema que su valor no es acotado, por lo que ese valor calculado puede ser pequeño o grande. Bo sabemos. Por lo tanto, se define …

Coeficiente de Correlación (r) = medida de asociación lineal entre dos variables X e Y, independiente de sus unidades de medida. Se mide como la Cov dividida por las desviaciones estándar (S) de X e Y, esto es:

r = [ -1, +1 ],

pero, alto valor de r no significa que exista relación causa-efecto entre ambas variables.

Cálculo del Coeficiente de Correlación

- Calcular las desviaciones estándar de X e Y

���� d.s.(X) = 7,36 ���� d.s.(Y) = 69,97

Corr (X, Y) = Cov(X,Y) / [ d.s.(X) * d.s.(Y) ]

Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46

Regresión Lineal Simple

Asumiremos que ahora existe una relación de causalidad desde la variable X (causa) hacia la variable Y (efecto), y que la relación es de tipo lineal en el rango de los datos observados. El modelo es

Yi = a + b Xi + εi para i = 1, 2, …, n

donde:a, b son parámetros del modelo (fijas)

εi son errores aleatorios y corresponden a la diferencia entre loque postula el modelo “a + b X” y lo que se observa (Y).

Ejemplo: Ventas de automóviles

Ejemplo: Ventas de automóviles

Se piensa que si aumenta el porcentaje de comisión pagada mensual al vendedor (variable X, en %), entonces aumenta la ganancia neta por venta mensual (variable Y, en millones de $); n=15 concesionarios.

El problema es estimar los parámetros a, b y d.s. para identificar el modelo. ¿Cómo?

Método de Mínimos Cuadrados:consiste en encontrar los valores de a y b que minimicen la suma de cuadrados de las desviaciones de las observaciones respecto de la recta que representa al modelo (en la figura los segmentos representan los

errores εi del modelo).

(continuación)

X = comisión pagada mensual al vendedor (%) X̅ = 5,4Y = ganancia neta por venta mensual (millones $) ̅Y = 16,1

b = 3,18a = - 0,96

Por lo tanto, el modelo lineal es el siguiente:

¿cómo se interpreta?

Valores ajustados al modelo:

Regresión Lineal Múltiple

En el análisis de regresión múltiple la ecuación de regresión ya no define una recta (en el plano), sino un hiperplano en un espacio multidimensional.

Imaginemos al salario como variable dependiente (Y) del salario inicial (X1) y de la experiencia previa (X2).

La ecuación es:

Y = a + b1 X1 + b2 X2 + ε

Coeficiente de Determinación (R2)

Es una medida de la bondad de ajuste del modelo de regresión lineal a los datos. (Es deseable que los valores de Y ajustados al modelo sean lo más parecidos posible a los valores observados. Una medida de lo parecido que son (los valores de Y observados y los valores de Y ajustados), es el coeficiente de correlación.

R2: [ 0, 1]

0 significa no ajuste; 1 significa ajuste perfecto (todos los valores sobre la recta)

Ejemplos Tabla 1: Notas física y matemáticas de un curso

Alumno Matemáticas Fisica

1 82 72

2 74 40

3 76 62

4 78 48

5 98 74

6 94 70

NOTAS

6 94 70

7 84 84

8 68 52

9 72 54

10 96 58

11 58 46

12 80 60

y = 4.66 + 0.6917x

R² = 0.40

20

40

60

80

100

40 60 80 100

No

tas

físi

ca

Notas matemáticas

Ejemplos

TABLA 2: Número de vehículos y mertes por accidentes de tránsito

País N° Vehículos /100 personas Muertes de transito/ 100 habitantes

1 31 14

2 32 29

3 30 22

4 47 32

5 30 25

6 19 20

7 36 21

8 40 22

9 47 30

10 58 35

PROMEDIO 37 25

Ejemplos TABLA 3: Peso (kg) y consumo de alimento diario promedio (calorías x100/día)

en muchachas adolescentes obesas

Muchacha peso (kg) consumo (cal x100)

1 84 32

2 93 33

3 81 33

4 61 24

5 95 39

6 86 32

7 90 34

8 78 28100

9 85 33

10 72 27

11 65 26

12 75 29

Promedio 80 31 y =6.47 + 2.3981x

R² = 0.88

40

50

60

70

80

90

20 25 30 35 40

Pe

so (

Kg

)

Consumo (cal. x 100)

TABLA 4: Cantidad de subsidios gubernamentales en inglaterra (1969) vs. Población

ciudad Población (x 10.000) Subsidio (millones de libras) Subsidio por habitante (millones libras)

1 29 8.03 0.28

2 58 16.81 0.29

3 108 33.9 0.31

4 34 9.97 0.29

5 115 34.02 0.30

6 19 6.72 0.35

7 136 40.75 0.30

8 33 10.15 0.31

9 25 8.77 0.35

10 47 12.5 0.27

11 49 17.27 0.35

12 33 12.6 0.38

PROMEDIO 57.2 17.6 0.3

DE 0.0445 DE 0.04

CV 0.11y = 0.2949x + 0.7634

R² = 0.9873

0

5

10

15

20

25

30

35

40

45

0 50 100 150

Su

bsi

dio

(m

illo

ne

s d

e l

ibra

s)

Población (x 10.000)

Regresión y CorrelaciónCuando se mide 2 ó más variables (X, Y) de cada individuo deseamos expresar la naturaleza de ambas variables.

Regresión

relación de una variable con otra expresando una como función de la otra (u otra función más compleja).

CorrelaciónCorrelacióngrado en el que dos variables varían conjuntamente

¿ Consultas ?

Hugo Arancibia([email protected])

Unidad de Tecnología Pesquera (www.unitep.cl)Universidad de Concepción