capÍtulo 19 correlaciÓn y regresiÓn...

C a p í t u l o 1 9 . C o r r e l a c i ó n y R e g r e s i ó n | 1

División de Ciencias Básicas, FI, UNAM/Bernardo Frontana de la Cruz

1CAPÍTULO 19 CORRELACIÓN Y REGRESIÓN

19.1 Introducción En los capítulos anteriores hemos tratado el caso en que observamos solamente

una variable de los elementos de la muestra que sacamos de la población, tales como el peso, el tiempo, la proporción de votantes, la tasa medias de producción, etc.; por lo que podemos decir que hemos estudiado la inferencia estadística univariable. En este capítulo extenderemos el estudio de la inferencia a situaciones de dos o más variables al que llamaremos inferencia estadística multivariable que se aplica en problemas en que se observa más de una variable a los elementos de la muestra y el interés del investigador se centra fundamentalmente en estudiar la fuerza de asociación lineal entre las variables y la búsqueda de modelos matemáticos que reflejen las interrelación entre ellas para usarlos en la predicción.

Algunos ejemplos que muestran la utilidad del análisis estadístico multivariable son las investigaciones médicas en las que se busca la interrelación existente entre el control de la azúcar de los pacientes con el ejercicio y la dieta; en investigaciones educativas en la Facultad de Ingeniería el interés puede enfocarse en la búsqueda un modelo que auxilie en la predicción del rendimiento académico de los alumnos causado por las calificaciones de las materias antecedentes seriadas; en ingeniería agrícola puede interesar si existe alguna asociación entre la cosecha de un fruto y la cantidad de fertilizantes y la profundidad de los surcos a la que se siembran las semillas; un ingeniero de computación puede interesarse en el tiempo de procesamiento y la cantidad de datos que se introducen al un procesador; o bien, un industrial desearía conocer la cantidad de artículos producidos en términos de las condiciones ambientales de la planta tales como temperatura, humedad y suciedad y, más aún, de las condiciones físicas y mentales de los trabajadores.

Los ejemplos anteriores son suficientes para motivar el estudio de los conceptos que se desarrollarán en el presente capítulo que, en suma, son problemas que se estudian en el marco de los que se conoce como de correlación y regresión, e involucran las siguientes preguntas clave:

¿Vestiste una relación estadística que ofrezca alguna predictibilidad que al parecer parece existe entre las variables aleatorias de interés?

¿Qué tan fuerte es el grado aparente de la relación estadística en el sentido de la posible habilidad predictiva que ofrece la relación?

¿Es posible establecer un modelo para predecir una variable en términos de la otra u otras variables, y de ser afirmativo, que tan confiable es el modelo?

La respuesta es estas preguntas se da a través de la correlación y la regresión. El estudio lo haremos considerando primeramente dos variables y en otro capítulo posterior el estudio se extenderá más de dos variables; para tal efecto, se sugiere ala lector repasar los conceptos de las variables aleatorias conjuntas analizados en la sección 9.3 del capítulo 9 y, particularmente, los conceptos de los mementos y de regresión y correlación de la teoría de la probabilidad de las secciones 10.7 a 10.12 del capítulo 10.

2 | C a p í t u l o 1 9 . C o r r e l a c i ó n y R e g r e s i ó n


19.2 Análisis de Correlación Por constituir la base teórica, es necesario repasar los conceptos de covarianza y el

coeficiente de correlación, estudiados en las secciones 10.8 y 10.9, puesto que son los indicadores que miden la interrelación entre dos variables aleatorias.

La covarianza es el momento de la distribución conjunta de las variables Y que refleja la fuerza de la dirección de la interrelación existente entre Y y se definió como

, = 10.47

Si Y son independientes

, 0 (10.53)

El signo de la covarianza proporciona la información sobre la dirección de la interrelación existente entre Y .

Si ,

2 (10.54) Y, si las VA son independientes se tiene

(10.56) 19.2.1 El Coeficiente de Correlación Como la covarianza tiene como unidades las correspondientes a Y es difícil

interpretar la fuerza de la relación entre Y , dificultad que se salva dividiendo la covarianza por el producto de sus desviaciones estándar ‐ y ‐ cuyo resultado es un parámetro adimensional conocido como el coeficiente de correlación y se define como

,

(10.57)

Puede demostrarse que 1 1 Este coeficiente corrige el escalamiento de Y y representa apropiadamente la

fuerza y la dirección de la relación que existe entre dichas variables. Si 1 los valores de las variables están perfectamente correlacionados o alineados positivamente como se muestra en la figura 19.1* (a); mientras que para 1 los valores de las variables estarán perfectamente correlacionados o alineados negativamente como se indica en la figura 19.1* (b); y si 0 las variables NO están correlacionadas como se ilustra en (c) de la figura. Para los demás valores si está cercano a 1 o a 1 se tiene una interrelación fuerte, en cambio si está cercano a 0 implica una fuerza de asociación lineal muy débil o inexistente.



Conviene insistir que el coeficiente de correlación mide la fuerza de la relación

lineal entre las variables bajo estudio Y ; por ejemplo, si 3 1 las variables están perfectamente correlacionadas positivamente, si 3 1 las variables están perfectamente correlacionadas negativamente; en cambio para . las variables no están perfectamente relacionadas linealmente porque la relación no es lineal y tomara algún valor positivo comprendido entre 0 1, como se ilustra en la figura 19.1*.

Y=3X+1; XY = +1

X

0 1 2 3 4 5 6

Y

0

2

4

6

8

10

12

14

16

18

Y=-3X+1; XY = -1

X

0 1 2 3 4 5 6

Y

-16

-14

-12

-10

-8

-6

-4

-2

0

2

(a) (b)

XY

X

0 1 2 3 4 5 6 7

Y

0

1

2

3

4

5

6

Y=e0.5X

X

0 2 4 6 8 10 12

Y

0

20

40

60

80

100

120

140

160

(c) (d)

Figura 19.1* Relaciones lineal y no lineal Llevados estos conceptos a la inferencia estadística, estos corresponden a la

población bajo estudio que no se conocen pero pueden estimarse a partir de una muestra sacada de ella, con la cual el coeficiente de correlación de la muestra, llamado el coeficiente de correlación producto momento de Pearson se define como

∑

19.1

Donde representa el tamaño de la muestra de los pares de valores , extraídos de la población bivariable y , , son las medias y las desviaciones



estándar de los valores de la muestra. Si se comparan las ecuaciones (10.57) y (19.1) pude verse que la covarianza de la muestra

∑ 19.2

es un estimador de la covarianza de la población. Una justificación teórica para usar como estimador del coeficiente consiste

en que si la población de donde se muestrea se comporta como una distribución normal bivariable, este coeficiente de correlación es un estimador de máxima verosimilitud del parámetro de la población; más aún, con referencia a la figura 19.2, si se saca la muestra aleatoria 1 de la población y se calcula su coeficiente de correlación se obtiene , si se saca la muestra 2 de la población y se calcula su coeficiente de correlación se obtiene , si se saca la muestra i de la población y se

calcula su coeficiente de correlación se obtiene , donde los superíndices significan los coeficientes de correlación calculados con las muestras 1, 2, …i respectivamente y, si teóricamente se saca un número infinito de muestras de la población⋯ lo que significa que realmente es una variable aleatoria o sea un estimador del verdadero coeficiente de correlación de la población ,con distribución muestral que definiremos más adelante.

Figura 19.2 La representación del coeficiente de correlación como estimador de

Con el propósito de obtener una expresión más sencilla para calcular el coeficiente

de correlación de la muestra , definimos por analogía con los momentos centrales estudiados en el capítulo 9 para las variables aleatorias, a los de la muestra

19.3



19.4

19.5

Si se sustituyen a con sus expresiones generales de los datos de la muestra

en la ecuación 19.1 y efectuando operaciones se tiene

√ 19.6

Con objeto de aplicar los conceptos y las expresiones correspondientes

desarrolladas, a lo largo del presente capítulo nos basaremos en el siguiente ejemplo. Los siguientes datos de la tabla 19.1 corresponden al tiempo de secado (en hrs) y el

contenido de un solvente (en %) de una muestra de hornadas para un recubrimiento experimental que se utilizará en la protección de la pintura en las zonas costeras con objeto de evitar la salinidad.

Tabla 19.1 Datos para el ejercicio por desarrollar

No de hornada Contenido de solvente (%) Tiempo de secado (hrs)

1 2.5 2.3

2 2.7 2.1 3 3 2.2 4 3.1 2.1 5 3.2 2 6 3.4 1.9

7 3.5 1.9 8 4 1.6 9 4.2 1.6 10 4.5 1.5

Aunque en el análisis de correlación no importa la relación causa‐efecto o sea

identificación de la variable dependiente y la independiente puesto que el resultado será el mismo, para fines del análisis de regresión que estudiaremos posteriormente en nuestro ejemplo es claro que el tiempo de secado del recubrimiento depende porcentaje de solvente que se agregue al recubrimiento; por lo que a la manera matemática usual hemos denotado al contenido de solvente con y al tiempo de secado con .

Para visualizar si existe una posible asociación lineal en los datos de la muestra, lo primero que se recomienda es dibujar el diagrama de dispersión que consiste en representar los puntos , en un plano con las coordenadas y . Para nuestro ejemplo, la figura 19.3 muestra dicho diagrama.



Figura 19.3 Diagrama de dispersión

X :%solvente

0 1 2 3 4 5

Y:

tiem

p de

sec

ado

(hr

)

0.0

0.5

1.0

1.5

2.0

2.5

3.0

En la figura se observa que, además de que existe una asociación lineal entre el % de solvente y el tiempo de secado, esta asociación es fuerte e inversa lo que significa que el coeficiente de correlación está cercano a ‐1. Esta conjetura la podemos probar calculando dicho coeficiente aplicando la ecuación 19.6; para lo cual primero necesitamos calcular los momentos centrales definidos por las expresiones 19.3 a 19.5 con base en los cálculos mostrados en la tabla 19.2.

Tabla 19.2 Cálculos necesarios para determinar los momentos centrales

No de hornada

Contenido de solvente (%)

Tiempo de secado (hrs)

1 2.5 2.3 5.75 6.25 5.29 2 2.7 2.1 5.67 7.29 4.41 3 3 2.2 6.6 9 4.84

4 3.1 2.1 6.51 9.61 4.415 3.2 2 6.4 10.24 4 6 3.4 1.9 6.46 11.56 3.61 7 3.5 1.9 6.65 12.25 3.61 8 4 1.6 6.4 16 2.56

9 4.2 1.6 6.72 17.64 2.56

10 4.5 1.5 6.75 20.25 2.25

Sumas 34.1 19.2 63.91 120.09 37.54

Medias= 3.41 1.92

7.54 10 1.92 0.676



120.09 10 3.41 3.809

63.91 10 1.92 3.41 1.562

Con los cuáles el coeficiente de correlación es

√

1.562

√0.676 3.8090.97

Este valor soporta la conjetura que habíamos establecido anteriormente por lo que

las variables se correlacionan negativamente en una línea recta, o con pendiente negativa.

19.2.2 Distribución Normal bivariable Para hacer inferencias sobre una variable, consideramos que la distribución de la

población era normal y utilizamos la distribución muestral del estadístico relacionado al parámetro; como ahora estamos en el caso de dos variables es necesario hacer algunas consideraciones de la distribución conjunta de dos variables de la población que estudiamos en los capítulos 12 y 13, a la que se llama la distribución bivariable.

Si recordamos, tales distribuciones de dos variables aleatorias y tienen como función masa de probabilidad , si son discretas; o función de densidad bivariable , si son continuas. Teóricamente, existen muchas distribuciones bivariables; sin embargo, la más estudiada es la distribución normal bivariable que se representa en la figura 19.3* cuya expresión matemática es

,1

2 1exp

22 1

19.7

Donde , ; por lo que para especificar completamente a la

función de densidad se deben definir los cinco parámetros , , , .



0

20

40

60

80

100

-5

0

5

10

15

-50

510

f(y|x)

X

E[Y|x]

FDP Normal Bivariable

f(y|x1)

f(y|x2)

f(y|x3)

Curva de regresión

x3

x2x1

E[Y|x]

f(x,y)

Figura 19.3* Función de densidad normal bivariable Componer

Esta distribución tiene varias características importantes entre la que destacan las

siguientes:

sus distribuciones marginales son normales;

sus distribuciones condicionales | | también son normales;

0 si y solo si y son independientes, implicado por la independencia estadística. Este resultado significa, para esta distribución, que cualquier interrelación entre dos variables es astrictamente lineal.

En otras distribuciones puede suceder que 0 aún cuando y no sean independientes, por lo que la mayoría de las inferencias que involucran correlación se desarrollan en términos de la suposición de que la distribución bivariable de la población es normal; en cuyo caso las inferencias sobre la correlación equivalen a las inferencias sobre la independencia o independencia de las variables y si se adopta restricciones más severas sobre la distribución bivariable de la población, se tendrán que plantear restricciones más severas sobre los resultados de las muestras.

Conviene destacar que el coeficiente de correlación definido por (19.1) es aplicable a datos se miden en las escalas de intervalos o de razones que se estudiaron en el



capítulo 4; sin embargo, para datos que se miden en las escalas nominales (que se miden con categorías) y ordinales (que se miden con el orden) se cuenta con otras técnicas para medir la asociación entre las dos variables como se verá en un capítulo posterior.

Finalmente, las nociones planteadas para la distribución normal bivariable pueden generalizarse para el caso de más variables, en cuyo caso se tiene la distribución normal multivariable; así, para variables aleatorias cada observación debe constar de valores , , , … , cuyos parámetros son las medias y las desviaciones estándar de cada variable y los coeficientes de correlación de cada par de ellas; para tal función, sus distribuciones marginales y condicionales son normales.

19.2.3 Distribución muestral del coeficiente de correlación ‐ ‐ Como nuestro interés está centrado en el coeficiente de correlación de la

población que usualmente se desconoce, el coeficiente de correlación de la muestra es el estadístico natural que se usa para hacer inferencias sobre su magnitud, bien sea calculando intervalos de confianza o haciendo pruebas de hipótesis; que es estudiaron en los dos capítulos precedentes. Para tal efecto conviene hacer algunas observaciones de la distribución muestral de que aparece en la figura 19.4.

Figura 19.4 Tres Distribuciones muestrales del coeficiente de correlación Como se observa en la figura, si 0 la densidad es simétrica respecto al origen,

de lo contrario, si 0 dicha densidad es asimétrica según el signo de . Ahora bien, si se muestrea de una población con densidad normal bivariable, la distribución muestral de se aproxima a una distribución normal si el tamaño de la muestra tiende a infinito. Para el caso en que 0 se utiliza la transformación

√ 2

1 19.8

Que corresponde al estadístico para la prueba que se distribuye conforme a la

distribución con 2 grados de libertad. 19.2.4 Inferencias respecto al coeficiente de correlación 19.2.4.1 Pruebas de hipótesis respecto al coeficiente de correlación



Si hacemos la prueba

: 0 : 0

al ejemplo que nos ocupa, tenemos que se trata de una prueba de dos colas cuyos

valores críticos para 0.05 son . 2.306 y .2.306; el valor del estadístico es

0.97√10 2

1 0.9711.29

Lo que nos lleva a rechazar la hipótesis de que el coeficiente de correlación entre el

contenido de solvente y el tiempo de secado sea igual a cero con un nivel de significación estadística 0.05, indicando que sí existe una dependencia lineal entre ellos.

El valor‐p es igual a 0.00000211 ; es mucho menor que 0.025 indicando que es altamente improbable que 0

Obsérvese que al rechazar la hipótesis nula de la prueba, no es posible enunciar explícitamente el valor de la fuerza de la relación lineal entre las dos variables, porque la trasformación anterior solo se puede usar para 0, y no puede aplicarse para calcular intervalos de confianza ni probar hipótesis para valores de distintos de cero; no obstante, para poder hacerlo, Ronald Aymer Fisher, el creador de los métodos estadísticos modernos y del diseño de experimentos, demostró que es posible efectuarlas para valores de con muestras moderadamente grandes de una población normal bivariable.

Para tal efecto, se utiliza la función particular de conocida como la transformación de Fisher de a , que se define como

12

11

19.9

que es una función uno a uno en la cual para cada posible valor de existe uno y

solo un valor de y a la inversa, para cada valor de existe uno y solo un valor de ; lo que implica que es posible transformar el de la muestra en un valor ,

hacer inferencias en términos de y hacer la transformación inversa de estas inferencias en términos de .

Entonces, para cualquier valor de de la población la distribución muestral de es aproximadamente normal para muestras de tamaño moderado con valor esperado aproximado

12

11

19.10

Y varianza

13 19.11



La bondad de esta aproximación se incrementa para pequeños valores absolutos de

y cuando el tamaño de la muestra aumenta, y se utiliza para probar hipótesis : :

donde es igual a algún valor no tan cercano a ‐1 y +1, y el estadístico para la

prueba es

1 √ 3⁄ 19.12

donde

12

11

19.13

Que se distribuye aproximadamente ~ 0,1 . Conviene enfatizar que el uso de la

transformación de a implica la consideración de que y se comportan conforme una distribución normal bivariable en la población; tal suposición parece muy estricta y puede no ser razonable en algunas situaciones; sin embargo, las consecuencias si esta suposición no se cumple son desconocidas.

Finalmente, conviene mencionar que la tabla X da valores de para diferentes valores de r que sirve para facilitar los cálculos. La tabla solamente muestra valores positivos de y puesto que si es negativo el signo del valor de también será negativo.

Con las salvedades explicadas para nuestro ejemplo tenemos 10, 0.97 y con 0.05 deseamos probar la hipótesis

: 0.95 : 0.95

Como se trata de una prueba de dos colas de , se tienen ⁄ .

1.96 ⁄ . 1.96. Consultando la tabla o efectuando las operaciones de la función de transformación

se tiene Para 0.95 ⟹ 1.832 y para 0.97 ⟹ 2.092; con los

cuáles

.2.092 1.832

1 √10 3⁄0.688

Como 0.688 1.96, se acepta con un nivel de significación

estadística 0.05 que el coeficiente de correlación de la población entre el porcentaje de solvente y el tiempo de secado es 0.95.

Para : 0.95 y : 0.95



. 1.65

Por lo que se rechaza la hipótesis . Para : 0.80 y : 0.80 ⟹ 1.099 y para 0.97 ⟹

2.092; con los cuáles

/ . . 1.96; / . 1.96.

.2.092 1.099

1 √10 3⁄2.63

Por lo tanto se rechaza Ho. 19.2.4.2 Intervalos de confianza respecto al coeficiente de correlación Con los antecedentes anteriores y los conceptos básicos sobre intervalos de

confianza que se estudiaron en la sección 17.7 correspondiente al capítulo de estimación estadística de parámetros, el cálculo de los intervalos de confianza para el coeficiente de correlación consiste en determinar primero los correspondientes a y, después hacer la transformación inversa para determinar los de . Es decir, un intervalo del 1 100% de confianza para es

%

⁄ .⁄

√ 3 19.14

Donde ⁄ es el fractil 1 2⁄ de la distribución normal estándar. Calculado

este intervalo, con la ecuación (19.3) o con apoyo de la tabla se determinan los valores inversos para el intervalo de obteniéndose

% 19.15

Para nuestro ejemplo que venimos trabajando tenemos 10, 0.05,

2.092 y para determinar un intervalo de confianza del 95% tenemos que

⁄ . 1.96 y aplicando la ecuación (19.14) se obtiene

% 2.0921.96

√10 32.83, 1.35

Aplicando la transformación inversa se obtienen los valores de y del intervalo

(19.15)

% 0.992; 0.874



De manera similar, para un intervalo del 90% de confianza 0.10, 2⁄ 0.050 1 2⁄ 0.950 ⁄ . 1.65, con lo cual

% 2.0921.65

√10 32.72, 1.47

Y

% 0.991; 0.900

Obsérvese que ambos intervalos contienen a y el % es menor que el %

como era de esperarse. 19.3 Análisis de Regresión Como ya vimos, en el análisis de correlación nos interesa la fuerza de la asociación

lineal estadística de las variables y medida con el valor de este coeficiente, y en el análisis de regresión el investigador está interesado en predecir el valor de una de las variables dado el valor de la otra; así, un gerente de ventas desearía predecir el volumen de ventas de su producto en términos de su precio y el de la competencia, o en nuestro ejemplo nos gustaría predecir el tiempo de secado ( ) para algún valor diferente del porcentaje de solvente ( ) al margen de los observados en la muestra.

La pregunta que se plantea es ¿Cómo predecir ? Si se conoce la distribución marginal de podría utilizarse la media de la distribución sin embargo se ignora la información de ; pero como es un valor de la variable aleatoria la distribución que incluye esta información es la condicional de dado que y recordando estos conceptos estudiados en el capítulo 9, la Distribución condicional de dado

| , (9.18*)

Cabe observar que para el caso de las variables aleatorias continuas se tienen las

funciones marginales ‐ ‐, y un número infinito de funciones de densidad condicionales tanto para X como para Y puesto que estas variables tienen un número infinito de valores.

Si son independientes, se tiene

| O bien , (9.24*) Intuitivamente, Un estimador razonable también llamado predictor de es la

media de la distribución condicional |

| varía para cada valor de por lo que es una función que se llama la curva de regresión de sobre , la cual se representa en la figura 19.5 para tres valores de .



Figura 19.5 La curva de regresión

Cabe observar que para cada valor de se tiene una función de densidad condicional, así, para la figura se tienen representadas solamente | , | y

| cuyas medias | , | y | son tres del número infinito de puntos

que forman la curva de regresión. Al margen del ejemplo que venimos trabajando en este capítulo, es conveniente

hacer otro para fijar los conceptos desarrollando en esta sección. Ejemplo 19.1 Supóngase que el mercado compartido de de una compañía de

teléfonos celulares de una marca M es actualmente del orden de 2/3, y el gerente está preocupado porque la marca L incrementará los gastos de publicidad en 0.7 millones de dólares y desea conocer el impacto que tendrá en el porcentaje del mercado de sus producto. La interrelación que existe entre el incremento de los gastos de publicidad ( ) y el porcentaje del mercado compartido ( ) está dada por la función de densidad conjunta que se representa en la figura 19.6.

, 0 1,0 1

0



0.0

0.5

1.0

1.5

2.0

2.5

0.00.2

0.40.6

0.8

0.0

0.2

0.4

0.6

0.8

1.0

f(x,

y)

x

y

Figura 19.6 Función de densidad conjunta f(x,y) = x+y

La función marginal de es

12 0 1

La función condicional de dado que aparece en la figura 19.7 es

|,

1 2⁄22 1

0 1



0.0

0.5

1.0

1.5

2.0

2.5

0.0

0.2

0.4

0.6

0.8

1.0

0.00.2

0.40.6

0.81.0

f(Y

|X=

x)

x

y

Figura 19.7 Densidad condicional f(Y|X=x)=2(x+y)/(2x+1)

Y la curva de regresión es

|22 1

3 23 2 1

0 1

Figura 19.8 Curva de Regresión E[Y|X=x] = (3x+2)/3(2x+1)

x

0.0 0.2 0.4 0.6 0.8 1.0 1.2

E[Y

|X=

x] =

Y

x

0.56

0.58

0.60

0.62

0.64

0.66

0.68



Esta expresión muestra el comportamiento de los valores esperados de para cada valor de | , o sea que es la curva de las medias de todas las densidades condicionales como se muestra en las figura 19.5 por eso es la mejor curva predictiva de para los diferentes valores de ; e indica la los mejores predicciones del porcentaje del mercado compartido ( ) que existen para los posible incrementos de los gastos de publicidad ( ) de competidor; por ejemplo, para la compañía de teléfonos celulares de la marca M el marcado compartido es actualmente del orden de 2/3 y si la marca L incrementará los gastos de publicidad en 0.75 millones de dólares, entonces el mercado compartido será

| 0.753 0.75 23 2 0.75 1

0.57

O sea que el segmento de mercado de M disminuirá de 0.66 a 0.57; si la compañía

de la marca L decide no invertir en publicidad el segmento de M será

| 03 0 2

3 2 0 123

que es el que tiene actualmente; finalmente, si la marca competidora invierte todo

su capital disponible que es de 1 millón de dólares

| 13 1 2

3 2 1 10.55

Indicando que le quita a M el 11% del mercado. Es claro que los valores calculados anteriormente son valores esperados por no

tenemos la certeza a que; por ejemplo para 0.75, será igual a 0.57. Una medida nos da confianza de | puede obtenerse calculando la varianza de la distribución condicional que haremos a continuación.

| 2

| | |1

2 14 36

3 23 2 1

6 1 118 2 1

Ejemplo 19.2 Para los valores de utilizados en el ejemplo anterior las varianzas y

las desviaciones estándar son

|6 2 118 3

0.241 | 0.491



| .6 0.75 1.75 1 2 1

18 2.50.1972 | . 0.447

|118

0.056 | . 0.236

Se recomienda al lector verificar la expresión de la varianza condicional y los valores

de las varianzas así como los de las desviaciones estándar anteriores. 19.3.1 El papel de Distribución Normal bivariable en la curva de Regresión La distribución normal bivariable vista en la sección 19.2.2, representada en la

figura 19.3 y aplicada al análisis de regresión tiene varias características importantes entre la que destacan las siguientes:

sus distribuciones marginales son normales;

sus distribuciones condicionales | | también son normales;

0 si y solo si y son independientes, implicado por la independencia estadística. Este resultado significa, para esta distribución, que cualquier interrelación entre dos variables es estrictamente lineal.

19.3.2 La recta de regresión y el coeficiente de correlación La curva de regresión | depende de la forma de la densidad conjunta , y su modelo matemático puede ser razonablemente complicado, lo cual

generalmente se evita suponiendo que la población de donde se saca la muestra se distribuye conforme una normal bivariable en cuyo caso la curva de la población es lineal de la forma

| (19.16)

Donde es la ordenada al origen, la pendiente de la recta. En adelante

consideraremos esta suposición para analizar la recta de regresión por su facilidad para el estudio teórico. En la ecuación anterior y reciben el nombre de coeficientes o parámetros de regresión porque se asume que es la recta de la población, por lo que se expresan en términos de los parámetros de y , como sigue.

Calculando el valor esperado respecto a a (19.16)

(19.17) Multiplicando la ecuación por

(19.18) Aplicando el operador valor esperado



(19.19) Resolviendo las ecuaciones simultaneas (19.18) y (19.19) para y se obtiene

(19.20)

Y

(19.21)

Al sustituir las dos expresiones anteriores en el modelo original (19.16)

|

O bien

| (19.22)

Observe que si no existe relación lineal entre y entonces 0, como ya

vimos, la línea de regresión es simplemente | y ningún valor de sirve para predecir ; por el contrario cuando esta más cercano a ‐1 o +1 mayor es el efecto del término sobre la predicción | .

Más aún, el efecto preciso que tiene el coeficiente de correlación sobre la predicción se obtiene calculando la varianza condicional de | ; si y tienen distribución normal bivariable vale

∙ | 1 (19.23)

Donde . denota la varianza de dado algún valor de . Nuevamente

observamos que si no se tiene ningún conocimiento de se tiene simplemente

∙ | (19.24)

Despejando a de la ecuación (19.23) se tiene

∙ (19.25)

19.3.2.1 El coeficiente de determinación ‐ ‐

Como la varianza original es y la varianza restante ∙ es la varianza no

explicada por la regresión lineal, entonces el cuadrado del coeficiente de correlación dado por (19.25) se conoce como el coeficiente de determinación y representa la proporción de la varianza explicada por la recta de regresión. Regresaremos a este concepto al final del capítulo



Ejemplo 19. 3 Si la varianza original es 81 y se tiene que 0 el conocimiento de no mejora en absoluto la predicción de , puesto que conforme a (19.23) ∙ 1 0 81, o bien con la ecuación (19.25) se tiene

∙ 81 y nada de la varianza es explicada por la regresión lineal; si por otro lado 1 se tiene que ∙ 81 81 0 en cuyo caso el conocimiento de nos permite predecir perfectamente a y toda la varianza es explicada por la regresión lineal.

Más aún, si 0.70, 0.49 es la proporción de la varianza explicada por la regresión lineal que vale 0.49 81 39.69 y la proporción de la no explicada es 1 1 0.49 0.51, cuya cantidad es ∙ 1

81 1 0.49 41.31; teniendo que la varianza total es 39.69 41.31 81. En suma, la varianza total consta de dos partes

∙ (19.26)

Donde

es la parte de la varianza total explicada por la regresión lineal y

∙ es la parte de la varianza total no explicada por la regresión lineal. Más adelante profundizaremos sobre este coeficiente de determinación. 19.3.3 Los errores En la sección anterior se vio que el conocimiento de permite predecir a

perfectamente sí y solo sí vale +1 o ‐1 Cuando se usa la curva de regresión para predecir , la diferencia entre los valores real y obtenido por la recta de regresión constituye el error de la predicción

|

Despejando a

| (19.26)

Si | es lineal, sustituyendo (19.16) en la ecuación anterior

(19.27) Este es el modelo probabilista general de la regresión lineal bivariable de la

población que liga a la variable dependiente o explicada con la variable independiente o explicativa , y consta de dos partes: la parte sistemática y la parte estocástica o aleatoria ; lo que enfatiza que el modelo es probabilista.



La naturaleza estocásticas del modelo indica que nunca puede predecirse como en el caso determinista puesto que la incertidumbre de se debe a la presencia de que es la variable aleatoria que le da aleatoriedad ; pero además también surge la aleatoriedad de , y por tanto la de , por la exclusión de otras variable explicativas en el modelo que no se conocen o, conociéndose, no se incluyen en el modelo lineal simple pero sí en la regresión lineal múltiple y; además, por errores en la medición de . Para una aplicación particular del análisis de regresión los múltiples factores

aleatorios son las causas plausibles de . En suma, este término refleja la variabilidad que hace que la parte sistemática no sea un predictor perfecto de .

Como es un valor dado, el modelo (19.27) no permite error de medición de , y la especificación completa del modelo incluye la forma de la ecuación de

regresión, la componente sistemática que es constante y la componente que es estocástica o aleatoria con su distribución de probabilidades. Tal especificación de este modelo llamado el modelo clásico de regresión lineal simple se basa en los siguientes supuestos.

Aunque hay una aparente contradicción de la noción fija con estocástica, los valores de la variable explicativa son fijos, cuyos valores son fijados o escogidos por el analista y el supuesto variable fija independiente indica que para cada valor fijo de existe una distribución de probabilidades de la variable aleatoria | llamada subpoblación de , como se observa en la figura 19.5; y para equilibrar la ecuación debe ser aleatorio.

Para , los primeros dos términos de (19.27) son constantes, y al aplicarle el operador valor esperado

| | | Sustituyendo (19.16) en la expresión anterior

| | | | 0 (19.28)

Lo que significa que para cada valor dado la media del error es cero. Aplicando el operador Varianza al modelo general y, por sus propiedades, se tiene

o | | | (19.30)

sea que la varianza condicional del término estocástico o error es constante, e idéntica a ∙ que es la varianza no explicada por la regresión, como era de esperarse.

En realidad, la varianza del error puede ser constante para cada subpoblación de correspondiente a en cuyo caso se dice que existe homoscedasticidad como se ilustra en la figura 19.9 (a), puede aumentar o disminuir conforme aumentan los valores de como se ilustra en las gráficas 19.9 (b.1) y (b.2) en cuyo caso se llama heteroscedasticidad; lo que podría suceder por ejemplo o si el gasto para consumo suntuario aumenta si se incrementa el nivel de ingresos.



. . . . .…. . . . .

. . . . .…. . . . .

. . . . .…. . . . .

. . . . .…. . . . .

(a)

(b.1) (b.2)

Figura 19.9 Homoscedasticidad (a) y Heteroscedasticidad (b.1) y (b.2)

El término estocástico es estadísticamente independiente de porque cada

valor de es una muestra aleatoria independiente de tamaño 1 y de una población normal que se distribuye conforme ~ 0, .

En resumen, se plantean las siguientes suposiciones en términos de los valores potenciales del término error:

La media de la población del término error es igual a cero para cualquier valor dado de .

La varianza de la población del término error es la misma para cualquier dada.

La población del término error se distribuye normalmente para cualquier valor dado de .

Los valores del término error son estadísticamente independientes, es decir, un valor del término error no depende de cualquier otro valor de o equivalentemente, valor de observado en un valor es independiente del observado en otro valor .

El análisis residual, que se verá posteriormente tiene por objeto comprobar la

validez de estas suposiciones basada en los residuos de la regresión.



19.4 Estimación de la recta de regresión En muchas aplicaciones la distribución conjunta se desconoce y no es posible

determinar la curva de regresión teórica | , salvo que dicha distribución se suponga normal bivariable, en cuyo caso se tiene la recta de regresión. Como no se conoce la recta de regresión de la población debemos estimarla; es decir, estimar los valores de los parámetros de regresión de la población y a partir de una muestra bivariable de tamaño , en la que el investigador ha seleccionado previamente cada valor de resultando las parejas de valores , ; con las se calcula la recta que mejor se ajuste a los datos. Si denotamos los coeficientes de regresión estimados por y , la línea de regresión estimada será

(19.31)

Donde indica un valor estimado de y no su valor real porque . Si denota el error estimado correspondiente a al término error de la población , el modelo general estimado es

(19.32)

Y el problema consiste en determinar los valores de y de la recta de regresión

(19.33)

correspondientes a y . Cabe observar que, en sentido estricto, esta ecuación debe ser donde son variables aleatorias y la recta de regresión es aleatoria, puesto que al sacar muestras aleatorias de la misma población los valores de los estimadores y cambian puesto que se tienen diferentes rectas como se ilustra en la figura 19.10

1

2

i

E[Y|x] = α+βx

E[Y|x] = a1+b1x

E[Y|x] = a2+b2x

E[Y|x] = a3+b3xy

x

y

x

y

x

y

x

Figura 19.10 La noción de recta de regresión aleatoria



Existe varios criterios para estimar los parámetros de y , sin embargo, la técnica de ajuste de curvas que usaremos es la de los mínimos cuadrados, desarrollada por los matemáticos Legendre y Gauss. Conforme dicha técnica los valores de y son aquellos para los cuáles la suma de los errores al cuadrado es mínima. Entonces, para la muestra de las parejas de valores , , el error para cada valor que se muestra en la figura 19.11 es

(19.33)

Conforme al criterio adoptado

∑ ∑ (19.34)

Figura 19.11 el error estimado o la desviación de la línea de regresión

Puesto que esta expresión tiene dos variables ( , se minimiza calculando los

valores mínimos mediante el cálculo vectorial; es decir, calculando las derivadas parciales de la función respecto a y respecto a , igualándolas a cero. Esta operación matemática nos lleva a las ecuaciones normales

0

0

Resolviéndolas para y se tiene

(19.35)



∑ ∑ ∑∑ ∑

19.36

O bien, en analogía con los momentos centrales dados por las ecuaciones (19.3) a

(19.5)

19.36 ∗

Otra forma de estimar la recta de regresión consiste en estimar los valores de y

dados por las ecuaciones (19.20) y (19.21) en cuyo caso se tiene

(19.37)

Y

(19.38)

Al sustituir las dos expresiones anteriores en el modelo original (19.16) se tiene

| (19.39)

Calculemos la recta de regresión para el ejemplo del porcentaje de solvente y el

tiempo de secado en hrs de la pintura, que iniciamos en las secciones dedicadas al coeficiente de correlación, utilizando los momentos centrales ya calculados.

0.676; 3.809 y 1.562; además, de la tabla 19.2 se tiene

3.41 y 1.92. El estimador de lo encontramos con la ecuación (19.36*)

1.5623.809

0.41

Y el estimador de con la ecuación (19.35) conocido el valor de

1.92 0.41 3.41 3.3181 De (19.33), la ecuación de la recta de regresión estimada, que se muestra en la

figura 19.12, que representa la estimación del tiempo de secado para cada valor del porcentaje de solvente es

3.3181 0.41



Figura 19.12 Recta de regresión

X: % de solvente

0 1 2 3 4 5

Y :

Tie

mpo

de

seca

do (

hr)

1.0

1.5

2.0

2.5

3.0

3.5

4.0

3.41

1.92

ye 3.3181‐0.41x

Tal vez ahora sea más claro que, si se sacan otras muestras las rectas de regresión

obtenidas con ellas serán diferentes, de aquí su naturaleza aleatoria. Más aún, como la recta de regresión es la recta de los valores esperados de para cada valor de , es decir | ; entonces, para nuestro caso, el punto 3.41, 1.92 debe estar contenido en esta y todas las curvas de regresión estimadas por el método de mínimos cuadrados como se ilustra en la figura. Si dicho punto se sustituye en la ecuación de la recta de regresión calculada debe satisfacerla y es una manera de comprobarla; así, para nuestro ejemplo

. 3.3181 0.41 3.41 1.92 La interpretación de los coeficientes de la recta de regresión es la siguiente. Si el

porcentaje de solvente es igual a cero, el tiempo de secado será el máximo y es igual a 3.31.81 hrs y por cada unidad del porcentaje de solvente el tiempo de secado disminuye en 0.41.

Si la extrapolación es cercana al intervalo de los valores de y si el contexto del problema lo permite, se puede extrapolar con valores diferentes a los de la muestra sin alejarse mucho de este intervalo.

Con la ecuación de regresión de la muestra se obtienen los valores estimados de la

variable dependiente los cuáles aparecen en la tabla 19.3. Otra forma de comprobar la recta de regresión consiste en que debe satisfacer la ecuación ∑ ∑ ; como puede observarse en la parte inferior de las columnas y de la tabla.

Tabla 19.3 Cálculos para el análisis de los residuos

No de hornada Contenido de solvente (%) Tiempo de secado (hrs) Y

estimados residuales

1 2.5 2.3 2.2931 0.0069

2 2.7 2.1 2.2111 ‐0.1111

3 3 2.2 2.0881 0.1119

4 3.1 2.1 2.0471 0.0529

5 3.2 2 2.0061 ‐0.0061



6 3.4 1.9 1.9241 ‐0.0241

7 3.5 1.9 1.8831 0.0169

8 4 1.6 1.6781 ‐0.0781

9 4.2 1.6 1.5961 0.0039

10 4.5 1.5 1.4731 0.0269

Sumas 34.1 19.2 19.2 8.8818E‐16

Medias= 3.41 1.92

19.5 El análisis de residuos Este análisis se efectúa con el propósito de comprobar la validez de los supuestos

de la regresión lineal estipulados en la sección 19.3.3 y plantear algunas técnicas para corregir las violaciones.

Para cualquier valor particular observado de la variable explicada , el residuo se define la diferencia entre este valor y el pronosticado con la recta de regresión estimada

Donde, como ya vimos, es el valor de estimado con la regresión. Los residuos , que aparecen en la muestra, son estimaciones puntuales de los

errores , que están en la población, es decir, y si las suposiciones de la regresión se cumplen para cualquier valor dado de ,de se tiene que el término error se distribuye 0, ) con constante y los valores aleatorios de son estadísticamente independientes. En muchos casos dichas suposiciones no se satisfacen; no obstante si son muy pequeñas las desviaciones se pueden aceptar sin alterar de manera significativa los resultados de la regresión.

19.5.1 Gráficas de los residuos Una forma práctica de analizar los residuos es utilizando las gráficas de los residuos

cuyas abscisas pueden ser los valores de la variable explicativa, de la variable estimada o de los valores cronológicos de una serie de tiempo, como se verá en el capítulo correspondiente; todas tomando como ordenada los residuos.

La figura 19.13 muestra la gráfica para el primer caso del ejemplo del porcentaje de solvente contra los residuos. La pequeña cantidad de datos hace difícil conjeturar algo sobre la suposición de varianza constante; no obstante, al parecer se tiene forma de embudo por lo que posiblemente tenga Heteroscedasticidad y viola la suposición de varianza constante.

19.5.2 Suposición de normalidad Se cumple si la distribución de frecuencia de los residuos tiene una forma razonable

parecida a la normal (Ver figura 19.14) o bien si la gráfica de los residuos contra los valores de z calculados a partir de la frecuencia relativa acumulada dada por



Figura 19.13 % de Solvente Vs Residuos

% de solvente

2.0 2.5 3.0 3.5 4.0 4.5 5.0

Res

idu

os

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

Á3 13 1

Aquí es el número consecutivo de los residuos ordenados deforma ascendente,

Á es la frecuencia relativa acumulada hasta el valor que equivale al área bajo la curva normal hasta el residuo y es el tamaño de la muestra; por ejemplo, para nuestro ejemplo se tiene 10,

Para 1 se tiene Á 0.064;

Para 5 tenemos Á 0.4516; etc.

A continuación se determinan los valores de correspondientes a las Á , que corresponden a las distribuciones acumuladas de la tabla de la distribución normal estándar por ejemplo

‐2.00

0.00

2.00

4.00

6.00

‐0.03 0.00 0.03

Frecuencia

Figura 19.14 Distribución de frecuencia de los residuos



Para 1 se tiene Á 0.064 ⟹ 1.52;

Para 5 tenemos Á 0.4516 ⟹ 1.2; etc.

Con estos pares de valores se obtiene la gráfica 19.15 que, bajo la suposición de

normalidad, coincidirían sobre una recta, lo que no sucede en nuestro ejemplo.

Figura 19.15 Gráfica Normal

Residuos

-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15

valo

r n

orm

aliz

ado

Zi

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Otra forma más de analizar la suposición de normalidad consiste en dibujar la gráfica de los

residuos contra los valores correspondientes de ; que aparecen en la última columna de la tabla superior como se ilustra en la figura 19.16. Si hubiera normalidad, la gráfica debiera de asumir la forma de una distribución normal; lo que no es muy claro en la figura en la que se observa que el segundo residuo marca la diferencia.

Fig. 19.16 Distribución de Residuos VS f(Z)

Residuos

-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15

Val

ore

s d

e f(

Z)

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

19.5.3 La suposición de la varianza constante Como ya se vio, esta suposición establece que la varianza de la regresión es

constante o sea que existe homoscedasticidad. Para nuestro ejemplo, la gráfica 19.13 es similar a la 19.9 (b) en forma de embudo lo que significa que, al parecer, existe varianza decreciente o sea heteroscedasticidad. Aunque la gráfica de dispersión nos da la misma información sobre la varianza como se ve en la gráfica 19.12, es preferible la de los residuos porque nos proporciona la información amplificada

Á

1 0.06 ‐0.1111 ‐1.52 0.13

2 0.16 ‐0.0781 ‐0.99 0.24

3 0.26 ‐0.0241 ‐0.65 0.32

4 0.35 ‐0.0061 ‐0.37 0.37

5 0.45 0.0039 ‐0.12 0.40

6 0.55 0.0069 0.12 0.40

7 0.65 0.0169 0.37 0.37

8 0.74 0.0269 0.65 0.32

9 0.84 0.0529 0.99 0.24

10 0.94 0.1119 1.52 0.12



19.5.4 Transformación para disminuir la desviación de las suposiciones Si las gráficas residuales muestran heteroscedasticidad creciente en un modelo de

regresión (ver figura 19.9 b‐2) o desviación de la suposición de normalidad, es posible mitigarla transformando la variable dependiente para tender a igualar la varianza de los residuos y ordenar tales gráficas; dicha transformación consiste en elevar a una potencia fraccionaria tal como 0.5, 0.33, 0.25 o bien si el exponente tiende a cero, con la función . Esta transformación debe hacerse para varias potencias y seleccionar la mejor.

Ejemplo Para las ventas registradas en una serie de tiempo de 24 periodos, la figura

19.17 (a) muestra el diagrama de dispersión original en el que se observa que la varianza aumenta en forma de abanico, o sea que manifiesta heteroscedasticidad similar a la de la figura 19.9 (b.2)

Figura 19.17 (a) Histograma de Periodos Vs Ventas

Periodos

0 5 10 15 20 25 30

Ven

tas

300

400

500

600

700

800

900

Figura 19.17 (b) Diagrama de DispersiónPeriodos Vs (Ventas)1/2

Periodos

0 5 10 15 20 25 30

Rai

z C

uad

rad

a d

e la

s ve

nta

s

16

18

20

22

24

26

28

30

Figura 19.17 (c) Diagrama de Dispersión Periodos Vs (Ventas)1/4

Periodos

0 5 10 15 20 25 30

Rai

z c

ua

rta

de

las

Ve

nta

s

4.2

4.4

4.6

4.8

5.0

5.2

5.4

5.6

Figura 19.17 (d) Diagrama de DispersiónPeriodos contra Ln (Ventas)

Periodos

0 5 10 15 20 25 30

Ln

(V

enta

s)

5.6

5.8

6.0

6.2

6.4

6.6

6.8

Las figuras 19.17 (b) a (d) muestran tres de las transformaciones posibles, de ellas la

Ln muestra una ligera inclinación y, de las dos restantes, la transformación raíz cuadrada ordena mejor los datos y muestra una banda mejor definida. En general, a menor potencia fraccionaria se obtienen mejores resultados. Es claro que el modelo de regresión debe ajustarse para los valores de transformados, así, si es la transformación, el modelo general será la variante del (19.27)



19.6 Varianza de la regresión lineal La principal función de la recta de regresión consiste en predecir el valor de o asociada a un valor particular de ; pero es necesario conocer el grado de la

predicción puede conocerse, en parte, estudiando la variabilidad del valor real obtenida con el valor estimado por la regresión para un valor específico . Para muestro ejemplo, la figura 19.13 muestra las dispersiones de los valores reales de la muestra respecto a los estimados: y, se observa que estas son muy pequeñas como era de esperarse ya que 0.97; sin embargo, la medida numérica de tales desviaciones se encuentra calculando el estimador insesgado de la varianza de los errores o residuos, que es la varianza de la regresión.

∙∑

2∑

2

Desarrollando el cuadrado de esta ecuación y utilizando los momentos centrales se

obtiene

∙⁄

2 19.40

Cabe observar que el denominador tiene 2 grados de libertad puesto que se

pierden 2 debido a los coeficientes de regresión; cuya desviación estándar de la regresión es la raíz cuadrada.

Para nuestro ejemplo, con 0.676; 3.809 y 1.562 esta la variabilidad de la regresión es

∙0.676 1.562 3.809⁄

10 20.0044

Y la desviación estándar de la regresión para la muestra es

√0.0044 0.0666 hrs de secado para todos los valores de | . Así pues tanto como son medidas del grado de ajuste de la relación lineal

entre el tiempo de secado y el porcentaje de solvente y nuevamente, como era de esperarse, la variabilidad de la regresión es muy pequeña como puede constatarse con las líneas verticales que van de los puntos observados en la muestra a la línea de regresión en la figura 19.13.



Figura 19.13 Análisis de los residuos o errores

X: % de solvente

0 1 2 3 4 5Y

: T

iem

po d

e se

cado

(hr

)1.0

1.5

2.0

2.5

3.0

3.5

4.0

ye 3.3181‐0.41x

Por lo anterior, puede concluirse que en la medida en que el valor de la varianza de la

regresión sea menor, la ecuación de regresión de la muestra será más precisa como herramienta de predicción y, en el límite e idealmente, cuando todos los puntos de la muestra se alineen perfectamente dicha varianza será igual a cero lo cual es prácticamente imposible por los errores aleatorios del muestreo. Con muestras más grandes se puede tener mejor precisión en la determinación de la recta de regresión; sin embargo, esto no ayuda a mejorar su varianza.

Otra indicación del análisis de regresión se tiene comparando las desviaciones estándar de la regresión y de sin tomar en cuenta los valores de , es decir que se ilustra en la figura 19.15 donde se observa que esta variabilidad es mayor.

Como sabemos

∑

1 1

Para el ejemplo que venimos desarrollando tenemos

10.6769

0.274

Como se anticipó, al ignorar este resultado es más de cuatro veces el valor de ;

por lo tanto, las variaciones de por el conocimiento de a través de la regresión lineal ayuda significativamente a la estimación porque dicha curva es la de valores esperados dado .



Figura 19.14 Dispersiones respecto a la media

X :%solvente

0 1 2 3 4 5

Y:

tiem

p de

se

cad

o (

hr)

0.0

0.5

1.0

1.5

2.0

2.5

3.0

19.7 Inferencias respecto a los problemas de regresión En la sección 19.4 no hicimos ninguna consideración respecto a la distribución

conjunta de la población, solamente usamos la técnica de los mínimos cuadrados y asumimos que la recta es la que se ajusta mejor a los datos porque es la que minimiza el cuadrado de los errores. Si suponemos que las variables aleatorias y tienen distribución normal bivariable, se tiene otra justificación para los resultados de esa sección por lo que se vio en la sección 19.2.2 donde se analizo esta distribución y se estableció que la curva de regresión es estrictamente lineal. Bajo esta suposición no es necesario considerar modelos de regresión no lineal.

Más aún, bajo la misma suposición anterior, se puede determinar la función de verosimilitud por el método estudiado en el capítulo 17 cuyos resultados apoyan los estimadores dados por las ecuaciones (19.35) y (19.36) y se llega a ellas por dos métodos diferentes; con la salvedad de que si la distribución d la población es diferente, los resultados obtenidos por los dos métodos serán diferentes.

En problema de regresión el interés está en la predicción de dado un valor de por lo cual no es necesario hacer ninguna suposición sobre la distribución de la

variable independiente porque, en sentido estricto no es una variable aleatoria; por ejemplo, en un experimento de elementos estructurales, el investigador puede interesarse en la resistencia de una viga sometida a una tensión , en cuyo caso, el investigador tiene un control total sobre la tensión y no es una variable aleatoria. En lo que sigue continuaremos considerando a la variable independiente como una variable aleatoria recordando que no es necesario para el estudio de las inferencias respecto a los problemas de regresión.

Para la regresión lineal de sobre si se supone la distribución conjunta normal bivariable conviene recordar que:

Para cualquier valor de , la distribución de es normal.

La varianza condicional | tiene distribución normal.

El proceso de muestreo es independiente. Como está fija, la variabilidad de se debe exclusivamente a los factores

aleatorios manifestados en los errores o residuos, con lo cual las proposiciones



anteriores pueden plantearse como sigue, recordando al lector que, para nuestro caso, los términos errores, residuales o residuos son equivalentes.

Para cualquier valor de , los errores se distribuyen normalmente.

La varianza de los errores es la misma para toda .

Los errores son independientes. Estos supuestos se representan gráficamente en la figura 19.15.

Figura 19.15 Distribuciones iguales de los errores

En contraparte, si no se cumple el supuesto de la igualdad de varianzas para los errores

como se ilustra en la figura 19.16, entonces la varianza se incrementa al aumentar como suele suceder cuando se desea predecir los montos de los gastos suntuarios cuando aumenta el ingreso o bien los gastos en publicidad u otras cosas si aumentan las ganancias de las empresas. Así pues las suposiciones anteriores deben tenerse presentes cuando apliquemos las técnicas de inferencia que se presentarán en las siguientes secciones.

Figura 19.16 Violación del supuesto de varianzas del error iguales

19.7.1 Inferencias respecto a los Coeficientes de Regresión Determinada la ecuación de regresión lineal de la muestra y analizadas las varianzas

y las desviaciones estándar de la regresión; ∙ , y de la variable dependiente , , supuestamente favorables; podría pensarse que la recta de regresión se utilizaría animosamente para la predicción, no obstante, aún si la recta de regresión de la muestra es idéntica a la de la población la predicción contiene errores causados por el muestreo o porque la relación entre de la población puede no ser perfecta,



recuérdese que la magnitud de este error se mide con ∙ y que si se sacan varias muestras de la misma población las rectas de regresión son, en lo general, diferentes como se puso de manifiesto en la figura 19.10.

19.7.2 Pruebas de hipótesis respecto a los Coeficientes de Regresión Como se ha visto desde el capítulo 17, las inferencia sobre cualquier parámetro

requieren de sus distribuciones muéstrales correlativas por lo cual, para hacer inferencias sobre los parámetros de la recta de regresión se necesitan conocer las distribuciones muestrales de sus estimadores y .

Los errores de los estimadores de mínimos cuadrados y se miden con base en sus distribuciones muestrales respectivas.

Estos coeficientes son insesgados por lo cual y ; como y forman combinaciones lineales para y conforme a los supuestos anteriores se distribuye normalmente se sigue que y también deben distribuirse normalmente; y se puede demostrar que para estos estimadores lineales insesgados sus varianzas se definen como:

∙ ∑∑ ∙

∑ 19.41

∙

∑ ∙1

19.42

Con las expresiones anteriores, si el tamaño de la muestra es grande ‐ 30‐ y ∙ se conoce los estadísticos para las pruebas de hipótesis sobre y son las

estandarizaciones ya conocidas

19.43

19.44

Por el contrario, si el tamaño de la muestra es pequeña ‐ 30‐ y ∙ se

desconoce los estadísticos para las pruebas de hipótesis sobre y los estadísticos y se distribuyen aproximadamente conforme la distribución t de Student con

2 grados de libertad, en cuyo caso los estadísticos para las pruebas de hipótesis son

19.43

19.44



Para nuestro ejemplo sobre el porcentaje de solvente y el tiempo de secado para las pinturas tenemos que 10, la recta de regresión es 3.3181 0.41 , con un nivel de significación estadística 0.01 probemos la hipótesis

: 0 Contra la alternativa : 0.

Como nuestra muestra es pequeña, entonces usamos el estadístico (19.43). El valor

crítico es ⁄ . , 3.355; para calcular el valor del estadístico es necesario calcular con la ecuación 19.41 habiendo calculado en la sección 19.5

∙ 0.0044 y previamente 3.809 y de la tabla 19.2, ∑ 120.09

∙∑

0.0044120.09

10 3.8090.0139

√0.0139 0.118 Entonces

3.31810.118

28.12

Por lo tanto se rechaza la hipótesis de que el parámetro de la población sea

menor o igual a cero con un nivel de significación estadística 0.01 a favor de la hipótesis alternativa que sea mayor que cero. Si se calcula el valor‐p se verá que es altamente improbable.

De manera similar probemos la hipótesis con el mismo nivel de significancia estadística 0.01.

: 0 Contra la alternativa : 0.

El valor crítico es ⁄ . , 3.355 Para ello, el estadístico para la prueba está dado por la ecuación (19.44) para el cual

∙1

0.00441

3.8090.0012

√0.0012 0.034 Por lo tanto

0.41 00.034

12.06

Por lo que se rechaza la hipótesis de que el parámetro de la población sea mayor

o igual a cero con un nivel de significación estadística 0.01 a favor de la hipótesis alternativa que sea menor que cero. Si se calcula el valor‐p nuevamente se verá que este valor es altamente improbable.



Si se determina que la pendiente de la recta de regresión es significativa, entonces la recta puede utilizarse como instrumento de predicción, de lo contrario debe rechazarse.

19.7.3 Intervalos de confianza respecto a los Coeficientes de Regresión Los conceptos estudiados en el capítulo 17 relacionados con los intervalos de

confianza, son aplicables a la determinación de los mismos para los parámetros y de la regresión de la población.

En general, un intervalo de confianza para la ordenada al origen de la regresión de la población se determina mediante la expresión

% 19.45

Y un intervalo de confianza para la pendiente de la regresión de la población se

determina mediante la expresión

% 19.46

Donde en ambos casos es el fractil 1 2⁄ de la distribución con

2 grados de libertad; y son los valores de la ordenada al origen y de la pendiente obtenidos para la recta de regresión y y son las desviaciones estándar estimadas con la muestra para y , respectivamente.

Para el ejemplo que venimos trabajando calculemos un intervalo de confianza del 99% para .

De la recta de regresión 3.3181;del ejemplo anterior ⁄ . ,

3.355 y 0.118; aplicando (19.45) se obtiene

% 3.3181 3.355 0.118 2.922,3.714 Con el mismo nivel de confianza, un intervalo para se obtiene aplicando (19.46)

para lo cual 0.41 y 0.034.

% 0.41 3.355 0.034 0.524, 0.296

19.7.4 Predicción y pronosticación (Bandas de confianza) Como hemos insistido anteriormente, el objetivo del análisis de regresión es la

estimación del | ∙ por la asociación dictada por la recta de regresión; sin embargo, existen dos tipos de estimación, a saber, la predicción y la pronosticación que se estudiarán a continuación.

La predicción es el procedimiento para estimar ∙ , dado un valor específico . Obsérvese que la predicción re relaciona con la precisión de TODA la recta de

regresión, su estimador asociado se denota con , | que se llama el



predictor; De las notaciones anteriores, para mejorar la presentación usaremos la primera y como esta definición alude a la recta de regresión, su valor es

19.47

Para determinar la distribución muestral de este estimador; primero como

es una combinación lineal de las variables que se distribuyen normalmente, se sigue que este estimador también se distribuye normalmente; como vimos que es

un estimador insesgado de su valor esperado es

19.48 Para determinar la varianza del predictor observamos que el error al determinar el

valor | , que en adelante lo denotaremos por para simplificar la notación, proviene de las variaciones aleatorias de , y el error de la predicción que denotaremos con será

(

Si se eleva al cuadrado esta expresión y se calcula su valor esperado se obtiene su

varianza, que es igual a

∙1

∑ 19.49

Y la desviación estándar es

∙1

∑

O bien, en términos de los momentos centrales

∙1

19.50

Conviene recordar que ∙ es la varianza de la regresión, La dispersión de los

valores posibles de se muestran en la figura 19.17. Estandarizando , que como vimos es el valor de | tenemos que

19.51

que se distribuye ~ 0,1 si se conoce ∙ o 30; de lo contrario, tiene una

distribución con 2 grados de libertad.



Figura 19.17 Valores posibles de la predicción y de la pronosticación

Con estos antecedentes se pueden calcular intervalos de confianza para con

base en el predictor .

% 19.52

Donde es el fractil 1 de la distribución normal estándar. O bien

% , 19.53

Donde , es el fractil 1 de la distribución con 2

grados de libertad. Para ilustrar estos intervalos, calculemos un intervalo del 95% de confianza para , de nuestro ejemplo que venimos trabajando para 2.7. Sabemos que la

muestra es pequeña, 10 por lo tanto estamos en el caso de aplicar la última ecuación calculando previamente los términos que se incluyen. El valor estimado de

es que se obtiene de la ecuación de la recta de regresión ya calculada con

2.7 3.3181 0.41 2.7 2.211

El fractil . , se obtiene de las tablas vale 2.306; el valor de la desviación

estándar del predictor se obtiene aplicando la expresión (19.49), para lo cual la desviación estándar de la regresión vale ∙ 0.0666, 3.809 y 3.41, estos valores se calcularon previamente; entonces



∙1

0.0666110

2.7 3.413.809

0.0321

Con los valores anteriores calculamos el intervalo mediante la ecuación (19.52)

%, 2.211 2.306 0.0321 2.14, 2.29

Este intervalo de confianza aparece en la figura 19.18 para 2.7 con la línea

sólida vertical en dicho punto. Los intervalos de confianza para los demás puntos de la muestra se obtienen siguiendo el procedimiento descrito y los resultados se muestran en la tabla 19.4.

Tabla 19.4 Cálculos de los intervalos de confianza de la regresión para la predicción

Núm. Hornada Raíz límite Inferior

limite Superior

1 2.5 2.29 0.56 0.04 2.21 2.38

2 2.7 2.21 0.48 0.03 2.14 2.29

3 3 2.09 0.38 0.03 2.03 2.15

4 3.1 2.05 0.35 0.02 1.99 2.10

5 3.2 2.01 0.33 0.02 1.95 2.06

6 3.4 1.92 0.32 0.02 1.88 1.97

7 3.5 1.88 0.32 0.02 1.83 1.93

8 4 1.68 0.44 0.03 1.61 1.75

9 4.2 1.60 0.51 0.03 1.52 1.67

10 4.5 1.47 0.64 0.04 1.37 1.57

Finalmente, si se dibujan estos intervalos en la figura 19.18 y se unen sus extremos,

se obtiene la banda de confianza de la recta de regresión, , también llamada la

banda de confianza de la predicción del porcentaje de solvente y el tiempo de secado de la pintura que se está investigando que se muestra en dicha figura con líneas a trazos. Al igual que los intervalos de confianza para los parámetros, el nivel de confianza del 95% que fijamos, significa que cada 100 bandas de confianza que calculemos; en 95 de ellas está atrapada la recta de regresión de la población. Más aún, ahora debe ser claro que si aumentamos el nivel de confianza la banda de confianza será más ancha, y si disminuimos el nivel de confianza se estrechará. Una observación final de la figura consiste en que en el punto , la banda de confianza es más estrecha como se muestra en la gráfica citada con líneas rojas discontinuas, y la banda se va ampliando a medida que nos alejamos en los demás; por lo que debe tenerse precaución cuando se hacen predicciones más allá del intervalo de los valores de la muestra.



Figura 19.18 Bandas de confianza de la predicción y pronosticación

% solvente

2.0 2.5 3.0 3.5 4.0 4.5 5.0

Tie

mpo

s de

sec

ado

1.2

1.4

1.6

1.8

2.0

2.2

2.4

2.6

1.92

3.41

La pronosticación es la valoración de un solo valor de para un valor ,

y al estimador se le llama pronosticador, designado como y es

19.54

El problema consiste en determinar el valor del pronosticador que es una

variable aleatoria cuyos valores se encuentran alrededor del punto de la regresión para como se muestra en llas figuras 19.15 a 19.17 en la que esta última aclara la diferencia entre la predicción y la pronosticación.

En este caso el error del pronóstico es la diferencia o sea

( Que es una variable aleatoria distribuida normalmente con media

0 Y, observando la figura 19.18, la varianza es igual a la varianza de la predicción más

la varianza debida a los factores aleatorios del muestreo, por ello

∙ Sustituyendo (19.49) en la expresión anterior se obtiene



∙1

∑ ∙ ∙ 11

∑

Y la desviación estándar es

∙ 11

∑ ∙ 11

19.55

Cuando 30 y se conoce ∙ de la población se tiene que la estandarización

19.56

se distribuye ~ 0, 1 ; y en caso contrario, cuando 30 y se desconoce ∙

estonces

19.57

se tiene una distribución 2 grados de libertad. Con las dos ecuaciones anteriores y por lo visto en el capítulo 17, podemos calcular

intervalos de confianza para el valor individual pronosticado

% 19.58

Donde es igual al fractil 1 2⁄ de la distribución normal estándar; o bien

%

⁄ , 19.59

Donde ⁄ , es igual al fractil 1 2⁄ de la distribución

2 grados de libertad. Para ilustrar estos intervalos, calculemos un intervalo del 95% de confianza para ,

de nuestro ejemplo para 4.2. Como 10 se aplica la ecuación (19.59) calculando previamente los términos que se incluyen. El valor estimado de es , que corresponde al valor del pronosticador que se obtiene de la ecuación de la recta de regresión ya calculada con 4.2

3.3181 0.41 4.2 1.60

El fractil . , se obtiene de las tablas vale 2.306; el valor de la desviación

estándar del pronosticador se obtiene aplicando la expresión (19.59), para lo cual la desviación estándar de la regresión vale ∙ 0.0666, 3.809 y 3.41, estos valores se calcularon previamente; entonces la desviación estándar del pronosticador, aplicando (19.55) vale



∙ 11

0.0666 1110

4.2 3.413.809

0.07

Con los valores anteriores calculamos el intervalo mediante la ecuación (19.52)

%, 1.60 2.306 0.07 1.42,1.77

Este intervalo de confianza aparece en la figura 19.8 para 4.2 con la línea

sólida vertical en dicho punto. Los intervalos de confianza para los demás puntos de la muestra para la pronosticación, se obtienen siguiendo el procedimiento anterior y los resultados se muestran en la tabla 19.5.

Tabla 19.5 Cálculos de los intervalos de la pronosticación de

Núm. Hornada Raíz límite Inferior

limite Superior

1 2.5 2.29 1.15 0.08 2.12 2.47

2 2.7 2.21 1.11 0.07 2.04 2.38

3 3 2.09 1.07 0.07 1.92 2.25

4 3.1 2.05 1.06 0.07 1.88 2.21

5 3.2 2.01 1.05 0.07 1.84 2.17

6 3.4 1.92 1.05 0.07 1.76 2.09

7 3.5 1.88 1.05 0.07 1.72 2.04

8 4 1.68 1.09 0.07 1.51 1.85

9 4.2 1.60 1.12 0.07 1.42 1.77

10 4.5 1.47 1.19 0.08 1.29 1.66

Al igual que se hizo para la predicción, al unir los puntos extremos de estos

intervalos se obtiene la banda de confianza para la pronosticación de los valores individuales de que aparece en la figura 19.18 y se interpreta como de cada 100 bandas de confianza que calculemos 95% de ellas contendrán a los verdaderos valores de del pronosticador ; además, si se aumenta el nivel de confianza las bandas se harán más grandes y si se disminuye las bandas se angostarán.

Cabe observar que las bandas de confianza para la predicción y la

pronosticación siguen el mismo patrón con su ancho mínimo en el punto , y va aumentando a medida que los valores se alejan de este punto, por lo que a medida que nos alejamos tanto la predicción como la pronosticación son más inciertas.

19.8 El análisis de varianza en la regresión lineal y el coeficiente de determinación En las secciones 19.3.2.1 estudiamos el coeficiente de determinación, y en la 19.5 la

varianza de la regresión; sin embargo, es necesario reunir estos dos conceptos para aclarar el significado de la varianza de la regresión ∙ y del coeficiente de correlación

. El indicador que sirve para ambas aclaraciones es el coeficiente de determinación

. Analicemos la varianza descomponiendo el error total de de una observación de



, en dos partes distintas y relevantes, la explicada por la regresión y la de la regresión respecto a la media que es el error no explicado o el error residual originado por los efectos aleatorios y , como se indica en la figura 19.19.

Figura 19.19 Descomposición de la varianza total de

O sea que

ó

Para todas las observaciones de la muestra elevadas al cuadrado y sumándolas se tiene

Pero , por lo que al desarrollar el cuadrado en términos de la suma de

cuadrados, comúnmente utilizadas en el diseño de experimentos, y simplificar se obtiene,

ó

Donde

19.60



19.61

Y

19.62 Dividiendo cada término de por se tiene

1

De donde

1

Que es el coeficiente de determinación que estudiamos en el apartado 19.3.2.1 y

justifica que es la varianza explicada por la regresión puesto que

ó

Que es un estimador de máxima verosimilitud de . Con base en la figura anterior, siempre se cumple , por lo tanto, si

0, 0 lo que indica que el ó es cero y las variables y son estadísticamente independientes y la recta de regresión será horizontal en como la mostrada en la figura citada; en otros términos . En este caso 0 implica que la pendiente de la regresión sea cero; pero también puede esto si los puntos de la muestra se dispersan completamente al azar que es evidente; que se ajusten perfectamente a una línea horizontal si ∀ en este caso no hay variación que deba explicarse y la descomposición de pierde sentido; o que los puntos sigan algún patrón no lineal y el ajuste también sea una línea horizontal, lo que indica que el ajuste es muy malo y está indeterminado. Por lo anterior, el coeficiente de determinación puede verse como el valor de mejoría debido a la regresión, una medida del grado de ajuste de la regresión o la potencia de linealidad de los puntos de la muestra.

Por otro lado, si se tiene que el coeficiente de determinación 1; en cuyo caso se tiene que , ∀ , lo que significa que todos los puntos de la muestra están perfectamente localizados en la recta de regresión de la muestra y como los 0se tiene y el ó

. Para nuestro ejemplo del tiempo desecado y el % de solvente de la pintura

obtuvimos 0.676; 3.809,aplicando (19.60) a (19.62) tenemos

0.676



0.41 3.809 0.64

0.676 0.41 3.809 0.0357

Comprobación

0.64 0.0357 0.6757 Por lo tanto

0.640.6757

0.947

Por otro lado calculamos el coeficiente de correlación 0.97 por lo que el

coeficiente de determinación es

0.97 0.941 La diferencia de las milésimas se debe a los errores por redondeo. Este coeficiente indica que más de 94% de la varianza total de los datos del tiempo

desecado se explica por las variaciones que tiene el % de solvente que se la pone a la pintura y el 6% restante de la variación total no lo explica la regresión sino que se debe a los factores aleatorios del muestreo. Si se tuviera 1 nos indicaría que hay una reducción del 100% del error total y toda la variación se debe a la regresión.

Una forma de presentar los resultados del análisis de varianza consiste en escribir la recta de regresión y a bajo de sus términos colocar, entre paréntesis, sus correspondientes errores estándar y a la derecha el coeficiente de determinación que es más representativo que el de regresión. Para nuestro ejemplo tenemos

3.3181 0.41 0.941

0.118 0.034 19.9 El Análisis de varianza para la pendiente con el estadístico F. Para terminar este capítulo, veremos el fundamento de las pruebas de de análisis

de varianza, conocidas en la literatura de los análisis estadísticos de experimentos como ANOVA, con la prueba de la relación de varianzas de la regresión y del error para la pendiente de la regresión ; utilizando el estadístico F. Para ello, es necesario comentar brevemente algunos conceptos básicos del diseño estadístico de experimentos.

Como se anticipó en la sección 19.2.4.1, Ronald Aymer Fisher fue el creador de los diseños estadísticos experimentales que los publicó en 1935 su libro The Design of Experiments y, desde entonces todas las contribuciones sobre este campo han venido en aumento al grado que, a la fecha, forman una rama especializada de la estadística.

Se parte de la idea de que los datos pueden clasificarse en datos observacionales y datos experimentales que se distinguen porque los primeros son las medidas de las unidades observadas de la muestra que permanecen fijos durante el estudio y son incontrolables, como hasta ahora lo hemos hecho; en contraste, los datos



experimentales que se observan de una muestra en la que ciertas variables si son controlables o modificables para analizar la respuesta de los factores variables; es decir, son el resultado de experimentos diseñados para probar las relaciones causa‐ efecto.

En la jerga de de esta teoría, a las variables independientes se les llama tratamientos o factores sobre los que se establece el control y a la variable independiente se le llama respuesta. Así, para nuestro ejemplo la respuesta sería el tiempo de secado y los tratamientos o factores pueden ser el mismo % de solvente de marcas diferentes, la misma marca pero a diferentes niveles de % de solvente o bien una combinación de ambos marcas y % de solvente. Obsérvese que todos estos diseños deben estar rigurosamente controlados en los que varían los factores o tratamientos.

Pero cuando se trabaja experimentalmente, salvo para los factores controlados, es difícil controlar otros, bien sea que no se conozcan, que se dejen sin control a propósito o porque siempre existen factores incontrolables aleatorios; por lo anterior, en un trabajo experimental siempre existe el error experimental que es la variación en la respuesta causada por la falta de control ineludible y se define como la varianza residual que no puede ser explicada por las varianzas de los tratamientos.

El método comúnmente utilizado para estudiar los datos de los diseños experimentales se llama análisis de varianza que consiste en analizar la varianza total de una respuesta como una función lineal de de las varianzas de los tratamientos participantes en el experimento mas la varianza y la varianza residual.

Para tal efecto, se acostumbra a construir la tabla de Análisis de Varianza que por sus siglas en inglés se llama ANOVA como se muestra en la tabla 19.6.

Tabla 19.6 Tabla de Análisis de varianza: ANOVA

Fuente de variación

Suma de cuadrados

(SC)

Grados de libertad ( )

Media de cuadrados

(MC)

Fuente 1 Fuente 2

…. Error

Total

Apliquemos este método de análisis de varianza para probar la significancia de la

pendiente de la recta de regresión de nuestro ejemplo, con las aclaraciones pertinentes.

1) Por lo que toca a las fuentes de variación que contribuyen a la varianza total, se tienen las de la regresión y las del error, cuya suma debe ser la total como se observa en la figura 10.19.

2) Las Sumas de Cuadrados (SC) para las fuentes se calcularon en la sección previa y sus valores son 0.676, 0.64 y 0.0357.

3) Los grados de libertad son: a. Para la fuente de variación total 1 10 1 9.



b. Para la regresión donde es el número de variables independientes o el número de pendientes , por lo que para nuestro ejemplo 1 de donde 1.

c. Para los errores o residuos, se pierden 1 grado de libertad por la ordenada al origen y debido a , todos los coeficientes de regresión; por ello 1; y para nuestro caso 101 1 8.

4) Las medias de los cuadrados MC son los valores esperados de las sumas de cuadrados y se obtienen dividiendo las SC entre los grados de libertad correspondientes; por ello son estimadores de las varianzas de las fuentes.

5) Los valores son los cocientes de las de las fuentes entre la del

error o sea el cociente de varianzas que definen a los estadísticos

6) Comparando estos valores con las se hacen las pruebas de significancia de las fuentes.

Con la información anterior podemos construir la tabla de análisis de varianza o la

tabla ANOVA con los resultados de nuestro ejemplo.

Tabla 19.6 ANOVA para la del ejemplo

Fuente de variación

Suma de cuadrados

(SC)

Grados de libertad ( )

Media de cuadrados (MC)

Regresión 0.64 1 0.64/1=0.64 0.64/0.0045

142.22 Error 0.0357 n – k – 1 = 8 0.0357/8=0.0045

Total 0.676 1 9 0.676 9⁄ 0.0751

Ahora bien, para la prueba : 0 si es cierta, los valores de Y son

independientes de los valores de X,y solamente se explican por las variaciones de los errores aleatorios del muestreo; por el contrario, si los valores de Y son altamente

dependientes de los valores de Xel cociente sería diferente de 0 por

las variaciones del muestreo, y como los términos del cociente se distribuyen conforme la Ji‐Cuadrada, corresponde a la distribución ; ; para la

hipótesis alterna : 0.Los valores críticos son

. ; ; . ; ; .

0.001 Y

. ; ; 7.57 Como 142.22 entonces el rechazo de que la pendiente de la regresión sea

igual a cero es altamente significativo.

capÍtulo 19 correlaciÓn y regresiÓn...

Documents