presentaciÓn -...

29
Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx Regresión y Correlación lineal simple es el noveno fascículo, de una serie de guías de estudio en las que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o el que sea de su propio interés. Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas y casos planteados. Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo, utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda generación en la historia de la Web basada en comunidades de usuarios, que fomentan la colaboración y el intercambio ágil de información entre los mismos. Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709. Los Autores PRESENTACIÓN

Upload: lykhanh

Post on 06-Feb-2018

257 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

Regresión y Correlación lineal simple es el noveno fascículo, de una serie de guías de estudio en las que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o el que sea de su propio interés. Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas y casos planteados. Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo, utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda generación en la historia de la Web basada en comunidades de usuarios, que fomentan la colaboración y el intercambio ágil de información entre los mismos. Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709. Los Autores

PRESENTACIÓN

Page 2: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

Es común que las personas tomen decisiones personales y profesionales basadas en predicciones de sucesos futuros. Para hacer estos pronósticos, se basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con un evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones.

Cualquier método estadístico que busque establecer una ecuación que permita estimar el valor desconocido de una variable a partir del valor conocido de una o más variables, se denomina análisis de regresión.

Los análisis de regresión y correlación mostrarán como determinar la

naturaleza y la fuerza de una relación entre dos variables. El término regresión fue utilizado por primera vez por el genetista y

estadístico inglés Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la altura d los hijos de padres altos tendía a retroceder, o “regresar”, hacia la talla media de la población. Regresión fue el nombre que le dio al proceso general de predecir una variable,(la talla de los niños) a partir de otra (la talla de los padres).

Hoy en día, esta tendencia de miembros de cualquier población que están

en una posición extrema (arriba o debajo de la media poblacional) en un momento, y luego en una posición menos extrema en otro momento, (ya sea por sí o por medio de sus descendientes), se llama efecto de regresión.

El análisis de regresión se desarrolla una ecuación de estimación, es decir,

una formula matemática que relaciona las variables conocidas con las desconocidas. Luego de obtener el patrón de dicha relación, se aplica el análisis de correlación para determinar el grado de relación que hay entre las variables.

Page 3: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

REGRESIÓN LINEAL SIMPLE

“Una técnica estadística que establece una ecuación para estimar el valor desconocido de una variable, a partir del valor conocido de otra variable, (en vez de valores de muchas otras variables) se denomina análisis de regresión simple.”

Por lo tanto el análisis de regresión lineal simple, es el proceso general de predecir una variable (Y) a partir de otra (X). Las relaciones entre las variables pueden ser directas o también inversas. Relación directa: la pendiente de esta línea es positiva, por que la variable

Y crece a medida que la variable X también lo hace.

Relación inversa: La pendiente de esta línea es negativa, por que a medida que aumenta el valor de la variable Y, el valor de la variable X disminuye.

Page 4: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

VARIABLE INDEPENDIENTE (X)

En el análisis de regresión una variable cuyo valor se suponga conocido y que se utilice para explicar o predecir el valor de otra variable de interés se llama variable independiente; se simboliza con la letra X.

Otros nombres alternativos para la variable independiente (X), son

variable explicatoria, variable predictora y en ocasiones variable regresora.

VARIABLE DEPENDIENTE (Y)

En el análisis de regresión una variable cuyo valor se suponga desconocido y que se explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.

La variable dependiente, al igual que la variable independiente es llamada de diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.

Page 5: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

DIAGRAMAS DE DISPERSIÓN

Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta de una dispersión de puntos tal que cada punto representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo largo del eje vertical).

El diagrama de dispersión, también llamado nube de puntos, brinda dos

tipos de información, visualmente se pueden determinar los patrones que indican como las variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de línea o ecuación de estimación que describe a dicha relación.

A continuación se ilustran algunas relaciones en los diagramas de

dispersión:

Page 6: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

METODO DE MINIMOS CUADRADOS

El método que por lo común se utiliza para ajustar una línea a los datos muestrales indicados en el diagrama de dispersión, se llama método de mínimos cuadrados. La línea se deriva en forma tal que la suma de los cuadrados de las desviaciones verticales entre la línea y los puntos individuales de datos se reduce al mínimo.

El método de mínimos cuadrados sirve para determinar la recta que

mejor se ajuste a los datos muestrales, y los supuestos de este método son: El error es cero. Los datos obtenidos de las muestra son estadísticamente independientes. La varianza del error es igual para todos los valores de X.

Una línea de regresión calculada a partir de los datos muestrales, por el método de mínimos cuadrados se llama línea de regresión estimada o línea de regresión muestral.

Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es aquella en que la distancia que hay entre los datos y la supuesta recta es la menor posible, y se calcula mediante la siguiente formula:

bxay +=ˆ

Para calcular el valor de b (pendiente), que representa el grado de inclinación que tiene la recta, se emplea la siguiente formula:

22 xnxyxnxy

b∑∑

−=

Para calcular el valor de a (ordenada al origen), que representa el punto

en que la recta corta al eje de las Y, se emplea la siguiente formula:

xbya +=

Las variables a y b son constantes numéricas que son las que se calculan mediante el método de mínimos cuadrados.

Page 7: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

ERROR ESTANDAR DE ESTIMACIÓN

El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo medir la confiabilidad de la ecuación de estimación que hemos desarrollado.

El error estándar de estimación mide la variabilidad o dispersión de los

valores observados alrededor de la línea de regresión y se representa como Se. Su formula es la siguiente:

( ) ( )2

2

•−•−= ∑∑ ∑

nxybyay

Se

Cuanto mayor sea el error estándar de la estimación, más grande será la

dispersión (o esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si Se= 0, se espera que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente, en este caso todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos, como se muestra en la siguiente figura:

El error estándar de estimación tiene la misma aplicación que de la

desviación estándar que se vio en los temas anteriores. Esto es, suponiendo que los puntos observados tienen una distribución normal alrededor de la recta de regresión, podemos esperar que:

Page 8: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

• 68% de los puntos están dentro de ± 1se • 95.5% de los puntos están dentro de ± 2se • 99.7% de los puntos están dentro de ± 3se

El error estándar de la estimación se mide a lo largo del eje “Y”, y no perpendicularmente desde la recta de regresión. Las suposiciones son: 1. Los valores observados para Y tienen distribución normal alrededor de cada valor estimado de y 2. La varianza de las distribuciones alrededor de cada valor posible de y es la misma.

Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de la recta de regresión podría diferir del error estándar en otro punto.

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL

SIMPLE

1. Obtención de los datos muestrales.

Page 9: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

2. Los datos obtenidos se tabulan. (tener cuidado en determinar

correctamente quien es la variable independiente y dependiente)

X Y

3. La información se gráfica en un diagrama de dispersión,

estableciéndose la posible relación entre las dos variables

4. Se calcula la pendiente.

( )∑∑

−=

22 xnx

yxnxyb

5. Se calcula la ordenada al origen.

xbya +=

Page 10: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

bxay +=ˆ

7. Se traza la línea estimada en el diagrama de dispersión.

8. Se calcula el error estándar de estimación.

( ) ( )2

2

−•−•−

= ∑∑ ∑n

xybyaySe

Por ejemplo:

Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.

Realice una regresión para estimar las ventas de dos sucursales que tienen

14,000 y 30,000 personas como potenciales clientes respectivamente. Solución Datos n=10

Page 11: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

X: Población de personas en miles Y: Ventas trimestrales en miles de pesos

1. Tabular los datos obtenidos: Sucursal X Y

1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 168 9 22 149

10 26 202

2. Graficar los datos en un diagrama de dispersión y determinar la posible

relación entre las variables X Y.

Se puede observar una relación lineal directa.

Page 12: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

3. Realizar los cálculos correspondientes

Sucursal X Y XY X2 Y2

1 2 58 116 4 3364 2 6 105 630 36 11025 3 8 88 704 64 7744 4 8 118 944 64 13924 5 12 117 1404 144 13689 6 16 137 2192 256 18769 7 20 157 3140 400 24649 8 20 168 3380 400 28224 9 22 149 3278 484 22201

10 26 202 5252 676 40804 ∑= 140 1300 21040 2528 184393

4. Calculo de la pendiente.

pesosmily

personasmilx

13010

1300

1410

140

==

==

Por lo tanto la pendiente es

( )( )( )

514102528

1301410210402

=−

−=b

5. Calculo de la ordenada al origen.

( ) 60145130 =−=a

6. Obtener la ecuación que mejor se ajuste.

( )xy 560ˆ +=∴

Page 13: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

7. Trazar la línea estimada.

8. Calcular el error estándar de estimación.

( ) ( ) 21.12210

210405130060184393=

−•−•−

=eS

Tiene un error de estimación de 12,210 pesos. Para una N = 14,0001

( )( )130,14

13014560ˆ∴

=+=y

Para una N = 30,000

( )( )210,30

21030560ˆ∴

=+=y

1 Recuerda que estamos trabajando con miles de pesos, en este ejercicio.

Page 14: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

CORRELACIÓN SIMPLE

Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos variables, el análisis de correlación es la herramienta estadística que podemos usar para describir el grado o fuerza en el que una variable esta linealmente relacionada con otra.

Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se mueven dos variables, y por lo tanto, con cuanta confiabilidad se puede estimar una variable con ayuda de la otra.

Una técnica estadística que establece un índice que proporciona, en un

solo número, una medida de la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.

El análisis de correlación es la herramienta estadística de que nos valemos

para describir el grado de relación que hay entre dos variables. A menudo el análisis de correlación simple se utiliza junto con el análisis de

regresión lineal simple para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente, Y.

Diagramas de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación.

Page 15: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

COEFICIENTE MUESTRAL DE DETERMINACIÓN

La medida más importante de que también ajusta la línea de regresión estimada en los datos muestrales en los que esta basada, es el coeficiente de determinación muestral, este es igual a la proporción de la variación total de los valores de la variable dependiente, “Y”, que puede explicarse por medio de la asociación de Y con X medida por la línea de regresión estimada.

El coeficiente de determinación es la manera primaria de medir el

grado, o fuerza, de la relación que existe entre dos variables, X y Y. El coeficiente de determinación muestral se representa como r2, y mide

exclusivamente la fuerza de una relación lineal entre dos variables. El Calculo del coeficiente de determinación se lleva a cabo con la siguiente

formula:

( ) ( ) ( )( )∑∑∑

•−

•−•+•=

22

2

2

yny

ynxybyar

COEFICIENTE MUESTRAL DE CORRELACIÓN

La raíz cuadrada del coeficiente de determinación muestral, 2r , es un índice alternativo común del grado de asociación entre dos variables cuantitativas. Esta mediad se llama coeficiente de correlación muestral (r) y es un estimador puntual del coeficiente de correlación poblacional (ρ).

El coeficiente de correlación muestral es la segunda medida con que

puede describirse la eficacia con que una variable es explicada por otra, así pues el signo de r indica la dirección de la relación entre las dos variables X y Y.

Page 16: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

El siguiente esquema representa adecuadamente la intensidad y la

dirección del coeficiente de correlación muestral.

El calculo del coeficiente de correlación muestral se lleva a cavo con la siguiente formula:

2rr = INTERVALO DE CONFIANZA

Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar un intervalo de confianza que le de seguridad a nuestros cálculos.

Como se ha visto, cuando se utilice el método de mínimos cuadrados,

los coeficientes de regresión, a y b son estimadores insesgados, eficientes y consistentes de α y β, también aquí es muchas ocasiones es deseable establecer intervalos de confianza.

Los intervalos de confianza se calculan con la siguiente fórmula:

±= − n

Sgltyy enc 22/ ,ˆ α

Page 17: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

INTERVALO DE PREDICCIÓN

El intervalo de predicción, como su nombre lo indica, se utiliza para predecir un intervalo de valores de Y, dado un valor de X.

El intervalo de predicción se calcula con la siguiente fórmula:

( )( ) ( )( )∑ −

−++••−±=

22

2

2112ˆ

xnxxX

nSntyy ep α

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL

SIMPLE

1. Obtención y tabulación de los datos muestrales. 2. La información se gráfica en un diagrama de dispersión.

3. Calcular la pendiente y ordenada al origen.

4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

5. Se traza la línea estimada en el diagrama de dispersión. 6. Calcular el error estándar de estimación.

7. Calcular el coeficiente de determinación.

8. Determinar el coeficiente de correlación.

9. Determinar el intervalo de confianza.

10. Determinar el intervalo de predicción.

Page 18: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

Por ejemplo: Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales en miles de pesos y los años de experiencia de diez vendedores. Estime las ventas anuales para un vendedor con 7 años de experiencia. Solución

1. Obtención y tabulación de los datos muestrales. X: Años de experiencia Y: Ventas anuales en miles de pesos.

Vendedor X Y 1 1 80 2 3 97 3 4 92 4 4 102 5 6 103 6 8 111 7 10 119 8 10 123 9 11 117 10 13 136 ∑= 70 1080

2. Diagrama de dispersión.

Page 19: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

3. Realizar los cálculos correspondientes y determinar la pendiente y

ordenada al origen. Vendedor X Y XY X2 Y2

1 1 80 80 1 6400 2 3 97 291 9 9409 3 4 92 368 16 8464 4 4 102 408 16 10404 5 6 103 618 36 10609 6 8 111 888 64 12321 7 10 119 1190 100 14161 8 10 123 1230 100 15129 9 11 117 1287 121 13689 10 13 136 1768 169 18496 ∑= 70 1080 8128 632 119082

( )( )( )

( ) 8074108

4710632

1087108128

71070

10810

1080

2

=−=

=−

−=

==

==

a

b

x

y

4. Ecuación que mejor se ajusta.

( )xy 480ˆ +=

Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:

( ) anualesventasy 1087480ˆ =+=

Page 20: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

5. Trazo de la línea estimada en el diagrama de dispersión

6. Calcular el error estándar de estimación.

( ) ( ) 61.4210

81284108080119082=

−•−•

=eS

7. Calcular el Coeficiente de Determinación.

( ) ( ) ( )( )

%03.9310810119082

1081081284108080

2

2

22

=

=×−

×−×+×=

r

r

El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de debe a otros factores.

8. Calcular el Coeficiente de Correlación

9645.09303.0 ==r

Este número nos indica que las variables X Y tienen una correlación positiva intensa.

Page 21: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

9. Determinar el intervalo de confianza al 95%. Considerando anualesventasy 108ˆ =

3617.1116383.1043617.31083617.3108

1061.4306.2108

≤≤+≤≤−

±=

c

c

c

yy

y

Se puede asegurar con un nivel de confianza del 95% que las ventas de los vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos anuales. 10. Determinar el intervalo de predicción para un vendedor con 9 años de experiencia se tiene

( )( ) ( )( )∑ −

−++••−±=

22

2

2112ˆ

xnxxX

nSntyy ep α

Sustituyendo:

( )

291.119709.96291.11108291.11108

)7(1063279

101161.4306.2108

2

2

≤≤

+≤≤−

−−

++••±=

p

p

p

yy

y

Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.

Page 22: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

Ejercicios propuestos: 1. El jefe del departamento de aguas de una ciudad desea establecer una relación entre el consumo mensual domiciliario de agua Y, y el tamaño de las familias X, Dados los datos muestrales, determine:

a) Elabora el diagrama de dispersión. b) Calcula la pendiente y ordenada al origen. c) Obtener la ecuación que mejor se ajusta a los datos. d) Traza la línea estimada en el diagrama de dispersión. e) Calcula el error estándar de estimación. f) Calcula el coeficiente de determinación. g) Determina el coeficiente de correlación. h) Determina el intervalo de confianza al 99%. i) Determina el intervalo de predicción 99%

Galones de

Agua

Tamaño de

familia. Y X

650 2 1200 7 1300 9 430 4 1400 12 900 6 1800 9 640 3 793 3 925 2

Page 23: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

2. El gerente de una compañía de seguros desea establecer la relación entre el seguro de vida de las personas Y, y sus salarios X. Realice una regresión con los datos muestrales:

Seguro de

vida

Salario Anual.

Y X 50 10 80 29 100 30 130 31 150 36

a) Elabora el diagrama de dispersión. b) Calcula la pendiente y ordenada al origen. c) Obtener la ecuación que mejor se ajusta a los datos. d) Traza la línea estimada en el diagrama de dispersión. e) Calcula el error estándar de estimación. f) Calcula el coeficiente de determinación. g) Determina el coeficiente de correlación. h) Determina el intervalo de confianza al 90%. i) Determina el intervalo de predicción 90%

3. Un economista desea establecer la relación entre la tasa de desempleo Y, y la tasa de cuentas vencidas de la Tesorerías, Determine la regresión y correlación con los datos muestrales.

Y X 6.7 9.7 7.3 9.8 8.9 7.6 9.1 6.1 7.2 10.2 5.2 12.7 6.9 14.3 6.9 7.9 7.1 8.9

1. Elabora el diagrama de dispersión. 2. Calcula la pendiente y ordenada al origen. 3. Obtener la ecuación que mejor se ajusta a los datos.

Page 24: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

4. Traza la línea estimada en el diagrama de dispersión. 5. Calcula el error estándar de estimación. 6. Calcula el coeficiente de determinación. 7. Determina el coeficiente de correlación. 8. Determina el intervalo de confianza al 95%. 9. Determina el intervalo de predicción 95%

4. Un director de ventas desea establecer la relación entre las ventas del segundo año de vendedores Y, y sus ventas del primer año X. Realice un análisis de regresión.

Y 69 75 86 111 129 133 X 170 133 86 161 112 133

a) Elabora el diagrama de dispersión. b) Calcula la pendiente y ordenada al origen. c) Obtener la ecuación que mejor se ajusta a los datos. d) Traza la línea estimada en el diagrama de dispersión. e) Calcula el error estándar de estimación. f) Calcula el coeficiente de determinación. g) Determina el coeficiente de correlación. h) Determina el intervalo de confianza al 95%. i) Determina el intervalo de predicción 95%

5. Un gerente de comercialización desea establecer la relación entre las ventas Y, y el precio de un producto similar fabricado por la competencia X, Realice un análisis de correlación.

Ventas Precio de

competencia Y X

520 13 550 13 600 15 610 15 620 16 724 21 680 21 300 14 962 40 270 12

Page 25: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

1. Elabora el diagrama de dispersión. 2. Calcula la pendiente y ordenada al origen. 3. Obtener la ecuación que mejor se ajusta a los datos. 4. Traza la línea estimada en el diagrama de dispersión. 5. Calcula el error estándar de estimación. 6. Calcula el coeficiente de determinación. 7. Determina el coeficiente de correlación. 8. Determina el intervalo de confianza al 99%. 9. Determina el intervalo de predicción 99%

6. Se hizo una encuesta a una muestra de 10 los estudiantes de 3er. Semestre de la carera de Lic. En administración del grupo 1301 del semestre 2009-1 y se encontraron los siguientes datos:

Estudiante Altura (mts) Peso (Kg) 1 1.50 48 2 1.54 50 3 1.60 52 4 1.72 70 5 1.80 72 6 1.50 50 7 1.61 57 8 1.54 54 9 1.63 80 10 1.70 62

a) Elabora el diagrama de dispersión. b) Calcula la pendiente y ordenada al origen. c) Obtener la ecuación que mejor se ajusta a los datos. d) Traza la línea estimada en el diagrama de dispersión. e) Calcula el error estándar de estimación. f) Calcula el coeficiente de determinación. g) Determina el coeficiente de correlación. h) Determina el intervalo de confianza al 95%. i) Determina el intervalo de predicción 95%

Page 26: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas principales de refrescos.

Marca Gastos de publicidad ($)

Ventas de cajas (miles)

Coca-Cola 13.0 19.3 Pepsi-Cola 9.4 13.8

Sprite 6.4 8.4 Diet Coke 5.7 5.5

7-Up 4.2 5.9 Jarritos 2.9 5.3 Boing 1.6 2.5

a) ¿Dibuje el diagrama de dispersión, que parece indicar este diagrama acerca de la relación entre las dos variables?

b) Trace una recta que pase por los datos, para aproximar una relación lineal entre los gastos del anuncio y las ventas.

c) Aplique el método de los cuadrados mínimos para plantear la ecuación estimada de regresión.

d) Prediga las ventas para una marca que decida gastar $7 millones de pesos en un anuncio publicitario.

e) Calcule el error estándar en la regresión. f) Calcule el coeficiente de determinación y correlación e interprételos. g) Determina el intervalo de confianza al 95%. h) Determina el intervalo de predicción 95%

8. La revista del consumidor publico en su número 381 del mes de noviembre del 2008 la siguiente información acerca del uso de los teléfonos celulares:

Año Usuarios que compran tiempo aire en (miles de

usuarios) 2000 1628 2001 1784 2002 2006 2003 2029 2004 2508 2005 3268 2006 4035 2007 5199

Page 27: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

a) Trace un diagrama de dispersión para estos datos, b) Aplique el método de mínimos cuadrados para plantear la ecuación

estimada de regresión. c) Trace una recta que pase por los datos, para aproximar una relación

lineal entre la altura y el peso. d) Prediga cuantos usuarios compraran tiempo aire para su teléfono

celular para el año 2009. e) Calcule el error estándar en la regresión. f) Calcule el coeficiente de correlación y el coeficiente de determinación

e interprételos. g) Determina el intervalo de confianza al 92%. h) Determina el intervalo de predicción 92%

9. Un vendedor de Century 21 desea establecer la relación entre el tiempo en meses que están a la venta los departamentos antes de lograr su venta y el precio pedido por ellos. Los datos de una muestra de 9 departamentos se muestran a continuación: Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0 Precio pedido (en miles de pesos)

800 1000 990 1250 1400 1100 990 990 1250

a) Trace un diagrama de dispersión para estos datos, b) Aplique el método de mínimos cuadrados para plantear la ecuación

estimada de regresión. c) Prediga cuanto tiempo se tardara en vender un departamento que

cueste $ 1’500,000 pesos. d) Calcule el error estándar en la regresión. e) Calcule el coeficiente de correlación y el coeficiente de determinación

e interprételos. f) Determina el intervalo de confianza al 95%. g) Determina el intervalo de predicción 95%

Page 28: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

10. El Orgamismo Operador de agua en el Muncipio de cuautitlán Izcalli OPERAGUA quiere conocer la relación entre en consumo mensual domiciliario de agua y el tamaño de las familias, toma una muestra de 10 familias elegidas al azar y encuentra los siguientes datos:

Metros cúbicos consumidos

65 120 130 43 140 90 180 64 79 92

Tamaño de la familia

2 7 9 4 12 6 9 3 3 4

a) Trace un diagrama de dispersión para estos datos, b) Aplique el método de mínimos cuadrados para plantear la ecuación

estimada de regresión. c) Prediga cuantos metros cúbicos al mes consumirá una familia que tiene

10 miembros. d) Calcule el error estándar en la regresión. e) Calcule el coeficiente de correlación y el coeficiente de determinación

e interprételos. f) Determina el intervalo de confianza al 95%. g) Determina el intervalo de predicción 95%

11- El gerente de una mueblería “FAMSA” quiere conocer la relación de las ventas logradas por un vendedor en dos años, toma una muestra de 8 vendedores que lograron la etiqueta de (vendedor del mes) y encontró los siguientes datos: Unidades vendidas en el año 2007 170 133 86 161 112 133 136 82

Unidades vendidas en el año 2006 99 95 50 80 92 88 130 100

a) Trace un diagrama de dispersión para estos datos, b) Aplique el método de mínimos cuadrados para plantear la ecuación

estimada de regresión. c) Calcule el error estándar en la regresión. d) Calcule el coeficiente de correlación y el coeficiente de determinación e

interprételos. e) Determina el intervalo de confianza al 95%. f) Determina el intervalo de predicción 95%

Page 29: PRESENTACIÓN - asesorias.cuautitlan2.unam.mxasesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica... · Cada guía integra el desarrollo del tema con ejercicios, casos de

Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación Lineal Simple http://www.cuautitlan.unam.mx

12. Según el INEGI los nacimientos registrados en el país en el 2007 fueron:

Mes de registro Nacimientos Registrados

1 Enero 220,670 2 Febrero 211,330 3 Marzo 213,299 4 Abril 270,819 5 Mayo 225,298 6 Junio 205,572 7 Julio 211,180 8 Agosto 249,626 9 Septiembre 220,666 10 Octubre 241,529 11 Noviembre 211,857 12 Diciembre 173,237

a) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión.

b) El INEGI reporto que en julio de 2007 se registraron 211,330 nacimientos, utiliza la ecuación obtenida y predice cuantos debieron de haberse registrado en ese mes, compara resultados y obtén tus conclusiones.

c) Estime cuantos nacimientos se registraron en enero de 2008. d) Calcule el error estándar en la regresión. e) Calcule el coeficiente de correlación y el coeficiente de determinación

e interprételos. f) Determina el intervalo de confianza al 95%. g) Determina el intervalo de predicción 95%