probabilidad y estad stica - uamverso.mat.uam.es/~pablo.fernandez/tema-prest-1.pdfejemplos varios de...

71
Probabilidad y Estad´ ıstica Grado en Ingenier´ ıa Inform´ atica Tema 1 Estad´ ıstica descriptiva Javier C´ arcamo Departamento de Matem´ aticas Universidad Aut´ onoma de Madrid [email protected] Javier C´ arcamo PREST. Tema 1: Estad´ ıstica descriptiva 1

Upload: others

Post on 21-Apr-2020

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Probabilidad y EstadısticaGrado en Ingenierıa Informatica

Tema 1Estadıstica descriptiva

Javier Carcamo

Departamento de Matematicas

Universidad Autonoma de Madrid

[email protected]

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 1

Page 2: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Informacion de contacto

Javier Carcamo

Correo electronico: [email protected]

Telefono: 91 497 7635

Despacho: Modulo 17 (Facultad de Ciencias) - Despacho 412

Pagina web: http://www.uam.es/javier.carcamo

Transparencias utilizadas en clase:

http://www.uam.es/javier.carcamo/Tema-PREST-1.pdf

http://www.uam.es/javier.carcamo/Tema-PREST-2.pdf...

......

......

......

......

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 2

Page 3: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Ejemplo introductorio:Contaminacion por mercurio en el pescado

• El agua de los rıos contiene pequenas concentraciones demercurio que se pueden ir acumulando en los tejidos de lospeces.

• Se ha realizado un estudio en los rıos Wacamaw y Lumber enCarolina del Norte (EE.UU.), analizando la cantidad demercurio que contenıan 171 ejemplares capturados de unacierta especie de peces.

• Los datos obtenidos se encuentran en el ficheromercurio.txt (formato texto) o en el fichero mercurio.sav

(formato SPSS).

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 3

Page 4: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Variables

Nombre variable Descripcion

RIO Codigo del rıo (0=Lumber, 1=Wacamaw)ESTACION Codigo de la estacion (de 0 a 16)LONG Longitud (en cm) del pezPESO Peso (en g) del pezCONC Concentracion (en ppm) de mercurio

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 4

Page 5: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 5

Page 6: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Problemas de interes relacionados con estos datos

• Resumir la informacion que contienen con unas pocas cifras ograficos.

• ¿Que valores toma cada variable? ¿Cuales son los masfrecuentes? ¿Hay grandes diferencias entre ellos?

• ¿Es significativamente mas alta la concentracion de mercurioen un rıo que en otro?

• ¿Existe relacion entre la concentracion de mercurio y lalongitud o el peso del pez?

• ¿Depende la concentracion de mercurio de la estacion en laque ha sido capturado el pez?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 6

Page 7: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Tema 1: Estadıstica descriptiva

Descripcion del tema

1. Introduccion.

2. Variables. Distribucion de una variable.

3. Representacion grafica de la distribucion.

4. Medidas numericas para resumir la distribucion.

5. Correlacion.

6. Transformaciones: estandarizacion y transformacionlogarıtmica.

7. Regresion lineal.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 7

Page 8: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

1. Introduccion

• La estadıstica permite extraer informacion y conocimiento apartir de la observacion de un fenomeno.

• Una variable es el valor de una caracterıstica de interes de unfenomeno objeto de estudio.

Ejemplos varios de variables

• x ≡ altura de una persona.

• x ≡ peso de una persona.

• x ≡ numero de visitas al dıa de una pagina web.

• x ≡ tiempo entre la llegada de un mail y su respuesta.

• x ≡ vida util de una componente de un sistema.

• x ≡ tiempo de procesado de un programa informatico.

• x ≡ numero de errores de codigo de un programador.

• x ≡ horas de estudio en PREST de un alumno.

• x ≡ nota en la asignatura PREST de un alumno.

• x ≡ · · · · · ·Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 8

Page 9: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Definiciones basicas

• Poblacion: Conjunto de elementos objeto de estudio(estudiantes universitarios; personas con ındice de masacorporal superior a 25; empresas en Espana; etc.).

• Muestra: Subconjunto de la poblacion.

• Tamano muestral: Cardinal de la muestra (numero deelementos de la muestra, se suele denotar por n).

• Un conjunto de datos es el resultado de medir una o masvariables en una muestra.

• En la mayor parte de las ocasiones es imposible observar unacaracterıstica de interes en toda la poblacion (censo).

• Esto nos obliga a utilizar un procedimiento aproximado. Esaquı donde entra la Estadıstica.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 9

Page 10: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

1. Introduccion

Pregunta: ¿Por que necesitamos de una muestra y no estudiamostoda la poblacion (censo)?

1 En poblaciones infinitas (o de tamano muy grande) esmaterialmente imposible efectuar un censo.

2 Coste economico mas reducido.

3 Menor tiempo empleado.

4 En ocasiones los elementos muestreados se destruyen omodifican en el proceso. Por ejemplo, pruebas de airbag o dearmamento explosivo.

5 Precision: En muchos casos, la recogida de la informacionmuestral se puede realizar de forma mas fiable y controladaque en el caso de datos de toda la poblacion.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 10

Page 11: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

1. Introduccion

• La estadıstica descriptiva (o analisis exploratorio dedatos) tiene por objetivo identificar y resumir las principalescaracterısticas de un conjunto de datos mediante un numeroreducido de graficos y/o numeros.

• Para describir un conjunto de datos se realiza un analisisindividual de cada variable y posteriormente se estudian lasrelaciones entre las distintas variables.

• Se utilizan representaciones graficas y resumenes numericos.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 11

Page 12: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

2. Tipos de variables

1 Variables cualitativas: Describen cualidades o atributos (ej.color del pelo; sexo de una persona; etc.).

2 Variables cuantitativas discretas: Toman un numeropequeno de valores, normalmente enteros (ej. numero dehijos).

3 Variables cuantitativas continuas: Toman valores en unintervalo (ej. tiempo hasta que llega un autobus).

En los datos sobre contenido de mercurio, ¿de que tipo es cadauna de las variables?

En general, la tecnica estadıstica adecuada para analizar unavariable depende de su tipo.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 12

Page 13: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

2. Distribucion de una variable

• Normalmente, los valores que toma una variable x en unamuestra de tamano n se suelen representar genericamente porx1, x2, . . . , xn.

• La distribucion de una variable viene determinada por losvalores que toma esa variable y la frecuencia con la que lostoma.

• La frecuencia absoluta de un valor (o de un intervalo) es elnumero de individuos para los que la variable toma ese valor(o pertenece a ese intervalo).

• La frecuencia relativa es igual a la frecuencia absolutadividida por el numero total de datos n.

• La frecuencia relativa siempre es un numero entre 0 y 1.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 13

Page 14: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Aspectos interesantes de una distribucion

• Su posicion: entorno a que valor central toma valores lavariable.

• Su dispersion: el grado de concentracion de los valores quetoma la variable alrededor de su posicion central.

• Su forma: por ejemplo, la simetrıa, es decir, si los valores sereparten de la misma forma a uno y otro lado del centro.

Piensa en dos conjuntos de 5 datos que tengan:

(a) La misma posicion y distinta dispersion.

(b) La misma dispersion y distinta posicion.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 14

Page 15: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

3. Representacion grafica de las frecuencias

Graficos de sectores o barras (solo datos cualitativos o discretos)

1,00,00

RIO

15,0014,0013,0012,0011,0010,009,008,007,006,005,004,003,002,001,00,00

25

20

15

10

5

0

Frecuencia

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 15

Page 16: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

3. Representacion grafica de las frecuencias

Histogramas (datos cuantitativos)

• Se divide el rango de los datos en un numero adecuado deintervalos.

• Sobre cada intervalo se dibuja un rectangulo cuya area esproporcional a la frecuencia (relativa o absoluta) de datos enel intervalo.

4,002,000,00

CONC

30

20

10

0

Frecuencia

Media =1,1918�Desviación típica =0,76166�

N =171

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 16

Page 17: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

3. Representacion grafica de las frecuencias

Aspectos a tener en cuenta para interpretar un histograma

• Normalmente la base de todos los rectangulos es la misma porlo que la altura es proporcional a la frecuencia.

• Identificar si se han usado frecuencias absolutas o relativas.

• ¿Cuantas modas hay?

• ¿Hay algun dato atıpico en relacion al resto?

• ¿Es simetrica la distribucion?

• En caso de asimetrıa, ¿es asimetrica a la izquierda o a laderecha

• ¿En torno a que valor aproximado estan centrados los datos?

• ¿Estan muy dispersos los datos en torno a este centro o muyconcentrados?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 17

Page 18: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

3. Tipos de simetrıa

0

10

20

30

40

50

Distribución simétrica unimodal0

10

20

30

40

Distribución simétrica bimodal

0

20

40

60

80

100

Distribución asimétrica a la derecha0

20

40

60

80

100

Distribución asimétrica a la izquierdaJavier Carcamo PREST. Tema 1: Estadıstica descriptiva 18

Page 19: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

La forma depende del numero de intervalos

1,00 2,00 3,00

CONC

0

25

50

75

Recuento

1,00 2,00 3,00

CONC

10

20

30

40

50

Recuento

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 19

Page 20: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 20

Page 21: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas numericas de posicion: la media aritmetica

La medida de posicion mas conocida es la media aritmetica opromedio de los datos:

x =x1 + · · ·+ xn

n=

1

n

n∑i=1

xi .

x da una idea del valor central alrededor del cual se reparten losvalores x1, . . . , xn.

Algunas propiedades

• La suma de las desviaciones a la media siempre es igual a cero:

(x1 − x) + (x2 − x) + · · ·+ (xn − x) = 0.

Esto significa que x es el centro de gravedad de los datos.

• Si la distribucion es muy asimetrica, la media puededistorsionar nuestra percepcion de como son los datos.

• La media es muy sensible a la existencia de datos atıpicos.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 21

Page 22: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Posicion de la media en un histograma

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 22

Page 23: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas numericas de posicion: la mediana

Una medida alternativa de posicion es la mediana.Para calcular la mediana:

• Se ordenan los datos de menor a mayor.

• Si el numero de datos es impar, la mediana es el dato queocupa la posicion central.

• Si el numero de datos es par, la mediana es la media de losdos datos centrales.

Observaciones:

• La media aritmetica hace referencia al valor medio y lamediana al valor que ocupa el lugar medio.

• La mediana es mas robusta que la media pero hace un usomenos eficiente de la informacion contenida en los datos.

Pregunta: ¿Cual es la relacion entre la simetrıa de unadistribucion y la posicion relativa entre la media y la mediana?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 23

Page 24: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: el rango y los cuartiles

Una medida de dispersion muy sencilla es el rango o recorrido delos datos: el valor maximo menos el mınimo R = xmax − xmin.

El rango solo depende de los datos extremos por lo que no es muyconveniente.

Mejores propiedades tienen los cuartiles y el rango intercuartılico:

• El primer cuartil, Q1, es el valor que deja el 25 % de losdatos por debajo (los menores) y el 75 % de los datos porencima (los mayores). Es decir, Q1 es la mediana de los datosmenores que la mediana.

• El tercer cuartil, Q3, es el valor que deja el 75 % de los datospor debajo (los menores) y el 25 % de los datos por encima(los mayores), es decir, Q3 es la mediana de los datos mayoresque la mediana.

• El rango, recorrido o amplitud intercuartılica es ladiferencia entre los dos cuartiles anteriores: RIQ = Q3 − Q1.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 24

Page 25: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: el rango y los cuartiles

De acuerdo con las anteriores definiciones, responde a lassiguientes cuestiones:

¿Que porcentaje de datos hay...

(a) ... entre Q1 y Q3?

(b) ... a la izquierda de Q1?

(c) ... a la derecha de Q3?

(d) ... entre el mınimo y Q3?

Una descripcion util de un conjunto de datos viene dada por loscinco numeros siguientes:

Mınimo, Q1, Mediana, Q3, Maximo

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 25

Page 26: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: la varianza y la desviacion tıpica

La varianza y la desviacion tıpica son las medidas de dispersionmas utilizadas.

La varianza es el promedio de las desviaciones al cuadrado de losdatos a su media.

Datos x1, . . . , xnDesviaciones x1 − x , . . . , xn − x

Desviaciones al cuadrado (x1 − x)2, . . . , (xn − x)2

La varianza es vx =(x1 − x)2 + · · ·+ (xn − x)2

nSe suele usar mas la (cuasi)varianza:

s2 =(x1 − x)2 + · · ·+ (xn − x)2

n − 1

La (cuasi)varianza mide la desviacion de los datos respecto a lamedia. A mayor (cuasi)varianza, mayor dispersion.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 26

Page 27: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: la varianza y la desviacion tıpica

Observacion: Es interesante definir un coeficiente que mida lavariacion expresado en las mismas unidades de la variable.

La (cuasi)desviacion tıpica es la raız cuadrada de S2:

s =

√(x1 − x)2 + · · ·+ (xn − x)2

n − 1

Para comparar la dispersion de variables de magnitudes muydistintas a veces se usa el coeficiente de variacion:

CV =s

x.

El CV no depende de las unidades en las que midamos una variable(adimensional). A mayor CV, menos representativa es la media x .

Una formula alternativa y util para calcular vx y s2:

vx =x21 + · · ·+ x2n

n− x2, s2 =

n

n − 1

(x21 + · · ·+ x2n

n− x2

).

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 27

Page 28: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: la varianza y la desviacion tıpica

Ejercicio: Considerar las muestras observadas

-10, -8, -6, -4, -2, 2, 4, 6, 8, 10

y

− 1

10, −1

8, −1

6, −1

4, −1

2,

1

2,

1

4,

1

6,

1

8,

1

10.

Calcular sus medias, medianas y varianzas.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 28

Page 29: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

4. Medidas de dispersion: la varianza y la desviacion tıpica

Ejercicio: En una comunidad numerosa de propietarios deseanestudiar el volumen de agua utilizado en cada hogar para ver si esposible reducir su consumo. Toman una muestra aleatoria delnumero de m3 de agua utilizados por 10 hogares en los ultimos dosmeses y obtienen:

10, 15, 13, 20, 25, 18, 15, 14, 21, 19.

Calcular los valores observados de la media, la mediana y lavarianza.

Un hijo del presidente de la comunidad decide jugar con el papeldonde se han anotado los datos y lo rompe. Se toma una nuevamuestra

17, 22, 14, 15, 19, 23, 21, 13, 14, 11.

Recalcular la media, mediana y la varianza.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 29

Page 30: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Cuestiones

Da un ejemplo de un conjunto de datos tal que s2 = 0.

Dado un conjunto de observaciones medidas en kg, supongamosque cambiamos las unidades y las pasamos a gramos (es decir,multiplicamos por mil). Determina si son verdaderas o falsas lassiguientes afirmaciones:

• Tanto la media como la mediana de los nuevos datos semultiplican tambien por mil.

• La varianza se multiplica tambien por mil.

¿Como cambiarıa la desviacion tıpica?

Ahora sumamos 100 a todos los datos. Determina si sonverdaderas o falsas las siguientes afirmaciones:

• Los cuartiles no cambian.• El rango intercuartılico no cambia.• La desviacion tıpica no cambia.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 30

Page 31: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Descripcion numerica

CONCPESOLONGVálidos

Perdidos

Media

Error típ. de la media

Mediana

Desv. típ.

Varianza

Rango

Mínimo

Máximo

25

50

75

N

Percentiles

1,60001455,000046,2000

,9300873,000039,0000

,5900491,000033,3000

3,604511,0065,00

,11203,0025,20

3,494308,0039,80

,580766555,86972,542

,76166875,531768,51715

,9300873,000039,0000

,0582566,95359,65132

1,19181147,912339,9708

000

171171171

Estadísticos

Página 1

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 31

Page 32: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Cuestiones

• Calcula el coeficiente de variacion de las tres variables.¿Que se deduce sobre la dispersion de los valores que toman?

• Comparando los valores de la media y la mediana, ¿cual de lastres distribuciones parece ser mas simetrica?

• Verdadero o falso: Al menos para 100 peces, la concentracionde mercurio es superior a 0.93 ppm.

• Verdadero o falso: La longitud de aproximadamente 42 peceses mayor que 25.20 cm y menor que 33.3 cm.

• ¿Cual es el rango intercuartılico de la variable que mide elpeso de los peces?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 32

Page 33: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 33

Page 34: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 34

Page 35: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Diagrama de cajas

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 35

Page 36: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

¿Para que sirven?

Los diagramas de cajas son especialmente utiles para compararvarios conjuntos de datos.

Ademas, proporcionan informacion sobre:

• La posicion (mediana) y la dispersion (rango intercuartılico)de los datos.

• La simetrıa de la distribucion (comparamos el tamano de lascajas).

• La existencia de datos que se desvıan del patron general(posibles datos atıpicos).

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 36

Page 37: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Concentracion de mercurio y rıo

1,00,00

RIO

4,00

2,00

0,00

CONC

16270

66

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 37

Page 38: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Concentracion de mercurio y estacion

15,0014,0013,0012,0011,0010,009,008,007,006,005,004,003,002,001,00,00

ESTACION

4,00

2,00

0,00

CONC

76

82

24

25

66

138

75

123

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 38

Page 39: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Relaciona cada histograma con su diagrama de cajas−2

−10

12

34

56

7

01

23

45

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 39

Page 40: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Diagrama de dispersion: Concentracion frente a peso

4000,002000,000,00

PESO

4,00

2,00

0,00

CONC

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 40

Page 41: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Interpretacion de un diagrama de dispersion

• Es importante fijarse en las unidades de cada eje.

• ¿Se observa alguna asociacion entre las variables?

• ¿Como es de estrecha la asociacion entre las variables?

• ¿Cual es la “direccion” de la asociacion entre las variables?

• ¿Hay algun punto o coleccion de puntos que no siga el patrongeneral del resto?

• Si hay una tercera variable cualitativa, resulta convenienteutilizar sımbolos o colores diferentes para cada valor de estatercera variable.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 41

Page 42: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Concentracion frente a longitud (color segun rıo)

60,00

50,00

40,00

30,00

LONG

1,00,00

RIO

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 42

Page 43: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Matriz de diagramas de dispersion

CONCPESOLONG

CONC

PESO

LONG

1,00,00

RIO

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 43

Page 44: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Covarianza

Se dispone de un conjunto de n pares de observaciones

(x1, y1), . . . , (xn, yn).

El objetivo es definir una medida numerica para cuantificar elgrado de relacion lineal que hay entre las variables x e y : Para ellose usa la covarianza entre x e y :

sxy =1

n − 1

n∑i=1

(xi − x)(yi − y).

Observaciones

• La covarianza entre x e y mide el grado de relacion linealentre las dos variables.

• Para entender por que esta definicion es util miramos elgrafico de la transparencia siguiente.

• sxx es la cuasi-varianza de x , s2x .• sxy tiene el inconveniente de que depende de las unidades en

que se midan x e y .Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 44

Page 45: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Interpretacion de la covarianza

● ●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−4−2

02

4

Covarianza positiva

y ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●●

●●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●● ●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−4−2

02

4

Covarianza negativa

y

●●

●●

●●

●●

●●

●●

● ●

● ●

●● ●

●●●

●●

●●

●●

●●

● ●

●●

● ●

●●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

● ●

●●

−2 −1 0 1 2

−2−1

01

2

Covarianza aprox. cero

y ●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●●

●●

● ●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

● ●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−20

24

6

Covarianza aprox. cero

y

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 45

Page 46: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Coeficiente de correlacion

Resulta conveniente disponer de una medida de relacion lineal queno dependa de las unidades. Para ello, se normaliza sxy dividiendopor el producto de (cuasi)desviaciones tıpicas, lo que lleva alcoeficiente de correlacion:

rxy =sxysx sy

.

Propiedades del coeficiente de correlacion:

• No depende de las unidades (es adimensional).

• Toma valores entre -1 y 1.

• Su signo se interpreta igual que el de la covarianza.

• Solo vale 1 o -1 cuando los puntos estan perfectamentealineados.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 46

Page 47: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Ejemplos de correlaciones

r  =‐1xyr  = 1xyy

r   próximo a 1xy r   próximo a ‐1xy

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 47

Page 48: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Covarianzas y correlaciones de los datos

Correlaciones

1 ,900 ,650,000 ,000

12332,114 1141004 716,835

72,542 6711,790 4,217171 171 171,900 1 ,554,000 ,000

1141004 1E+008 62786,546

6711,790 766555,9 369,333171 171 171,650 ,554 1,000 ,000

716,835 62786,546 98,622

4,217 369,333 ,580171 171 171

Correlación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaN

LONG

PESO

CONC

LONG PESO CONC

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 48

Page 49: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

5. Covarianzas y correlaciones con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 49

Page 50: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Estandarizacion o tipificacion

La Estandarizacion o tipificacion consiste en restarle a cadaobservacion la media de todos los datos y dividir por la desviaciontıpica:

zi =xi − x

sEl valor zi representa la distancia de xi a la media expresada endesviaciones tıpicas (el signo indica si el dato es mayor o menorque la media).

Utilidad de la tipificacion

• Eliminar los efectos de las unidades de medida, ya que lavariable z = (x − x)/s es adimensional.

• Detectar posibles valores atıpicos en los datos.• Realizar comparaciones de los valores de una variable en

diferentes poblaciones.

Preguntas: ¿Cuanto vale la media de los datos estandarizados? ¿Ysu desviacion tıpica?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 50

Page 51: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Efecto de estandarizar un conjunto de datos

−4 −2 0 2 4 6 8

Datos originales

−4 −2 0 2 4 6 8

Datos centrados (media cero)

−4 −2 0 2 4 6 8

Datos estandarizados (media cero y varianza uno)

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 51

Page 52: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Tomar logaritmos

Si las observaciones xi son positivas, a veces es convenientetrabajar con sus logaritmos log xi en lugar de con las variablesoriginales.

0 1 2 3 4 5

−3

−2

−1

01

x

log

(x)

Utilidad• En algunas ocasiones se consigue que la distribucion de log x

sea mas simetrica.• En algunas ocasiones se consigue que la asociacion entre dos

variables sea aproximadamente lineal.Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 52

Page 53: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Tomar logaritmos para hacer la distribucion massimetrica

4,002,000,00

CONC

30

20

10

0

Frecuencia

Media =1,1918�Desviación típica =0,76166�

N =171

1,000,00-1,00-2,00

LNCONC

30

25

20

15

10

5

0

Fre

cu

en

cia

Media =-0,0268�Desviación típica =0,66104�

N =171

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 53

Page 54: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Tomar logaritmos para hacer que la asociacion sea lineal

4000,002000,000,00

PESO

4,00

2,00

0,00

CONC

60,0050,0040,0030,00

LONG

1,00

0,00

-1,00

-2,00LNCONC

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 54

Page 55: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Transformaciones con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 55

Page 56: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

6. Transformaciones con SPSS

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 56

Page 57: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Regresion lineal: Introduccion

En algunas situaciones, los diagramas de dispersion sugieren quehay una relacion lineal entre dos variables.

Asociacion positiva Asociacion negativa

3 4 5 6 7

3

4

5

6

7

3 4 5 6 7

3

4

5

6

7

Pregunta: ¿Como es la correlacion en estos dos ejemplos?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 57

Page 58: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Regresion lineal: Introduccion

En algunas situaciones, los diagramas de dispersion sugieren quehay una relacion lineal entre dos variables.

Asociacion positiva Asociacion negativa

3 4 5 6 7

3

4

5

6

7

3 4 5 6 7

3

4

5

6

7

Aplicaciones:

• Resumir la informacion de los datos mediante una recta.

• Predecir valores de una variable usando la otra.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 58

Page 59: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Ejemplo: consumo de vino y dolencias cardıacas

Consideramos dos variables:

• X : Consumo anual de vino en litros por habitante

• Y : Numero de muertes por enfermedad cardıaca, por cada100.000 habitantes.

Algunas preguntas:

¿Que podemos decir sobre la relacion entre las dos variables?

¿Podemos afirmar que valores altos en consumo de vino estanasociados con valores bajos en numero de muertes por enfermedadcardıaca?

¿Podemos predecir aproximadamente el valor de la variable Y sisabemos el valor de X?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 59

Page 60: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Frecuencias

[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\vino.sav

Estadísticos

19 19

0 0

3,026 191,05

2,5097 68,396

Válidos

Perdidos

N

Media

Desv. típ.

Vino Card

Página 1

10,08,06,04,02,00,0

Vino

300

250

200

150

100

50

Ca

rd

Irlanda

Francia

Correlaciones

1 -,843

,000

19 19

-,843 1

,000

19 19

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Vino

Card

Vino Card

Página 1

10,08,06,04,02,00,0

Vino

300

250

200

150

100

50

Ca

rd

Irlanda

Francia

Correlaciones

1 -,843

,000

19 19

-,843 1

,000

19 19

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Vino

Card

Vino Card

Página 1

Pregunta: ¿Implica esta asociacion causalidad?

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 60

Page 61: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Asociacion estadıstica y causalidad

La asociacion entre una causa (C) y un efecto (E), puede surgirde tres modos distintos:

(a) C es causa de E.

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

(b) C y E tiene una causa comun (variable X).

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

(c) E es causa de C.

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 61

Page 62: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Ejemplo: renta y fracaso escolar en la CAM

Ana JustelAna Justel

EjemploEjemplo

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 62

Page 63: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Ejemplo: renta y fracaso escolar en la CAM

●●

●●

10 12 14 16 18 20 22

1015

2025

3035

Renta (en miles de euros)

% fr

acas

o es

cola

rArganda

Torrelodones

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 63

Page 64: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Problema de regresion

Observamos dos variables, X e Y , el objetivo es analizar la relacionexistente entre ambas de forma que podamos predecir o aproximarel valor de la variable Y a partir del valor de la variable X .

• La variable Y se llama variable respuesta

• La variable X se llama variable regresora o explicativa

Observacion: En un problema de regresion (a diferencia decuando calculamos el coeficiente de correlacion) el papel de las dosvariables no es simetrico. La variable X juega el papel de variableindependiente y la variable Y el papel de variable dependiente (dela primera).

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 64

Page 65: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Recta de regresion

Frecuentemente, existe entre las variables observadas una relacionaproximadamente lineal:

yi ≈ β0 + β1xi , i = 1, . . . , n.

• La recta y = β0 + β1x es una recta de regresion.

• El parametro β1 es la pendiente de la recta. Indica comocambia la variable respuesta cuando el incremento de x es unaunidad.

• El parametro β0 es el termino independiente de la recta.Indica el valor de Y cuando X = 0.

Problema estadıstico: Estimar los parametros β0 y β1 a partir delos datos (xi , yi ), i = 1, . . . , n, de una muestra.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 65

Page 66: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. La recta de mınimos cuadrados

Si estimamos β0 y β1 mediante β0 y β1, la prediccion de la variablerespuesta Y en funcion de la regresora X es:

Y = β0 + β1X .

En particular, para los datos de la muestra:

yi = β0 + β1xi , i = 1, . . . , n.

Unos buenos estimadores (de β0 y β1) deben ser tales que loserrores de prediccion sean pequenos:

ei = yi − yi = yi − (β0 + β1xi ).

La recta de regresion de mınimos cuadrados viene dada por losvalores β0 y β1 para los que se minimiza la suma de los errores deprediccion:

n∑i=1

e2i =n∑

i=1

[yi − yi ]2 =

n∑i=1

[yi − (β0 + β1xi )]2.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 66

Page 67: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Los errores de prediccion

−2 −1 0 1 2

−1

01

23

x

y

−2 −1 0 1 2

−1

01

23

x

y

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 67

Page 68: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Estimadores de mınimos cuadrados

La recta de regresion de Y sobre X es la recta y = β0 + β1x con

y = y + rsysx

(x − x) ⇐⇒ y − y = rsysx

(x − x).

Pendiente:β1 = r

sysx,

donde r es el coeficiente de correlacion, sy es la desviacion tıpicade la variable respuesta y sx es la desviacion tıpica de la variableregresora.

Termino independiente:

β0 = y − β1x .

A los errores ei = yi − yi se les llama residuos.

A las predicciones yi = β0 + β1xi se les llama valores ajustados.Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 68

Page 69: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Ejemplo: consumo de vino

Estimadores de los parametros:

β1 = rsysx

= −0,84368,396

2,5097= −22,974.

β0 = y − β1x = 191,05− (−22,974)× 3,026 = 260,57.

Recta de regresion:

y = 260,57− 22,974x .

Prediccion de Y para x0 = 4:

y0 = 260,57− 22,974× 4 = 168,674.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 69

Page 70: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

Diagrama de dispersion y recta estimada

Regresión lineal

2,0 4,0 6,0 8,0

Vino

100

200

300

Ca

rd

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

1Card = 260,56 + -22,97 * Vino

R-cuadrado = 0,71

Página 1

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 70

Page 71: Probabilidad y Estad stica - UAMverso.mat.uam.es/~pablo.fernandez/Tema-PREST-1.pdfEjemplos varios de variables x altura de una persona. x peso de una persona. x numero de visitas al

7. Observaciones

• La recta de mınimos cuadrados pasa por el punto cuyascoordenadas son las medias: (x , y).

• Puede demostrarse que la suma de los residuos siempre valecero.

• La recta para predecir Y en funcion de X no es la misma quela recta para predecir X en funcion de Y .

• Como medida de lo bien que se ajusta la recta a los datos, seutiliza el coeficiente de determinacion (o R-cuadrado): elcuadrado del coeficiente de correlacion. Cuando R2 esta cercade 0, el ajuste sera malo. Cuando R2 esta cerca de 1, el ajustesera bueno. R2 indica el porcentaje de la variable Y explicadopor la variable X .

• No es aconsejable realizar predicciones con la recta deregresion fuera del rango de valores observados.

Javier Carcamo PREST. Tema 1: Estadıstica descriptiva 71