estadística descriptiva, ejercicios en r

13

Click here to load reader

Upload: jeff-cz

Post on 26-Jul-2015

249 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Estadística Descriptiva, ejercicios en R

Para los datos del ejemplo 1.3 ejemplo 1. Pág 41 (Navidi)

Taller Estadística descriptiva Grupo G2

Los siguientes datos representan la temperatura del fluido de descarga de una planta para el tratamiento de aguas negras durante varios días consecutivos. Taller Estadística descriptiva Grupo G7Se realizo un estudio para conocer el tiempo en minutos de personas mayores de 60 años se tardan en dormir, a continuación las observaciones.

(DATOS<-c(11.6,14.3,15.8,16.5,17.7,12.6,14.3,15.9,16.6,18.1,12.7,14.6,15.9,17,18.3,12.8,14.8,16.1,17.1,18.3,13.1,15.1,16.2,17.3,18.3,13.3,15.2,16.2,17.3,18.5,13.6,15.6,16.3,17.4,18.5,13.7,15.6,16.4,17.4,18.8,13.8,15.7,16.5,17.4,19.2,14.1,15.8,16.5,17.6,20.3) )

#Para realizar ramas y hojasstem(DATOS)

#Resumen de los datossummary(DATOS)

Min. 1st Qu. Median Mean 3rd Qu. Max. 11.60 14.65 16.20 16.03 17.40 20.30

op <- par(mfrow = c(1, 1),bg = "antiquewhite")par(lty="dashed")par(col="red")boxplot(DATOS, col="red")

op <- par(mfrow = c(1, 1),bg = "antiquewhite")par(lty="dashed")par(col="red")plot(DATOS, col="red")

op <- par(mfrow = c(1, 1),bg = "antiquewhite")par(lty="dashed")par(col="red")hist(DATOS, prob=TRUE,main="", xlab="", ylab="")lines(density(DATOS), col="red")

1

Page 2: Estadística Descriptiva, ejercicios en R

Xi ( xi−x )2

1 11,6 19,72 14,3 3,03 15,8 0,14 16,5 0,25 17,7 2,86 12,6 11,87 14,3 3,08 15,9 0,09 16,6 0,3

10 18,1 4,311 12,7 11,112 14,6 2,113 15,9 0,014 17 0,915 18,3 5,116 12,8 10,517 14,8 1,518 16,1 0,019 17,1 1,120 18,3 5,121 13,1 8,622 15,1 0,923 16,2 0,024 17,3 1,625 18,3 5,126 13,3 7,527 15,2 0,728 16,2 0,029 17,3 1,630 18,5 6,131 13,6 5,932 15,6 0,233 16,3 0,134 17,4 1,935 18,5 6,1

2

Page 3: Estadística Descriptiva, ejercicios en R

36 13,7 5,437 15,6 0,238 16,4 0,139 17,4 1,940 18,8 7,741 13,8 5,042 15,7 0,143 16,5 0,244 17,4 1,945 19,2 10,046 14,1 3,747 15,8 0,148 16,5 0,249 17,6 2,550 20,3 18,2

Total 801,700 186,1Media 16,03 S 1,949 Mo 16,5;17,4;18,3 Me 16,2

Para hallar los cuartiles :El cuartil 2 es la mediana.

Para la ubicación del dato de la Mediana, 50+12

=25.5,

Como la posición de cuartil 2 q2= 25.5Para encontrar el valor, ubicamos en ramas y hojas :Posición 25 del dato = 16.2Posición 26 del dato = 16.2

Por consiguiente el valor de la Mediana corresponde a , 16.2+16.2

2=16.2

La posición de cuartil 1 seria, q1=25.5+12

=13.25 13.3

Observamos la posición 13 y 14Posición del dato 13 = 14.6Posición del dato 14 = 14.8

La diferencia = 14.8-14.6 = 0.2La diferencia se divide en 10 .

Osea 0.210

=0.02

3

Page 4: Estadística Descriptiva, ejercicios en R

Luego dividimos

0.02 en 10, 0.0210

=¿0.02

Luego como la posición 13, es 14.6 , y el valor que necesitamos hallar es 13.3,

Descomponemos el valor del cuartil 1La posición de 13.3 equivale a = 13+0.3La posición de 13.3 equivale a 13.3= 14.6+ 0.02*3La posición de 13.3 equivale a 13.3 = 14.6+ 0.06La posición de 13.3 equivale a 13.3 = 14.66

El valor del cuartil 3 buscamos las observaciones 13 y 14 de abajo hacia arribaObservación de Posición 13= 17.4 Observación de Posición 14=17.4

Como la diferencia seria 0, el valor del cuartil 3 quedaria q3= 17.4. Estos datos se confirman con la salida de R. Para hallar los separadores interiores:.f1= q1-1.5*(rango intercuartilico) = 14.7-1.5*(17.4-14.7) = 14.7-4.05 = 10.05 ~10.f2= q1+1.5*(rango intercuartilico) = 14.7+1.5*(17.4-14.7) = 14.7+4.05 = 18.75 ~ 18.8

Los datos que se encuentren fuera de de los separadores interiores se llaman datos atípicos moderados.O sea los valores fuera de 10 y 18.8.Para hallar los separadores exteriores:F1= q1-2*(rango intercuartilico) = 14.7-2*(17.4-14.7) = 14.7-5.4 = 9.3F2= q1+2*(rango intercuartilico) = 14.7+2*(17.4-14.7) = 14.7-5.4 = 20.1

Los datos que se encuentren fuera de de los separadores exteriores se llaman datos atípicos extremos.O sea los valores fuera de 9.3 y 20.1. Como √50= 7.07, también observamos , en ramas y hojas , un posible valor atípico extremo, Lo que nos sugiere trabajar con 6 intervalos .

C= Xmax−Xmin¿de intervalos

=20.3−11.66

=1.5

.ni, corresponde a la Frecuencia Absoluta ( Se necesita para hallar la media y la desviación estándar muestral)Ni , Corresponde a la Frecuencia Absoluta Acumulada, la necesitamos para hallar la ubicación de la observación de la mediana.

Ramas y hojas de los datos no agrupados corresponde a : Stem(DATOS)

4

Page 5: Estadística Descriptiva, ejercicios en R

11 | 6 12 | 678 13 | 13678 14 | 13368 15 | 126678899 16 | 122345556 17 | 013344467 18 | 1333558 19 | 2 20 | 3Para √n=√50=7.07 7

Con la amplitud del intervalo de : C= Xmax−Xmin

√n=20 .3−11.6

7=8 .77

=1.24

Observando la salida de R, para los intervalos con sus respectivas frecuencias absolutas,

Según el diagrama de ramas y hojas en el primer intervalo de 11,6 hasta 12.8, observamos las observaciones,11.6 , 12.6, 12.7, 12.8 en total 4 observaciones, lo cual corresponde a una frecuencia absoluta (n1) de 4.

Para el segundo intervalo de (12.8 , 14.1]Observamos los valores de 13.1, 13.3, 13.6, 13.7, 13.8, 14,1 , lo cual corresponde a n2 =5.

Para el tercer intervalo de de (14.1 , 15.3], los valores de 14.1, 14.3,14.3, 14.6,14.8,15.1,15.2, corresponde a n3 =7 Para el cuarto intervalo de (15.3 , 16.6] , los valores de 15.6,15.6,… , 16.5 a n4 = 16

Para el quinto intervalo de (16.6,17.8], los valores de 17.0 , 17.1, …, 17.7 n5 = 9 17 | 013344467Para el sexto intervalo de (17.8,19], los valores de 18.1,…18.8 n6 = 718 | 1333558

Para el séptimo intervalo de (19, 20.3], los valores de 19.2, 20.3 n6 = 2

table( cut(DATOS, breaks=7) )

(11.6,12.8] (12.8,14.1] (14.1,15.3] (15.3,16.6] (16.6,17.8] (17.8,19.1] (19.1,20.3] 4 5 7 15 10 7 2

Usando la salida de R . Para 7 Marcas de Clase

Intervalo ni Ni xi nixi ni ( xi−x )2

11,6 =11.6+1.24=12.8 4 4 =(11.6+12.8)/2=12.24*12.2=48.

812.8 =12.8+1.24=14.08=14.1 5 914.1 =14.1+1.24=15.34=15.3 715.3 =15.3+1.24=16.56=16.6 16

5

Page 6: Estadística Descriptiva, ejercicios en R

16.6 =16.6+1.24=17.8 917.8 =17.8+1.24=19.04=19 7

19 =19+1.24=20.24=20.3 2

x Me S Mo

Completando,

Intervalo ni Ni xi nixi 11,6 =11.6+1.24=12.8 4 4 12,2 48,8 55,980

12,8=12.8+1.

24=14.08=14.1 5 9 13,45 67,25 31,025

14,1=14

.1+1.24=15.34=15.3 7 16 14,7 102,9 10,781

15,3=15

.3+1.24=16.56=16.6 16 32 15,95 255,2 0,00116,6 =16.6+1.24=17.8 9 41 17,2 154,8 14,26617,8 =17.8+1.24=19.04=19 7 48 18,4 128,8 42,327

19 =19+1.24=20.24=20.3 2 50 19,65 39,3 27,513 797,05 181,893

15,941 Me S 3,71 Mo

Usando la misma base de datos, pero usando 6 intervalos,

Intervalo ni Ni xi nixi ni ( xi−x )2

11,6 13,1 5 5 12,4 62 68,513,2 14,7 8 13 14,0 112 35,314,8 16,3 14 27 15,6 218,4 3,516,4 17,9 14 41 17,2 240,8 16,9

18 19,5 8 49 18,8 150,4 58,319,6 21,1 1 50 20,4 20,4 18,5

50 804,0 201,00

6

2)( xxn ii

x

Page 7: Estadística Descriptiva, ejercicios en R

x 16,1 Me 16,1 S 2,02 Mo 16,3

X �̅ =∑i=1

n

ni x i

n=80450

=16.1

El promedio de los pesos de las 50 barras de jabón fue de 16.1 onzas.

Los pesos de 50 barras de jabón tienen en promedio 16.3 onzas.

Me=Li+( (N2 −∑i=1

n

f i)f med

)∗c=14.8+(( 502 −13)14

)∗1.5=14.8+1.3=16.1Li, Limite inferior . Ubicamos el intervalo donde se encuentra la mitad de las observaciones, y allí escogemos el límite inferior de ese intervalo.

(∑i=1

n

f i) Cuando hemos ubicado el Límite inferior, observamos las frecuencias acumuladas anteriores al

intervalo escogido.

fmediana, corresponde a la frecuencia del intervalo, donde seleccionamos el Límite inferior.

Se asume 50% de los pesos de las barras de jabón es de 16.1 onzas.

El 50% de los pesos de las barras de jabón es de 16.1 onzas.

Mo=Li+( d1d1+d2❑)∗c=14.8+( (14−8 )

(14−8 )+ (14−14 )❑)∗1.5=14.8+1.5=16.3Mo=Li+( d1

d1+d2❑)∗c=16.4+( (14−14 )(14−14 )+(14−8 )❑ )∗1.5=16.4+0=16.4

El peso de mayor frecuencia de las 50 barras de jabón es de 16.3 onzas

La asimetría : As=(X−Moda)

s=

(16.1−16.4 )2.025

=−¿

si P > 0, entonces los datos están sesgados hacia la derecha. (Asimetría Positiva)Si P < 0 , los datos están sesgados a la izquierda (Asimetría Negativa)

7

Page 8: Estadística Descriptiva, ejercicios en R

Si P=0 los datos están distribuidos normalmente

Recordando Media = 16.1, Mediana= 16.1, Moda= 16.3Los valores están muy cercanos a cero. Por formulas observamos que los datos de las 50 barras de jabón estarían Distribuidas normalmente.

Coeficiente de variación (CV):

Sirve como medida relativa de dispersión. CV= sx

(100% )=2.0216.1

(100%)=12.5%

Los datos de las 50 barras de jabón tienden a ser homogéneos. SIGNIFICADO PRÁCTICO DE LA DESVIACIÓN ESTÁNDAR- El Teorema De Chebyshev

La Regla Empírica

DADA UNA DISTRIBUCIÓN DE OBSERVACIONES POBLACIONALES O MUESTRALES CON FORMA APROXIMADAMENTE

ACAMPANADA, ENTONCES EL INTERVALO

( ) CONTIENE APROXIMADAMENTE AL 68% DE LAS OBSERVACIONES.

( 2) CONTIENE APROXIMADAMENTE AL 95% DE LAS OBSERVACIONES.

( 3) CONTIENE APROXIMADAMENTE AL 99.7% DE LAS OBSERVACIONES.

FIGURA . DISTRIBUCIÓN SIMÉTRICA CAMPANA QUE MUESTRA LAS RELACIONES ENTRE LA DESVIACIÓN ESTANDAR Y LA MEDIA.

Usando el teorema de Chebyshev, encontramos que :

El 68% de los valores de pesos de 50 barras de jabón se encuentran entre 14.1 onzas y 18.1 onzas , (X ± S ).

4. Se estudiaron dos métodos de recuperación de proteína. Se hicieron trece corridas usando el método se registró la parte de proteína recuperada para cada corrida. Los resultados son los siguientes:

Método 1=YMétodo 2=x ( xi−x )

2 ( y i− y )2

(1)

( y i− y )/s y (2)

( xi−x ) /sx (1)*(2)8

Page 9: Estadística Descriptiva, ejercicios en R

1 0,32 0,25 0,15 0,04 2 0,35 0,4 0,05 0,03 3 0,37 0,48 0,02 0,02 4 0,39 0,55 0,01 0,02 5 0,42 0,56 0,01 0,01 6 0,47 0,58 0,00 0,00 7 0,51 0,6 0,00 0,00 8 0,58 0,65 0,00 0,00 9 0,6 0,7 0,00 0,01

10 0,62 0,76 0,02 0,01 11 0,65 0,8 0,03 0,02 12 0,68 0,91 0,08 0,03 13 0,75 0,99 0,13 0,05

Total 6,71 8,23 0,49 0,24 0,00 Media 0,52 0,63 r 0,95 s 0,20 0,14 Mediana 7 Me=0,47 y 0,58

r=( 1n−1 )∑i=1

13

( x i−xsx )(Y i−Ys y )

sx=√∑i=113

( x−x )2

n−1

(Desviación estándar de Método 2)

sy=√∑i=113

(Y i−Y )2

n−1

(Desviación estándar de Método 1)

Para encontrar los datos, Usando R.> ( (metodo2-mean(metodo2))/(sdmet2)) [1] -1.88904885 -1.14936105 -0.75486089 -0.40967325 -0.36036072 -0.26173568 -0.16311064 [8] 0.08345196 0.33001456 0.62588968 0.82313976 1.36557748 1.76007765

> ( (metodo1-mean(metodo1))/(sdm1)) [1] -1.39840312 -1.18452970 -1.04194742 -0.89936514 -0.68549172 -0.32903603 -0.04387147 [8] 0.45516650 0.59774878 0.74033106 0.95420448 1.16807790 1.66711587

( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1)) [1] 2.641651802 1.361452296 0.786525353 0.368445836 0.247024294 0.086120470 0.007155904 [8] 0.037984536 0.197265801 0.463365571 0.785443647 1.595100875 2.934253378

> sum(( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1)))

9

Page 10: Estadística Descriptiva, ejercicios en R

[1] 11.51179

resulcor=sum(( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1)))> resulcor[1] 11.51179> corM1M2= (1/12)*resulcor> corM1M2[1] 0.9593158Como el coeficiente de correlación es 0.95, cercano a 1, indica que hay una fuerte relación lineal, podemos observar esto también en el diagrama de puntos.

stem(M1Y, scale = 1) 3 | 2579 4 | 27 5 | 18 6 | 0258 7 | 5stem(M2X, scale = 2)2 | 5 3 | 4 | 08 5 | 568 6 | 05 7 | 06 8 | 0 9 | 19

summary(Metodo) M1Y M2X Min. :0.3200 Min. :0.2500 1st Qu.:0.3900 1st Qu.:0.5500 Median :0.5100 Median :0.6000 Mean :0.5162 Mean :0.6331 3rd Qu.:0.6200 3rd Qu.:0.7600 Max. :0.7500 Max. :0.9900

De manera similar al ejercicio anterior podemos hallar también:

10

Page 11: Estadística Descriptiva, ejercicios en R

Coeficiente de sesgo, Coeficiente de variación y podemos usar la regla empírica del Teorema De Chebyshev.

11