introducción - wordpress.com€¦  · web view1.4 medidas de dispersión. en un supermercado, se...

71
1.4 Medidas de dispersión En un supermercado, se le dio la orden a uno de los empleados de tomar la temperatura de los refrigeradores con vegetales cada 20 minutos y, en su caso, controlarla o humectarlos para que no pierdan sus propiedades. Él interpretó que podía hacer las inspecciones cada 20 minutos en promedio. En los últimos dos días se echaron a perder varios vegetales y recibió una amonestación verbal. Para defenderse, mostró a su jefe el reporte de los tiempos que transcurrieron entre revisiones en un día, según se muestra en la tabla 1.37. Tabla 1.37 Tiempos entre revisiones DATO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 5 16 Tiempo transcur rido (min) 1 4 2 1 2 4 2 0 2 1 2 3 1 6 1 7 1 9 16 22 28 19 20 2 0 18 Efectivamente, la media aritmética es de 20 minutos, pero la dispersión de los datos implica que algunos lapsos de tiempo entre una y otra inspección son mayores a 20 minutos. En el reporte del empleado, 4 de los periodos son mayores que o iguales a 22 minutos. Las medidas de dispersión de los datos junto con la medida de un promedio mejoran la descripción: Un promedio solo no proporciona mucha información; por sí mismo, sólo indica la posición del centro, mientras que una medida de dispersión permite conocer cuánto se esparcen los datos alrededor del centro.

Upload: others

Post on 28-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Introducción

1.4

Medidas de dispersión

En un supermercado, se le dio la orden a uno de los empleados de tomar la temperatura de los refrigeradores con vegetales cada 20 minutos y, en su caso, controlarla o humectarlos para que no pierdan sus propiedades. Él interpretó que podía hacer las inspecciones cada 20 minutos en promedio. En los últimos dos días se echaron a perder varios vegetales y recibió una amonestación verbal. Para defenderse, mostró a su jefe el reporte de los tiempos que transcurrieron entre revisiones en un día, según se muestra en la tabla 1.37.

Tabla 1.37 Tiempos entre revisiones

Dato

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Tiempo transcurrido (min)

14

21

24

20

21

23

16

17

19

16

22

28

19

20

20

18

Efectivamente, la media aritmética es de 20 minutos, pero la dispersión de los datos implica que algunos lapsos de tiempo entre una y otra inspección son mayores a 20 minutos. En el reporte del empleado, 4 de los periodos son mayores que o iguales a 22 minutos.

Las medidas de dispersión de los datos junto con la medida de un promedio mejoran la descripción: Un promedio solo no proporciona mucha información; por sí mismo, sólo indica la posición del centro, mientras que una medida de dispersión permite conocer cuánto se esparcen los datos alrededor del centro.

Tomemos como referencia el siguiente caso, para comprender la diferencia entre medidas de tendencia central y medidas de dispersión.

El director de una escuela investiga cuál es el consumo, diario de papel para impresora en su escuela durante periodos de exámenes (E) y en periodos normales de trabajo (EE). Obtiene una muestra del consumo en miles de hojas durante seis días en el periodo normal de trabajo: 1.5, 1.4, 1.3, 1.5, 1.6 y 1.3. Una muestra de cinco días en periodo de exámenes arrojó los siguientes datos: 1.8, 2.4, 1.6, 2.8 y 1.4. Calculó la media aritmética y el rango para cada conjunto de datos y obtuvo lo siguiente:

EE

x

= 1.433 millares / día: rango = 0.3 millares / día

E

x

= 2 millares / día; rango = 1.4 millares / día

El rango es una medida de dispersión que se define como la diferencia entre el dato mayor y el menor, y explica entre qué valores están dispersos los datos. Así, en este caso se infiere que en periodos de exámenes, además de que se gasta más papel diariamente, las cantidades de los consumos se parecen menos.

Algunas de las medidas de dispersión más usadas para describir datos son las que se muestran en el esquema de la figura 1.35.

Figura 1.35 Medidas de dispersión

Las más eficientes son aquellas en las que se utiliza toda la información disponible, pero las otras son ampliamente usadas para efectuar descripciones de distribuciones de frecuencias. Todas ellas son estadísticos si se calculan con datos de una muestra, y son parámetros si en su cálculo se utiliza toda la información de una población.

1.4.1 Rango

El rango de un conjunto de datos es la medida de dispersión más simple.

...................................................................................................................................................

Rango de un conjunto de datos numéricos: Es la diferencia entre los valores mayor y menor.

De forma simbólica:

R = valor dato mayor – valor dato menor

...................................................................................................................................................

El rango tiene varias propiedades que determinan su uso:

· Es afectado por un valor extremo; por ejemplo, uno muy grande en el contexto de los demás.

· No mide ni describe la dispersión de los datos entre los valores máximo y mínimo.

· Su valor es muy útil cuando se comparan varias muestras pequeñas.

Ejemplo 1.59

El rango de los valores 2, 3, 4 y 100 es 98; 100 es un valor extremo y afecta el valor del rango, el cual en este caso no proporciona información acerca de la dispersión de los datos entre el 2 y el 100.

Actividades de aprendizaje

Analiza los siguientes ejercicios y contesta lo que se te pide. Compara los procedimientos que sigas y las respuestas que obtengas con las de algunos compañeros de tu grupo.

1 Longitudes de tornillos

En un proceso se miden las longitudes de 5 tornillos en centímetros y se obtienen los siguientes resultados: 10.09, 9.98, 9.99, 10.04 y 10.10.

a. ¿Cuál es el rango?

b. ¿Cuál es la media aritmética?

c. ¿Cuál es la mediana?

d. Compara la media aritmética con la mediana:

5

.

0

x

x

¿Qué significa el resultado?

2 Un pequeño negocio que se dedica al planchado de ropa recibe pedidos generalmente pequeños. Los pedidos de las dos últimas semanas, en cantidad de prendas que se tienen que planchar, se muestran a continuación.

Pedidos de la semana 20

Pedido

Prendas

1

25

2

46

3

24

4

20

5

15

6

28

7

35

8

40

9

34

10

36

11

28

12

37

13

29

14

18

15

38

16

28

17

54

18

16

Pedidos de la semana 21

Pedido

Prendas

1

34

2

56

3

17

4

12

5

26

6

35

7

40

8

14

9

28

10

23

11

40

12

120

13

12

14

12

15

16

16

18

17

38

18

40

19

29

20

23

21

43

22

34

a. Calcula el rango de cada semana y compáralos:

2

1

R

R

¿Cuántas veces es mayor o menor el rango de la semana 1 al rango de la semana 2? ¿Qué significa eso?

b. ¿Cuál es la media aritmética de prendas por pedido de cada semana?

c. ¿Cuál es la mediana del número de prendas por cada pedido de cada semana?

d. ¿En qué semana existe un valor anormal? ¿Cuál es ese valor? ¿Cómo afecta al rango, a la media aritmética y a la mediana? Explica.

1.4.2 Percentiles

Para ver cuál es la utilidad de los percentiles, tomemos como referencia el siguiente caso.

Ejemplo 1.60

Generalmente se aplican exámenes de ingreso a las instituciones de educación superior. Los resultados de esos exámenes suelen ordenarse del mayor al menor, o viceversa, y cada participante adquiere así una posición de orden dentro del conjunto. Cuarenta datos de ese tipo, provenientes de calificaciones en una escuela que va de 700 a 1 300 puntos, se muestran en la tabla 1.38, ordenados del menor al mayor.

Tabla 1.38 Resultados de un examen de ingreso a una universidad

Dato

1

2

3

4

5

6

7

8

9

10

Calificación

774

786

853

890

894

903

908

925

926

930

Dato

11

12

13

14

15

16

17

18

19

20

Calificación

933

937

939

952

956

969

977

991

993

993

Dato

21

22

23

24

25

26

27

28

29

30

Calificación

999

1002

1007

1007

1010

1010

1013

1021

1023

1034

Dato

31

32

33

34

35

36

37

38

39

40

Calificación

1040

1043

1045

1056

1058

1059

1061

1105

1184

1215

De estos datos, se quiere determinar una calificación que parta al grupo de datos en dos subgrupos: uno con 75 por ciento menores a esa calificación, y otro con 25 por ciento mayores. En este problema se requiere calcular el percentil 75°.

...................................................................................................................................................

El percentil p de un grupo de datos ordenados: Ese valor x(p) para el cual p por ciento de las mediciones son menores que él.

...................................................................................................................................................

El cálculo de un percentil de una muestra ordenada se realiza de la siguiente manera.

1) Se calcula el dato percentil p con la fórmula.

100

)

(

)

(

p

n

p

p

D

+

=

done p es el porcentaje de datos que deben ser menores que el valor de percentil requerido: 10%, 25%, 38%, 75%, ...; y n es el número de datos.

El cálculo del dato percentil 75 por ciento, en nuestro ejemplo, se hace así

75

.

30

100

75

)

40

(

75

)

75

(

=

+

=

D

Así, el valor del dato percentil es mayor que 1034 puntos, pero menor que 1040 puntos.

2) Se interpola para obtener el valor del dato percentil p: x(p), y se calcula según la regla

x(p) = Dp-1 + [Dp+1 – Dp-1] [parte decimal del dato D(p)]

donde Dp-1 es el dato anterior al dato D(p), y Dp+1 es el dato posterior al dato D(p).

Cálculo para nuestro ejemplo: Toma en cuenta que 30.74 está entre los datos 30 (1034) y 31 (1040); así, tenemos que

X(75) = 1034 + [1040 – 1034] (0.75) = 1038.5 puntos.

Luego, 75 por ciento de las calificaciones son menores a ese valor.

Cuartiles

Los cuartiles son percentiles que parten de un grupo de mediciones ordenadas ascendente o descendentemente en cuartos, es decir, en subgrupos de datos cada uno con 25% de ellos, de acuerdo con las siguientes definiciones y notación (véase la figura 1.36).

· Cuartil 1: Q(1) = percentil 25% = x(25).

· Cuartil 2: Q(2) = percentil 50% = x(50) = x0.5 = la mediana.

· Cuartil 3: Q(3) = percentil 75% = x(75).

Figura 1.36 Significado de los valores de los cuarteles

En virtud de lo anterior, el cálculo de los cuartiles se realiza con el de los respectivos percentiles.

Actividades de aprendizaje

Reúnete con tres de tus compañeros de grupo para realizar la siguiente actividad. Si tienen alguna duda, coméntenla con su maestro(a).

1 Termostato

El control del termostato de un calentador de gas enciende cuando la temperatura baja. En un experimento con un nuevo termostato, se practicaron 60 ensayos obteniéndose los siguientes resultados, los cuales han sido ordenados del menor al mayor.

°C a los que reacciona el termostato

12.0

16.8

17.9

18.6

19.9

20.4

21.5

22.2

23.0

24.0

12.5

16.9

18.0

18.7

19.9

20.5

21.6

22.4

23.6

25.3

12.9

17.0

18.1

18.7

19.9

20.6

21.6

22.7

23.8

25.5

15.3

17.1

18.1

18.9

20.0

20.9

21.9

22.7

23.9

25.7

15.8

17.5

18.3

19.1

20.2

21.2

21.9

22.8

24.0

26.1

16.3

17.8

18.5

19.4

20.3

21.2

22.0

22.8

24.0

28.4

a. ¿Cuál es el valor del rango?

b. Calculen el valor de los cuartiles Q(1), Q(2) y Q(3).

c. ¿Qué porcentaje de datos es mayor que Q(2)? ¿Por qué? ¿Qué significado tiene ese valor?

Gráfico de cajas y bigotes

Con los cuartiles es posible construir un gráfico muy sencillo llamado gráfico de cajas y bigotes. Estudia la siguiente situación y su solución, en la que se obtiene un gráfico de este estilo.

Ejemplo 1.61

Los siguientes datos corresponden al número de empleados por empresa de la construcción, encontrando mediante un muestreo aleatorio de 70 empresas en la República Mexicana. El registro lo realizó un consejo empresarial de la construcción a finales del año 2005 con la finalidad de poseer un registro rápido para tomar algunas decisiones. En el padrón de empresas de ese tipo en el país aparecen registradas 8 500.

Tabla 1.39

1

13

35

55

68

91

132

153

213

333

3

20

39

57

71

94

133

166

221

334

6

20

39

60

77

95

138

175

229

340

6

22

42

61

78

101

142

178

248

351

8

22

50

66

86

113

147

180

258

454

10

32

53

66

87

127

150

184

261

693

12

35

55

66

88

132

153

204

326

718

El objetivo de la encuesta fue determinar aproximadamente el número de empleados en todas las empresas y describir su comportamiento.

1) La variable que se estudia es el número de empleados por empresas de la construcción.

2) Se prefiere estudiar una muestra y no la población entera porque se tiene prisa en adquirir información.

3) El valor de la mediana es

5

.

89

2

91

88

5

.

0

=

+

=

x

Así, si la muestra es representativa de la población, aproximadamente 50% de las empresas tiene 90 trabajadores o menos.

4) Los valores de los percentiles 25 y 75 están, según la fórmula dada al principio de esta sección, en los datos siguientes:

25

.

53

100

75

)

70

(

75

)

75

(

75

.

17

100

25

)

70

(

25

)

25

(

=

+

=

=

+

=

D

D

Interpolando mediante la segunda fórmula dada en esta sección, se obtiene

· Cuartil 1 o Q(1)

x(25) = 39 + [42 – 39] [0.75] = 41.25 trabajadores

· Cuartil 3 o Q(3)

x(75) = 178 + [180 - 178] [0.25] = 178.25 trabajadores

El histograma de frecuencias de los datos se muestra en la figura 1.37. Nótese que existe un enorme sesgo a la derecha, lo cual también puede notarse construyendo un gráfico de cajas y bigotes, como se muestra en la figura 1.38.

Figura 1.37

Figura 1.38 Gráfico de cajas y bigotes

Los pasos para la construcción de este gráfico son los siguientes.

1) Se construye un marco dentro del cual se construirá el gráfico de cajas y bigotes.

2) Se identifican los valores de los datos mayor y menor, 1 y 718, y con estos valores se construyen los extremos de los “bigotes”, como se ve en la figura 1.38, con unas pequeñas líneas verticales, a manera de límites del gráfico.

3) Desde esas pequeñas líneas se traza una línea auxiliar horizontal que las una: la barra del rango.

4) Sobre la barra del rango se dibujan puntos que señalen los cuartiles Q(1), Q(2) y Q(3). Desde ellos se construyen las cajas con la altura que se desee.

5) Se traza con línea gruesa, sin atravesar las cajas, la línea del rango.

La lectura e interpretación del gráfico es la siguiente.

1) Desde el dato menor hasta Q(1) se concentra 25% de los datos.

2) Desde Q(1) hasta Q(2) se concentra otro 25% de datos.

3) Entre Q(1) y Q(3) se concentra 50% de los datos. Así,

4) Hay mucha concentración de datos al a izquierda, esto es, para valores pequeños del número de trabajadores.

5) El bigote de la derecha es mucho más largo que el de la izquierda, de lo cual se deduce que la distribución tiene un sesgo a la derecha. Compárese el gráfico de cajas de la figura 1.38 con el histograma de frecuencias de la figura 1.37.

Actividades de aprendizaje

Reúnete con tres de tus compañeros de grupo, y resuelvan la siguiente actividad. Si tienen alguna duda, pregunten a su maestro(a).

1 La cantidad de lluvia en centímetros por día registrada en el año 2004 en una región desértica del norte del país en los días que llovió se muestra en la tabla siguiente.

Cantidad de lluvia en centímetros (2004)

0.03

0.22

0.38

0.47

0.58

0.72

0.86

1.21

1.65

2.46

0.05

0.31

0.40

0.47

0.59

0.73

0.87

1.27

1.75

2.50

0.09

0.32

0.41

0.49

0.60

0.74

0.91

1.29

1.81

2.57

0.17

0.35

0.41

0.52

0.66

0.75

0.93

1.33

1.87

2.90

0.18

0.36

0.43

0.54

0.66

0.75

0.97

1.34

1.93

3.12

0.21

0.37

0.46

0.54

0.69

0.79

1.16

1.40

2.38

3.87

a. ¿Cuál es la variable en estudio?

b. Calculen los cuartiles Q(1), Q(2) y Q(3).

c. Expliquen el significado de cada uno de los cuartiles.

d. Construyan el gráfico de cajas y bigotes.

e. Realicen la lectura e interpretación de los datos.

Cálculo de cuartiles para datos agrupados

Cuando se tienen datos agrupados, los cuartiles pueden calcularse de forma equivalente a como se calcula la mediana para datos de este tipo.

Ejemplo 1.62

En una investigación sobre las cualidades de la redacción de un gran novelista, se midió el número de palabras por oración. Los resultados que se obtuvieron se muestran en la tabla de frecuencias 1.40.

Tabla 1.40 Palabras por oración

Clase

Intervalos reales de clase palabras/oración

Frecuencia f

Frecuencia relativa

fr

Frecuencia relativa acumulada fra

1

20

2

0.02

2

2

25

3

0.03

5

3

30

17

0.17

22

4

35

30

0.30

52

Clase Q(1)

5

40

30

0.30

82

6

45

11

0.11

93

7

50

6

0.06

99

8

55

1

0.01

100

Totales

100

1.000

El cálculo de los cuartiles se realiza como se ejemplifica a continuación.

· Cuartil Q(1):

1) Se busca la clase Q(1), que es en la que está el dato:

25

.

25

100

25

)

100

(

25

100

25

)

(

25

)

25

(

=

+

=

+

=

n

D

Así la clase Q(1), cuartel 1 o percentil 25, es la clase 4.

2) Se interpola: el valor del dato Q(1) debe ser mayor que 35 pero menor que 40. Por consiguiente, el valor del dato Q(1) es

palabras

Q

54

.

35

)

35

40

(

30

22

25

.

25

35

)

1

(

=

-

-

+

=

Lo cual significa que 25% de las oraciones que escribe el novelista tiene menos de 35.54 palabras (debe decirse menos de 36 palabras, ya que la variable es discreta).

Actividades de aprendizaje

Reúnete con tres de tus compañeros de grupo, y calculen el valor de Q(3) del ejemplo 1.62 anterior.

Rango entre percentiles

Con los percentiles se pueden construir rangos, los cuales incluyen porcentajes de datos. Algunos de estos rangos son utilizados frecuentemente para describir la variación de los datos. Por ejemplo, la diferencia x(80) – x(20) es un rango entre percentiles, y se llama rango 80-20. Esta medida permite conocer el rango entre el cual varía 60& de los datos en el centro de la distribución.

Así, por ejemplo, un examen exploratorio de un conjunto de datos, se puede calcular varios de estos rangos para describir con mayores detalles su dispersión. Ahora bien, uno de los rangos con percentiles más usado es el rango intercuartílico, el cual se representa de la forma

I = Q(3) – Q(1),

que permite determinar el rango en el centro de la distribución en el cual se concentra 50% de todos los datos. Se utiliza en lugar del rango común porque evade los valores extremos que lo afectan; ésta es su ventaja.

Ejemplo 1.63

En un gran almacén de ropa, el administrador intenta cuantificar las pérdidas diarias en prendas de vestir por robo. Para ello, toma en su estudio los resultados agrupados en orden ascendente del mes de junio del año 2005 (véase la tabla 1.41).

Tabla 1.41 Número de prendas perdidas por día

6

12

23

30

35

40

10

13

23

30

37

42

10

15

24

31

38

43

11

18

26

33

39

43

12

19

28

35

40

45

El procedimiento seguido por él se basó en el cálculo de los cuartiles primero y tercero:

· Cuartil Q(1):

1) Se obtiene el valor del dato

Cuartil 1 = dato percentil 25 = D (25) =

75

.

7

100

25

)

30

(

25

=

+

Esto indica que el calor de Q(1) es mayor que 13 pero menor que 15.

2) Se calcula el valor de Q(1) por interpolación:

Q (1) = 13 + [15-13] (0.75) = 14.5

Esto indica que 25% de los días se roban 15 prendas o menos.

· Cuartil Q(3)

1) Dato cuartel 3 = dato percentil 75 = D(75)

100

75

)

30

(

75

+

= 23.25. Por lo tanto, el valor del dato Q(3) es mayor que 38 pero menor que 39.

2) Valor de Q(3), por interpolación:

Q(3) = 38 + [39 – 38] (0.25) = 38.25

Esto es, 75% de los días se roban 38 o menos prendas de vestir.

En virtud de lo anterior, el rango intercuartílico es

Q(3) – Q(1) = 38.25 – 14-5 = 23.75

El significado de este resultado es que 50% de los días las pérdidas de prendas de vestir, en el centro de la distribución de las mediciones, varía en un rango de 15 unidades, entre 24 y 38 prendas.

A partir del intercuartílico, se obtiene una medida del rango de la mitad que se encuentra en el centro de toda la distribución, llamada rango semiintercuartílico o desviación entre cuartiles. Esta medida es igual al promedio del rango intercuartílico:

2

)

1

(

)

3

(

Q

Q

QM

-

=

Al igual que el rango intercuartílico, esta medida no está afectada por los valores extremos de un conjunto de datos. Cuando el valor de QM es pequeño, esto indica que la variación entre los datos en el centro de la distribución que constituyen 50% del total de datos es pequeña. En caso contrario, es grande. En la figura 1.39 se ilustra esta idea.

Figura 1.39 Indicador de la variación de los datos centrales por medio del QM

Analiza el procedimiento seguido del ejemplo 1.64 para establecer entre dos conjuntos de datos cuáles del 50% del total que están en el centro varían menos.

Ejemplo 1.64

Los turborreactores o motores a reacción poseen una cámara de combustión en la cual se generan altas temperaturas. Antes de sacar al mercado un nuevo modelo, se realizan pruebas minuciosas de su funcionamiento y capacidad como control de calidad. La temperatura máxima de resistencia de la cámara debe conocerse a fin de construir y probar los materiales con que se construye, los mecanismos sujetos al calor y el rendimiento en su uso. Se realizó un experimento con dos motores, A y B; el motor A se probó 20 veces y el B, 100 veces, obteniéndose las siguientes temperaturas máximas que se registran en la cámara, en grados centígrados (véanse las tablas 1.42 y 1.43).

Tabla 1.42 °C de temperatura en las cámaras de combustión (motor tipo A)

616.88

673.94

698.88

717.00

642.07

679.38

699.02

724.50

654.35

689.32

701.43

741.70

664.21

694.00

705.17

742.94

668.46

697.77

706.51

743.26

Tabla 1.43 °C de temperatura en las cámaras de combustión (motor tipo B)

706.98

756.31

764.49

767.38

772.25

775.44

778.24

781.26

783.96

786.38

719.25

756.96

764.57

767.66

772.76

775.91

778.50

781.45

784.13

786.49

737.88

758.36

764.73

767.74

772.86

776.22

778.68

781.56

784.16

786.67

739.15

758.83

764.80

767.85

773.59

776.33

778.70

781.63

784.43

786.68

749.90

759.72

764.90

768.40

774.70

777.08

779.02

781.86

784.67

786.82

750.00

760.75

766.07

769.37

774.71

777.29

779.50

782.05

785.31

786.82

751.40

760.75

766.32

769.71

775.28

777.41

779.96

782.63

785.50

787.06

751.57

761.77

766.69

770.04

775.34

777.65

779.96

782.67

785.64

787.06

751.66

764.14

766.98

770.58

775.41

777.65

780.62

783.51

785.85

787.10

753.18

764.16

767.25

771.79

775.41

778.06

780.78

783.84

785.97

787.45

Al aplicar las operaciones correspondientes, se obtuvieron los cuarteles de las temperaturas de los respectivos motores.

Motor

Cuartil

A

B

Q(1)

669.83

765.19

Q(2)

698.325

775.425

Q(3)

714.38

782.00

Así, los rangos semiintercuartílicos para cada motor son los siguientes.

Motor A: QM =

2

83

.

669

38

.

714

-

= 22.275, y Motor B: QM =

2

19

.

765

782

-

= 8.405

Estos cálculos indican que las temperaturas ubicadas en el centro de la distribución equivalente a 50% del total de las producidas en la cámara del motor B están más concentradas, es decir, son más homogéneas, que las temperaturas ubicadas en la cámara del motor A.

Enseguida se muestran los histogramas de frecuencias para las temperaturas de cada motor en cada muestra (véanse las figuras 1.40 y 1.41).

Figura 1.40 °C de temperaturas en la cámara de combustión del motor a reacción A

Figura 1.41 °C de temperaturas en la cámara de combustión del motor a reacción B

Las temperaturas en la cámara del motor B se concentran en gran medida a la derecha. Las correspondientes a la cámara del motor A se esparcen más uniformemente a lo largo del rango de los datos.

Como puedes ver, los percentiles en general describen la dispersión de los datos por medio de particiones y rangos. Por consiguiente, no usan todas las mediciones disponibles ni se relacionan a alguna medida de tendencia central tal como la media aritmética o la mediana. Ahora bien, evitan los valores extremos que afectan al rango. El defecto de los percentiles puede subsanarse con otras medidas de dispersión, como la desviación media, la varianza y la desviación estándar.

Actividades de aprendizaje

Reúnete con tres de tus compañeros de grupo y realicen la siguiente actividad. Si tienen dudas, coméntenlas con su maestro(a).

1 La producción semanal de acero en toneladas en una siderúrgica en el norte del país, durante el año 2004, ha sido resumida en la siguiente tabla.

Toneladas de acero producidas por semana

77.43

85.08

87.31

88.48

89.19

89.96

90.78

93.22

94.89

96.77

79.29

85.32

87.38

88.61

89.43

90.54

91.54

93.35

95.54

97.16

82.76

85.35

87.43

88.73

89.60

90.63

91.71

93.65

96.16

97.53

84.64

85.50

87.59

88.84

89.73

90.66

92.99

93.65

96.33

97.70

85.04

86.42

88.31

88.94

89.86

90.70

93.16

93.74

96.43

99.04

a. ¿Cuál es la variable en estudio?

b. ¿Cuál es el rango de las mediciones en la muestra?

c. ¿Por qué es ésta una muestra? Expliquen.

d. Calculen los cuartiles, el rango intercuartílico y el rango semiintercuartílico de la distribución. Resuman la información en la siguiente tabla.

Q(1)

Q(2) = mediana

Q(3)

QM

Toneladas por semana

e. ¿Cuál es el significado de cada uno de los resultados encontrados? Expliquen.

1.4.3 Desviación media

Un análisis estadístico en el que se utiliza toda la información disponible permite obtener mejores conclusiones. Para describir la dispersión de los datos, se prefiere utilizar una medida de tendencia central como referencia porque se calcula con todos los valores de las mediciones y su posición es central. Esto es lo que sucede con la desviación media, una medida de la dispersión en las mediciones alrededor de la media aritmética.

...................................................................................................................................................

La desviación media, DM, de un conjunto de valores numéricos de una muestra se define como

n

x

x

x

x

x

x

n

x

x

DM

n

n

i

i

-

+

+

-

+

-

=

-

=

å

=

...

2

1

1

donde xi es el i-ésimo valor numérico, i = 1, 2, ..., n;

x

x

i

-

es el valor absoluto de la diferencia entre el i-ésimo valor numérico y la media aritmética, esto es, se toma el valor positivo de la diferencia, y n es el total de datos en la muestra.

...................................................................................................................................................

Dado que se utilizan valores absolutos, la desviación media siempre es positiva. Como se mencionó antes, la desviación media es un estadístico si se calcula con datos de una muestra, y es un parámetro si se calcula con todos los datos de una población.

Una propiedad del valor de la desviación media es la siguiente:

· Si

±

x

DM incluye aproximadamente 58% de las mediciones, su distribución de frecuencias es aproximadamente simétrica.

Actividades de aprendizaje

Reúnete con tres de tus compañeros de grupo y realicen la siguiente actividad. Comparen sus resultados con los de algunos de sus compañeros.

1 Un CD contiene 12 melodías; los tiempos de duración en minutos de cada una se muestran enseguida.

Melodía

1

2

3

4

5

6

7

8

9

10

11

12

Tiempo

3.56

4.02

3.18

3.67

5.15

4.50

5.88

6.00

4.19

5.18

4.13

3.60

a. Calculen la media aritmética del tiempo de duración de las melodías.

b. Calculen la desviación media del tiempo de duración de las melodías.

c. ¿Qué porcentaje de observaciones caen dentro del rango

±

x

DM?

1.4.4 Varianza y desviación estándar

La media aritmética es el promedio más usado porque posee propiedades de muestreo que los otros promedios no tienen. Ahora bien, recordarás que una de las propiedades algebraicas de la media aritmética implica que la suma de las desviaciones de cada medición respecto a la media aritmética es cero:

(

)

å

=

-

n

i

i

x

x

1

= 0

Por este motivo, para obtener un promedio de las desviaciones

x

x

i

-

se utiliza el cuadrado de esas desviaciones. Se sabe también que el cuadrado de esas desviaciones,

(

)

å

=

-

n

i

i

x

x

1

2

es mínima entre todas las sumas de los cuadrados de las diferencias de cada dato y un número cualquiera, lo que la hace una medida efectiva para calcular la dispersión o desviación de los valores en estudio respecto a la media aritmética. Al promedio de las desviaciones cuadráticas se le llama varianza.

...................................................................................................................................................

La varianza de una muestra de n mediciones es

(

)

1

1

2

2

-

-

=

å

=

n

x

x

s

n

i

i

La forma reducida de esta ecuación es

)

1

(

2

1

1

2

2

-

÷

ø

ö

ç

è

æ

-

=

å

å

=

=

n

n

x

x

n

s

n

i

i

n

i

i

La varianza de una población de tamaño N es

N

x

N

x

n

N

i

i

N

i

i

å

å

=

=

=

-

=

1

2

1

2

2

)

(

m

s

...................................................................................................................................................

La letra ( es griega y se llama sigma. (Recuerda que la media aritmética de una población se representa con (.)

La varianza es un concepto abstracto, siendo sus unidades cuadráticas (m2, kg2, etcétera). Por lo que para medir la dispersión de los datos en unidades “normales”, se calcula la raíz cuadrada de la varianza, que se denomina desviación estándar (o típica).

...................................................................................................................................................

· La desviación estándar o típica de una muestra es

2

s

=s.

· La desviación estándar o típica de una población es

2

s

=(.

...................................................................................................................................................

La desviación estándar de un conjunto de datos mide el grado en que los datos se dispersan alrededor de la media aritmética. A menor desviación, los datos se concentran fuertemente alrededor de

x

. A mayor desviación, los datos se dispersan más alrededor de la media. En la figura 1.42 se muestran dos histogramas de frecuencias y una curva continua que los representa; cada uno de ellos corresponde a una muestra con media

x

= 100 (Muestra 1, Muestra 2), pero las desviaciones estándares son diferentes.

Figura 1.42 Efecto del tamaño de la desviación estándar

Observa que cuando s es pequeña, los datos se concentran fuertemente alrededor de la media. Cuando s es relativamente grande, el rango es mayor; por lo que los datos se dispersan mucho más comparativamente. Dado que en la desviación estándar se utiliza toda la información para determinar la dispersión de los datos, junto con la varianza son las dos medidas de dispersión más usadas en estadística. Para comprender el significado de la desviación estándar, analiza el ejemplo 1.65.

Ejemplo 1.65

En una granja se mide el total de litros diarios de leche que producen las 100 vacas en el establo. Los resultados diarios de la primera semana de mayo 2005 fueron 400, 435, 450, 420, 410, 420 y 440.

El promedio de litros diarios de leche producidos por las 100 vacas es

425

85

2975

7

440

...

450

435

400

7

7

1

=

=

+

+

+

+

=

=

å

=

i

i

x

x

La desviación estándar de la producción de leche se puede calcular con la fórmula reducida, calculando primero lo siguiente:

å

=

7

1

i

i

x

= 2975

2

7

1

÷

ø

ö

ç

è

æ

å

=

i

i

x

= 29752 = 8850625, y

å

=

7

1

2

i

i

x

= 4002 + 4352 + 4502 + ...+4402 = 1266225

Sustituyendo en la fórmula de la varianza

)

1

(

2

1

1

2

2

-

÷

ø

ö

ç

è

æ

-

=

å

å

=

=

n

n

x

x

n

s

n

i

i

n

i

i

, se obtiene

)

6

(

7

8850625

)

1266225

(

7

)

1

(

2

1

1

2

2

-

=

-

÷

ø

ö

ç

è

æ

-

=

å

å

=

=

n

n

x

x

n

s

n

i

i

n

i

i

= 308.33

Luego, la desviación estándar de la producción de leche de la semana es

s =

33

.

308

2

=

s

= 17.56 l

Cuando los datos están agrupados en una distribución de frecuencias, el cálculo de la desviación estándar se debe efectuar de otra manera. Analiza el ejemplo 1.66.

Ejemplo 1.66

Supongamos que las medidas del consumo semanal de agua en una escuela primaria se distribuyen como se observa en la distribución de frecuencias de la tabla 1.44.

Tabla 1.44

Clase

Intervalos reales de clase metros cúbicos por semana (m3/sem)

Frecuencia

f

Frecuencia relativa fr

Marca de clase MC

1

8

4

0.047

9

2

10

8

0.094

11

3

12

14

0.164

13

4

14

30

0.353

15

5

16

15

0.176

17

6

18

9

0.105

19

7

20

5

0.058

21

Totales

n=85

0.999

La desviación estándar del consumo de agua semanal se calcula con la fórmula

1

)

(

1

2

-

-

=

å

=

n

x

MC

f

s

n

i

i

i

donde fi es la frecuencia de la clase i, MCi es la marca de clase de la clase i,

x

es la media aritmética de los datos, y n es el total de datos.

Así, la media aritmética del consumo semanal de agua es

x

=

85

1

å

=

n

i

i

i

MC

f

.

/

14

.

15

85

1287

85

)

21

(

5

)

19

(

9

)

17

(

15

)

15

(

30

)

13

(

14

)

11

(

8

)

9

(

4

3

sem

m

=

=

+

+

+

+

+

+

=

Luego, la desviación estándar del consumo de agua semanal en metros cúbicos es

(

)

(

)

(

)

(

)

.

/

89

.

2

85

710

85

14

.

15

21

5

...

14

.

15

13

14

14

.

15

11

8

14

.

15

9

4

3

2

2

2

2

sem

m

s

s

s

=

=

-

+

+

-

+

-

+

-

=

1.4.5 Precisión y exactitud

Fernando y Manuel juegan a la rayuela, ese juego en el cual se lanza una moneda desde determinada distancia a una línea que se pinta sobre el piso. Fernando ha practicado con dos técnicas específicas, T1 y T2, y Manuel no tiene técnica alguna. En un conjunto de 20 juegos, ambos toman medidas en centímetros de la distancia a la que cae la moneda de la raya. Fernando tiró 10 veces con la técnica T1, y las otras diez con T2. Las medidas fueron las siguientes.

Tabla 1.45

Fernando:T1

10.1

8.8

10.6

9.5

9.6

9.7

9.6

9.4

8.3

9.6

Fernando:T2

1.2

3

3

1.6

1.5

2.1

1.2

0.3

-1.3

2.2

Manuel

-2.0

8.4

10.1

-2.5

-4.3

2.0

1.4

-9.4

-4.4

-6.3

Manuel

-6.8

-4.3

2.7

-1.6

0.0

0.6

0.8

-2.5

-1.9

-1.6

El método T1 de Fernando implica que la moneda caiga siempre antes de la raya. Por eso todas las mediciones son positivas. El método T2 implica que la moneda caiga lo más cerca de la raya sin pasarse, aunque a veces se pasa (medición con signo negativo). Si la moneda cayera sobre la raya se tendría un 0. Manuel tira a la raya, así que su moneda cae a veces antes y a veces después de la raya. Los cálculos arrojan los siguientes estadísticos.

Tabla 1.46

Variables

Estadísticas descriptivas

n

Media

Mínimo

Máximo

s

Fernando:T1

10

9.51 cm

8.29 cm

10.58 cm

0.62 cm

Fernando:T2

10

1.47 cm

-1.27 cm

2.96 cm

1.27 cm

Manuel

20

-1.09 cm

-9.40 cm

10.06 cm

4.70 cm

Figura 1.43

Las conclusiones que se obtienen son las siguientes:

1) Con el método T1, Fernando es muy preciso porque la desviación estándar es muy pequeña; pero no es exacto, porque su moneda queda lejos de la raya, dado que la media de las distancias es de 9.51 cm de retirado.

2) Con el método T2, Fernando alcanza muy buena precisión y exactitud, porque la moneda queda cerca de la raya (media igual a 1.47 cm) y la desviación estándar no es muy grande (1.27 cm).

3) Manuel es exacto porque la media de la distancia de la moneda a la raya es pequeña (-1.08 cm); sin embargo, es poco preciso porque la desviación estándar es muy grande (2.29 cm).

Los conceptos de precisión y exactitud se hallan fuertemente relacionados con la varianza y la desviación estándar. Un experimento con una desviación estándar muy pequeña debida a errores aleatorios pequeños, se dice que posee alta precisión. Cuando un experimento tiene una desviación estándar muy pequeña debido a pequeños errores sistemáticos, se dice que tiene alta exactitud.

Actividades de aprendizaje

Trabaja en equipo con tres de tus compañeros de grupo resuelvan la siguiente actividad. Si tienen alguna duda, acudan con algún otro compañero o con su profesor(a).

1 Cordones de acero

Para realizar la construcción de un puente se requieren cordones de acero que resistan la tensión por el peso del puente. Dos fabricantes, E y F, ofrecen su producto. El ingeniero del proyecto decide realizar pruebas de tensión a los cordones de ambos. Solicitó 10 de cada uno pero de diferentes lotes; realizó el experimento y obtuvo los siguientes resultados, dados en miles de kilogramos.

E

31.9

35.03

36.85

32.70

35.52

38.56

35.25

32.26

32.19

41.44

F

28.14

23.51

36.01

42.13

34.27

36.31

20.08

38.49

34.10

27.28

Calcula, para cada conjunto de datos:

a. La media aritmética.

b. La mediana.

c. La desviación media.

d. La desviación estándar.

e. ¿Cuál es tu conclusión? ¿Cuál cordón de acero parece ser mejor? ¿Por qué? ¿Tiene que ver la precisión y la exactitud de las medidas en la decisión?

1.4.6 Relación entre s y la simetría de una distribución de frecuencias

Veamos ahora cómo se logra establecer la relación de s con la simetría de una distribución de frecuencias. Para ello, consideremos el ejemplo 1.67.

Ejemplo 1.67

Se estudió la velocidad en vuelo de un planeador liviano, y se encontró que su media es

x

= 100 km/h, con una desviación estándar s= 10. Los datos se recogieron de 1000 mediciones de esa variable a diferentes niveles de la velocidad del aire y direcciones de vuelo (a favor del aire, en contra, a un ángulo de ataque), y se graficaron en un histograma de frecuencias (véase la figura 1.44). En el histograma se muestra que las velocidades son simétricas. Se han graficado también una especie de campana que modela el histograma de frecuencias. Ese modelo se llama campana de Gauss o distribución normal, y representa el modelo de distribución de frecuencias más importante en la estadística.

Una distribución de frecuencias simétrica, como la distribución normal, se relaciona con la desviación estándar de la siguiente manera:

· En el intervalo que va de

x

–s a

x

+s cae aproximadamente 68% de los datos.

· En el intervalo que va de

x

–2s a

x

+2s cae aproximadamente 95% de los datos.

· En el intervalo que va de

x

–3s a

x

+3s cae casi 100% de los datos.

Figura 1.44 Distribución normal

Una distribución normal posee media igual a su mediana y a su moda. De acuerdo con esta propiedad de la distribución simétrica de los datos, relacionada con la desviación estándar, dado que la velocidad del vuelo tiene una distribución simétrica normal, se concluye que las velocidades se distribuyen de la siguiente manera.

·

x

+ s:

En el intervalo que va de 90 km/h = 100 km/h – 10 km/h a 110 km/h = 100 km/h + 10 km/h cae aproximadamente 68% de las mediciones.

·

x

+ 2s:

En el intervalo que va de 80 km/h = 100 km/h – 2 (10 km/h) a 120 km/h = 100 km/h + 2 (10 km/h) cae aproximadamente 95% de las mediciones.

·

x

+ 3s:

En el intervalo que va de 70 km/h = 100 km/h – 3(10 km/h) a 130 km/h = 100 km/h + 3(10 km/h) cae casi 100% de las mediciones.

Una distribución acompañada y simétrica posee otras propiedades:

1) La mayor concentración de mediciones se da en el centro.

2) Los extremos o colas de la distribución aglomeran la menor frecuencia o porcentaje de mediciones.

3)

x

= x0.5 = mo es el eje de simetría de la distribución y por lo tanto allí se halla el máximo de la distribución.

1.4.7 Medida de asimetría

La distribución normal es importante porque muchos fenómenos naturales y artificiales se distribuyen de esa forma. Frecuentemente en la investigación se parte del supuesto de que las mediciones de una variable se distribuyen de forma simétrica acampanada, y se hacen inferencias; por tanto, se toman decisiones con base en ese supuesto. Sin embargo, no siempre los datos numéricos asociados a una variable asumen la forma de una campana de Gauss, por lo que es necesario conocer la forma de la distribución para proceder consecuentemente. Los siguientes son ejemplos de fenómenos que se distribuyen de forma aproximadamente acampanada:

1) Los niveles de inteligencia de personas medidos con exámenes estandarizados.

2) Los errores de medición al utilizar el mismo instrumento de medida.

3) La velocidad a la que se desplazan las moléculas de los gases.

4) Las alturas de individuos de un mismo sexo en un rango de edad de 21 a 40 años.

Para medir el sesgo de una distribución de frecuencias, utilizaremos la relación entre la media aritmética, la mediana y la desviación estándar

s

x

x

Sg

)

(

3

5

.

0

-

=

El resultado del cálculo implica que:

· Si Sg < 0 entonces el sesgo es a la izquierda.

· Si Sg = 0, hay simetría.

· Si Sg > 0, el sesgo es a la derecha.

A mayor sesgo, Sg tendrá un valor más negativo o más positivo. Se requiere un gran sesgo para que Sg tome el valor de +1 o de –1.

Ejemplo 1.68

Una investigación educativa planteó 4 problemas de matemáticas a una muestra de 1000 niños de escuelas primarias públicas en la ciudad de Pachuca. Una de las variables de estudio fue el tiempo que tardaron en resolver los problemas. Los datos numéricos obtenidos produjeron el histograma de frecuencias de la figura 1.45.

Figura 1.45 Tiempo de entrega del examen

Los estadísticos encontrados fueron:

·

x

= 19.24 min,

· x0.5 = min,

· Q(1) = 5.62 min,

· Q(3) = 26.83 min, y

· s = 19.13 min.

Así que

9472

.

0

13

.

19

)

20

.

13

24

.

19

(

3

)

(

3

5

.

0

+

=

-

=

-

=

s

x

x

Sg

Esto indica que la distribución de frecuencias de la variable tiempo de entrega tiene un gran sesgo a la derecha.

Actividades de aprendizaje

Junto con otro de tus compañeros de grupo, contesten las siguientes preguntas acerca del ejemplo 1.68 anterior. Discutan las respuestas en el grupo.

a. ¿Qué significa el valor Q(1)?

b. ¿Qué significa el valor Q(3)?

1.4.8 El análisis estadístico

La estadística es una ciencia cuyas técnicas hacen posible recopilar datos, resumirlos, analizarlos y obtener inferencias. Ahora posees un conjunto de esas técnicas que sirven para resumir y analizar mediciones.

El análisis de los datos es un proceso que conjuga al menos cinco acciones:

1) La anticipación de una o varias técnicas estadísticas útiles para obtener información a partir de datos.

2) El resumen de los datos en tablas o gráficos.

3) El uso de métodos estadísticos como la toma de muestras; el cálculo de percentiles, promedios, medidas de dispersión, etcétera.

4) La descripción y la interpretación de los resultados o la inferencia, que se apoyan siempre en los conceptos estadísticos y en los resultados de los métodos aplicados en el contexto del estudio.

5) La comunicación de las conclusiones.

En este texto se te han planteado diversas actividades guiadas. En una situación práctica, tal guía no existe: debe construirse. Sin embargo, las preguntas que se te han planteado perfilan aquellas que deben guiar el análisis. Más adelante tendrás oportunidad de resolver problemas sin que se te dé una guía, como en el siguiente ejemplo.

Ejemplo 1.69

Dos velocistas que corren los 100 metros planos son probados por su comité olímpico para determinar quién es el más rápido o el más eficiente, a fin de construir una estrategia para competir en los 400 metros con relevos. El que cumpla con las condiciones debe cerrar la carrera. Para tal efecto, los corredores son observados en diez carreras, uno contra el otro y se registran sus tiempos. Los resultados de los tiempos obtenidos en segundos por cada uno se muestran en la tabla 1.47.

Tabla 1.47

Carrera

Velocista A

Velocista B

1

9.41

9.17

2

9.83

9.94

3

11.13

9.05

4

12.00

9.96

5

10.69

8.11

6

8.95

9.01

7

9.43

9.80

8

9.35

9.50

9

10.03

10.04

10

10.00

10.03

Los datos son pocos, 10 para cada corredor. Para conocer algo acerca del comportamiento de cada uno, se calculan las estadísticas más importantes. Éstas se muestran en la tabla 1.48.

Tabla 1.48 Estadísticas descriptivas

Corredor

n

Media

Mediana

Moda

Frecuencia de la moda

Rango

Desviación estándar

A

10

10.08

9.915

Múltiples

1

3.05

0.937702

B

10

9.46

9.650

Múltiples

1

1.93

0.626816

Se observa lo siguiente:

1) En promedio el corredor B recorre los 100 metros en menos tiempo que el corredor A: 9.65 s contra 10.08 s.

2) De acuerdo con las medianas, el corredor B recorre la distancia aproximadamente 50% de las veces en menos de 9.65 segundos, mientras que el corredor A 50% de las veces la recorre en menos de 9.915 segundos.

3) La desviación estándar de B es menor que la de A; por lo tanto, sus registros son más parecidos o están concentrados alrededor de la media aritmética, esto es, en general más próximos a 9.65 segundos. No sucede así con el corredor A, lo cual indica menor precisión alrededor de su promedio. El corredor A es, además de más rápido en general, más preciso o constante con respecto a su velocidad promedio.

Luego, el atleta A debe correr cerrando la carrera.

Actividades generales 1.4

Enseguida se te proponen varias actividades complementarias que te servirán para reafirmar tu comprensión de los conceptos de medidas de variación. Estas situaciones planteadas en diversos ámbitos te permitirán que asocies con más amplitud las ideas que has estudiado y aplicado hasta este punto. Igual que antes, para resolver cada actividad deberás aplicar una combinación de varios conceptos, los cuales se han enriquecido con los de esta unidad. Te sugerimos que trabajes en compañía de otros compañeros de tu grupo.

1 Examina los siguientes conjuntos de datos. Considéralos como muestras.

Conjunto 1

1

2

2

3

3

6

Conjunto 2

1

4

4

5

5

6

a. Calcula la media aritmética, la mediana, el rango, la varianza y la desviación estándar de cada conjunto de datos.

Conjunto

x

x0.5

R

s2

s

1

2

b. ¿En cual conjunto de datos hay mayor dispersión? ¿Por qué?

c. ¿En cual conjunto hay más sesgo?

d. ¿De qué tipo son los sesgos? ¿Qué indican?

e. En cada caso, ¿cuántos datos son mayores que las cantidades

x

(s? ¿y menores?

2 Enseguida se muestran dos histogramas de frecuencias correspondientes a dos variables, 1 y 2. Se quiere determinar cuál de las dos variables tiene mayor dispersión.

a. ¿Cuál es aproximadamente el rango en cada caso?

b. En cada histograma marca aproximadamente el sitio de la media aritmética. ¿Cuál es mayor? ¿Qué significa esto?

c. ¿Será el valor de cada mediana aproximadamente igual al de la media de la respectiva variable? Explica por qué.

d. Si calculas la varianza y la desviación estándar de cada conjunto de datos, ¿cuál sería mayor? ¿Por qué?

e. ¿Afecta el valor de la media aritmética el valor de la desviación estándar? ¿Por qué?

f. ¿Por qué es más frecuente que se utilice la desviación estándar y no la varianza para describir la dispersión de un conjunto de datos?

3 Se practica 20 veces en diferentes muestras una prueba a la resistencia al quiebre de un plástico de reciente creación. Los datos obtenidos de la fuerza en kilogramos aplicada al momento de quebrarse el plástico son los siguientes.

85

85

87

88

88.5

88

89

89.4

89.8

90

90.2

90.4

90.7

91

91

91.5

91.5

92

92

92.5

a. Calcula los percentiles siguientes.

D(20)

D(30)

D(40)

D(50)

D(60)

D(70)

D(80)

D(90)

b. ¿Qué significado tiene el valor del percentil 30?

c. ¿Qué porcentaje de los quiebres del plástico se dieron a más de 91.5 kilogramos?

d. ¿Entre qué fuerzas aplicadas al plástico ocurrió 20% de los resultados de quebradura en el centro de la distribución de los datos?

e. ¿Cuál es la mediana de la fuerza de quiebre? ¿Qué significa?

f. Calcula la desviación media de las fuerzas.

g. ¿Cuál es la desviación estándar de las fuerzas? ¿Qué significa?

4 En un experimento psicológico, se les muestra en tres ocasiones a cada uno de ocho niños de cuatro años seleccionados al azar la manera de armar un juguete. Se hace igual con el mismo juguete y con otros ocho niños de seis años. En cada caso se tomaron los tiempos en minutos que tardaban en armar ellos mismos el juguete, y se muestran en la tabla siguiente.

Tiempo en minutos

Seis años

1.4

1.6

1.4

1.5

1.2

1.4

1.3

Cuatro años

1.6

2.4

1.8

1.9

1.8

2.0

1.4

a. Observa los datos y, sin realizar cálculos, di qué grupo de niños parece que produjo una menor desviación estándar y sugiere a qué puede deberse esto.

b. Calcula la desviación estándar de cada conjunto de datos.

c. Calcula la desviación media de cada conjunto de datos.

d. Calcula la media aritmética para cada conjunto de datos.

e. Compara mediante un cociente las respectivas desviaciones estándares y medias. ¿Qué significado tienen?

f. ¿Qué unidades tienen las comparaciones anteriores por cociente?

5 Una operación en el terminado de un auto consiste en colocar en posición y apretar un tornillo que sujeta al acumulador. En una toma de tiempos, se obtiene una media aritmética de la muestra de 40 segundos y una desviación estándar igual a 5 segundos. Se tomaron cuatro observaciones, pero sólo se conocen los datos 40, 41 y 38 segundos. ¿Cuál es el dato faltante?

6 Se requiere enviar a un buen tirador a África para que dispare dardos con calmantes a animales en una reserva. Se tienen dos candidatos, A y B. A ambos se les pidió que lanzaran 50 tiros desde un helicóptero en el aire hacia blancos fijos en el terreno, simulando lo que deberían hacer después. Se midió la distancia en centímetros entre el dardo lanzado y el blanco. Las estadísticas y los histogramas de cada uno se observan enseguida.

Tirador

x

s

DM

R

A

25

3

4

21

B

23

9

9.5

44

¿A quién dirías debe contratarse y porqué? ¿Cuál tirador es más preciso y cuál es más exacto? ¿Por qué?

7 En una empresa dedicada a la producción de arneses para carros compactos, se capacita a los operarios manuales de nueva contratación durante determinado tiempo en una actividad de ensamblaje. El tiempo de capacitación en horas es una variable, que se mide para fines de control. Las sesenta observaciones más recientes, ordenadas de la menor a la mayor, se muestran en la tabla siguiente.

20.29

22.07

22.26

23.16

23.42

23.70

23.91

24.22

24.43

24.80

20.70

22.08

22.55

23.16

23.48

23.70

23.95

24.24

24.45

24.81

21.26

22.10

22.63

23.18

23.55

23.71

23.96

24.28

24.57

25.07

21.36

22.11

22.83

23.19

23.57

23.78

24.02

24.30

24.67

25.41

21.91

22.15

23.09

23.28

23.60

23.84

24.13

24.32

24.67

25.47

22.03

22.24

23.14

23.34

23.69

23.90

24.14

24.40

24.76

25.55

a. Calcula el rango. ¿Qué significado tiene para los administradores?

b. Calcula los percentiles 30 y 70. Da el significado de cada uno.

c. Calcula los cuartiles 1 y 3 y da su significado.

d. Obtén el valor del rango intercuartílico y expresa su significado.

e. Obtén el valor del rango semiintercuartílico y expresa su significado.

En la siguiente tabla se da un resumen de las estadísticas descriptivas de la muestra.

Estadísticas descriptivas

Variable

n

Media

Mediana

Mínimo

Máximo

Desviación estándar

Tiempo en horas

60

23.47

23.69

20.29

25.55

1.1578

f. Calcula la medida de sesgo del conjunto de datos.

g. Observa que el gráfico de los datos que se da enseguida, y en base a los resultados anteriores y lo que se observa en el gráfico describe el comportamiento del tiempo de capacitación de los nuevos operarios.

8 Se sabe que los tiempos que tardan los trabajadores de la empresa automotriz AVF, que construye autos compactos, para colocar la llanta de refacción debajo del chasis, es una variable cuyos tiempos tienen una gran variación. El superintendente tomó 15 tiempos al azar, durante todo un día de ese ensamblaje, de cada uno de los cuatro trabajadores que realizan la operación: Juan, José, Virgilio y Mario. Esos tiempos se muestran enseguida, dados en minutos.

Juan

4.5

4.3

4.5

4.6

4.3

4.7

4.3

4.5

4.4

4.2

4.5

4.7

4.5

4.5

4.5

José

4.5

5.0

5.0

5.3

4.8

4.3

4.7

5.4

4.2

4.7

5.0

5.0

4.6

5.4

5.0

Virgilio

5.1

5.2

5.0

5.2

5.1

5.0

5.2

5.2

5.0

5.1

5.2

5.1

5.0

5.2

5.2

Mario

4.1

4.2

4.0

4.0

4.4

4.3

4.2

4.3

4.4

4.2

4.3

4.2

4.3

4.2

4.2

a. Para cada uno de los trabajadores, calcula los estadísticos: media aritmética, mediana, moda, rango, varianza y desviación estándar.

x

x0.5

mo

R

s2

s

Juan

José

Virgilio

Mario

b. ¿Por qué el rango y la desviación estándar son estadísticos?

c. ¿Los datos son los de una muestra o los de una población? ¿Por qué?

d. De acuerdo con los resultados obtenidos en las diferentes estadísticas, ¿cuál trabajador parece ser el mejor de todos? ¿cuál trabajador parece ser el peor de ellos? ¿Por qué?

9 Una empresa bancaria del país ha decidido mejorar el servicio a los clientes que acuden a sus bancos los días pico o más concurridos, que son los lunes y viernes. Aquéllos deben formarse en la hilera hasta llegar a una caja y ser atendidos. Ese tiempo en minutos se supone que actualmente se comporta según los datos de la siguiente muestra aleatoria de n=100 datos.

Tiempo en minutos que tarda un cliente en ser atendido (método anterior)

5.13

9.16

10.16

10.86

11.58

12.09

12.72

13.29

13.99

14.67

7.17

9.20

10.16

10.96

11.68

12.29

12.73

13.32

14.16

14.75

7.53

9.29

10.26

11.10

11.69

12.38

12.78

13.34

14.19

15.00

8.06

9.31

10.27

11.13

11.77

12.38

12.84

13.36

14.42

15.43

8.27

9.47

10.28

11.19

11.79

12.46

13.03

13.38

14.47

15.62

8.69

9.55

10.31

11.19

11.94

12.51

13.05

13.46

14.48

15.64

8.85

9.79

10.63

11.45

11.95

12.52

13.09

13.51

14.52

15.76

8.87

10.11

10.63

11.46

12.01

12.56

13.16

13.68

14.53

16.39

9.04

10.11

10.79

11.47

12.07

12.70

13.29

13.91

14.65

17.24

9.05

10.14

10.82

11.52

12.07

12.70

13.29

13.91

14.65

17.24

Se ha introducido un nuevo método de atención consistente en evaluar en la propia hilera los casos que llegarán a las cajas, y resolver los que no requieran mucho tiempo de atención enviándolos a una caja especializada, mientras los que requerirían más tiempo se envían a otra caja que tiene equipo especial y donde se puede atenderlos más rápido. Se tomó una muestra aleatoria también de tamaño n=100 de estos tiempos, la cual se muestra enseguida.

Tiempos de atención con el nuevo método

5.05

7.27

7.89

8.30

8.71

9.09

9.44

9.84

10.04

10.72

5.69

7.34

7.93

8.31

8.80

9.11

9.50

9.86

10.09

10.76

6.31

7.57

7.96

8.33

8.80

9.17

9.59

9.86

10.28

10.77

6.40

7.62

7.96

8.33

8.86

9.17

9.62

9.87

10.29

10.78

6.46

7.63

8.06

8.42

8.87

9.18

9.63

9.88

10.41

10.78

6.75

7.69

8.14

8.42

8.92

9.21

9.63

9.91

10.43

10.96

6.86

7.73

8.14

8.42

8.95

9.23

9.64

9.93

10.44

11.38

7.09

7.74

8.23

8.45

9.00

9.27

9.65

9.94

10.50

11.60

7.19

7.78

8.24

8.52

9.04

9.34

9.71

10.01

10.58

12.62

7.22

7.79

8.26

8.64

9.04

9.38

9.72

10.02

10.69

13.04

Una pregunta obvia es: ¿El nuevo método redujo el tiempo que tardan los clientes en ser atendidos? Antes de dar una respuesta a esta pregunta, por atención en lo siguiente.

a. ¿Qué variable se estudia? Defínela.

b. ¿De qué tipo y densidad es la variable que se estudia?

c. ¿Se estudia(n) una o dos poblaciones? ¿Cuál es (son)?

Enseguida se te propone la construcción de elementos estadísticos para que contestes la pregunta que se planteó antes: ¿El nuevo método es superior al anterior?

d. Completa las siguientes distribuciones de frecuencia para cada método.

Tabla de frecuencias (método anterior de atención; tiempo en minutos)

Clase

Intervalos reales de clase

Frecuencia

f

Frecuencia relativa fr

Porcentaje

%

1

4

1

2

6

2

3

8

14

4

10

30

5

12

34

6

14

16

7

16

3

Totales

100

Tabla de frecuencias (método anterior de atención; tiempo en minutos)

Clase

Intervalos reales de clase

Frecuencia

f

Frecuencia relativa fr

Porcentaje

%

1

5

2

2

6

5

3

7

17

4

8

24

5

9

30

6

10

18

7

11

2

8

12

1

9

13

1

Totales

100

e. ¿Qué porcentaje de clientes, bajo el método anterior, tardaba más de 12 minutos en ser atendido?

f. ¿Qué porcentaje de clientes, bajo el método nuevo, tarda más de 12 minutos en ser atendido?

g. Calcula para cada método los cualrtiles Q(1), Q(2) y Q(3), y expresa su significado.

h. Obtén el valor del rango semiintercuartílico y expresa su significado.

i. En la siguiente tabla se muestra un resumen de estadísticas descriptivas incompleto por método. Completa la tabla.

Estadístico

x

x0.5

R

s

Método anterior

12.02

12.08

Método actual

8.99

9.06

j. ¿Qué significa para los clientes que los tiempos del método anterior tengan una desviación estándar mayor?

k. Suponiendo que la media del método anterior permanece en 12.02 minutos, ¿podría ser la desviación estándar de ese método menor que la del método nuevo? Explica por qué.

l. Observando los datos en las tablas y los estadísticos, ¿crees que el nuevo método redujo el tiempo de atención a los clientes? Explica por qué, con base en los resultados obtenidos.

10 Un consultorio médico recibe una gran cantidad de llamadas de pacientes para los doctores. Dos secretarias, Lula y Alejandra, atienden las llamadas y hacen algunas preguntas antes de decidir si la llamada debe ser contestada por el doctor que es solicitado. El tiempo que tardan en contestar las llamadas y tomar datos en un formulario es una variable que adquiere diversos valores. Se tomó una muestra aleatoria del tiempo de atención en segundos para cada secretaria, y se obtuvieron los siguientes datos.

Tiempo de atención en segundos de n= 100 llamadas (Lula)

12.61

20.8

22.74

26.11

27.66

28.81

29.75

31.49

34.00

35.71

16.90

20.89

22.92

26.33

22.71

28.95

29.91

31.60

34.03

35.91

17.21

21.72

23.07

26.48

28.02

29.01

30.04

31.77

34.12

35.95

18.22

21.90

23.63

26.55

28.09

29.04

30.06

31.99

34.36

37.37

18.56

21.98

23.64

26.56

28.46

29.10

30.08

32.01

34.54

38.24

18.77

21.99

23.96

26.79

28.48

29.17

30.15

32.18

34.69

38.33

18.90

22.17

24.39

26.86

28.52

29.35

30.19

32.22

34.84

39.43

19.20

22.26

24.42

27.12

28.57

29.41

30.72

32.96

34.85

39.77

19.23

22.50

25.69

27.16

28.75

29.53

30.89

33.70

35.17

39.86

19.23

22.73

25.69

27.63

28.76

29.62

31.34

33.90

35.31

42.78

Tiempo de atención en segundos de n= 80 llamadas (Alejandra)

0.33

5.00

9.66

16.49

25.83

37.28

52.01

78.64

0.46

5.02

9.8

17.68

25.89

40.26

54.69

79.57

0.60

5.43

10.15

18.20

27.13

40.58

54.97

80.74

2.26

5.68

11.28

20.28

28.25

45.69

56.08

81.17

2.34

5.82

12.68

20.38

29.13

46.23

56.51

84.57

2.74

6.24

14.04

21.13

30.03

47.46

58.13

85.48

3.51

6.81

14.46

22.36

32.10

47.66

58.72

85.88

3.56

7.30

15.23

22.53

32.25

48.10

64.89

103.33

4.28

8.47

15.43

22.54

32.32

49.38

68.00

134.57

4.52

8.77

16.25

24.56

35.42

50.15

69.42

140.53

a. ¿Qué variable se estudia y de qué tipo y densidad es?

b. ¿Cuántas poblaciones se estudian? ¿Cuáles son?

c. En teoría, ¿cuántos elementos posee cada población?

d. ¿Cuál es el rango de los tiempos de cada secretaria y qué significa cada uno y comparativamente?

Enseguida se muestran uno al lado de otro histogramas de frecuencia del tiempo de atención de cada secretaria.

e. Sobre la base de su contenido, describe en general el comportamiento de cada una de ellas al contestar las llamadas.

f. ¿Cuál distribución de datos parece tener un comportamiento simétrico? ¿Por qué?

g. Calcula los cuartiles Q(1), Q(2) y Q(3) para cada caso, compáralos y determina su significado.

h. Calcula el valor del rango semiintercuartílico y expresa su significado.

Algunas estadísticas descriptivas se muestran en la tabla siguiente.

Variables

Estadísticas descriptivas

n

Media

Mediana

Desviación estándar

Lula

100

28.36

28.78

5.88

Alejandra

80

34.03

25.19

30.81

i. Calcula el nivel del sesgo de cada distribución de tiempos.

j. ¿Qué significado tiene cada desviación estándar para los pacientes? Apóyate en los valores de las desviaciones, en los gráficos y en los valores de los cuartiles para dar tu explicación.

k. Si los pacientes son atendidos al azar por Lula o Alejandra, ¿cuál de ellas parece ser más eficiente en su trabajo? Explica.

l. Si Lula atiende a 500 pacientes bajo las condiciones actuales, y según la información de la muestra respectiva, ¿cuántos de ellos aproximadamente serán atendidos en menos de 40 segundos?

m. Igualmente, ¿cuántos de 500 pacientes atendidos por Alejandra serían atendidos en menos de 40 segundos?

n. ¿Cuántas llamadas supones que contestará Lula en término medio en una hora?

o. ¿Podría sostenerse que la probabilidad de que Lula atienda una llamada en menos de 25 segundos es aproximadamente 0.30? ¿Bajo que supuesto?

11 El encargado de un autolavado en Baja California Norte observa con atención el tiempo que tardan sus empleados en realizar un servicio estándar de lavado. Sesenta registros en minutos se muestran ordenados en la siguiente tabla.

17.26

22.10

23.25

23.99

25.13

25.69

25.97

26.22

26.68

27.42

17.52

22.36

23.51

21.14

25.16

25.70

26.00

26.39

26.87

27.53

18.71

22.73

23.55

24.51

25.29

25.76

26.05

26.41

26.87

27.86

20.28

22.87

23.66

24.57

25.29

25.84

26.08

26.53

26.88

27.89

20.98

23.01

23.76

24.78

25.51

25.94

26.12

26.67

27.12

28.08

21.07

23.10

23.97

25.04

25.58

25.96

26.22

26.68

27.17

28.20

a. Calcula los cuartiles Q(1), Q(2) y Q(3), y explica su significado.

b. Construye el gráfico de cajas y bigotes e interpreta su contenido.

c. Calcula el rango intercuartílico y da su significado.

d. Calcula el rango semiintercuartílico.

e. De acuerdo con el valor del rango semiintercuartílico, ¿es simétrica la distribución de los tiempos? ¿Apoya este resultado al obtenido en la gráfica de cajas?

f. Calcula la medida de sesgo de los datos haciendo uso de las medidas estadísticas siguientes.

Variables

Estadísticas descriptivas

n

Media

Mediana

Desviación estándar

60

24.85

25.63

2.43

¿Coincide este resultado con el obtenido antes?

12 El percentil 90 de los resultados obtenidos en un examen de admisión por un grupo de 4000 estudiantes de bachillerato que concursan para ingresar a una universidad fue de 78 puntos, con una calificación máxima de 83 puntos.

a. ¿Cuál es el valor de la mediana y qué significa?

b. ¿Cuál es el valor del percentil 70 y qué significa?

c. Si se supone una escala de medición de relación, ¿cuántos estudiantes obtuvieron más de 38 puntos pero menos de 63 puntos?

d. ¿Cuál es el rango de los datos?

e. ¿Puede calcularse la medida del sesgo de la distribución de los datos? ¿Por qué?

13 Dos caballos de resistencia, Reo y Petrarca, compiten frecuentemente uno contra otro. Sus respectivos dueños han registrado los siguientes datos para los tiempos que han hecho al correr cuatro millas en competencia entre ellos.

Variables

Estadísticas descriptivas

n

Media

Mediana

Desviación estándar

Dato menor

Dato mayor

Reo

40

4.55 min

4.50 min

0.20 min

4.45 min

5.40 min

Tetrarca

40

4.57 min

4.58 min

0.15 min

4.40 min

5.00 min

a. ¿Cuál distribución de tiempos es más simétrica? ¿Alguna es normal? ¿Por qué?

b. ¿Hacia dónde se da el sesgo de cada distribución? ¿Qué significa esto? Dibuja una sobre otra las distribuciones de frecuencias respectivas aproximadas para cada caballo.

c. ¿Siempre gana Reo a Petrarca? ¿Por qué? Explica con base en los datos.

d. ¿La desviación estándar de Reo se ve afectada por el dato mayor? Explica por qué.

14 Dos máquinas, A y B, deben producir válvulas maestras con roscas de diez centímetros de diámetro. Como estas válvulas son para insertar en un equipo diseñado en otra empresa, deben tener el diámetro requerido. Sin embargo, los procesos maquinados producen variación, la cual debe reducirse y controlarse para obtener el producto requerido. En una supervisión efectuada a la misma hora y día, se obtuvieron los siguientes datos.

Válvula A

9.69

9.84

1013

10.18

10.31

9.96

10.00

10.22

9.91

10.30

Válvula B

10.10

9.98

10.00

9.93

10.03

9.99

9.88

10.09

9.83

9.78

a. Calcula la media aritmética y la desviación estándar de cada conjunto de datos.

b. ¿Cuál máquina produce válvulas de manera más precisa?

c. ¿Ambas máquinas son igualmente exactas? ¿Por qué?

d. ¿Provendrán los datos de una distribución normal? ¿Cómo puede probarse eso?

15 Dos asesores financieros publican los resultados de los rendimientos que obtuvieron sus clientes sobre una inversión de un millón de pesos en un año. Un cliente observa la información a fin de decidir con cuál de ellos participar. Los datos que tiene son los siguientes.

Resultados del asesor A

84.56

148.02

162.69

168.29

278.32

189.91

205.59

213.39

255.16

242.74

112.32

150.53

162.92

168.86

180.22

194.49

207.62

213.50

227.30

253.94

114.85

152.54

164.61

176.25

185.76

197.93

212.62

213.94

232.11

256.96

134.46

161.06

166.24

177.84

189.06

198.76

231.12

221.27

239.23

270.36

Resultados del asesor B

166.46

179.97

184.50

185.69

188.26

190.64

192.29

193.29

195.77

201.31

169.13

183.08

184.63

186.57

188.68

191.09

192.60

194.24

192.23

203.78

173.24

183.27

184.95

187.99

188.73

191.25

192.67

195.17

198.18

204.12

173.56

184.28

185.27

188.25

189.33

191.85

193.15

195.66

199.13

209.82

Variables

Estadísticas descriptivas

n

Media

Mediana

Desviación estándar

A

40

189.18

189.48

40.78

B

40

189.45

189.98

9.99

a. ¿Cuáles y cómo son los rendimientos promedio anuales que obtienen los asesores?

b. ¿Son simétricas o sesgadas las respectivas distribuciones de los rendimientos? Calcula y explica.

c. ¿Qué significado tienen las desviaciones estándares de los asesores?

d. Si el inversionista es prudente y quiere obtener con mayor probabilidad un rendimiento anual mayor a 170 mil pesos, ¿con cuál asesor debe trabajar?

e. Calcula los cuartiles de cada distribución de datos y compáralos. Expresa el significado de esa comparación.

f. Construye el gráfico de cajas y bigotes para los dos conjuntos de datos e interpreta su contenido. Puedes hacerlo en un mismo marco para que la comparación sea más efectiva.

100 120 140 160 180 200 220

240 260 280

Rendimiento

Asesor B

Asesor A

16 En un laboratorio psicológico se realizan pruebas acerca del cociente intelectual de dos grupos de niños, A y B, de ocho años de edad que provienen de diferentes regiones marginadas del estado de Veracruz. Los niños del grupo A fueron apoyados durante los últimos dos años por un programa de estimulación especial de habilidades matemáticas y comprensión de la lectura. Los del grupo B no recibieron ese tratamiento. Antes de iniciar el programa, los coeficientes de los grupos eran similares. Los resultados de las pruebas fueron graficados como se muestra en la siguiente figura.

a. El investigador obtuvo un conjunto de estadísticas descriptivas que se muestran enseguida para cada conjunto de datos, pero se han revuelto. Determina cuál pertenece a cuál: n = 1000, Máx = 127.1548, Media = 84.5044, n = 1000, Mín = 71.042; s = 18.1685, Media = 98.2487, Máx = 138.9118, Mín = 36.5305, s = 9.5534.

Niños

n

Media

s

Mínimo

Máximo

A

B

b. ¿Qué grupo de niños posee ahora un mejor cociente intelectual? ¿Qué número lo sugiere=

c. ¿Qué significado tiene la desviación estándar del grupo de niños B con respecto a la del grupo de niños A?

d. ¿Cómo son las distribuciones de frecuencias de los datos? ¿Son normales? ¿Puedes mostrarlo? Describe su contenido.

e. ¿Aproximadamente qué porcentaje de niños del grupo A demostró un cociente intelectual mayor a 98.25 puntos?

f. ¿Aproximadamente qué porcentaje de los niños del grupo B demostró un coeficiente mayor a 98.25 puntos?

g. ¿Qué porcentaje de niños tuvo en cada caso un coeficiente de inteligencia entre

x

(s? ¿Por qué son iguales ambos porcentajes?

17 Se midió la segregación diaria en mililitros de jugo gástrico en un grupo de 100 voluntarios varones. Los resultados se graficaron y produjeron una distribución normal con media igual a 2450 ml, con una varianza igual a 25 ml.

a. ¿Cuál es el valor de la mediana y qué significado tiene en el contexto?

b. ¿Qué porcentaje de los voluntarios segregaron al día más de 2475 ml de jugo gástrico?

c. ¿Qué porcentaje de los varones segregó al día menos de 2375 ml de jugo gástrico?

d. ¿Qué porcentaje de ellos segregó entre 2425 ml y 2525 ml de jugo gástrico al día?

18 ¿Puede obtenerse una desviación estándar negativa? ¿Por qué?

Actividades experimentales 1.4

Las siguientes actividades implican que practiques algún experimento aleatorio y apliques los instrumentos de análisis que conoces para descubrir cómo se comporta la variable en estudio. Ensaya conforme a lo que se te indica y obtén tus conclusiones. Se te recomienda trabajar en equipo y comparar siempre los resultados obtenidos con los de otros.

1 En tu grupo se registrarán los pesos en kilogramos de las mujeres y de los hombres. Si no hay individuos de alguno de los géneros, o son muy pocos los de alguno de ellos, pueden registrar los pesos de su grupo y de otro grupo: sólo hombres o sólo mujeres. Enseguida se dan dos tablas para hacer esto.

Hombres

Mujeres

a. ¿Qué grupo tiene más peso? ¿Qué estadístico usarán para contestar esto?

b. Calculen las medianas y den el significado de cada una.

c. Calculen las desviaciones estándares y compárenlas mediante un cociente dando el significado del resultado.

d. Escriban sus conclusiones generales. En promedio, ¿los miembros de un grupo pesan más que los otros?

2 Una forma de tomar una muestra aleatoria consiste en utilizar números aleatorios. (Recordemos: números de este tipo se pueden obtener con la calculadora, utilizando la tecla RND. Aplicándola, se consiguen números entre 0 y 1, con unos 3 o 4 decimales.) Usarán una calculadora para obtener una muestra de 30 números aleatorios, pero tomarán sólo el primer digito, o sea, el décimo. (Por ejemplo, con RND = se puede obtener 0.359, y se toma el 3; o se puede obtener 0.817, y se toma el 8. Reúnan su muestra en la tabla siguiente.

a. Si los números son aleatorios, se supone que cada uno de los dígitos 0, 1, 2, ..., 9, ocurrirán con aproximadamente igual frecuencia. ¿Se cumple esta hipótesis?

b. Calculen las estadísticas siguientes para los datos.

Estadístico

x

x0.5

mo

Rango

Percentil 75

Desviación estándar

c. Estudien los estadísticos. ¿Revelan que efectivamente los dígitos obtenidos son aproximadamente aleatorios? ¿Por qué?

3 Un experimento aleatorio consiste en lanzar cuatro monedas de un peso, y registrar el número de águilas que caen. Se realizarán 100 lanzamientos de las cuatro monedas, con la finalidad de saber cómo se distribuye el número de las águilas, es decir, para conocer qué número de águilas ocurre con mayor o menor frecuencia. Cada miembro del grupo lanzará sus monedas y registrarán los datos de toso en una misma tabla.

a. ¿Cuántas veces se puede repetir este experimento?

b. ¿Cuál es la variable que se estudia?

c. ¿De qué tipo y densidad es la variable? ¿Por qué?

d. ¿Puede tomar la variable el valor de 5 águilas? ¿Por qué?

e. ¿Cuáles son los valores que puede tomar la variable? Supongan que llamamos X a la variable. Escríbanlos.

X = valores

f. Antes de practicar el experimento, ¿cuál creen que es el valor o los valores más frecuentes que tomará la variable? ¿Cuáles serán los menos frecuentes? ¿Por qué?

g. ¿Podría ser considerado el resultado más frecuente como el más probable? ¿Por qué? ¿Qué significa esto?

h. Si se quiere saber cómo se distribuye el número de águilas que caen con una precisión muy grande, ¿qué harían?

i. Si practican el experimento una vez, ¿pueden predecir con exactitud cuántas águilas caerán? ¿Por qué?

j. Antes de realizar el experimento, contesten lo siguiente.

¿Cuál de los dos siguientes eventos tiene mayor frecuencia relativa? ¿Por qué?

· Caen más de dos águilas.

· Caen dos águilas.

k. Practiquen el experimento las 100 veces y organicen los resultados en la siguiente tabla de frecuencias. Después, muestren gráficamente los resultados con un gráfico de espigas.

Tabla de frecuencias de la variable “Número de águilas que caen al lanzar 4 monedas de un peso”

Resultados Posibles

Tabla de distribución de freceuncias

Variable:

Frecuencia conteo individual

Frecuencia

fi

Frecuencia relativa fri

%

Frecuencia relativa acumulada frai

%

Acumulado

Total

l. Describan las características más obvias de la distribución de frecuencias encontrada. ¿Parece haber simetría? ¿Existe algún sesgo?

m. ¿Cuál es la suma de las frecuencias relativas? ¿Por qué?

n. Si se repite el experimento otras 100 veces, ¿las frecuencias relativas serán idénticas a las encontradas? ¿Por qué?

o. ¿Estará presente la regularidad estadística si se repite otro experimento 100 veces con las mismas monedas? ¿Por qué?

p. Los diferentes equipos deberán comprar sus resultados, presentándolos ante el grupo. ¿ Qué conclusiones generales pueden obtenerse?

4 En este experimento se estudiarán variables cuantitativas y cualitativas. Se levantará la siguiente encuesta a 30 alumnos de su escuela que cursen el primer semestre. Pueden ser hombres o mujeres. Primero deben idear la forma de que la encuesta se produzca al azar, sin tendencia.

A) ¿En qué mes naciste?

B) ¿Cuál es tu edad en años cumplidos?

C) ¿Te gustan las matemáticas?

Mucho

Poco

Nada

D) ¿Te gustaría estudiar ingles?

Mucho

Poco

Nada

a. Registren los resultados en la tabla siguiente.

Alumno

Pregunta

Alumno

Pregunta

A

B

C

D

A

B

C

D

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

b. De acuerdo con los resultados:

· ¿Existe un mes privilegiado en cuanto a nacimientos?

· ¿Cuál es el promedio de edad de los entrevistados?

· ¿Cuál es la moda de la edad de los entrevistados?

· ¿Les gustan las matemáticas a los entrevistados?

· ¿Les gusta estudiar inglés a los entrevistados?

5 Se practicará de nuevo el experimento aleatorio en el cual se lanzan dos datos para observar la suma de los puntos, pero ahora el experimento se repetirá una cantidad diferente de veces por varios equipos (ese número se rifará).

Equipos 1 y 2: 30 veces.

Equipos 3 y 4: 60 veces.

Equipos 5 y 6: 90 veces.

Equipos 7 y 8: 120 veces.

Si hay más equipos, pueden repetir esas cantidades. Cada equipo construirá (a) una tabla de frecuencias, y (b) un gráfico de espigas; y (c) calculará algunos estadísticos de los datos. Enseguida se dan las tablas necesarias para resumir los resultados.

Tabla de distribución de frecuencias: Suma de los puntos que caen al lanzar los datos