libro de estadistica
DESCRIPTION
hhhhhhhhTRANSCRIPT
1
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
INTRODUCCIÓN A LA ESTADÍSTICA
DESCRIPTIVA
2
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
INDICE
CAPÍTULO 1: ESTADÍSTICA 3
INTRODUCCIÓN 3
FUNCIONES 4
REPRESENTAIÓN GRÁFICA EN ESTADÍSTICA 5
GRAFICAS TIPO PASTEL O CIRCULARES 6
CÁLCULO PARA LA OBTENCIÓN DE PORCENTAJES 7
CÁLCULO PARA LA OBTENCIÓN DE PORCENTAJES DENTRO DE UNA GRÁFICA
TIPO PASTEL 8
GRÁFICO DE BARRAS 9
CAPÍTULO 2: FRECUENCIAS Y DISTRIBUCIONES 18
CAPITULO 3: MEDIDAS DE TENDENCIA CENTRAL 33
CAPÍTULO 4: MEDIDAS DE DISPERSIÓN 47
CAPÍTULO 5: MOMENTOS ESTADÍSTICOS 54
CAPÍTULO 6: PROBABILIDADES 59
CAPITULO 7: DISTRIBUCIONES DE PROBABILIDAD 71
CAPITULO 8: MUESTREO 78
CAPITULO 9: ESTADISTICA INFERENCIAL 82
3
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPÍTULO 1: ESTADÍSTICA
INTRODUCCIÓN
Los inicios de la estadística se remontan desde siglos pasados, tal es el caso del censo que
realizo Moisés después de la salida de Egipto, esto según la biblia, también existieron otros
censo como los realizados por el emperador TAO hacia el año 2200 AC. En la edad media
realizado por Carlomagno en el año 762.
La estadística es bien aplicada desde los años
La estadística es una rama de las matemáticas que se encarga de la recolección y estudio
de datos de una población, objetos, animales, etc.
La estadística es muy necesaria dentro de todos los campos, ya que permite a través de sus
|datos darnos valores para interpretar nuestros datos recogidos, pudiendo estos ser de
estudio o no.
Cuando se habla de estadística surge muchas preguntas:
¿Porque es importante la estadística?
Se vuelve importante en nuestra vida diaria, como por ejemplo en lo más simple cuando se
necesita saber cuál será el pronóstico de un equipo de futbol durante un partido, la suerte
que se tendrá a jugar a la ruleta dentro de un casino o tan simple como jugar a los volados,
y en otras mucho más complejas como saber la necesidad de evaluar la tasa de
crecimiento de una población, las notas de un grupo de estudiantes, el número de botellas
plásticas defectuosas, predecir el estado del clima en base a su comportamiento climático,
predecir el comportamiento de una banda de aves, se puede calcular el comportamiento
de un delincuente, en fin un montón de usos prácticos.
¿Cuáles son las ventajas de usar estadística?
Ofrece muchas ventajas como por ejemplo:
Pronosticar si un equipo ganara o no un campeonato
Realizar un estudio de una muestra, cualquiera que esta sea y que nos arroje sus
pronósticos
En los juegos de azar pronosticar si un evento tendrá o no una probabilidad que este
ocurra
Si se desea saber la probabilidad de fallo de un foco dentro de unos cien producidos
4
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
¿Por qué es necesario la estadística?
La estadística se vuelve necesaria ya que es lo que nos permite obtener una conclusión en
base a sus resultados, a esto se lo conoce como estadística inferencial.
¿Qué es la estadística descriptiva?
La estadística descriptiva se encarga de tomar la información, datos recogidos y
presentarla como un valor
¿Qué es la estadística inferencial?
La estadística inferencial es aquella que nos ayuda a dar una conclusión a los datos
obtenidos como resultados obtenidos en la estadística descriptiva
FUNCIONES
Si a cada valor posible de una variable x le corresponden uno o más valores de otra variable
y, entonces decimos que y es función de x, y escribimos:
y = f (x)
A la variable x se le llama variable independiente y a la variable y se le llama variable
dependiente.
Ejemplo 1. La población total P de Ambato está en función del tiempo t, y lo expresamos:
P (Ambato) = f (t)
Ejemplo 2. La longitud L de un eje de trasmisión está en función de su peso, expresándose:
L = f (P)
Ejemplo 3. Los profesores de la UTI (C), están en función del Rector (D) en cada una de las
Facultades.
C = f (D)
5
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
La dependencia funcional o correspondencia entre variables se anota en algunas
ocasiones en una tabla. Sin embargo, puede también indicarse con una ecuación que
conecta ambas variables, por ejemplo:
y = 6x + 12
Si x = 2, y la función de x puede escribirse como: y = f (x)
Entonces: f(x) = 6x + 12
Sustituyendo el valor de x tenemos: f (2) = 6(2) + 12
f (2)= 12 + 12
f (2) = 24
El concepto de función admite extensión a varias variables.
Ejemplo 14. Si z = 5x - 3y +11, hallar el valor de z correspondiente a:
a) x = 1, y = 4
Sustituyendo tenemos:
z = 5(1)- 3(4) +11
z = 5 -12 +11
z = 4
b) x = -2, y = -5
Sustituyendo tenemos:
z = 5(- 2)-3(- 5) +11
z = -10 +15 +11
z = 16
REPRESENTAIÓN GRÁFICA EN ESTADÍSTICA
Un gráfico es una representación de la relación entre variables. Muchos tipos de gráficos
aparecen en Estadística; según la naturaleza de los datos involucrados y el propósito del
gráfico. Entre los más comunes tenemos:
1.-Los gráficos de pastel también conocidos como circulares.
2.-Los gráficos de barras.
3.-Los gráficos a base de pictogramas.
6
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Para realizar cualquier tipo de grafica primero se debe tener los datos representados y
debidamente ordenado en una tabla
GRAFICAS TIPO PASTEL O CIRCULARES
Las gráficas tipo pastel o circulares nos permiten visualizar de una mejor manera la relación
entre una variable cualitativa (o discreta) y su porcentaje, su ventaja se encuentra en que
para pocas variables de estudio es más notoria visualmente que al aplicarse otro método
grafico
Los siguientes datos representan las áreas de las provincias del Ecuador en kilómetros
cuadrados.
PROVINCIAS AREAS (Km2)
AZUAY 8639
BOLIVAR 3254
CAÑAR 3908
CARCHI 3699
CHIMBORAZO 5287
ESMERALDAS 6569
GUAYAS 17139
PICHINCHA 9612
TUNGURAHUA 3334
Tabla 1 Áreas de las provincias de Ecuador en Km2
Paso 1 Con los datos e información de la tabla 1 Calcular los porcentajes para cada
provincia.
a) Para calcular el porcentaje de cada área primero se debe sumar todos los valores
correspondientes a cada provincia.
PROVINCIAS AREAS (Km2)
AZUAY 8639
BOLIVAR 3254
CAÑAR 3908
CARCHI 3699
CHIMBORAZO 5287
ESMERALDAS 6569
GUAYAS 17139
PICHINCHA 9612
TUNGURAHUA 3334
∑= 61441
Tabla 2 Suma de las áreas de cada provincia
7
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
b) Luego de sumadas se debe realizar la regla de tres simple para calcular el área
correspondiente. El porcentaje total será igual a 100 una vez sumado cada uno de
sus valores.
CÁLCULO PARA LA OBTENCIÓN DE PORCENTAJES
𝐴𝑧𝑢𝑎𝑦 =8639
61441𝑥100 = 14.061
𝐵𝑜𝑙𝑖𝑣𝑎𝑟 =3254
61441𝑥100 = 5.3
𝐶𝑎ñ𝑎𝑟 =3908
61441𝑥100 = 6.36
𝐶𝑎𝑟𝑐ℎ𝑖 =3699
61441𝑥100 = 6.02
𝐶ℎ𝑖𝑚𝑏𝑜𝑟𝑎𝑧𝑜 =8639
61441𝑥100 = 8.61
𝐸𝑠𝑚𝑒𝑟𝑎𝑙𝑑𝑎𝑠 =6569
61441𝑥100 = 10.69
𝐺𝑢𝑎𝑦𝑎𝑠 =17139
61441𝑥100 = 27.9
𝑃𝑖𝑐ℎ𝑖𝑛𝑐ℎ𝑎 =9612
61441𝑥100 = 15.64
𝑇𝑢𝑛𝑔𝑢𝑟𝑎ℎ𝑢𝑎 =3334
61441𝑥100 = 5.43
PROVINCIAS AREAS (Km2) PORCENTAJE %
AZUAY 8639 14,06
BOLIVAR 3254 5,30
CAÑAR 3908 6,36
CARCHI 3699 6,02
CHIMBORAZO 5287 8,61
ESMERALDAS 6569 10,69
GUAYAS 17139 27,90
PICHINCHA 9612 15,64
TUNGURAHUA 3334 5,43
∑= 61441 100,00 Tabla 3 Porcentajes correspondientes a cada área de provincia
8
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CÁLCULO PARA LA OBTENCIÓN DE PORCENTAJES DENTRO DE UNA
GRÁFICA TIPO PASTEL
c) Se calcula los grados a los que les corresponder cada área calculada dentro de la
circunferencia (Grafica de pastel)
𝐴𝑧𝑢𝑎𝑦 =14.06
100𝑥360° = 50.62
𝐵𝑜𝑙𝑖𝑣𝑎𝑟 =5.3
100𝑥360° = 19.07
𝐶𝑎ñ𝑎𝑟 =6.36
100𝑥360° = 22.9
𝐶𝑎𝑟𝑐ℎ𝑖 =6.02
100𝑥360° = 21.67
𝐶ℎ𝑖𝑚𝑏𝑜𝑟𝑎𝑧𝑜 =8.61
100𝑥360° = 30.98
𝐸𝑠𝑚𝑒𝑟𝑎𝑙𝑑𝑎𝑠 =10.69
100𝑥360° = 38.49
𝐺𝑢𝑎𝑦𝑎𝑠 =27.9
100𝑥360° = 100.42
𝑃𝑖𝑐ℎ𝑖𝑛𝑐ℎ𝑎 =15.64
100𝑥360° = 56.32
𝑇𝑢𝑛𝑔𝑢𝑟𝑎ℎ𝑢𝑎 =5.43
100𝑥360° = 149.53
Para graficar cada uno de los ángulos calculados se deberá utilizar un graduador
y representarlo sobre su gráfica.
9
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
GRÁFICO DE BARRAS
Dentro de la representación grafica de barras se tiene:
Según a orientación.- Vertical u Horizontal
Según su tipo.- Pueden ser Sencillo, agrupados y apilados
HISTOGRAMA
Un histograma permite comparar valores con respecto a una variable cualitativa y
una cuantitativa. Esta no se ve limitada por el número de variables, ya que su
comparación la una de la otra no depende del espacio utilizada por otra variable
en comparación al grafico de pastel. La orientación de estos gráficos se puede
mostrar de manera vertical u horizontal según convenga ver figura 1 y 2
respectivamente.
Gráfico de barras Sencillos.- Para este tipo de gráfico el orden de la distribución de
variables se muestra como la figura 1 con una única serie de datos.
AZUAY
14%BOLIVAR
5%
CAÑAR
6%
CARCHI
6%
CHIMBORAZ
O
9%ESMERALDAS
11%
GUAYAS
28%
PICHINCHA
16%
TUNGURAHU
A
5%
ÁREAS (Km2)
10
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Figura. 1 Gráfico de barras sencillo con una única serie de datos con la variable cuantitativa en
sentido vertical
Figura. 2 Grafico de barras sencillo con una única serie de datos con a variable cuantitativa en
sentido vertical
Gráfico de barras agrupado.- Este tipo de gráfico es utilizado para comparar los
valores de ciertas variables conforme al tiempo y las demás variables.
En la tabla 4 se tiene los datos de población de la provincia de Tungurahua según
el censo del 2010 y se la compara con la del censo del 2001
02000400060008000
1000012000140001600018000
AREAS (Km2)
AREAS (Km2)
0 2000 4000 6000 8000 10000 12000 14000 16000 18000
AZUAY
BOLIVAR
CAÑAR
CARCHI
CHIMBORAZO
ESMERALDAS
GUAYAS
PICHINCHA
TUNGURAHUA
AREAS (Km2)
11
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Rango de edad
Año 2001
% Año 2010 %
95 a mas 1098 0,2 398 0,1
90 a 94 1275 0,3 1207 0,2
85 a 89 2764 0,6 3163 0,6
80 a 84 4550 1,0 5612 1,1
75 a 79 6850 1,6 7867 1,6
70 a 74 8606 2,0 10581 2,1
65 a 69 10372 2,4 13675 2,7
60 a 64 12470 2,8 15761 3,1
55 a 59 13602 3,1 18951 3,8
50 a 54 17837 4,0 21629 4,3
45 a 49 19456 4,4 26371 5,2
40 a 44 23705 5,4 28966 5,7
35 a 39 27678 6,3 32874 6,5
30 a 34 30367 6,9 37189 7,4
25 a 29 33298 7,5 42233 8,4
20 a 24 41475 9,4 45622 9,0
15 a 19 45287 10,3 49701 9,8
10 a 14 47913 10,9 49194 9,7
5 a 9 48158 10,9 48391 9,6
0 a 4 44273 10,0 45198 9,0
441034 100,0 504583 100,0
Tabla 4 Tabla de población según el INEC 2010 vs 2001
Figura. 3 Grafico de barras vertical agrupado de población de Tungurahua
0
10000
20000
30000
40000
50000
95 a
ma
s
90 a
94
85 a
89
80 a
84
75 a
79
70 a
74
65 a
69
60 a
64
55 a
59
50 a
54
45 a
49
40 a
44
35 a
39
30 a
34
25 a
29
20 a
24
15 a
19
10 a
14
5 a
9
0 a
4
Población de la pronvincia de
Tungurahua
Año 2001 Año 2010
12
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Figura. 4 Grafico de barras horizontal agrupado de población de Tungurahua
Como se pude apreciar en la figura 3 y 4, el grafico de barras agrupado, muestra
la asociación de la misma variable, en este caso el rango de la edad en años
diferentes, los cuales muestran valores de rango de edad en periodos diferentes,
este grafico permite comparar los valores de la misma variable en diferentes
periodos, lo que nos permite apreciar de manera visual el aumento de la población
con respecto al año anterior.
POLIGONOS DE FRECUENCIA
El polígono de frecuencia nace de un histograma y de la unión de sus puntos
medios, tal y como se muestra en la siguiente figura.
Poner grafico aqui
EJERCICIOS
1. La siguiente tabla muestra un promedio del rendimiento en consumo de diésel
en 50 viajes de la ruta Quito Guayaquil de Transportes Baños. Construir un
Histograma y un polígono de frecuencia.
KILOMETROS
POR LITRO
NÚMERO
DE VIAJES
4.50 3
0 10000 20000 30000 40000 50000 60000
95 a mas
85 a 89
75 a 79
65 a 69
55 a 59
45 a 49
35 a 39
25 a 29
15 a 19
5 a 9
Población de la pronvincia de
Tungurahua
Año 2010 Año 2001
13
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
5.50 8
6.50 9
7.50 11
8.50 8
9.50 7
10.50 4
Tabla 5
2. En las elecciones de 2014 para Alcaldes, se obtuvieron los siguientes resultados en el cantón
Ambato, correspondiente a la provincia de Tungurahua. Elaborar un gráfico de pastel.
PARTIDO PORCENTAJE (%)
PRIAN 33.59%
PAIS 53.31%
MPD 7.15%
SUMA 0.62%
PACHACUTIK 1.01%
PSC 0.00%
PRE 0.01%
PPBC 1.26%
OTROS 0.00%
NULOS 2.85%
Tabla 6
3. La elecciones 2014 para alcaldes, en Ecuador, arrojaron las siguientes cifras:
CANDIDATO PARTIDO VOTOS PORCENTAJE
VOTOS
Luis Amoroso Avanza 151,739 36.66%
Alexis Sánchez Alianza País 100,951 24.38%
Javier Altamirano CCJM 153,949 37.18%
Otros 7,314 1.78%
Tabla 7
Votos Totales = 413,953
Padrón Electoral= 817,466
Elaborar un gráfico de pastel, para representar la información de la tabla mostrada.
14
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
4. En la Unidad Educativa Bolívar, la distribución de grupos y su correspondiente cantidad de
alumnos, era la siguiente en los turnos matutino y vespertino, en el ciclo escolar septiembre 2005 a
junio 2006.
TURNO MATUTINO TURNO VESPERTINO
GRUPO ALUMNOS GRUPO ALUMNOS
1 AP 44 1 CP 42
1 BP 44 1 DP 43
1 AM 44 1 EP 42
1 BM 44 1 FP 44
1 AT 44 1 CM 41
3 AP 38 1 DM 37
3 BP 40 1 BT 40
3 CP 38 1 SFT 52
3 AM 39 3 DP 40
3 BM 38 3 EP 40
5 AP 36 3 CM 35
5 BP 31 3 SFT 18
5 CP 32 5 DP 26
5 AM 52 5 CM 47
Tabla 8
Representar gráficamente, tanto en Histograma y polígono de frecuencias como en gráficos de pastel.
5. La tabla mostrada, representa las temperaturas de algunas ciudades del Ecuador. Se dan a conocer
las máximas y las mínimas en centígrados (°C). La información corresponde al día domingo 21 de
abril de 2006.
CIUDAD MAXIMA(°C) MINIMA(°C)
Ambato 20 10
Quito 19 12
Atacames 19 13
Salinas 19 9
Puyo 26 10
15
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Cuenca 23 12
Huaquillas 27 13
Esmeraldas 34 15
Babahoyo 33 15
Manta 32 14
Guayaquil 35 16
Portoviejo 29 15
Tabla 9
Construir un Histograma y un polígono de frecuencias, tanto para las temperaturas máximas como
para las mínimas.
6.- La nómina de los estudiantes de un curso de dibujo de la tabla 10 arroja las siguientes
calificaciones.
NOMBRES DEBERES TRABAJOS
LEONEL FERNANDO 8.3 9.3
DANNY ISRAEL 7.7 7.7
FRANCIS ANDRES 5.4 8.2
ADRIANA ELIZABETH 9.4 9.5
CYNTHIA ALEJANDRA 8.7 9.4
JHONATAN LUIGGY 9.0 7.7
PABLO MARCELO 2.0 6.5
WILSON ALEXANDER 8.4 8.5
MARLON ALEXIS 9.5 4.7
JORGE FERNANDO 9.8 9.2
DARWIN ISRAEL 7.6 8.0
JAIME OMAR 2.5 6.0
CHRISTIAN FERNANDO 3.0 5.7
FERNANDO ISRAEL 8.4 8.7
FERNANDA ELIZABETH 7.5 8.3
OLVER FELIPE 6.0 8.0
MERCEDES ELIZABETH 8.9 8.7
EDISON LENIN 7.9 7.8
HENRY VINICIO 9.4 8.8
FRANKLIN JAVIER 9.0 8.8
FERNANDO JOEL 8.5 8.0
DARWIN ALCIDES 2.8 4.0
JUANA GABRIELA 9.6 9.8 Tabla 10
16
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Realice un histograma de frecuencias acumuladas con cada una de los alumnos.
7.- La tabla 11 muestra un historial de repeticiones con su Throughput “TH” (Cantidad promedio de
productos no defectuosos producidos por unidad de tiempo)
Repeticiones TH Sistema
Actual
1 18
2 32
3 26
4 15
5 33
6 27
7 17
8 27
9 35
10 24
11 31
12 34
13 22
14 27
15 22
Tabla 11
Realice un histograma con los datos de la tabla 11
8.- El tiempo requerido por 50 diferentes empleados para realizar un mismo trabajo fue medido con
el siguiente resultado:
Em
ple
ad
o
Tiempo
(min)
Em
ple
ad
o
Tiempo
(min)
Em
ple
ad
o
Tiempo
(min)
Em
ple
ad
o
Tiempo
(min)
Em
ple
ad
o
Tiempo
(min)
1 0.01 11 0.26 21 0.53 31 1.03 41 2.03
2 0.02 12 0.34 22 0.54 32 1.1 42 2.03
3 0.04 13 0.35 23 0.63 33 1.28 43 2.16
4 0.05 14 0.36 24 0.66 34 1.42 44 2.62
5 0.1 15 0.36 25 0.79 35 1.49 45 2.67
17
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
6 0.15 16 0.38 26 0.8 36 1.5 46 2.81
7 0.17 17 0.39 27 0.8 37 1.73 47 3.53
8 0.21 18 0.45 28 0.82 38 1.8 48 4.29
9 0.24 19 0.48 29 0.9 39 1.88 49 4.91
10 0.26 20 0.53 30 1 40 1.9 50 5.5
Realice un histograma con los datos de la tabla
9.-Se desarrolló un modelo de cuerda con siete fibras de Nylon de diferente diámetro, el mismo que
soporto una carga en Newton de 18.9; 22.0; 19.4; 22.1; 19.8; 21.9; 20.2, respectivamente. Elabore
una gráfica tipo pastel para cada una de las fibras y señale cual es la que soporto mayor carga en
Newton.
10.-En una fábrica de producción de cocinas se tiene tres líneas de producción, la primera produce
cocinas del tipo A eléctricas con 50 Unidades por mes, la segunda línea produce cocinas a gas del
tipo A cantidad 35 Unidades por mes y la tercera produce calefones del tipo A con 45 Unidades por
mes, el dueño de la empresa necesita leer los datos en un diagrama tipo pastel.
18
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPÍTULO 2: FRECUENCIAS Y DISTRIBUCIONES
Al obtener datos producto de un levantamiento de información, es recomendable resumirlos o
agruparlos de manera que si existen valores con la misma cantidad o pertenecientes a un rango, estos
sean representados por su frecuencia, a esta recolección de datos también se la conoce como fila de
datos.
Frecuencia.-Es la cantidad asignada a un valor sea este un nombre o un número. Ejemplo. Existen 4
chaquetas de color café, 5 chaquetas de color blanco y 10 chaquetas de color azul.
CHAQUETAS Frecuencia
Color café 4
Color blanco 5
Color azul 10
Orden.- Al recoger información de una cierta muestra es recomendable ordenarla de manera
ascendente o descendente según convenga.
Rango.-Es la diferencia entre el mayor y el menor valor de un conjunto de número ordenados.
Tomando como modelo el ejemplo anterior, el rango entre las chaquetas de color es: 10-4=6
Datos no agrupados.-Estos datos son los obtenidos por el levantamiento o recolección de
información los cuales pueden estar o no ordenados (variable aleatoria).
Ejemplo. Las edades de 30 personas están representadas en la siguiente tabla
10 8 15 22 12 22
10 14 21 21 16 18
16 26 30 25 8 30
17 20 24 35 16 27
8 17 21 10 25 30 Tabla 12
Datos agrupados.-Estos datos se obtienen producto de un orden establecido por la persona que
someterá a estudio dichos datos. Ejemplo. Las edades de 30 personas del ejemplo anterior están
representadas en la siguiente tabla.
Edades (años) Frecuencia (f)
8 3 10 3 12 1 14 1
Límite Inferior (Li)
Límite superior
(Ls)
19
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
15 1 16 3 17 2 18 1 20 1 21 3 22 2 24 1 25 2 26 1 27 1 30 3 35 1
Tabla 13
Distribución de Frecuencias.- Una distribución de frecuencias es una tabla en la cual se agrupa en
clases los valores posibles para una variable y se registra el número de valores observados que
corresponde a cada clase.
En la tabla se agrupa en clase los valores posibles de una variable y se registra el número de valores
observados que corresponde a una clase
Número de clase.- El número de clase, es la división en la cual podemos ordenar la toma de datos
obtenidos en campo. Una fórmula de aproximación para calcular el número de clases es la llamada
Regla de Sturges, la cual matemáticamente se define como:
no = 1 + 3.32log (n)
Dónde:
no = total de número de clases
n = total de datos obtenidos en campo.
log = logaritmo de Briggs.
Amplitud de clase.- Es el valor que se le aumenta a la cantidad menor de los datos o valores
Obtenidos, para así elaborar las distribuciones de frecuencia, matemáticamente se expresa:
𝐴 =𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛
𝑛𝑜
20
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Dónde:
Vmax = valor máximo de los datos obtenidos en campo.
Vmin = valor mínimo.
no = número de clases.
El resultado final de la amplitud de clase debe estrictamente obtenerse en número entero; en caso
contrario deberá redondearse, si el decimal es mayor a 0.5 se aumentara una unidad al resultado
obtenido.
Intervalos de clase Indica el rango de los valores incluidos dentro de una clase y puede ser
determinado restando el límite exacto inferior de clase de su límite exacto superior.
Marca de dase.-La marca de clase es un punto medio del intervalo de clase y se obtiene promediando
los límites inferior y superior de clase. La marca de clase se denomina también punto medio de la
base. Generalmente se representa por x. ver tabla 15
Frecuencia.- Se define como el número de veces en que se repite un suceso y se representa por la
letra f.
Histograma.-Un Histograma o Histograma de frecuencias, consiste en un conjunto de rectángulos,
que pueden ser:
(a) Con bases en el eje x horizontal, centros en las marcas de clase y longitudes iguales a los tamaños
de los intervalos de clase.
(b) Áreas proporcionales a las frecuencias de clase.
Polígono de Frecuencias. Es un gráfico de trozos de la frecuencia de clase con relación a la marca de
clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del
Histograma.
Distribuciones de Frecuencias Relativas.- La frecuencia relativa de una clase es su frecuencia
dividida por la frecuencia total de todas las clases y se expresa generalmente como un porcentaje, por
lo tanto la suma de las frecuencias relativas de todas las clases es 100%. Si se acumulan las frecuencias
relativas de varias clases, a la tabla obtenida, se le llama "tabla de frecuencia relativas".
Comentado [WU1]: Este párrafo de cambiar de orden
21
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝑓𝑟 =𝑓𝑟
∑𝑓𝑟𝑇
Donde:
Fr.-frecuencia relativa
∑𝑓𝑟𝑇.-Sumatoria total de frecuencias relativas
Distribuciones de Frecuencias Acumuladas.- La frecuencia total de todos los valores menores que
la frontera de clase superior de un intervalo de clase dado se llama frecuencia acumulada hasta ese
intervalo de clase. Una tabla que presenta varias frecuencias acumuladas se llama "tabla de
frecuencias acumuladas". A las distribuciones de frecuencias acumuladas también se les conoce como
"ojivas". Esta tabla nos sirve para ver el comportamiento que tiene una variable respecto de otra,
debido a que su valor es la suma de acumulada de las variables anteriores.
Curvas de Frecuencia.- Los datos obtenidos pueden considerarse usualmente como pertenecientes
a una muestra de una población grande. Ya que son posibles muchas observaciones sobre esa
población, siendo posible escoger intervalos de clase muy pequeñas y tener todavía números
razonables en cada clase.
Ejemplo 1. Los datos siguientes representan el tiempo que tarda un autobús de la cooperativa Unión
en la línea 8, en recorrer del punto A al punto B. El tiempo se mide en minutos y en promedio se
realiza 60 recorridos por día. Elaborar una tabla de registro de datos, además construir el Histograma
y polígonos de frecuencias respectivos. El tiempo corresponde al recorrido de dicha ruta.
75 71 68 67 72 70 69 78 64 71
74 72 66 69 73 76 68 70 70 73
62 67 65 72 74 75 65 77 66 71
67 82 79 78 78 64 64 63 68 69
64 80 80 81 82 66 65 69 67 62
71 70 77 74 71 74 75 75 76 77
Tabla 14
Solución.
Comentado [WU2]: CAMBIAR DE ORDEN
22
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Primeramente se localizan los números mayor y menor.
Valor máximo=82 Valor mínimo=62
Calculando el número de clases: no = 1 + 3.32log n
n = número de datos; n = 60 Sustituyendo:
no = 1 + 3.32log60
no = 1 + 5.9035
no = 6.9035
La Amplitud de clase:
𝐴 =𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛
𝑛𝑜
𝐴 =82 − 62
6.9035
A = 2.90
Hay que recordar que por definición el valor de la amplitud de clase debe representarse en números
enteros, por lo tanto:
A = 3.0
Tabla de Registro de Datos: Distribución de Frecuencias Relativas y Acumuladas
Intervalos
de clase
Marca de
clase Frecuencia Frecuencia
X Relativa Acumulada
fr Fa
62 - 65 63.5 10 10
66 - 69 67.5 14 24
70 - 73 71.5 14 38
74 - 77 75.5 13 51
78 - 81 79.5 7 58
82 - 85 83.5 2 60 Tabla 15
Ejemplo 2.Segun las estadísticas del INEC (instituto ecuatoriano de estadísticas y censos) del año
2010, los porcentajes de analfabetismo por provincia fueron:
23
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
# Provincia Tasa de
Analfabetismo por Provincias
1 Galápagos 1,3%
2 Pichicha 3,5%
3 El oro 4,1%
4 Guayas 5,0%
5 Santa Elena 5,2%
6 Zamora Chinchipe 5,5%
7 Loja 5,8%
8 Carchi 6,2%
9 Napo 6,3%
10 Santo Domingo 6,3%
11 Orellana 6,5%
12 Morona Santiago 6,6%
13 Azuay 6,7%
14 Sucumbíos 6,8%
15 Pastaza 6,9%
16 Tungurahua 7,5%
17 Los Ríos 9,3%
18 Esmeraldas 9,8%
19 Manabí 10,2%
20 Imbabura 10,6%
21 Zonas no delimitadas
12,0%
22 Cañar 12,2%
23 Chimborazo 13,5%
24 Cotopaxi 13,6%
25 Bolívar 13,9% Tabla 16
(a) Construir una tabla de frecuencias relativas y acumuladas.
(b) Construir un Histograma y polígono de frecuencias.
Solución:
Valor máximo=13.9 Valor mínimo=1.3
Número de clases: no = 1 + 3.32log n donde n =25
no = 1 + 3.32log25
no = 1 + 4.64
24
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
no = 5.64=6
La Amplitud de clase: A
𝐴 =13.9 − 1.3
6
A = 2.196
INTERVALOS
# Clases
Li Ls frecuencia Relativa Fr
1 1.3 3.4 1
2 3.4 5.5 5
3 5.5 7.6 14
4 7.6 9.7 14
5 9.7 11.8 16
6 11.8 13.9 19
Tabla de Registro de Datos: Distribución de Frecuencias Relativas y Acumuladas
2. TIPOS DE CURVAS DE FRECUENCIA
Las curvas de frecuencia que aparecen, en la práctica adoptan ciertas formas características, como
se ilustra en las siguientes figuras.
Simetría en forma de campana
25
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
a) Las curvas de frecuencias simétricas o en forma de campana (1), se caracterizan porque las
observaciones equidistantes del máximo central tienen la misma frecuencia. Un ejemplo importante
es la curva normal.
b) En las curvas de frecuencias poco asimétricas o sesgadas (2 y 3), la cola de la curva a un lado
del máximo central es más larga que al otro lado. El sesgo de la cola puede ser a la derecha o
hacia la izquierda.
c) En una curva en forma de 'J' o de 'J invertida' (4 y 5), hay un máximo en un extremo.
d) Una curva de frecuencia en forma de 'U' tiene máximos en ambos extremos.
e) Una curva de frecuencia bimodal (6) tiene dos máximos.
f) Una curva de frecuencia multimodal (7) tiene más de dos máximos.
26
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
GRÁFICOS DE PASTEL
Los gráficos de pastel son especialmente apropiados para ilustrar las divisiones de una cantidad total,
tal como la distribución de los egresos o los ingresos de una empresa. Un gráfico de pastel en
porcentajes es aquella en la que los valores se convierten en porcentajes para que resulte más fácil
compararlos.
Ejemplo 3. De acuerdo a un sondeo a egresados de la Facultad de Administración y Negocios de la
Universidad del Sur de California (USC) de Los Ángeles, los siguientes datos representan el número
de egresados por especialidad. Construir un gráfico de pastel.
ESPECIALIDAD GRADUADOS PORCETAJE EGRESADOS
(%)
ANGULO Grados (°)
Contador Fiscal 73 28.85 104
Finanzas 52 20.55 74
Gerencia 36 14.23 51
Mercadotecnia 64 25.30 91
Otros 28 11.07 40
TOTAL 253 100 % 360°
CALCULO PAREA LA OBTENCIÓN DE LOS ÁNGULOS
𝐶𝑜𝑛𝑡𝑎𝑑𝑜𝑟 =28.85
100𝑥360° = 103.86
𝐹𝑖𝑛𝑎𝑛𝑧𝑎𝑠 =20.55
100𝑥360° = 73.98
𝐺𝑒𝑟𝑒𝑛𝑐𝑖𝑎 =14.23
100𝑥360° = 51.23
𝑀𝑒𝑟𝑐𝑎𝑑𝑜𝑡𝑒𝑐𝑛𝑖𝑎 =25.03
100𝑥360° = 91.08
𝑂𝑡𝑟𝑜𝑠 =11.07
100𝑥360° = 39.85
27
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Ejemplo 4. De acuerdo a un estudio de Mercado sobre preferencias en los medios masivos de
comunicación, haciendo referencia a la televisión pagada de los ecuatorianos. Los porcentajes de cada
televisora corresponden al horario “DRTV PLUS”de 9:00 a 11:00 de la noche. Elaborar un gráfico
de pastel con datos del estudio realizado entre septiembre de 2011 y abril de 2012
TELEVISORAS PORCETAJE AUDIENCIA
(%)
ANGULO Grados (°)
CBS 23.00 83
ABC 20.00 72
NBC 18.00 65
FOX 11.00 40
Otros 28.00 100
TOTAL 100.00 360°
CÁLCULO PAREA LA OBTENCIÓN DE LOS ÁNGULOS
𝐶𝐵𝑆 =23.00
100𝑥360° = 103.86
𝐴𝐵𝐶 =20.00
100𝑥360° = 73.98
𝑁𝐵𝐶 =18.00
100𝑥360° = 51.23
Contador
Fiscal
29%
Finanzas
21%
Gerencia
14%
Mercadotec
nia
25%
Otros
11%
GRADUADOS
28
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝐹𝑂𝑋 =11.00
100𝑥360° = 91.08
𝑂𝑡𝑟𝑜𝑠 =28.00
100𝑥360° = 39.85
PROBLEMAS PROPUESTOS
1. Con el siguiente grupo de números 13, 57,43, 22, 6, 19, 11, 9, 62, 35, 66, 24:
(a) Ordenar de menor a mayor.
(b) Hallar el intervalo de clase.
2. Los siguientes datos representan el número de clientes en el Restaurante "El lince" en los dos
primeros meses de 2006
140 130 125 90 60 140 160 125 180 140
125 90 130 75 62 70 80 45 62 72
95 64 80 92 115 80 30 84 40 75
110 115 130 90 70 125 95 64 72 130
70 95 50 115 120 60 180 130 70 60
130 60 30 140 40 80 110 115 120 130
CBS
23%
ABC
20%
NBC
18%
FOX
11%
Otros
28%
PORCETAJE AUDIENCIA (%)
29
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Encontrar:
(a) El valor máximo
(b) El valor mínimo
(c) El rango
(d) Los siete mayores
(e) Los siete menores
(f) El treceavo en forma ascendente (de menor a mayor)
(g) Los días en que el número de clientes supera los tres dígitos
(h) Los días en que el número de clientes solo llego a los dos dígitos
(i) Construir una tabla de registros de datos (Distribución de Frecuencias)
(j) Construir un Histograma y el polígono de frecuencias
(k) Construir un polígono de frecuencias acumuladas
3. De acuerdo a la Secretaría de Turismo de Ecuador los siguientes son los principales hoteles con
mayor número de cuartos, en la "Ciudad de Baños". Construir un gráfico de pastel con el porcentaje
de cuartos que cobre cada uno de los hoteles de la ciudad de Baños
HOTEL # CUARTOS HOTEL # CUARTOS
Samari Spa Resort 1426 Luna Runtun Adventure Spa 2024
Napolitano Apart & Hotel 2700 Hosteria Finca Chamanapamba 3991
Miramelindo Spa Hotel 1350 Hotel Sangay 3479
La Floresta Hotel 2891 Volcano Hotel 2700
Hotel Puerta del Sol 5034 Hotel Alisamay 1720
Hotel el Belen 3003 Hostal Familiar Las Granadillas 1878
30
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Casa Amarilla 4400
PROBLEMAS PARA RESOLVERSE EN EQUIPO
4. En equipos de 4 personas, realizar lo siguiente:
(a) Lanzar 4 monedas 50 veces y anotar el número de "sellos" obtenidos en cada ocasión.
(b) Construir una distribución de frecuencias que indique el número de veces que se han obtenido
0,1, 2, 3 y 4 "sellos".
(c) Construir una distribución de porcentajes correspondientes a la parte del inciso anterior.
(d) Comparar el porcentaje obtenido en (c) con los teóricos 6.25%, 25%, 37.5%, 25% y 6.25%,
deducidos por las leyes de las probabilidades.
5. Los siguientes datos representan el número de horas ante grupo de un total de 40 Maestros
(Catedráticos) del CONALEP Mexicali II, son horas durante una semana.
20 5 12 3 14 18 20 17 5 13
17 15 16 11 12 5 13 16 12 3
8 13 13 12 5 8 8 14 17 17
13 11 9 18 20 15 12 8 14 20
(a) Construir una tabla de Registro de Datos.
(b) Construir un Histograma de polígonos de frecuencia.
(c) Construir un polígono de frecuencias acumuladas.
6. Hasta el día 12 de Mayo de 2006, así se encontraban las estadísticas del campeonato nacional de
futbol Profesional:
31
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
EQUIPO GANADOS PERDIDOS
Liga de quito 21 13 Nacional 19 13
Bacerlona 19 15
Emelec 15 20
Deportivo Quito 14 21
Independiente 23 10
Macara 21 13
Técino 17 18
Cuenca 15 19
Manta 10 22
Espoli 18 17
Liga de loja 17 17
(a) Construir un Histograma de los juegos ganados
(b) Construir un Histograma de los juegos perdidos
(c) Construir un Histograma de los juegos ganados y perdidos
7. Los trasatlánticos más grandes que han existido se enlistan en la siguiente tabla:
(a) Construya un gráfico de pastel con respecto al tonelaje de los barcos.
BARCO EMPRESA TONELADAS MODELO
Titanic White Star 46,329 1912
Queen Elizabeth 2 Cunard 70,327 1969
Queen Mary 2 Cunard 151,400 2004
Freedom of the seas Royal Caribbean 160,000 2006
8. Los siguientes datos indican el número de trabajadores que faltan a una fábrica en 50 días de
trabajo:
13 5 13 37 10 16 2 11 6 12
8 21 12 11 7 7 9 16 49 18
32
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
3 11 19 6 15 10 14 10 7 24
11 3 6 10 4 6 32 9 12 7
29 12 9 19 8 20 15 5 17 10
(a) Hallar los cinco valores mayores.
(b) Hallar los cinco valores menores.
(c) Construir una tabla de Registro de Datos (Distribución de Frecuencias).
(d) Construir un Histograma y Polígono de frecuencias.
(e) Construir un Polígono de frecuencias acumuladas.
9. Las mediciones de la temperatura de licuación de un gas varían de 1161 a 1319°F (grados
Fahrenheit). Construir una tabla con ocho clases iguales en las cuales estos datos podrían ser
Agrupados. Calcular:
(a) Los límites de clase
(b) Las fronteras de clase
(c) Las marcas de clase
(d) El intervalo de clase
10. La siguiente tabla se basa en datos publicados en los Indicadores Económicos del Banco de
Central del Ecuador, y son datos preliminares correspondientes a diciembre de 1988. Construir una
gráfica de pastel porcentual de las exportaciones de Ecuador
CATEGORIA DE CANTIDAD
EXPORTACION (millones de dólares)
Petroleras 560.10
Agropecuarias 143.00
Extractivas 49.90
Manufactureras 951.10
.
33
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPITULO 3: MEDIDAS DE TENDENCIA CENTRAL
Un promedio es un valor típico o representativo de un conjunto de datos, como tales valores suelen
situarse hacia el centro del conjunto de datos ordenados por magnitud, los promedios se conocen
como medidas de tendencia central.
Se definen varios tipos, siendo los más comunes la media aritmética, la mediana, la moda y la media
geométrica. Cada uno tiene ventajas y desventajas, según los datos y el objetivo perseguido.
MEDIA ARITMETICA (�̅�)
La media aritmética o promedio aritmético, se define como la división de la suma de todos los valores
entre el número de valores.
En Estadística es normal representar una medida descriptiva de una población, o parámetro
poblacional, generalmente mediante letras griegas, en tanto que se utilizan letras romanas para las
medidas descriptivas de muestras, conocidas también como "Estadísticas Muestrales".
La media aritmética, matemáticamente se expresa:
�̅� =∑ 𝑥𝑖
𝑛𝑖=1
𝑛
�̅� =𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑛
Dónde:
(�̅�) = media aritmética.
xi= suma total de datos que componen la población o muestra.
n = número de datos de la población o tamaño de la muestra.
Ejemplo1. Calcular la media aritmética de los números: 9, 4, 6, 13 y 11
34
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
�̅� =𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 + 𝑥6
𝑛
�̅� =9 + 4 + 6 + 13 + 11
5
(�̅�)=8.6
Notación de Suma.
El símbolo ∑ 𝑥𝑖𝑛𝑖=1 representará la suma de todos los xi desde i= 1 a i= n, por definición:
∑ 𝑥𝑖
𝑛
𝑖=1
= 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
Ejemplo 2. Escribir explícitamente los términos de la sumatoria:
∑ 𝑥𝑖
8
𝑖=1
= 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 + 𝑥6 + 𝑥7 + 𝑥8
Cálculo de la media aritmética para datos agrupados
�̅� =∑ 𝑓𝑖𝑥𝑖
𝑛𝑖=1
∑ 𝑓𝑖𝑛𝑖=1
Donde:
�̅� = media aritmética
fi = frecuencia
xi = marca de clase
n = número de datos de la población o tamaño de la muestra
Ejemplo 3. Calcular la media aritmética de los valores 6, 9, 7 y 3 si suceden con frecuencias de 4, 3,
5 y 2 respectivamente.
Marca de clase
x
Frecuencia
Relativa
f
6 4
9 3
7 5
3 2
35
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Ejemplo 4. Calcular la media aritmética de los valores mostrados en la tabla de distribución
Intervalos de clase
Marca de clase
x
Frecuencia
Relativa
f
Frecuencia Acumulada
fa
62 - 65 63.50 10 10
66 - 69 67.50 14 24
70 - 73 71.50 14 38
74 - 77 75.50 13 51
78 - 81 79.50 7 58
82 - 85 83.50 2 60
�̅� =63.5(10) + 67.5(14) + 71.5(14) + 75.5(13) + 79.5(7) + 83.5(2)
10 + 14 + 14 + 13 + 7 + 2
�̅� = 71.43
LA MEDIA ARITMETICA PONDERADA
La media aritmética ponderada a veces se asocia con los números x1, x2, x3, xk ciertos factores peso
o "de peso" w1,w2,w3.wk, dependientes de la relevancia asignada a cada número, entonces:
�̅� =∑ 𝑤. 𝑥
∑ 𝑤=
𝑤1𝑥1 + 𝑤2𝑥2 + 𝑤3𝑥3 + ⋯ + 𝑤𝑘𝑥𝑘
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤𝑘
Ejemplo 5. Si el examen final de Tópicos de Actualización cuenta tres veces más que una evaluación
parcial y un estudiante tienen calificación 85 en el examen final y, 70 y 90 en los dos parciales, la
calificación media es:
�̅� =∑ 𝑤. 𝑥
∑ 𝑤=
70(1) + 90(1) + 85(3)
1 + 1 + 3=
415
5= 83
LA MEDIANA (𝒙)̃
La mediana de un grupo de datos es el valor central o la media de los dos valores centrales que ocupa
un lugar de cuando se les agrupa a todos en ascendente o descendente. La mediana puede presentarse
de dos formas:
36
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
a) Cuando el total de datos son un número impar.- En este caso, la mediana será el dato que
queda exactamente en el centro, una vez ordenados los datos de menor a mayor.
Ejemplo 6. Hallar la mediana de: 6, 4, 8, 8, 3, 4, 8
Ordenando se tiene: 3, 4, 4, 6, 8, 8, 8
Luego entonces (𝑥)̃ = 6
Cuando el total de datos son un número par. Aquí debemos aplicar la siguiente fórmula:
�̃� =
𝑥(
𝑛2)
+𝑥(
𝑛2
+1)
2
Dónde:
N=número total de datos
Hallar la mediana del conjunto de números:
3, 6, 10, 11, 10, 11, 3, 13, 19, 10, 12, 8,
n = 12 , luego se acomodan de forma que se encuentren ordenados de menor a mayor
3, 3, 6, 8, 10, 10, 10, 11, 11, 12, 13, 19
�̃� =
𝑥(
122 )
+𝑥(
122
+1)
2
�̃� =𝑥6+𝑥7
2
�̃� =10 + 10
2
�̃� = 10
LA MODA ( �̂�)
La Moda de un conjunto de números es el valor que sucede con mayor frecuencia, es decir, el valor
más frecuente. La moda puede no existir, o incluso no ser única en caso de existir; si existe dos veces,
se llama bimodal.
37
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Ejemplo 8. Hallar la moda del siguiente grupo de datos:
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18
Una vez ordenados de menor a mayor, el número que más veces se repite es el 9. La moda es 9.
En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los
datos, la moda será el valor o valores de “ x ” correspondiente al máximo o “máximos” de la curva.
La moda puede deducirse de una distribución de frecuencias o de un histograma a partir de la fórmula:
�̂� = 𝑳𝟏 + (∆𝟏
∆𝟏 + ∆𝟐) 𝒄
L1 = Frontera inferior de la clase modal (clase que contiene la moda)
Δ1 = Exceso de frecuencia modal sobre la de la clase inferior inmediata
Δ2 = Exceso de la frecuencia modal sobre la clase superior inmediata
c = Ancho de intervalo de clase modal
CUARTILES DECILES Y PERCENTILES
CUARTILES.-Los cuartiles dividen un conjunto de datos (n) ordenados en cuatro partes iguales,
cada uno de los cuales toman un valor, Q1 para el primer cuartil toma el 25% de la muestra por debajo
de este y el 75% por encima de la muestra, Q2 para el segundo cuartil toma el 50% de la muestra por
debajo este y el 50% por encima de la muestra, el cuartil Q2 es igual a la mediana, Q3 para el segundo
cuartil toma el 75% de la muestra por debajo de la misma y el 25% por encima de la muestra; el
cálculo del cuarto cuartil no se lleva a cabo debido a que este toma el valor total de la muestra es decir
el 100%.
CÁLCULO DE CUARTILES PARA DATOS NO AGRUPADOS
Cuartiles cuando (n) es par.-Cuando se tiene un conjunto de datos en la cual su número de datos es
par, la fórmula a aplicarse para encontrarse la posición 𝐹𝑖es:
𝐹𝑖 =𝑖. 𝑛
4
38
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Dónde:
𝐹𝑖= Es la posición para el cuartil i=1,2, 3 ó 4
n= es el número total de datos
Li=Límite Inferior
Ls.-Límite superior
Las posiciones relativas que se tomaran para dicho conjunto cuando n es par serán:
Ejemplo:
De un termómetro se registraron las siguientes temperaturas 240 260 280 300 320 340 sus unidades
están en Grados celcius
Solución:
n= 6 par
1ro.- Se calcula la posición o ubicación para cada cuartil
𝐹1 =1. (6)
4= 1.5
𝐹2 =2. (6)
4= 3
𝐹3 =3. (6)
4= 4.5
39
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Para calcular el valor de dicho cuartil cuando n es par o impar se debe utilizar la fórmula de la
interpolación lineal
𝑄𝑖 = 𝐿𝑖 + 𝑖(𝐿𝑠 − 𝐿𝑖)
4
Donde:
Li=Límite inferior de la clase del cuartil
Ls.- Límite superior de la clase del cuartil
i-Toma los valores de 1,2,3 o 4 dependiendo de la ubicación del cuartil que se requiera hallar
𝑄1 = 240 + 1(260 − 240)
4= 245
𝑄2 = 280 + 2(300 − 280)
4= 290
Como el cuartil 2 es igual a la mediana se puede comprobar dicho valor de cuartil calculando el valor
de la mediana, bajo el concepto de que le media es el valor central o la media de los dos valores
centrales
𝑀𝑒𝑑 =(300 + 280)
2= 290
𝑄3 = 300 + 3(320 − 300)
4= 315
𝑄4 = 240 + 4(340 − 0)
4= 245
Cuartiles cuando (n) es impar.-Cuando se tiene un conjunto de datos en la cual su número de datos
es impar, la fórmula a aplicarse para encontrarse la posición 𝑃𝑖es:
𝐹𝑖 =𝑖. (𝑛 + 1)
4
Dónde:
𝐹𝑖= Es la posición para el cuartil i=1,2, 3 ó 4
n= es el número total de datos
40
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Las posiciones relativas que se tomaran para dicho conjunto cuando n es impar serán:
Para calcular el valor de dicho cuartil cuando n es par o impar se debe utilizar la fórmula de la
interpolación lineal
𝑄𝑖 = 𝐿𝑖 + 𝑖(𝐿𝑠 − 𝐿𝑖)
4
Ejemplo:
De la muestra anterior de temperaturas 240 260 280 300 320 340 se ha recogido una muestra adicional
más la cual marco 360, sus unidades están en Grados Celsius.
1ro calculamos la posición 𝐹𝑖
𝐹 =1. (7 + 1)
4= 2
𝐹2 =2. (7 + 1)
4= 4
𝐹3 =3. (7 + 1)
4= 6
Para obtener el valor de cada cuartil basta con ubicar la posición y tomar el valor asignado a la
posición, por ejemplo
Para la posición P1=2 tenemos el valor de Q1= 260
Para la posición P2=4 tenemos el valor de Q2= 260
Para la posición P3=6 tenemos el valor de Q3= 260
CUARTILES PARA DATOS AGRUPADOS
Para calcular los valores de cuartiles en datos agrupados se utiliza la siguiente formula
41
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝑄𝑖 = 𝐿𝑖 + (𝐹𝑖 − 𝐹𝑎𝑖
𝑓𝑐) ∗ 𝑐
𝐹𝑖 =𝑛 ∗ 𝑖
4
Donde:
Qi=Valor del cuartil para i=1,2 ó 3
Li=Límite inferior de la clase que contiene al cuartil
𝐹𝑖=Indica la posición de la medida
Fc=Frecuencia de clase que contiene a la medida solicitada
c=anchura de la clase
fai=Frecuencia acumulada anterior que contiene a la medida solicitada.
n=Número de datos
DIAGRAMA DE CAJA PARA CUARTILES
Para hacer más representativo la lectura e interpretación de los cuartiles se suele utilizar los diagramas
de caja conocidos también como “boxplots” o “box and whiskers” y describe varias características
importantes, al mismo tiempo, tales como la dispersión y simetría, consta de dos cajas y dos bigotes,
además de los siguientes elementos:
42
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Donde:
Ls.-Límite superior
Li.-Límite inferior
Lmin.-Límite mínimo
Lmax.-límite máximo
RIC.-Rango Inter Cuartílico (RECORRIDO INTERCURTILICO)
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre
un rectángulo, alineado horizontal o verticalmente.
Un Diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de
datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Ejemplo
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2
o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es
necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes
43
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
DECILES (Di)
Los decíles dividen un conjunto de datos ordenados “n” en diez partes iguales. Los decíles
generalmente son utilizados para efectos de ingresos de un país ya que dividen a una población en
diez partes iguales y se analiza cada decíl para la toma de decisiones del estado, esta muestra puede
ser el ingreso anual de la canasta básica, la cantidad de emigrantes por año, la tasa de natalidad del
país, o fijar el aprovechamiento académico etc.
DECILES PARA DATOS NO AGRUPADOS
Cuando n es par:
Para calcular o hallar el valor de cada decíl para un conjunto de datos no agrupado siempre que este
ordenado, se utiliza la siguiente forma.
1ro.-Hallar la posición de cada decíl
𝑃𝐾 =𝑛 ∗ 𝑖
10
Donde:
n=Número total de datos
i=Tomara los valores de 1,2, 3, 4, 5, 6, 7, 8 y 9 correspondiente para cada decíl.
2do.-Para determinar el valor de cada decíl se emplea la fórmula de la interpolación lineal.
𝐷𝑖 = 𝐿𝑖 + 𝑖(𝐿𝑠 − 𝐿𝑖)
10
Cuando n es impar:
1ro.-Determinamos la posición de cada decíl mediante la fórmula
𝐹𝑖 =𝑖. (𝑛 + 1)
10
2do.-Si es un número entero tomamos el valor directamente indicado por la posición, en caso de ser
un número decimal calculamos el valor de decíl mediante la fórmula de la interpolación lineal.
44
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝐷𝑖 = 𝐿𝑖 + 𝑖(𝐿𝑠 − 𝐿𝑖)
10
DECILES PARA DATOS AGRUPADOS
Cuando se presenta una tabla de datos agrupados de la cual se quiere hallar los decíles respectivos es
conveniente utilizar la siguiente formula:
𝐷𝑖 = 𝐿𝑖 + (𝑃𝑖 − 𝐹𝑎𝑖
𝑓𝑐) ∗ 𝑐
𝑃𝑖 =𝑛 ∗ 𝑖
10
Donde:
Di=Valor del decil 1,2, 3, 4, 5, 6, 7, 8 ó 9
Li=Límite inferior de la clase que contiene al Decíl solicitado.
𝐹𝑖=Indica la posición de la medida del Decíl.
Fc=Frecuencia de clase que contiene a la medida solicitada.
c=anchura de la clase.
fai=Frecuencia acumulada anterior que contiene a la medida solicitada.
n=Número de datos
PERCENTILES Pi
Los percentiles dividen un conjunto de datos ordenados “n” en 100 partes iguales, es una medida muy
útil para describir a una población. Es una medida de posición no central que nos dice cómo está
posicionado un valor respecto al total de una muestra.
45
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Para entender el concepto de percentil tomamos una muestra con muchos valores y la dividimos en
100 partes, cada una de ellas es un percentil. Y cada valor de la muestra estará en alguna de esas
cajitas percentiles. El percentil está referenciado de 0 a 100. El Percentil 0 es el menor valor de la
muestra y el Percentil 100 el mayor valor. Técnicamente PK es el percentil i-ésimo, donde la i toma
valores del 1 al 100. El i% de los valores de muestra son menores que ese Pi y el (100-i)% restante
son mayores.
Los percentiles sirven para relacionar un valor concreto de la variable (el peso de un niño, un salario,
una calificación, el tamaño de una empresa) con los restantes valores de esa variable en la misma
población. Se calculan en general –se estiman- con las frecuencias obtenidas de una muestra
suficientemente grande, representativa de la población de interés.
El percentil 50 es la mediana (la mitad de la población está por encima de la mediana, y la otra mitad
no). Los percentiles 25 y 75 son los cuartiles 1 y 3, que junto con la mediana dividen a la población
en cuatro partes con igual número o igual proporción de elementos.
A menudo se utiliza el percentil 1, 2 o 3 como límite de lo que se puede considerar excesivamente
bajo, y los opuestos, percentiles 97, 98 y 99 como límite de lo que se puede considerar muy alto.
RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Las diferencias entre los valores de la media, la mediana y la moda permiten saber la forma de la
curva de frecuencias en términos de asimetría.
a) Para una distribución unimodal simétrica, el valor de la media, la mediana y la moda es igual.
b) Para una distribución asimétrica positiva, la media es el mayor valor de los tres y la mediana es
mayor que la moda, pero menor que la media.
46
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
c) Para una distribución asimétrica negativa, la media es el menor valor de los tres y la mediana es
inferior a la moda, pero mayor que la media
d) El coeficiente de asimetría de Pearson, es una medida conocida de asimetría que utiliza la
diferencia observada entre la media y la mediana de un grupo de valores.
Los cuartiles, decíles y percentiles se parecen mucho a la media porque también subdividen una
distribución de mediciones de acuerdo con la proporción de frecuencias observadas. Mientras que la
mediana divide a la distribución en dos mitades, los cuartiles la dividen en cuatro cuartos, los decíles
en diez décimos y los puntos percentiles la dividen en cien partes. Matemáticamente, a manera de
ejemplo, se pueden expresar:
47
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPÍTULO 4: MEDIDAS DE DISPERSIÓN
La dispersión a variación de los datos intenta dar una idea de lo esparcido que se encuentra estos. Hay
varias medidas de tal dispersión, siendo las más comunes el rango, la desviación media, y la
desviación típica.
a) RANGO ( R )
El rango o recorrido de un conjunto de números es la diferencia entre el mayor y el menor de todos
ellos; es una medida de dispersión que no se utiliza mucho. Rango = R = xmax− xmin
Ejemplo 9. Encontrar el rango entre los siguientes valores:
a. R = 9.5 −1.5 = 8
b. R = 6 −1 = 5
Como 8>5, se dice que la variable en el primer histograma está más dispersa que en el segundo.
DESVIACION MEDIA (MD)
La desviación media o desviación promedio, de un conjunto de N números, x1, x2 , x3 ...xn es abreviada
por MD y se define como:
Donde:
x =media aritmética de los números
| xi − x |=valor absoluto de la desviación de xi respecto de x
n = número de datos de la población o tamaño de la muestra
Ejemplo ilustrativo 10. Hallar el rango del siguiente conjunto de datos.
2, 3, 3, 5, 5, 5, 8, 10, 12
xmax =12 xmin =2
R = xmax− xmin = 12 − 2 = 10
48
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Ejemplo11. Hallar la desviación media del siguiente conjunto de números. 2, 3, 6, 8, 11
�̅� =2 + 3 + 6 + 8 + 11
5= 6
�̅� =|2 − 6| + |3 − 6| + |6 − 6| + |8 − 6| + |11 − 6|
5= 2.8
VARIANZA (σ 2 ó S 2)
La varianza es similar a la desviación media porque se basa en la diferencia entre cada uno de los
valores del conjunto de datos y la media del grupo. La diferencia consiste en que antes de sumarlas,
se eleva al cuadrado cada una de las diferencias. Matemáticamente se expresa:
σ2= Varianza Poblacional
S2= Varianza Muestral
x = media aritmética.
i x = suma total de datos que componen la población
n = número de datos de la población o tamaño de la muestra
Ejemplo 12. En el mes de mayo, 8 vendedores de artículos electrónicos, vendieron los siguientes
números de aparatos: 8, 11, 5, 14, 8, 11, 16, 11, las cuales se realizaron en “INTELCOMP” en
Ambato. Encontrar la varianza.
�̅� =8 + 11 + 5 + 14 + 8 + 11 + 16 + 11
8= 10.5
49
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
DESVIACIÓN ESTANDAR (σ ó S )
En Estadística frecuentemente se aplica más la raíz cuadrada de la varianza a la cual se le llama
Desviación Estándar, representándose por σ para la población y S para una muestra. Las formulas
son:
Dónde:
σ = Desviación Estándar Poblacional
S = Desviación Estándar muestral
x = media aritmética.
i x = suma total de datos que componen la población
n = número de datos de la población o tamaño de la muestra
La desviación estándar es especialmente útil cuando se le utiliza junto con la denominada Distribución
Normal.
COMPROBACIÓN DE CHARLIER
La comprobación de Charlier en cálculos de la media y de la desviación típica por el método de
compilación hace uso de las identidades.
50
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
∑ 𝑓(𝑢 + 1) = ∑ 𝑓. 𝑢 + ∑ 𝑓 = ∑ 𝑓. 𝑢 + 𝑛
∑ 𝑓(𝑢 + 1)2 = ∑ 𝑓. (𝑢2 + 2𝑛 + 1) = ∑ 𝑓𝑢2 + 2 ∑ 𝑓. 𝑛 + ∑ 𝑓 = ∑ 𝑓. 𝑢2 + 2 ∑ 𝑓. 𝑢 + 𝑛
EJERCICIOS DE APLICACIÓN
1.-Anotar el término de la suma indicada
∑ 𝑓𝑗𝑋𝐽2
7
𝐽=1
2.- Escribir los términos de la suma indicada.
∑ 𝑉𝑗(𝑉𝐽 + 6)
4
𝐽=1
3.-Explicar en notación abreviada la suma.
(a) (X1 + 5)4 + (X2 + 5)4 + (X3 + 5)4 + (X4 + 5)4 + (X5 + 5)4
(b) g1 (X1 - a)2 + g2 (X2 - a)2 + g3 (X3 - a)2 +…+ g7 (X7 - a)2
4.- Expresar en notación abreviada de suma
(a) (4X1 - 6y1) + (4X2 - 6y2) + (4X3 - 6y3)+ (4X4 - 6y4) + (4X5 - 6y5) + (4X6 - 6y6) + (4X7 - 6y7) +
(4X8 - 6y8) + (4X9 - 6y9)
5.-Las calificaciones finales de los estudiantes del 2do semestre de la UTI en las asignaturas de
geometría y trigonometría fueron: 7, 5, 8 y 10. Hallar la media aritmética
6.- Los siguientes datos representan las 10 calificaciones de una muestra de un grupo de cuarto
semestre de Psicología de la UTI de Ensenada: 65, 66, 67, 68, 71,73,74,77, 77, 77.Hallar la media,
mediana, y moda (M).
7. En la siguiente tabla se muestra las edades de las motociclistas que han cometido faltas al
reglamento de tránsito del estado de Ecuador en el 2013:
51
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
17,38, 27, 14, 18, 34, 16, 42,28, 24, 40, 20,23, 31,37, 21, 30, 25, 17, 28, 33, 25,23,19, 51,18,29
(a) construir una tabla de registro de datos
(b) construir un histograma y polígono de frecuencia
(c) calcular la media, mediana, y moda.
(d) Calcular la varianza y la desviación típica
8. En la tabla se muestran 30 resultados del examen SES para estudiantes de bachillerato, los cuales
mostraron:
500, 510, 514, 514, 516, 519, 521, 522, 522, 527
528, 535, 540, 542, 545, 553, 555, 558, 561, 571
572, 574, 577, 578, 580, 583, 584, 588, 589, 592
(a) Anotar las cinco calificaciones menores.
(b) Anotar las cinco calificaciones mayores.
(c) Construir un histograma y polígono de frecuencia.
(d) Calcular la media, mediana, y moda
(e) Calcular la varianza y la desviación estándar.
9. La siguiente tabla representan las temperaturas de 106 habitantes de la provincia de " Manta" ,
llevadas a cabo por una brigada de estudiantes de la UTA. Las temperaturas Están medidas en grados
Celsius.
35.8 36.3 36.4 36.6 36.7 36.8 36.9 37.0 37.0 37 .1 37.3
36.0 36.3 36.4 36.6 36.7 36.8 36.9 37.0 37.0 37 1 37.3
36.1 36.3 36.4 36.7 36.7 36.9 36.9 37.0 37.0 37 1 37.4
36.1 36.3 36.5 36.7 36.7 36.9 36.9 37.0 37.0 37 1 37.4
52
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
36.1 36.3 36.6 36.7 36.7 36.9 36.9 37.0 37.0 37.1 37.5
36.2 36.4 36.6 36.7 36.8 36.9 36.9 37.0 37.0 37.1 37.5
36.2 36.4 36.6 36.7 36.8 36.9 36.9 37.0 37.0 37.2
36.2 36.4 36.6 36.7 36.8 36.9 36.9 37.0 37.0 37.2
36.2 36.4 36.6 36.7 36.8 36.9 37.0 37.0 37.0 37.2
36.3 36.4 36.6 36.7 36.8 36.9 37.0 37.0 37.1 37.2
(a) Anotar las siete temperaturas menores
(b) Anotar las siete temperaturas mayores
(c) Construir una tabla de registro de datos
(d) Construir un histograma y un polígono de frecuencia
(e) Calcular la media, mediana, y moda.
(f) Calcular la varianza y desviación estándar
10. Hallar la media y la mediana de: 6, 5, 9, 4, 8, 3, 10.
11. Hallar la media, mediana y moda de: 9, 12, 5, 4, 3, 6, 11, 7, 5, 2, 11, 9, 13, 7, 6, 8.
12. La siguiente tabla muestra los cocientes de inteligencia (IQ) de 480 niños De una escuela primaria
de la colonia "valle dorado" de Ensenada.
Hallar:
(a) la media aritmética
(b) la varianza (𝜎2)
53
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
(c) la desviación estándar(𝜎)
13. para el conjunto de números 8, 10, 9, 12, 4, 8, 2. Hallar la desviación media respecto de:
(a) La media aritmética (X)
(b) La mediana (X)
(c) Verificar que la desviación media de la mediana no es mayor que la media
14. El número de automóviles que vendió cada uno de los 10 ejecutivos de cuenta de "auto
productos del pacifico" en el mes de diciembre es: 2, 4, 7, 10, 10, 10, 12, 12, 14, y 15; determinar:
(a) La media, mediana, y moda.
(b) El primer cuartil
(c) El segundo decil
(d) El punto percentil 30 para los importes de ventas.
15. El servicio postal (SERVIENTREGA) determinó que los pesos de una muestra de cartas
procesadas en una oficina postal, pesada hasta el gramo más próximo son: 21, 18, 30, 12, 14, 17, 18,
27, 31, y 35; determinar
(a) La media mediana y moda de los pesos de las cartas en gramos
(b) El tercer cuartil
(c) El tercer decil
(d) El punto percentil 70
54
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPÍTULO 5: MOMENTOS ESTADÍSTICOS
Dentro del concepto de momentos estadísticos existe la palabra “Parámetro” que se define como un
número que resume la ingente cantidad de datos que pueden derivarse de cualquier variable estadística
en estudio.
Al estudiar grandes cantidades de datos de una población, cualquiera que fuese esta, resulta inútil o
inoperativo estudiarlos debido a su cantidad por eso es necesario resumirlos para que nos permita
tener una idea global de la población, comprarlas con otros datos, comprobar su ajuste a un modelo
ideal, realizar estimaciones sobre datos desconocidos de la misma y en definitiva tomar “decisiones”
Momentos.-Los momentos estadísticos son formulaciones matemáticas, que se definen como
parámetros estadísticos, algunos de los cuales tienen amplia connotación dentro del campo de estudio
de curvas de distribución de frecuencias y más específicamente respecto de sesgo y curtosis.
Los momentos son una forma de generalizar toda la teoría relativa a los parámetros estadísticos y
guardan relación con una buena parte de ellos.
Dada una distribución de datos estadísticos X1, X2, ..., Xn, se define el momento central o momento
centrado de orden “r” como.
𝑋𝑟̅̅̅̅ =𝑋1
𝑟+𝑋2𝑟+⋯+𝑋𝑛
𝑟
𝑛=
∑ 𝑋𝑗𝑟𝑛
𝑗=1
𝑛=
∑ 𝑋𝑟
𝑛 (ec 1)
Dónde:
n= Número total de datos.
A la ecuación anterior se la conoce como el r-ésimo momento.
El primero momento, con r=1, es la media aritmética �̅�.
El r-ésimo momento respecto de la media �̅� se define como:
𝑚𝑟 =∑ (𝑋𝑗−�̅�)𝑟𝑛
𝑗=1
𝑛=
∑(𝑋−�̅�)𝑟
𝑛 (ec 2)
55
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Dónde:
n= Número total de datos
-Para la ecuación anterior, cuando r=1 para el cálculo del primer momento obtendremos que 𝑚1 = 0
, esto se refiere a que las desviaciones de un conjunto de números respecto de su media aritmética es
cero (esta es la primera regla de las propiedades de la media aritmética).
-Para la misma ecuación cuando r=2, para el cálculo del segundo momento, se obtendrá que 𝑚2 = 𝑠2
, el cual es la varianza.
-Para el cálculo del r-ésimo momento respecto de cualquier origen “A”, se define como:
𝑚′𝑟 =∑ (𝑋𝑗−𝐴)𝑟𝑛
𝑗=1
𝑛=
∑(𝑋−𝐴)𝑟
𝑛=
∑ 𝑑𝑟
𝑛 (ec 3)
Dónde:
d=X-A.- son las desviaciones de X respecto de A. si A=0, la ecuación anterior se reduce a la (ec 1),
es por esta razón que a la ecuación (ec 1) se suele llamar el r-ésimo momento respecto de cero
MOMENTOS PARA DATOS AGRUPADOS
Para una distribución de datos X1,X2,…Xn que ocurren con una frecuencia f1,f2,…fn, respectivamente,
las fórmula para este tipo de caso se define como:
𝑋𝑟̅̅̅̅ =𝑓1𝑋1
𝑟+𝑓2𝑋2𝑟+⋯+𝑓𝑘𝑋𝑘
𝑟
𝑓1+𝑓2+⋯+𝑓𝑘=
∑ 𝑋𝑗𝑟𝑘
𝑗=1
∑ 𝑓𝑗𝑘𝑗=1
=∑ 𝑋𝑟
∑ 𝑓
Para el cálculo del r-ésimo momento respecto de la media se define como:
𝑚𝑟 =∑ 𝑓𝑗(𝑋𝑗 − �̅�)
𝑟𝑛𝑗=1
𝑁=
∑ 𝑓(𝑋 − �̅�)𝑟
𝑁
Para el cálculo del momento respecto de cualquier origen A
𝑚′𝑟 =∑ 𝑓𝑗(𝑋𝑗 − 𝐴)𝑟𝑛
𝑗=1
𝑁=
∑ 𝑓(𝑋 − 𝐴)𝑟
𝑁
56
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Dónde:
𝑁 = ∑ 𝑓𝑗
𝑘
𝑗=1
= ∑ 𝑓
SESGO:
Al grado de asimetría que presenta una distribución de datos se la conoce como “Sesgo”. Si la curva
de un polígono de frecuencias suavizado presenta una cola más larga a la izquierda, se dice que es
sesgada a la izquierda o sesgo negativo, si esta sesgada a la derecha se dice sesgada a la derecha o de
sesgo positivo tal y como se muestra en las siguientes figuras.
Ubicaciones relativas de la Media Mediana y Moda en curvas de frecuencias sesgadas a la izquierda
Ubicaciones relativas de la Media Mediana y Moda en curvas de frecuencias sesgadas a la derecha
57
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Para distribuciones sesgadas, la media suele situarse del mismo lado de la moda
CURTOSIS
El cálculo de Curtosis nos permite saber que tan puntiaguda es una distribución de datos. Una
distribución Leptocúrtica presenta un pico muy alto, si presenta una punta un poco más suavizada se
dice que es mesocúrtica y si la curva presenta una distribución normal más achatada se dice que es
Platicúrtica
Para considerar si una curva es Leptocúrtica, mesocúrtica y Platicúrtica se debe saber que:
Si Curtosis = 3.- Esta curva es normal o mesocúrtica
Si Curtosis > 3. La curva es apuntada o Leptocúrtica
Si Curtosis < 3.- La distribución es achatada o Platicúrtica.
Una de las maneras para el cálculo de Curtosis es utilizando el cuarto momento respecto de la media
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑀𝑜𝑚𝑒𝑛𝑡𝑜 𝐶𝑢𝑟𝑡𝑜𝑠𝑖𝑠 (𝐶𝑀𝐶) = 𝑎4 =𝑚4
𝑠4=
𝑚4
𝑚22
EJERCICIOS
1.-Hallar los cuatro primeros momentos del siguiente conjunto de números: 1, 4, 7, 10,15
Solución:
a) El primer momento, o media aritmética es:
58
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝑋1̅̅̅̅ =∑ 𝑋𝑟
𝑛=
11 + 41 + 71 + 101 + 151
5= 7.4
b) El segundo momento es:
𝑋2̅̅̅̅ =∑ 𝑋𝑟
𝑛=
12 + 42 + 72 + 102 + 152
5= 78.2
c) El tercer momento es:
𝑋3̅̅̅̅ =∑ 𝑋𝑟
𝑛=
13 + 43 + 73 + 103 + 153
5= 956.6
d) El cuarto momento es:
𝑋4̅̅̅̅ =∑ 𝑋𝑟
𝑛=
14 + 44 + 74 + 104 + 154
5= 12656.6
2.-hallar los cuatro primeros momentos respecto de la media para el conjunto de números del
problema anterior: 1, 4, 7, 10,15.
Solución
a) El primer momento respecto de la media es:
𝑚1 =∑(𝑋 − �̅�)𝑟
𝑛=
(1 − 7.4)1 + (4 − 7.4)1 + (7 − 7.4)1 + (10 − 7.4)1 + (15 − 7.4)1
5=
0
5= 0
b) El segundo momento respecto de la media es:
𝑚2 =∑(𝑋 − �̅�)𝑟
𝑛=
(1 − 7.4)2 + (4 − 7.4)2 + (7 − 7.4)2 + (10 − 7.4)2 + (15 − 7.4)2
5=
117.2
5= 23.44
c) El tercer momento respecto de la media es:
𝑚3 =∑(𝑋 − �̅�)𝑟
𝑛=
(1 − 7.4)3 + (4 − 7.4)3 + (7 − 7.4)3 + (10 − 7.4)3 + (15 − 7.4)3
5=
155.04
5= 31
d) El cuarto momento respecto de la media es:
𝑚4 =∑(𝑋 − �̅�)𝑟
𝑛=
(1 − 7.4)4 + (4 − 7.4)4 + (7 − 7.4)4 + (10 − 7.4)4 + (15 − 7.4)4
5=
5193.296
5= 1038.65
59
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPÍTULO 6: PROBABILIDADES
El estudio de las probabilidades abarca casi todas los sucesos de nuestras vidas, tales como la Ciencia,
la Filosofía, las matemáticas, los juegos de azar, etc., ya que nos permite estudiar los sucesos o eventos
que de cada una de ellas se deriven.
Mediante el uso de las probabilidades se puede obtener la frecuencia con la que un acontecimiento u
evento puede darse como resultado de haber realizado un experimento o prueba del que se conocerán
todos los resultados posibles, bajo condiciones suficientemente estables.
Evento (E).- Hecho o suceso que ocurre, especialmente si es de cierta importancia
Posibilidad (n).- Circunstancia u ocasión de que una cosa ocurra o suceda.
PROBABILIDAD DE OCURRENCIA (p).
Supongamos que un suceso (E) tiene (h) posibilidades de salir de un total de (n) posibilidades.
𝑝 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 {𝐸}
𝑝 =ℎ
𝑛
Dónde:
h.- Son todas las formas en las que se pueda o se requiera obtener un resultado.
n.- Total de formas en las que se da el resultado.
Si la probabilidad de que un evento ocurra es decir un éxito será igual a 1
Si la probabilidad de que un evento no ocurra es decir sea un fracaso será igual a 0
“La teoría de las probabilidades es la menos
intuitiva de todas las ramas de las
matemáticas”
Amir Aczel
60
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
PROBABILIDAD DE NO OCURRENCIA (q)
La probabilidad de que un evento no ocurra {�̅�} y definido por (q) viene determinado por:
𝑞 = 1 − 𝑝
Esto quiere decir que:
1 = Pr{𝐸} + 𝑃𝑟{�̅�}
Ejemplo. Ahora supongamos un ejemplo clásico, que al lazar un dado una sola vez nos salga 2.
Solución:
Datos
h=1 (Forma de salir ó número de veces que saldrá el 2)
n=6 (Todas las opciones posibles de un dado)
𝑝 =1
6= 0.167
Análisis.
La probabilidad de que al lanzar un dado nos salga 2 en un solo lanzamiento es de 0.167 es decir un
16.7%. Esto es muy importante ya que no importa las veces que lancemos un dado, la probabilidad
de que nos salga el 2 en un lanzamiento siempre será de 16.7%.
La paradoja del cumpleaños
Para explicar la paradoja formulamos la pregunta ¿Cómo explicar la probabilidad de que en un grupo
de 23 personas dos de ellas cumpla años el mismo día? ¿Coincide tu intuición con lo que dicen las
matemáticas?
El enunciado de la paradoja cita lo siguiente:
“La paradoja del cumpleaños establece que si hay 23 personas reunidas hay una probabilidad del
50,7% de que al menos dos personas de ellas cumplan años el mismo día. Para 60 o más personas la
61
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
probabilidad es mayor del 99%. Obviamente es casi del 100% para 366 personas (teniendo en cuenta
los años bisiestos).”
En sentido estricto esto no es una paradoja ya que no es una contradicción lógica; es una paradoja en
el sentido que es una verdad matemática que contradice la común intuición. Cuando se propone este
problema por primera vez y se pide una estimación sobre el tamaño mínimo que debería tener un
grupo para que sea más probable que improbable que dos personas compartan el día del cumpleaños,
la mayoría de las personas se equivoca por completo.
La respuesta intuitiva que se da a menudo es 183, es decir 365 dividido entre dos. La cantidad correcta
no es algo a lo que la gente pueda llegar fácilmente y, ciertamente, no por intuición. Es bastante
extraño que las primeras estimaciones sean inferiores a 40. Y sin embargo la respuesta es 23.
La clave para entender estas "sorprendentes" recurrencias es pensar que hay muchas posibilidades de
encontrar parejas que cumplan años el mismo día.
Un análisis superficial asume que 23 días (cumpleaños de las 23 personas) es una fracción demasiado
pequeña del posible número de días distintos (365) para esperar repeticiones. Y así sería si
esperáramos la repetición de un día dado. Pero las repeticiones, en el caso supuesto, pueden darse
entre dos días cualesquiera, con lo que éstas pueden combinarse entre sí de un número de formas que
aumenta rápidamente con el número de elementos a considerar. Así:
Entre dos personas P1 y P2 sólo cabe una posibilidad de repetición de cumpleaños: Pl=P2.
Con tres ya hay tres posibilidades (Pl=P2; Pl=P3; P2=P3)
Con cuatro ya habría seis, (4x3)/2=6 .
Con un grupo de 10 personas, (10x9)/2=45 posibilidades
Con 23 personas, hay (23×22)/2 = 253 parejas distintas, cada uno de ellas es una candidata
potencial para cumplir la paradoja
Y así sucesivamente, en uno de 40, ya son 780 las parejas, y 1770 si juntamos 60 personas.
No hay que malinterpretar lo que nos dice esta paradoja: Si entramos en una habitación con 22
personas, la probabilidad de que cualquiera cumpla años el mismo día que usted, no es del 50%, es
mucho más baja, sólo hay un 6% de probabilidades. Esto es debido a que ahora sólo hay 22 parejas
62
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
posible y se necesitan 253 personas para que haya más de un 50% de probabilidades de que esto
ocurra.
El problema real de la paradoja del cumpleaños consiste en preguntar si el cumpleaños de cualquiera
de las 23 personas coincide con el cumpleaños de alguna de las otras personas.
Ejemplo.
Determinar la probabilidad de que en 10 lanzamientos de una moneda 7 de ellas salga caras, por tanto:
𝑝 =7
10= 0.7
Si en otros 10 lanzamientos salen 6 caras, su frecuencia relativa aumenta a 20 lanzamientos, por
tanto:{
𝑝 =(7 + 6)
(10 + 10)= 0.625
Para obtener una cifra significativa dentro de la cual se pueda tomar una decisión basta con realizar
más lanzamientos.
PROBABILIDAD CONDICIONAL
Se conoce como probabilidad condicional aquel en la que dos eventos E1 y E2 y que el evento E2
ocurra dado que ya haya sucedido el evento E1 y se denota por: {𝐸2|𝐸1} ó Pr {𝐸2 𝑑𝑎𝑑𝑜 𝐸1}
Sucesos Independientes
Son sucesos independientes cuando dos eventos E2 y E1 ocurren de manera independiente es decir
el evento E1 ocurra sin que afecte la probabilidad que suceda el evento E2. Ejm El lanzamiento de
una moneda tres veces es un evento independiente, ya que el resultado de un lanzamiento no afecta
el otro.
𝑃𝑟{𝐸1 𝐸2} = 𝑃𝑟{𝐸1}. 𝑃𝑟{Pr 𝐸2}
Para tres sucesos E1, E2 y E3 se tiene:
63
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝑃𝑟{𝐸1 𝐸2 𝐸3} = 𝑃𝑟{𝐸1}. 𝑃𝑟{𝐸2}. 𝑃𝑟{𝐸3}.
Para los tres eventos citados la probabilidad de ocurrencia es la misma
Ejemplo
Al lanzar una moneda en su 7mo lanzamiento sale cara y en el 8vo lanzamiento sale cara, entonces
el evento E1 Cara en el 7mo lanzamiento y el evento E2 Cara en el 8vo lanzamiento, son sucesos
independientes ya que cada lanzamiento no depende que salga cara en el siguiente lanzamiento.
Sucesos Dependientes
Son sucesos dependientes cuando en dos eventos E1 y E2 ocurren de manera tal que el evento E1
afecta la probabilidad que suceda el evento E2.
𝑃𝑟{𝐸1 𝐸2 𝐸3} = 𝑃𝑟{𝐸1}. Pr{𝐸2|𝐸1} . Pr{𝐸3|𝐸1. 𝐸2}.
Suceso compuesto
Se conoce como suceso compuestos cuando dos eventos E1 y E2 tienen la misma probabilidad de
ocurrencia.
𝑃𝑟{𝐸1 𝐸2} = {𝐸1} Pr{𝐸2|𝐸1}
SUCESOS MUTUAMENTE EXCLUYENTES.
Se conoce como sucesos mutuamente excluyentes cuando se presentan dos eventos E1 y E2, y uno
de estos eventos sea E1 ó E2 excluye la del otro evento sea este E1 ó E2.
La siguiente ecuación se utiliza para calcular la ocurrencia del evento E1 o bien E2 ó ambos a la vez
𝑃𝑟{𝐸1 + 𝐸2} = 𝑃𝑟{𝐸1} +𝑃𝑟{𝐸2} − Pr{𝐸1. 𝐸2}
Para sucesos mutuamente excluyentes se utiliza la siguiente ecuación.
𝑃𝑟{𝐸1 + 𝐸2} = 𝑃𝑟{𝐸1} + 𝑃𝑟{𝐸2}
64
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
DISTRIBUCIONES DE PROBABILIDAD
Variables discretas
Una variable discreta es una variable cuantitativa que toma valores aislados, es decir no admite
valores intermedios entre dos valores específicos.
Si una variable X toma un conjunto discreto de valores X1, X2, . . . , XK con probabilidades respectivas
p1, p2, . . . , pK, donde p1 + p2 +. . .+ pK = 1, esto se define como una distribución de probabilidad
discreta de X. La función p(X ), que tiene los valores p1, p2, . . . , pK para X = X1, X2, . . . , XK ,
respectivamente, se llama función de probabilidad o función de frecuencia de X. Como X puede tomar
ciertos valores con determinadas probabilidades, suele llamársele variable aleatoria discreta. A las
variables aleatorias también se les conoce como variables estocásticas.
Ejm
Si al lanzar un par de dados nos de la suma 8, la probabilidad es de 5/36 y se marca en la siguiente
tabla. Así que de 500 veces se lancen los dados se espera que en 100 la suma en sea 8
Suma de los
dados 2 3 4 5 6 7 8 9 10 11 12
Probabilidad
(p) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
La manera adecuada de agrupar o parear los dados se presenta a continuación y se aprecia las 3
maneras posibles de combinar.
65
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Mas ejemplo de variables discreta tenemos:
1.-Número de acciones vendidas cada día en la Bolsa.
2.-Número de hijos de 50 familias.
3.-Censo anual de los españoles.
Variable Continua
Una variable continua es una variable cuantitativa que puede tomar valores comprendidos entre dos
números. Por ejemplo:
1.-La altura de las 5 personas: 1.60, 1.72, 1.76, 1.79, 1.75.
2.-Temperaturas registradas cada hora en un observatorio
3.-Período de duración de un automóvil.
4.-El diámetro de las ruedas de varios coches.
Valor esperado o Esperanza matemática
El Valor esperado o Esperanza matemática de una variable aleatoria discreta es la suma del producto
de la probabilidad de cada suceso por el valor de dicho suceso. También se puede entender como la
relación entre el premio obtenido y probabilidad de acertar.
Si la esperanza matemática es 1, el juego es “justo”. Por ejemplo, apostar 1 dólar a que una moneda
sale cara o cruz, si el premio por acertar son 2 dólares, y si se pierde, 0 dólares. La esperanza del
66
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
juego es 2 · (1/2) = 1. Entonces, consecuentemente con la teoría de juegos, podría pagar el dolar para
jugar o para rechazar jugar, porque de cualquier manera su expectativa total sería 0.
Si la esperanza matemática es menor que 1, el juego es “desfavorable para el jugador”. Un sorteo
que pague 500 a 1 pero en el que la probabilidad de acertar sea de 1 entre 1.000, la esperanza
matemática es 500 · (1/1.000) = 0,5.
Si la esperanza matemática es mayor que 1, el juego es “favorable para el jugador”, todo una
“Fortuna” para el jugador. Un ejemplo sería un juego en el que se paga 10 a 1 por acertar el número
que va a salir en un dado, en donde hay una probabilidad de acertar es de 1 entre 6. En este ejemplo
el valor de la esperanza matemática es 10 · (1/6)=1,67 y por tanto en esas condiciones es juego
«beneficioso» para el jugador.
ANALISIS COMBINATORIO
El origen del análisis combinatorio se le atribuye a los trabajos de Pascal (1596 – 1650) y Fermat
(1601 - 1665) que fundamentan el cálculo de probabilidades.
Leibiniz (1646 – 1716) publicó en 1666 “Disertatio de Arte Combinatoria”. El mayor impulsor de
esta rama fue Bernoulli quien en sus trabajos incluye una teoría general de permutaciones y
combinaciones.
El análisis combinatorio estudia las distintas formas de agrupar y ordenar los elementos de un
conjunto, sin tener en cuenta la naturaleza de estos elementos.
Los problemas de arreglos y combinaciones pueden parecer aburridos y quizá se piense que no tienen
utilidad pero los teoremas del análisis combinatorio son la base del cálculo de la probabilidad.
La probabilidad se encarga de los arreglos y las combinaciones que determinan el número de formas
diferentes en que un acontecimiento puede suceder.
El análisis combinatorio tiene aplicaciones en el diseño y funcionamiento de la tecnología
computacional así como también en las ciencias. La teoría combinatoria se aplica en las áreas en
donde tengan relevancia las distintas formas de agrupar elementos.
Principio
67
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Dado que un evento puede ocurrir en su primera salida n1, y dado que el primer evento a ocurrido,
luego se produce un siguiente evento n2, entonces el número de combinaciones que se pueda dar será
n1*n2
Ejemplo:
Una persona tiene 2 formas de ir de una ciudad A una ciudad B; y una vez llegada a la ciudad B, tiene
3 formas de llegar a una ciudad C, ¿De cuantas maneras podrá realizar el viaje de A a C Pasando por
B?
Solución
De manera general si aplicamos la formula
Combinación= n1*n2
Combinación= 2(3)
Combinación= 6
Factorial de un número
El Factorial de un número está definido por:
𝑛! = 𝑛(𝑛 − 1)(𝑛 − 2) … 1
Ejemplo
Hallar el factorial de 6!
𝑛! = 𝑛(𝑛 − 1)(𝑛 − 2) … 1
6! = 6(6 − 1)(6 − 2)(6 − 3)(6 − 4)(6 − 5)
6! = 6(5)(4)(3)(2)(1)
6! = 720
68
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Permutaciones:
Una permutación de objetos es un arreglo de éstos en el que orden sí importa. Para encontrar el
número de permutaciones de n objetos diferentes en grupos de r, se usan las siguientes fórmulas:
Cuando se permite Repetición
𝑛𝑃𝑟 = 𝑛𝑟
Ejemplo
1.- ¿Cuántas cantidades de cuatro cifras se pueden formar con los dígitos 0, 1, 2, 3 y 4 si se permite
la repetición?
Solución:
𝑛𝑃𝑟 = 𝑛𝑟
5P4=54
5P4=625
Cuando no se permite repetición
𝑛𝑃𝑟 =𝑛!
(𝑛 − 𝑟)!
Ejemplos:
1.- ¿Cuántas cantidades de tres cifras se pueden formar con los dígitos 0, 1, 2, 3 y 4 si no se permite
la repetición?
Solución
5P3=𝑛!
(𝑛−𝑟)!
5P3=5!
(5−3)!
5P3=5!
2!
69
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Combinación.- Una combinación de objetos es un arreglo en el cual el orden no importa. Para
encontrar el número de combinaciones de n objetos en grupos de r, se usa la siguiente fórmula:
(𝑛𝑟
)=nCr 𝑛!
𝑟!(𝑛−𝑟)!
Ejemplo
De entre 8 personas debemos formar un comité de cinco miembros. ¿Cuántas diferentes posibilidades
existen para formar el comité? Solución: Esta es una combinación porque el orden no importa.
Solución
8C5 8!
5!(8−5)!
8C5 8!
5!(3)!
8C5 =56
Ejercicios de resolución
1) ¿Cuántas cantidades de cuatro cifras se pueden formar con los dígitos 4, 5, 6, 7, 8 y 9 si no se
permite la repetición?
resp[360]
2) ¿Cuántas cantidades de tres cifras se pueden formar con los dígitos 3, 4, 5 y 6 si se permite la
repetición?
resp[64]
3) Un entrenador de baloncesto dispone de 12 jugadores. ¿Cuántos diferentes equipos de cinco
jugadores puede formar?
resp[792]
4) De una clase de 20 niñas se escogerán 6 para ir a un paseo. ¿Cuántos posibles grupos de 6 se
pueden formar?
Resp [38760]
70
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
APROXIMACIÓN DE STIRLING
Al evaluar las funciones de distribución en estadísticas, a menudo es necesario evaluar considerables
factoriales de números, como en la distribución binomial:
𝑓𝑏(𝑥) =𝑛! 𝑝𝑋(1 − 𝑝)𝑛−𝑥
𝑥! (𝑛 − 𝑥)!
Una relación aproximada útil y de uso común en la evaluación de factoriales de grandes números es
la aproximación de Stirling
𝑛! ≈ 𝑛𝑛𝑒−𝑛√2 ∗ 𝜋 ∗ 𝑛
Donde:
e=Es la base natural de logaritmos, con un valor 2.71828
71
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPITULO 7: DISTRIBUCIONES DE PROBABILIDAD
Dentro de las distribuciones de probabilidad las más importantes para objetos de estudio dentro de la
estadística inferencial son:
1. La Distribución Binomial o de Bernoulli
2. La Distribución normal
3. La Distribución de Poison
La Distribución Binomial o de Bernoulli:
La distribución Binomial o también conocida como de Bernoulli es una distribución de probabilidad
discreta que cuenta el número de éxitos en una secuencia de n ensayos entre sí, con una probabilidad
fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una
probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la
probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en
una distribución de Bernoulli.
La distribución Binomial viene definida por:
𝑝(𝑥) = (𝑁𝑋
) 𝑝𝑥𝑝𝑁−𝑥 =𝑁!
𝑋! (𝑁 − 𝑋)!𝑝𝑥𝑝𝑁−𝑥
Donde:
X=0,1,2,…N; N posibilidades de ocurrir
N!=N(N-1)(N-2)…1; y 0!=1
q=1-p
CARACTERISTICAS DE LA DISTRIBUCIÓN BINOMIAL
Si al analizar un determinado experimento donde su variable sea aleatoria X y esta se repita n número
de veces de forma independiente, y que en ese experimento haya un suceso que denominamos éxito,
que ocurre con una probabilidad p. Viene definido por:
72
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Ejercicio
En un grupo de amigos se decide jugar a los volados, el jugador A necesita obtener la probabilidad
de que al lanzar una moneda “no trucada” 6 veces le dé exactamente dos caras para ganar al jugador
B
Solución
Datos
N=6: Posibilidades de ocurrir
X=2: Posibilidades que ofrece la moneda
p= ½: probabilidad de que ocurra el evento
q= ½: probabilidad de que no curra el evento
𝑝(𝑥) = (𝑁𝑋
) 𝑝𝑥𝑝𝑁−𝑥 =𝑁!
𝑋! (𝑁 − 𝑋)!𝑝𝑥𝑝𝑁−𝑥
𝑝(𝑥) = (6!
2! ∗ (6 − 2)!) (
1
2)
2
(1
2)
6−2
𝑝(𝑥) = (720
48) (
1
2)
2
(1
2)
4
𝑝(𝑥) = (720
1536)
𝑝(𝑥) = (15
48)
𝑝(𝑥) = 0.234
73
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
DISTRIBUCIÓN NORMAL
La distribución normal, también conocida como a distribución de gauss o gaussiana y es considerada
una distribución de probabilidad individual.
Ejercicios resueltos
La compañía COLD fabricante de frigoríficos, obtuvo, mediante mediciones valores promedios de
temperatura de -3.5°C, con una desviación Típica o estándar de 1.12°C con nivel de confiabiida del
95%
a) Además desea saber cuál es la probabilidad de que uno de sus frigoríficos se fabrique con
una temperatura menor a 4.5°C.
b) El dueño de la compañía necesita saber cuál es la probabilidad de que uno de sus frigoríficos
de una temperatura superior a 2.5°C.
Solución
Datos
µ=-4
σ=1.12
Pr(a<x<b)
𝑍 =𝑋 − 𝜇
𝜎
a) La probabilidad de obtener un temperatura menor a 4.5 en un frigorífico se obtiene
mediante
Pr(X< −4.5°𝐶)
X=-3.5
𝑍 =4.5 − 3.5
1.12
𝑍 = 0.89
Pr=(1-0.5)-Pr(LA calculada por tablas Apéndice…)
Pr=0.5-0.3238
Pr=0.1762
Pr=17.62%
b) El dueño de la compañía necesita saber cuál es la probabilidad de que uno de sus
frigoríficos de una temperatura superior a -2.5°C.
74
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Pr(X> −2.5°𝐶)
X=-3.5
𝑍 =3.5 − 2.5
1.12
𝑍 = 0.89
Pr=(1-0.5)-Pr(LA calculada por tablas Apéndice…)
Pr=0.5-0.3212
Pr=0.1788
Pr=17.88%
DISTRIBUCIÓN DE POISSON
La distribución de Poisson nos ayuda a obtener la probabilidad de ocurrencia de ciertos eventos que
ocurren con muy poca frecuencia es decir impredecibles y de forma aleatoria, en otras palabras
pertenece al grupo de las funciones de distribución de variables aleatorias discretas , por tanto no se
conoce el total de resultados posibles. Esta distribución es utilizada para terminar la probabilidad de
volumen, área, distancia o tiempo establecido y viene definido por:
𝑃𝑟(𝑋; 𝜆) =𝑒−𝜆(𝜆)𝑥
𝑥!
Donde:
Pr(X=y).-Probabilidad de ocurrencia cuando la variable discreta X toma un valor finito (y).
λ=Parametro de ocurrencias de un intervalo (λ>0, y=1, 2,3,…)
e=Logaritmo natural o neperiano y es igual a 2.71828
y=Número de sucesos ocurridos.
Ejemplo
En una heladería se atienden cada 20 min a 6 personas. El dueño del local necesita saber cuál es la
probabilidad de que:
a) En un día no soleado se atiendan 5 personas en 20min
75
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
b) En un día soleado se atiendan 10 personas en 20min
c) Y que en un feriado con día soleado se atiendan 5 personas o menos, en menos de 20min
Solución
Parte a)
𝑃𝑟(𝑋; 𝜆) =𝑒−𝜆(𝜆)𝑥
𝑥!
Datos
Pr(x=5)=(5,6)
𝑃𝑟(5,6) =2.718−6(6)5
5!
𝑃𝑟(5,6) = 0.16
𝑃𝑟(5,6) = 16%
Parte b)
𝑃𝑟(𝑋; 𝜆) =𝑒−𝜆(𝜆)𝑥
𝑥!
Datos
Pr(x=10)=(10,6)
𝑃𝑟(5,6) =2.718−6(6)10
10!
𝑃𝑟(5,6) = 0.0413
𝑃𝑟(5,6) = 4.13%
Parte c)
𝑃𝑟(𝑋; 𝜆) =𝑒−𝜆(𝜆)𝑥
𝑥!
76
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Datos
Pr(x≤5)=Pr(x=0)+ Pr(x=1)+ Pr(x=2)+ Pr(x=3)+ Pr(x=4)+ Pr(x=5)
𝑃𝑟(𝑥 ≤ 5) =2.718−6(6)0
0!+
2.718−6(6)1
1!+
2.718−6(6)2
2!+
2.718−6(6)3
3!+
2.718−6(6)4
4!
+2.718−6(6)5
5!
𝑃𝑟(𝑥 ≤ 5) = 0.448
𝑃𝑟(5,6) = 44.83%
Interpretación:
a) Indica que existe una probabilidad de que en un día no soleado se atiendan a 5 personas en
20 min
b) Sin embargo en este literal existe la probabilidad de que el 4.13% se atiendan a 10 personas
en 20min
c) Para este literal existe el 44.8% de probabilidad de que se atienda 5 personas o menos en 20
min.
Ejemplo
Lo alumnos en la cafetería de una universidad consumen en un determinado día como media 5 tazas
de café, la misma tiene una distribución de Poisson, Hallar la probabilidad de que cuando mucho
lleguen a consumirse 7 tazas de café por día.
Datos:
λ=5
Pr (x≤7)
Solución
𝑃𝑟(𝑋; 𝜆) =𝑒−𝜆(𝜆)𝑥
𝑥!
Pr(x≤7)=Pr(x=0)+ Pr(x=1)+ Pr(x=2)+ Pr(x=3)+ Pr(x=4)+ Pr(x=5) + Pr(x=6) + Pr(x=7)
77
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
𝑃𝑟(𝑥 ≤ 7) =2.718−5(5)0
0!+
2.718−5(5)1
1!+
2.718−5(5)2
2!+
2.718−5(5)3
3!+
2.718−5(5)4
4!
+2.718−5(5)5
5!+
2.718−5(5)6
6!+
2.718−5(5)7
7!
𝑃𝑟(𝑥 ≤ 7) = 0.00674 + 0.0337 + 0.0842 + 0.14 + 0.1755 + 0.1463 + 0.1045
𝑃𝑟(7,5) = 0.6909
𝑃𝑟(7,5) = 69.09%
Análisis:
La probabilidad de que a lo mucho llegue a consumirse 7 tazas de café por día es del 69%, la cual nos
asegura en más de un 50% que ese suceso de consumir al menos 7 tazas de café ocurra.
78
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
CAPITULO 8: MUESTREO
Introducción
Dentro de la estadística existe la teoría del muestreo, esta nos permite tomar de un
conjunto de datos una muestra que nos servirá como objeto de estudio.
El muestreo nos ayuda a tomar de un conjunto universal de datos una muestra
específica que nos servirá como objeto de estudio.
Cuando se toma las características de una población, es importante saber que
1.-La muestra debe ser seleccionada de acuerdo a su naturaleza.
2.-Resulta imposible verificar todos los elementos físicos de una población.
3.-El costo por estudiar toda l población seria elevado y no es recomendable.
3.-Los resultados de la muestra son adecuados.
4.-Si se deseara estudiar todo el universo de la muestra, esto conllevaría a tomar
más tiempo de lo normal para el estudio
Muestra aleatoria simple.- Este tipo de muestra toma a cada elemento o individuo
de una población y asigna las mismas posibilidades de que le incluya en la
selección.
Un ejemplo de muestra aleatoria simple es que si de un grupo de 145 botellas para
envasar agua, se debe elegir una muestra de 60 botellas. Para asegurarnos de que
todas las botellas tengan las mismas posibilidades de ser tomadas, estas deben ser
tomadas al azar mientras pasan el control de calidad hasta recoger la muestra de
60 botellas.
Muestra aleatoria sistemática.-Para tomar una muestra sistemática lo que se debe
hacer es primero tomar un punto de inicio aleatorio y luego cada k-ésimo objeto
de la muestra.
Muestra aleatoria estratificada.-Para realizar este tipo de pruebas se debe tener en
cuenta que esta se debe aplicar cuando una población está dividida en grupos a
partir de ciertas condiciones propias de la muestra. Para esto se debe dividir una
población en subgrupos conocido estos como “estratos”, como de los cuales se
seleccionar uno por cada estrato.
Muestra aleatoria por conglomerados.-Este tipo de muestreo cosiste dividir una
población en conglomerados a partir de los límites geográficos o naturales o de
79
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
cualquier otro tipo de población, y de este grupo de conglomerados se selecciona
al azar una muestra aleatoria .El muestreo por conglomerados es utilizado a
menudo para reducir costos de mostrar una población dispersa en cierta área.
EJERCICIOS DE DEMOSTRACIÓN CAPITULO 8
MUESTREO POR CONGLOMERADOS
Ejemplo.
Se desea saber el grado de aceptación de una obra realizad por un Municipio de
en un grupo de personas de una localidad. Se pide seleccionar una muestra de la
localidad aplicando el método de selección de una muestra por conglomerado y
subdividir la localidad en manzanas y a esta se las conocerá como unidades
primarias.
La localidad X se dividió en 6 manzanas es decir en 6 unidades primarias y
selecciono al azar las manzanas 1, 2, 4, 5 y de cada una de ella se seleccionara 4
casas al azar
80
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
MUESTREO CON REPOSSIION Y SIN REPOSICIÓN
Muestreo con reposición.-Se conoce así cuando de un grupo de muestras se toma
una al azar y luego es devuelta al mismo grupo. Por tanto se llama muestreo con
reposición si cada objeto de una población tiene la misma probabilidad de ser
elegido más de una vez
Ejemplo:
En una bolsa donde existen 10 canicas, 4 de color azul, 3 de color rojo y 3 de color
amarillo, se desea tomar una muestra y devolverla a la bolsa.
Muestreo Sin reposición.-Se le conoce al proceso de recolección en el cual se toma
una muestra y no se devuelve l grupo de muestras del cual fue tomado. Por tanto
se conoce como muestreo sin reposición cuando el objeto extraído de una
población ya no tiene ninguna probabilidad de que vuelva a salir.
Ejemplo:
Para el mismo caso de la bolsa donde existen 10 canicas, 4 de color azul, 3 de color
rojo y 3 de color amarillo, se desea tomar una muestra y sin devolverla a la bolsa.
DISTRIBUCIONES MUESTRALES
Se conoce como distribución muestral a la selección de muestras de un tamaño
desconocido N y que puedan ser estas con y sin reposición se pueda hallar su
estadístico, tales como media o desviación estándar.
Una distribución muestral puede tomar diferentes formas según las características
de la población estudiada y es la que nos permite hacer inferencia además posee
un patrón de compartimento predecible.
Ejemplo.
La ciudad de Ambato se ve en la necesidad de saber cuál es la proporción de
mujeres en función de la población para poder determinar mediante un estudio
seguido la tasa de embarazos en mujeres menores de 18 años.
Debido a que la población de la ciudad es muy grande no se realizara un censo
ya que esto resultaría costoso. Por tanto se decide estimar a partir de la muestra Pm
(Proporción muestral).
𝑃𝑚 =# 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
(𝑡)𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
81
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
Una distribución muestral poblacional considerando que no hay reposición viene
definido por:
𝜇�̅� = 𝜇
𝜎�̅� =𝜎
√𝑁√
𝑁𝑝 + 𝑁
𝑁𝑝 − 𝑁
Si el muestreo se hace con reposición y cuya población es infinita, la ecuación se
define por:
𝜇�̅� = 𝜇
𝜎�̅� =𝜎
√𝑁
Para una población en la que su tamaño N≥ 30 su distribución normal de la media
es aproximadamente a la normal con media 𝜇�̅� y desviación estándar 𝜎�̅�
Si N<30 la distribución muestral de la medias es también normal, aun cuando el
tamaño de la muestra N sea pequeño y la población este distribuida normalmente.
ERROR DE MUESTREO
Dentro de la selección de datos o información recolectada por muestras
“muestreo” es de vital importancia saber que es poco probable que la desviación
estándar de la muestra sea exactamente igual a la desviación estándar de la
población.
CARACTERISTICAS DEL ERROR ESTANDAR EN DISTRIBUCIONES MUESTRALES
ERROR ESTANDAR DE LA MEDIA
Para distribuciones donde las muestras son grandes o pequeñas su ecuación está
definida por:
𝜎�̅� =𝜎
√𝑁
82
Ing. Leonardo Sánchez/ Ing. Carlos Burgos
Donde:
N≥30=Cuando la distribución muestral se asemeja a una distribución normal.
σ=Desviación estándar
𝜎�̅�=Distribución muestral de las medias estándar muestral
N=Población
ERROR ESTANDAR DE LA DESVIACIÓN ESTANDAR
Para distribuciones donde la población es N≥100
𝜎𝑠 =Desviación estándar muestral de s
CAPITULO 9: ESTADISTICA INFERENCIAL
La estadística inferencial o estadística matemática se basa en la fusión de los conceptos y
conocimientos de estadística descriptiva y la teoría de probabilidad; Por tanto la estadística inferencial
analiza los datos obtenidos pudiendo ser estos Cualitativos o cuantitativos de las muestras y en base
a esta información se toman decisiones
.
HIPOTESIS NULA