estadistica descriptiva1 (1)
TRANSCRIPT
04/18/2023
Estadística DescriptivaTextos guías
Estadística para Ingenieros y científicosWilliam Navidi
McGrawHillEstadística y Probabilidad. Montgomery
Henry Lamos DEstadística Descriptiva. Doctor en
Matemáticas Lamos H1
Evaluaciones
04/18/2023Estadística Descriptiva. Doctor en
Matemáticas Lamos H2
Tres previosI. Estadística descriptiva y probabilidad + Trabajo
0.3II. Variables aleatorias. Distribuciones de
probabilidad + trabajo. 0.35III. Modelado Estadístico + trabajo 0.35IV. El peso del previo y del trabajo es igual
Estadística Descriptiva. Doctor en Matemáticas Lamos H
504/18/2023
1-1
• Proceso de asignar números o etiquetas a las cosas, según reglas especificas, para representar atributos de cantidad o calidad
http://proexpansion.com/es/articles/615-big-data-los-desafios-del-uso-de-datos-masivos
Medir lo que es medible y tratar de hacer medible lo que todavía no lo es. Galileo Galilei
“Todas las verdades son fáciles de entender, una vez descubiertas. La cuestión es descubrirlas.”
Escalas de medición
NOMINAL. Los datos son categorías mutuamente excluyentes. Los números que se asignan a objetos o fenómenos son nombres o clasificaciones, solo son etiquetas.
Sexo (masculino, femenino) se le asigna 0 a masculino y 1 a femenino.
Área geográfica (urbana , rural )
04/18/2023 6Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Escalas de medición
ORDINAL. En la escala se introduce un orden. Los números ordinales se emplean para indicar orden de clasificación.
Nivel de medición ordinal. Ordene de mayor a menor preferencia hacia los siguientes sabores de gaseosas de postobon
Uva ____ Naranja _____ Kola ____
Qué factores tuvo en cuenta en la selección de la entidad bancaria a la hora de adquirir alguno de sus productos. (Ordene numéricamente en grado de importancia, donde 1 es más importante que 2 y así sucesivamente)
04/18/2023 7Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Escalas de medición
ESCALA DE INTERVALO.
Los números se utilizan para clasificar objetos, de manera que las distancias numéricamente iguales en la escala representan distancias iguales en la característica que se mide.
Las preferencias por los 10 supermercados en Colombia en una escala de 7 Carulla recibe 6 y Jumbo 2, no significa que Carulla se prefiera 3 veces mas que Jumbo.
Carulla 6Jumbo 2
04/18/2023 8Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Escalas de medición
ESCALA DE RAZON. Tiene todas las propiedades de las anteriores y además punto cero absoluto. Con esta escala podemos clasificar los objetos, ordenarlos y comparar diferencias. Estatura
edad, peso, presión, permeabilidad, voltaje, ventas, participación de mercado.
04/18/2023 9Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Escalas de medición
10
IngresosCompra de Lacteos (Mensual)
Tamaño de la Familia
N. de niños menores de 10 años Estrato
Nivel de Educacion Cabeza de Hogar
3000000 150000 4 0 2TECNOLOGO4000000 80000 4 0 4UNIVERSITARIO4500000 250000 4 2 4UNIVERSITARIO2500000 40000 3 0 4BACHILLER4000000 85000 4 0 5UNIVERSITARIO2000000 100000 4 0 2UNIVERSITARIO4000000 150000 4 1 3UNIVERSITARIO1500000 50000 5 0 1BACHILLERATO4300000 100000 5 0 4UNIVERSITARIO2500000 180000 3 0 3UNIVERSITARIO3500000 220000 6 1 3Bachiller 2000000 140000 3 1 3UNIVERSITARIO
Tabla de datos estructurados
• La media y la varianza de la población son parámetros de posición y dispersión.
• Valor de resumen, un representante de los datos. • La media se define como la suma de todos los valores
ponderados por 1/N; N es el tamaño de la población:
N
xN
1ii
3-2
11Estadística Descriptiva. Doctor en
Matemáticas Lamos H
poblaciónla de Tamaño-N)(
=
2N
1i2
N
xxi
04/18/2023
Medidas de resumen
11.0
61.12
04/18/2023 12Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Un ejemplo. Ventas anuales medición
04/18/2023Estadística Descriptiva. Doctor en
Matemáticas Lamos H13
YYXX
XY
x
y
i
R
xN
x
XY
i
razón llama se
0
ticacaracterís la tiene si-1
N
1i=
Parámetros: Proporción, Razón, Correlación
18/04/2023 14Henry Lamos Ph.D en Matemáticas
Medidas de posición: media de una muestra
Suponga que se tienen los siguientes datos de una muestra.Se define el siguiente valor llamado media aritmética
La edad en meses de 5 perros de estudiantes de Ingeniería Industrial se presenta a continuación: 2, 5, 7, 9, 36 = 11.8
18/04/2023 15Henry Lamos Ph.D en Matemáticas
La mediana de una muestra
Suponga que se tienen los siguientes datos de una muestra. Se ordena la muestra en orden ascendente, sea el orden La mediana se define comoel siguiente valor llamado media aritmética si n es impar, en caso contrario
La edad en meses de 5 perros de estudiantes de Ingeniería Industrial se presenta a continuación: 2, 5, 7, 9, 36
Todo conjunto de datos de nivel de intervalo y de nivel de
razón tiene un valor medio.
04/18/2023 16Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Propiedades de la media
Al evaluar la media se incluyen todos los valores.Un conjunto de valores sólo tiene una media.La cantidad de datos a evaluar rara vez afecta la media.
La media es la única medida de ubicación donde la suma de las desviaciones de cada valor con respecto a la media, siempre es cero.
La mediana es única para cada conjunto de datos.
04/18/2023 17Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Propiedades de la mediana
No se ve afectada por valores muy grandes o muy pequeños, y por lo tanto es una medida valiosa de tendencia central cuando ocurren.Puede obtenerse para datos de nivel de razón, de intervalo y ordinal.
• Puede calcularse para una distribución de frecuencias con una clase de extremo abierto, si la mediana no se encuentra en una de estas clases.
La función de masa de probabilidad condicional
Moda
• La moda es el valor de la observación que aparece con más frecuencia.
• EJEMPLO 5: las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificación 81 es la que más ocurre, la moda es igual 81.
La función de masa de probabilidad condicional
Media Geométrica
• La media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-ésima del producto de los n valores. Su fórmula es:
• La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento.
n nXXXXMG ))...()()(( 321
La función de masa de probabilidad condicional
Media Geométrica. Ejemplo
Las tasas de interés de tres bonos son 5%, 7% y 4%.
3 )4)(5)(7(MG
La media aritmética es (5 + 7 + 4)/3 = 5.333La MG da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%.
04/18/2023 21Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Medidas de variabilidad
minmax
max
min
,..,max
,..,min
xxR
xxxx
xxxx
n21
n21
Recorrido : Para un conjunto de datos se halla el mayor valor y el
menor valor
04/18/2023 22Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Medidas de dispersión
Desviación media: media aritmética de los valores absolutos de las
desviaciones respecto a la media aritmética. Sea las calificaciones
de un examen de diez estudiantes son: 3.5, 4.3, 3.8, 3.7, 3.6, 3.8,
3.9, 3.5, 3.5, 3.8. La media es 3.74, por lo tanto, las desviaciones
serían: -0.24, 0.56,…0.06l luego se calcula el promedio de las
desviaciones en valor absoluto,
N
1i
i
N
xXDMA )(
La función de masa de probabilidad condicional
Varianza
La varianza poblacional es el promedio de las desviaciones cuadráticas.
Se llama desviación cuadrática a
2i
2i xd )(
La varianza se denota con la letra sigma al cuadrado
22
i2
iN
1i
2
N
x
N
x )(
La varianza muestral estima la varianza de la población.
n
xxs
n
xs
i
i
)(=
1
)x-(Σ=ˆ
n
1i2
2i2
La desviación estándar muestral es la raíz cuadrada de
la varianza muestral.
la amplitud o rango es la diferencia entre los valores
mayor y menor en un conjunto de datos.
4-11
04/18/2023 24Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Estimaciones de la desviación media absoluta y de la varianza
El coeficiente de variación es la razón de la
desviación estándar a la media aritmética,
expresada como porcentaje:
CVs
X (100%)
4-17
04/18/2023 25Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Coeficiente de variación
Teorema de Chebyshev: para cualquier conjunto
de observaciones, la proporción mínima de
valores que está dentro de k desviaciones
estándar desde la media es al menos
1 – 1/k2, donde k2 es una constante mayor que 1.
04/18/2023 26Estadística Descriptiva. Doctor en
Matemáticas Lamos H
Interpretación y usos de la desviación estándar
27
Hora 8.30 am 9.30 am 10.30 am 11.30 am 12.30 am Muestra 1 2 3 4 5 6x1 33 33 35 30 33 38x2 29 31 37 31 34 37x3 31 35 33 33 35 39x4 32 37 34 34 33 40x5 33 31 36 33 34 38Promedio 31,6 33,4 35 32,2 33,8 38.4R 4 6 4 4 2 3
La pieza de una turbina de avión se fabrica mediante un proceso de colada de precisión. La abertura del aspa en este vaciado es un parámetro funcional importante de la pieza. En la tabla se presenta 6 de las 20 muestras que se encuentran en el archivo “oberturas” de cinco piezas. Los valores dados se han codificado usando los tres últimos dígitos de la dimensión, esto es, 31.6 debería ser 0.50316 pulgadas
Diámetro de una pieza
28
Diámetro de una pieza
Muestra x1 x2 x3 x4 x5
1 33 29 31 32 33
2 33 31 35 37 31
3 35 37 33 34 36
4 30 31 33 34 33
5 33 34 35 33 34
6 38 37 39 40 38
7 30 31 32 34 31
8 29 39 38 39 39
9 28 33 35 36 43
10 38 33 32 35 32
11 28 30 28 32 31
12 31 35 35 35 34
13 27 32 34 35 37
14 33 33 35 37 36
15 35 37 32 35 39
16 33 33 27 31 30
17 35 34 34 30 32
18 32 33 30 30 33
19 25 27 34 27 28
20 35 35 36 33 30
Grafica de control para la abertura de las aspas
29
En minitab, seleccionar las observaciones para un subgrupo están en una fila de columnas.Elegir x1, x2, x3, x4, x5
Cuartiles, quintiles, percentiles• Un cuartil de una muestra, , es un valor para el que una fracción
específica f (f=1/4, f= 2/4, f= ¾) de los valores de los datos es menor o igual a
• El primer, segundo y tercer cuartil se representan como , y respectivamente.
• Los datos se ordenan en forma creciente y el valor divide el conjunto de datos en dos partes, en la parte izquierda se encuentra el 25% de los datos, en la parte derecha el 75% de los datos.
• El valor representa la mediana por debajo de él hay 50% de datos como por encima
• La amplitud entre cuartiles es la distancia entre el tercer cuartil y el primer cuartil
4-19
Cuartiles, quintiles, percentiles4-19
• La desviación entre cuartiles es la mitad de la distancia entre
EJEMPLO
• Sean los datos 29 31 31 34 37 37 (vea que los datos se encuentran ordenados), el número 32.5 es el segundo cuartil, el tercero es 35.5 y el primero es 31.
4-23
Percentiles
• Cada conjunto de datos tiene 99 percentiles, que dividen el conjunto en 100 partes iguales.
• La amplitud cuartílica es la distancia entre dos porcentiles establecidos. La amplitud cuartílica 10 a 90 es la distancia entre el 10º y 90º percentiles.
4-24