clase 2 - estadística descriptiva [7192]
TRANSCRIPT
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
1/137
NOCIONES DE BÁSICAS DE
“ESTADÍSTICA
DESCRIPTIVA”
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
2/137
Según L. Allen Webster, la Estadística es laciencia que tiene que ver con la:
recolección,organización, presentación,análisis, einterpretación de datos
DEFINICIÓN DE ESTADÍSTICA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
3/137
Descriptiva
, es el proceso de recolectar,agrupar y presentar datos de una manera talque describa fácil y rápidamente dichos datosa través de medidas que la resumen llamadas
parámetros:• Medidas de tendencia central• Medidas de Posición• Medidas de dispersión• Asimetría• Kurtosis
Inferencial
, involucra la utilización de unamuestra para sacar alguna inferencia oconclusión sobre la población de la cual
hace parte la muestraa través de los estimadores de los parámetros (estadísticos)que la describen:
• Probabilidad• Muestreo•
Estimación• Pruebas de Hipótesis.
E S
T A
D Í S
T I
C
A
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
4/137
4
Muestra: 60 trabajadores de empresas de comunicaciónUnidad de análisis: Trabajador de empresa decomunicación
Variables: sexo, edad, salario, Nº de horas de trabajo,etc.
Población:“ Las personas que trabajan
en empresas de
comunicación”
Muestra
POBLACION: Es la recolección de todas lasobservaciones de interés para el investigador.
MUESTRA: Es una parte representativa de la población que se selecciona para ser estudiada ya que la población es demasiado grande como para analizarla en su totalidad
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
5/137
1RA PARTE
“MEDIDAS DESCRIPTIVAS”
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
6/137
6
TIPOS DE VARIABLES
Variables Cuantitativas Los valores de las observaciones sonnuméricos (cuantificables)
Variable Estadística : Aspecto que deseamos estudiar (edad, sexo, peso, ...)
Intervalo/infinitosvalores
DISCRETA
Variables Cualitativas Los valores de las observacionesson no numéricas
COTI!A
Toma "a#ores enteros Ejemp#os: $mero de %ijos& $mero deemp#eados de una empresa& $mero deasi'naturas aprobadas en un semestre& etc(
Toma cua#quier "a#or dentro de un ran'o dado( o importa qu) tan cerca puedan estar dosobser"aciones& si e# instrumento de medida es #o su*icientemente preciso& puede +a##arse una terceraobser"ación que se encuentra entre #as dos primeras( Ejemp#os: ,eso- Estatura- Temperatura& etc(
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
ORDIAL O.IAL
Caracter/stica o cua#idadcu0as cate'or/as no tienenun orden preestab#ecido( Ejemp#os: Se1o& Deporte 2a"orito& etc(
Caracter/stica o cua#idad cu0ascate'or/as tienen un orden preestab#ecido( Ejemp#os: Ca#i*icación 3S& & A4-5rado de Inter)s por un tema& etc .uc+o& poco& ordina#(
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
7/137
DATOS AGRUPADOS Y NO AGRUPADOS
• Muestra tomada de la población < 20 elementos.
•Se analizan sin necesidad de formar
clases con ellos. Por edad
DATOS NO AGRUPAD
OS
• La muestra consta de 20 o más datos•Se aconseja agrupar los datos enintervalos y así determinar las
características de la muestra y las de la población de donde se tomó.
DATOS
AGRUPADOS
Datos agrupados trabajan en variables continuas
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
8/137
TABLAS DE FRECUENCIAS
Una tabla de frecuencias ordenará los datossi estos se dividen en intervalos y seregistrará el número de observaciones en cada intervalo.
CONSTRUCCIÓN DE INTERVALOS :
Teniendo en cuenta laamplitud total de las observaciones (Valor máximo menos valormínimo observados), tomaremos una decisión sobre elnúmero total de intervalos , obien sobre la amplitud o tamaño de los mismos.
Ver Tablas de Contingencia, libro de Webster, página 25
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
9/137
Se puede seguir una regla simple para aproximar el número deintervalos a utilizar, c, es:
Número de intervalos: 2c ≥ n
En donde n es el número de observaciones. El número deintervalos es la menor potencia a la cual se eleva 2, de maneraque el resultado sea igual o mayor que el número de
observaciones.
Amplitud de Intervalo para una tabla de frecuencia:
IC= Valor más grande – Valor más pequeño
Número deseado de intervalos
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
10/137
NOTACIÓN
Al establecer dos intervalos consecutivos, por ejemplo de 10 a 20 y de 20 a 30, hemos dedecidir si el valor 20 (final de uno e inicio delsiguiente) pertenece al primer intervalo o al
segundo. Para ello empleamos los símbolos [ y( .
[ o ] el valor situado junto a él pertenece al
intervalo( o ) el valor situado junto a él no pertenece alintervalo
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
11/137
TABLA DE FRECUENCIAS ABSOLUTAS
Situados en una tabla los valores de la variable (desde el
mínimo al máximo) o los intervalos que los contienen, procedemos a contar las veces que se repiten. Construimos asíuna tabla como la abajo mostrada.
En ella podrá observarse que, en el supuesto de datos agrupados
en intervalos, se ha incluido una columna encabezada por x.Tal valor de xse denominamarca de clase y es el valorcentral de cada intervalo.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
12/137
FRECUENCIAS
FRECUENCIA ABSOLUTA(n ) :
Para datos no agrupados en intervalos, es el número de veces que se presenta cada valor de la variable.Si los datos se agrupan en intervalos, es el número de observaciones que pertenecen a dicho intervalo.
FRECUENCIA ABSOLUTA ACUMULADA( N ) :
Para un cierto valor de la variable, la frecuencia absoluta acumuladanos da el número de observaciones menores o iguales a dicho valor.OTRAS FRECUENCIAS :
FRECUENCIA RELATIVA(r ) :
Cociente entre la frecuencia absoluta y el número total de observaciones(N).
PROPORCIÓN o PORCENTAJE( p ) :
Frecuencia relativa multiplicada por 100 (es la expresión de las frecuencias en %). De igual modo que se definió para las frecuenciasabsolutas, se definen las FRECUENCIAS RELATIVAS
ACUMULADAS( R ) y los PORCENTAJES ACUMULADOS( P ).
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
13/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
14/137
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,01509 100,0
0
1
2
34
5
6
7
Ocho+Total
Frec.
Porcent.
(válido
Porcent.
ac!".
EJEMPLO
¿Cuántos individuos tienenmenos de 2 hijos? frecuencia individuos sin hijos
+frecuencia individuos con 1 hijo
= 419 + 255= 674 individuos
¿Qué porcentaje deindividuos tiene 6 hijos omenos?
97,3%
¿Qué cantidad de hijos es talque al menos el 50% de lapoblación tiene unacantidad inferior o igual?
2 hijos
≥50%
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
15/137
GRÁFICOS ESTADÍSTICOS
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
16/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
17/137
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Una “medida de tendencia central” ubica eidentifica el punto alrededor del cual se centranlos datos , medida de la tendencia central, o, máscomúnmente,media.
Las“medidas de dispersión” indican el puntohasta el cual las observaciones individuales se
esparcen alrededor de su punto central. Midenla dispersión o la variabilidad de los datos(volatilidad) y reflejan la tendencia de lasobservaciones individuales a desviarse de dicho puntocentral.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
18/137
MEDIDAS DE LA TENDENCIA CENTRAL A PARTIR DE DATOS NO AGRUPADOS
La Media
La media, o media aritmética, es la medida de la
tendencia central que usualmente se le llamaba promedio.
Media Poblacional:
Media Muestral:
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
19/137
La Mediana La mediana, algunas veces llamada “media posiciónal”, porque queda exactamente en la mitad del conjunto de datos
después de que las observaciones se han colocado enserie ordenada. La mitad de las observaciones estará por encima de la mediana, la otra mitad estará por debajo de ella. Posición de la mediana =
* Con un conjunto de datos que contiene un par deobservaciones, es necesario promediar los dos valores
medios.
La Moda La observación modal es la observación que ocurre con
mayor frecuencia.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
20/137
Ejemplo: La emisión de la revista Fortune del 17 de febrero de 1997 reportó que en1996 las utilidades en millones de dólares de varias de las 500 mejorescompañías que aparecen en la revista incluían:
Exxon 7,510 (6)
Philip Morris 6,246 (4)
Intel 5,157 (2)
General Electric 7,280 (5)
IBM 5,429 (3)
General Motors 4,289 (1)Solución:
Media:
Mediana: - primero deben colocarse los datos en una serie ordenada - posición de la mediana (n + 1) / 2 = 3.5
la mediana es el promedio de los valores tercero y cuarto:(5,429+6,246)/2=5,837 Moda: este conjunto de datos no tiene moda debido a que todas lasobservaciones ocurrieron con igual frecuencia
Interpretación: La media y la mediana identifican el centro del conjunto de datos alrededor
del cual se encuentran las observaciones.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
21/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
22/137
La Media Ponderada En la discusión sobre la media, se asume que cadaobservación era de igual importancia. Sin embargo, en
ciertos casos, puede querer darse mayor peso a algunasde las observaciones. Esto es exactamente lo que hace la“media ponderada”
en donde: es la media ponderada
X es la observación individualW es el peso o ponderación asignada a
cada observación
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
23/137
Limpiador Utilidad por lata
(X) en $
Volumen de
ventas en latas
(W)
XW
Glunk Out 2.00 3 6.00
Bubble Up 3.50 7 24.50
Gream Drain 5.00 15 75.00
Clear More 7.50 12 90.00
Main Drain 6.00 15 90.00 24.00 52 285.20
Ejemplo: Paul el plomero vende cinco tipos de limpiadores para desagües. En la tabla se muestracada tipo junto con la utilidad por lata y el número de latas vendidas.
Se puede calcular la media aritmética simple de la utilidad de Paul como $ 24/5=$4.80 por lata.
Solución:Sin embargo, probablemente este no sea un buen estimado de la utilidad promedio de
Paul, debido a que vende más de algunos tipos de limpiadores de otros. Para obtener un estado financiero más representativo del desempeño real de su negocio, Paul debe dar más
peso a los tipos más populares de limpiadores. Por tanto, el cálculo apropiado sería lamedia ponderada. La medida de peso apropiada sería las cantidades vendidas:
Interpretación: La media ponderada es mayor que la media aritmética simple porque Paul vende más
limpiadesagües de los tipos que tienen un margen de utilidad mayor.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
24/137
La Media Geométrica La media geométrica puede utilizarse paramostrar los cambios porcentuales en una serie de
números positivos. Como tal, tiene una ampliaaplicación en los negocios y en la economía,debido a que con frecuencia se está interesado en establecer el cambio porcentual en las ventas, en
el producto nacional bruto o en cualquier serie económica.
La media geométrica se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a
través del tiempo.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
25/137
Ejemplo: El CEO de White-Knuckle Airlines desea determinar la tasa decrecimiento promedio en los ingresos con base en las cifras dadas en latabla. Si la tasa de crecimiento promedio es menor que el promedioindustrial del 10%, se asumirá una nueva campaña publicitaria.
Ingresos para White-Knuckle Airlines
Año Ingreso ($) % del año anterior
1992 50,000 ----
1993 55,000 55/50=1.10
1994 66,000 66/55=1.20 1995 60,000 60/66=0.91
1996 78,000 78/60=1.30Solución:
= 1.179
= (1.179 – 1)100= 11.79%
Interpretación:
La media geométrica representa el cambio promedio con el tiempo. Debido a que latasa de crecimiento supera el promedio de la industria, la nueva campaña
publicitaria no se llevará a cabo.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
26/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
27/137
Medidas de Dispersión a partir de datos no agrupados
Identificar una medida de tendencia central rara vez es suficiente. Unadescripción más completa del conjunto de datos puede obtenerse si se midequé tan dispersos están los datos alrededor de dicho punto central. Esto es lo que precisamente hacen las medidas de dispersión. Indican cuánto
se desvían las observaciones alrededor de su media. El Rango
La medida de dispersión más simple (y menos útil) es el rango o recorrido. El rango es simplemente la diferencia entre la observación más alta y la más baja. Su ventaja es que es fácil de calcular. Su desventaja es quese considera sólo dos de los cientos de observaciones que hay en un conjuntode datos. El resto de las observaciones se ignoran.
Varianza y desviación estándar de una población
La varianza y su raíz cuadrada, la desviación estándar, son medidasde dispersión mucho más útiles.
La varianza es el “promedio de las desviaciones respecto a su media elevadasal cuadrado”. Esto significa que: Se encuentra la cantidad por la cual cada observación se desvía de lamedia;
Se elevan al cuadrado tales desviaciones; y
Se halla la media de tales desviaciones elevadas al cuadrado.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
28/137
Así, se tiene el promedio de las desviaciones de la media elevadas alcuadrado.
Varianza poblacional:
en donde: Xi son las observaciones individuales µ es la media poblacional
N es el número de observaciones
Desviación estándar poblacional:
Importante:
A pesar del uso común de la varianza, ésta presenta dos problemas: es unnúmero muy grande con respecto a las observaciones, lo cual se vuelvedifícil para trabajar. Por otro lado, dado que las desviaciones son elevadas
al cuadrado, la varianza siempre se expresa en términos de los datosoriginales elevados al cuadrado, la unidad de medida resultante no tienesentido. En la mayoría de los casos la varianza se expresa en términos queno tienen significado o interpretación lógica.
Ambas complicaciones se resuelven hallando la desviación estándar
Ejemplo:
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
29/137
Ejemplo: Markus Boggs es gerente de Nest Egg Investments. Recientemente, Markus estabainteresado en las tasas de rendimiento de los últimos cinco años de dos diferentes
fondos mutuos. Megabucks, Inc., mostró, durante un período de cinco años, tasas derendimiento del 12, 10, 13, 9 y 11%, mientras que Dynamics Corporation arrojó 13,12, 10, y 6%. Un cliente se acercó a Boggs y expresó su interés en uno de estos fondos
mutuos. ¿Cuál debe escoger Boggs para su cliente? Solución:Vale destacar que ambos fondos ofrecen un rendimiento promedio de 11%. Debido aque ambos ofrecen el mismo rendimiento en promedio, una inversión más segura es laque tiene un grado menor de riesgo, tal como se midió mediante la desviación
estándar.
Para Megabucks, Boggs halla:
La desviación estándar es:
Para Dynamics:
La desviación estándar es:
Interpretación: Debido a que Megabucks presenta menos variabilidad en sus rendimientos y ofrece lamisma tasa de rendimientos promedio que ofrece Dynamics, Megabucks representa lamás segura de las dos inversiones y por ende es la oportunidad de inversión preferida.
V i d i ió tá d d t
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
30/137
Varianza y desviación estándar de una muestra
Los ejemplos anteriores se relacionan a la varianza y la desviación estándar para una“población”. Rara vez se pueden calcular parámetros. En la mayoría de los casos más bien se
estimarían tomando una muestra y calculando los estadísticos correspondientes. La varianza y la desviación estándar para una “muestra” representan medidas de dispersión
alrededor de la media. Se calculan de manera parecida a aquellos para una población.Varianza de la muestra: Desviación estándar de la muestra:
Ejemplo: El Sr. Boggs desea determinar la estabilidad del precio de de una ación en particular. Decidebasar su juicio en la estabilidad de la desviación estándar del precio de cierre diario de dicha
acción. Al revisar las páginas financieras, Boggs sabe que la acción ha sido transada en labolsa durante algún tiempo y que hay muchos precios de cierre desde hace varios meses. Enlugar de utilizar todos estos precios, Boggs decide simplificar su aritmética y seleccionar unamuestra aleatoria de n=7 días. Boggs nota que los precios de cierre son:$ 87, $ 120, $ 54, $ 92, $ 73, $ 73, $ 80, $ 63Solución:
entonces: y
Interpretación: Boggs ha estimado que la media del precio de cierre de la acción es de $ 81.29, con unatendencia a variar por encima o por debajo de dicho precio en $ 21.58. Una explicaciónadicional del uso e interpretación de la desviación estándar se proporciona más tarde. Sin
embargo, se tiene en mente que Boggs puede interpretar siempre la desviación estándar de$ 21.58 como una medida de la tendencia de los precios de cierre que tienden a fluctuar
alrededor de su media de $ 81.29.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
31/137
Importante: La varianza siempre será mayor que cero. Mientras más seaproxima a cero, más concentrados están los valores de la seriealrededor de la media. Por el contrario, mientras mayor sea la varianza,más dispersos están.
Ejemplo 1.
Calcula la varianza para los siguientes datos
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
Primero es necesario obtener la media. En este caso
Ahora aplicamos la fórmula correspondiente
2.16 1 =
2 2 2 2 2 2 2 2 2 2 2 22 (2 2 .16) (1 2 .16) (2 2 .16) (4 2 .16) (1 2 .16) (3 2 .16) (2 2 .16) (3 2 .16) (2 2 .16) (0 2 .16) (5 2.16) (1 2 .16)
12 1 s
− + − + − + − + − + − + − + − + − + − + − + −=
−
2 21.66721.9697
11 s = =
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
32/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
33/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
34/137
Ejemplo 1.
Si retomamos el ejemplo 1 que corresponde a la varianza:
Calcula la desviación estándar para los siguientes datos
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
Una vez que hemos calculado la media y la varianza, sólo restacalcular la raíz cuadrada de la varianza.
2.16 1 =
2 21.6672 1.969711
s = =
1.40341.9697S ==
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
35/137
Ejemplo 2.
Considerando nuevamente el segundo ejemplo ue estudiaste para calcular la varian!a,
tenemos:
" continuación se muestran dos conjuntos de datos obtenidos a partir de un experimento
u#mico ue reali!aron dos estudiantes distintos. Calcular la varian!a.
Solución.
$na ve! ue has calculado la media % la varian!a, es necesario calcular la desviación
est&ndar a partir de la obtención de la ra#! cuadrada de la varian!a.
'studiante "
'studiante (
2 91.69.16
10 s = =
2 76 7.610
s = =
026.316.9S ==
756.26.7S ==
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
36/137
Medidas de tendencia central y de dispersión para datos agrupados
Al trabajar con datos que han sido agrupados en una distribución de frecuencias, no se conocecuáles son las observaciones individuales. En una tabla de frecuencia para los pasajeros de P&P,se sabe solamente que en 3 días, entre 50 y 59 pasajeros abordaron un avión. No se tienen lascifras exactas de esos 3 días. Sin los valores específicos, los procedimientos mostrados
anteriormente para calcular las medidas descriptivas, simplemente no se aplican. Deben encontrarse métodos alternativos. Debe tenerse en mente que los cálculos hechos utilizando datosagrupados son sólo aproximaciones. Por tanto, las observaciones individuales no agrupadasdeberían utilizarse cuando sea posible.
Datos brutos sobre el número de pasajeros de P&P Airlines
68 71 77 83 7972 74 57 67 6950 60 70 66 7670 84 59 75 9465 72 85 79 7183 84 74 82 9777 73 78 93 9578 81 79 90 8380 84 91 101 86
93 92 102 80 69Clase de pasajeros Frecuencia (días) Punto Medio (M)
50 a 59 3 54.560 a 69 7 64.570 a 79 18 74.580 a 89 12 84.590 a 99 8 94.5
100 a 109 2 104.5 50
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
37/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
38/137
La Mediana
Si se han registrado datos en una tabla de frecuencia, no puedencolocarse en un arreglo ordenado para calcular la mediana. A manera
de ilustración, se suministra la tabla de frecuencia de P&P Airlines:Clase de
pasajeros
f Frecuencia
Acumulada50 a 59 3 360 a 69 7 1070 a 79 18 28
80 a 89 12 4090 a 99 8 48100 a 109 2 50
Primero se debe hallar la clase de la mediana de la distribución de frecuencia. La“clase mediana” es la clase cuya frecuencia acumulada es mayor que o igual a n/2.
Debido a que n es 50, se necesita localizar la primera clase con una frecuencia acumulada de 25 o más. La tercera clase tiene una frecuenciaacumulada de 28.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
39/137
LaModa
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
40/137
La ModaYa que po definición la moda es la observación que ocurre conmayor frecuencia, se hallará en la clase que tenga la frecuenciamás alta, llamada la“clase modal”. Para estimar la moda en el
caso de datos agrupados, se utiliza la siguiente fórmula: Moda para datos agrupados:
en donde: Lmo es el límite inferior de la clase modal D
a
es la diferencia entre la frecuencia de la clasemodal y la clase que la antecede Db es la diferencia entre la frecuencia de la clasemodal y la clase que le sigue C es el intervalo de clase de la clase modal
Ej lM di
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
41/137
Ejemplo Media:
La distribución de frecuencias siguiente, representa los puntajesobtenidos en una evaluación del desempeño, aplicado al personal
técnico de un Centro de Salud. El puntaje máximo en la prueba es50. Calcule e interprete en media.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
42/137
)rimero se calcular&n las marcas de clase * + i -
es decir, el valor intermedio de cada clase
+arca de recuencia
clase *+ i absoluta*/ i
1 2 6 3 34 2 1 5
11 2 16 13 7 14 2 8 15 1881 2 86 83 0
Total 60
67374 8 69 34 8 ;7 364
7 8 8 6< 8 ;= 8 6>
clase
747 60
26.25 Interpretación: Si se elige al azar a un trabajador técnico de este hospital, se
espera que tenga un puntaje de 26,25 en su evaluación de desempeño.
= 1 = 1
= 1
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
43/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
44/137
Interpretación:
9a mitad del personal de seguridad ue
labora en este hospital tienen una experiencia
laboral igual o menor a 0 a;os 6 meses. 9aotra mitad de este personal tiene una
experiencia laboral igual o ma%or a 0 a;os %
6 meses.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
45/137
Ventajas y desventajas
Ventajas: Los valores extremos no afectan a la mediana como en el caso de la media aritmética. Es fácil de calcular, interpretar y entender.Se puede determinar para datos cualitativos,registrados bajo una escala ordinal.
Desventajas:Como valor central, se debe ordenar primero la serie
de datos. Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demandatiempo y usualmente provoca equivocaciones.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
46/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
47/137
El intervalo donde se encuentra la mayor
frecuencia es el cuarto intervalo
Entonces:Li = 22d1= fi- fi-1= 12 – 6 = 6d 2= fi- fi+1= 12 – 11= 1
A = 6
de donde: Mo= 22 + 6 (6)= 27,85
7
Esto significa la mayoría de las empresasinvierten $ 27,850
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
48/137
Ventajas y desventajas de la moda.
Ventajas:Se puede utilizar tanto para datos cualitativoscomo cuantitativos. No se ve afectada por los valores extremos.
Se puede calcular, a pesar de que existan una o másclases abiertas.
Desventajas: No tiene un uso tan frecuente como la media. Muchas veces no existe moda (distribución amodal). En otros casos la distribución tiene varias modas,lo que dificulta su interpretación.
VarianzayDesviaciónEstándar
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
49/137
Varianza y Desviación EstándarSi los datos están agrupados e una tabla de frecuencia, la varianza y la desviación
estándar se pueden calcular de la siguiente manera:Varianza de la muestra de datos agrupados: y,
Desviación estándar muestral para datos agrupados:
Ejemplo: El director de vuelo de P&P requiere información respecto a la dispersión del número de pasajeros. Las decisiones que se toman respecto a la programación y al tamaño más eficiente de los aviones, dependerá de la fluctuación en el transporte de pasajeros. Si estavariación en número de pasajeros es grande, se pueden necesitar aviones más grandes para
evitar el sobrecupo en los días en los en que el transporte de pasajeros es más solicitado.
Clase
(pasajeros)
f
(días)
M fM M 2 f M 2
50 a 59 3 54.5 163.5 2970.25 8910.75 60 a 69 7 64.5 451.5 4160.25 29121.75 70 a 79 18 74.5 1341.0 5550.25 99904.50 80 a 89 12 84.5 1014.0 7140.25 85683.00 90 a 99 8 94.5 756.0 8930.25 71442.00
100 a 109 2 104.5 209.0 10920.25 21840.50 50 3935.0 316902.50
= 12.14 pasajeros
It t ió
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
50/137
Interpretación: El director de vuelo ahora puede decidir si los aviones que se estánutilizando actualmente pueden acomodar fluctuaciones en los nivelesde pasajeros tal y como lo mide una desviación estándar de 12.14. Sino, quizá se utilizarán aviones más grandes para acomodar cualquier excedente que pueda ocurrir en esos días de tráfico pesado. Otras medidas de dispersión Aunque la varianza y la desviación estándar son las medidas dedispersión más útiles en análisis estadístico, existen otras técnicas con
las cuales puede medirse la dispersión de un conjunto de datos. Estasmedidas adicionales de dispersión son loscuartiles , losdeciles y los percentiles.
Cada conjunto de datos tiene trescuartiles que lo dividen en cuatro partes iguales. El primer cuartil es ese valor debajo del cual clasifica
el 25% de las observaciones, y sobre el cual puede encontrarse el 75%restante. El segundo cuartil es justo la mitad. La mitad de lasobservaciones están por debajo y la otra mitad por encima; en estesentido, es lo mismo que la mediana. El tercer cuartil es el valor debajodel cual está el 75% de las observaciones y encime del cual puede encontrarse el 25% restante.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
51/137
La determinación de cuartiles con frecuencia es de utilidad. Por ejemplomuchas escuelas de postgrados admitirán sólo a aquellos estudiantes que estén en el 25% superior (tercer cuartil) de los candidatos. Las empresas,con frecuencia, desean señalar las plantas cuyo deficientes registros de producción los colocan por debajo del cuartil inferior. Con un poco deimaginación es posible prever numerosos ejemplos en los cuales ladeterminación de cuartiles puede ser de gran beneficio.
Losdeciles separan un conjunto de datos en 10 subconjuntos iguales, y
los percentiles en 100 partes. El primer decil es la observación debajode la cual se encuentra el 10% de las observaciones, mientras que el 90%restante se encuentra encima de éste. El primer percentil es el valordebajo del cual se encuentra el 1% de las observaciones, y el resto están encima de éste. Puede aplicarse una interpretación similar al resto dedeciles y percentiles. Todo el conjunto de datos tiene 9 deciles y 99
percentiles.
Un percentil y su ubicación en un arreglo ordenado se identificamediante los subíndices. Por ejemplo, el decimoquinto percentil seidentifica como P15 , y su ubicación en la serie ordenada es L15.
Parailustrarelcálculodepercentiles seasumequesetienen
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
52/137
Para ilustrar el cálculo de percentiles, se asume que se tienenobservaciones para el número de acciones correspondientes a 50acciones transados en la Bolsa de Valores de Nueva York. Vale la pena destacar que los datos han sido puestos en una serie ordenada.
3 10 19 27 34 38 48 56 67 744 12 20 29 34 39 48 59 67 747 14 21 31 36 43 52 62 69 769 15 25 31 37 45 53 63 72 7910 17 27 34 38 47 56 64 73 80
El lugar del P ésimo percentil se halla :
en donde: L p es el sitio del percentil deseado en una serie ordenada n es el número de observaciones P es el percentil deseado
Se asume que se desea calcular el percentil 25, P 25 , para las acciones dela tabla. Se debe hallar primero su ubicación en la serie ordenada.
El valor resultante 12.75 dice que el percentil 25 está ubicado al 75% deltrayecto comprendido entre la doceava observación, que es 20 y latreceava observación que es 21, es decir, P 25=20+(0.75)(21-20)=20.75.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
53/137
Si se desea calcular el percentil 35, se halla:
El percentil 35 está al 85% del trayecto comprendido entre laobservación 17, que es 29 y la observación 18 que es 31, es decir,
P 35=29+(0.85)(31-29)=30. Por tanto el 35% de las observaciones están por debajo de 30.7, y el 65% restante por encima de 30.7.
Regresando a los deciles y cuartiles por un momento, se nota que el primer decil es igual a P10 , el segundo decil es igual a P 20 , y asísucesivamente. Adicionalmente, el primer cuartil es igual a P 25 ,
el segundo cuartil es igual a P50 , y P75se encuentra en el tercer
cuartil.Teniendo esto en mente, el cálculo de deciles y cuartiles se vuelvesimplemente un asunto de determinación de los percentilesapropiados de acuerdo con las reglas que se acaban de establecer.
CUARTILES PARA DATOS NO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
54/137
Se solicita la posición del cuartil, aplicando la fórmula deposición:
k= orden del cuartil
n= número de datos
CUARTILES PARA DATOS NOAGRUPADOS
Ejemplo:Las edades (años) de 12 estudiantes universitarios tomados al azarfueron:18, 22, 19, 20, 21, 22, 23, 20, 19, 24, 22, 21. Calcular el primer cuartil.
Organizar las informaciones de menor a mayor
Aplicar la fórmula
El primer cuartil se encuentra en el término o lugar 3,25. Sedebe interpolar entre las edades 19 y 20; que representan lasposiciones 3 y 4.
El 25% (primer cuartil) de losestudiantes tienen 19,25 años omenos .
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
55/137
DECILES PARA DATOS NO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
56/137
Se solicita la posición del decil, aplicando la fórmula deposición:
k= orden del deciln= número de datos
DECILES PARA DATOS NOAGRUPADOS
Ejemplo:Las edades (años) de 12 estudiantes universitarios tomados al azarfueron:18, 22, 19, 20, 21, 22, 23, 20, 19, 24, 22, 21. Calcular el decil de orden 4.
Organizar las informaciones de menor a mayor
Aplicar la fórmula
El decil de orden cuatro se encuentra en la posición 5,2. Se debeinterpolar el verdadero valor entre los valores 20 y 21; querepresentan las posiciones 5 y 6.
El 40% (cuarto decil) de losestudiantes tienen 20,2 años omenos de edad.
PERCENTILES PARA DATOS NO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
57/137
PERCENTILES PARA DATOS NOAGRUPADOS
Ejemplo:Las edades (años) de 12 estudiantes universitarios tomados al azarfueron:18, 22, 19, 20, 21, 22, 23, 20, 19, 24, 22, 21. Calcular el percentil sesenta.
Organizar las informaciones de menor a mayor
Aplicar la fórmula
El percentil sesenta se encuentra en la posición 7,8. Se debeinterpolar el verdadero valor entre los valores 21 y 22; querepresentan las posiciones 7 y 8.
El 60% (percentil sesenta) de losestudiantes tienen 21,8 años omenos.
a
CÁLCULO PARA DATOS AGRUPADOS
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
58/137
Medida deposición
Fórmula
Cuartil
Quintil
Decil
Percentil
CÁLCULO PARA DATOS AGRUPADOS
EJEMPLOS
k
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
59/137
J
MONTO SALARIAL fi Fi
[500.000-1́100.000) 8 8
[1́100.000-1́700.000) 10 18
[1́700.000 – 23́00.000) 16 34
[2́300, 000-2́900.000) 14 48
[2́900.000-3
5́000.000)10 58
[3́500.000-4́100.000) 5 63
[4́100.000- 4́700.000) 2 65
65
Cálculo de los cuartiles C1 Y C3CÁLCULO DE PRIMER CUARTIL
C11́595.000
CÁLCULO DE TERCER CUARTIL
Ć945.000
, k= 1,2…3
Fabs. Fac
k= 1 2 4
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
60/137
MONTO SALARIAL fi Fi
[500.000-1́100.000) 8 8
[1́100.000-1́700.000) 10 18
[1́700.000 – 2
3́00.000)
16 34
[2́300, 000-2́900.000) 14 48
[2́900.000-3
5́000.000)10 58
[3́500.000-4́100.000) 5 63[4́100.000- 4́700.000) 2 65
65
Cálculo de los quintiles Q1 Y Q4
CÁLCULO DE PRIMER QUINTIL
Q11́400.000
CÁLCULO DE CUARTO QUINTIL
Q43́140.000
, k= 1,2…4
Fabs. Fac
Cál ld l d il D1YD8
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
61/137
MONTO SALARIAL fi Fi
[500.000-1́100.000) 8 8
[1́100.000-1́700.000) 10 18
[1́700.000 – 23́00.000)16 34
[2́300, 000-2́900.000) 14 48
[2́900.000-3
5́000.000)10 58
[3́500.000-4́100.000) 5 63
[4́100.000- 4́700.000) 2 65
65
Cálculo de los deciles D1 Y D8
CÁLCULO DEL PRIMER DECIL
00
C ÁLCULO DEL OCTAVO DECIL
00
, k= 1,2…9
Fabs. Fac
a
Cál ld l til P35YP86
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
62/137
Cálculo de los percentiles P35 Y P86
MONTO SALARIAL fi Fi
[500.000-1́100.000) 8 8
[1́100.000-1́700.000) 10 18
[1́700.000 – 23́00.000) 16 34
[2́300.000-2́900.000) 14 48
[2́900.000-3
5́000.000)10 58
[3́500.000-4́100.000) 5 63
[4́100.000- 4́700.000) 2 65
65
=1,2…99
CÁLCULO DEL PERCENTIL 35
= 1́878.125
CÁLCULO DEL PERCENTIL 86
= 3́374.000
Fabs. Fac
RecorridoIntercuartílico
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
63/137
Recorrido Intercuartílico
Una medida única de dispersión es el“rango o recorridointercuartílico (Interquartile range - RIQ)”. EL RIQ es la
diferencia entre el tercer cuartil y el primer cuartil. Es decir, P75 – P 25. La mitad de las observaciones se clasifican dentro de esterango. Consta del 50% de la mitad de las observaciones y corta
el 25% inferior y el 25% superior de los puntos de datos. Comoresultado, el RIQ “ proporciona una medida de dispersión
que no está muy influenciada por unas cuantasobservaciones extremas”.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
64/137
Ejemplo: La tabla muestra la experiencia (en años) del
personal que labora en el Hospital Central.
"
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
65/137
@ango
Antercuart#lico
;<
B=
;<
B6
clase3ralaenubicase 5.83100
)334(25PQLugar 251
o=→=
( ) 468
160100
25(334)
5.7Q1
+−+= aos 82.8Q
1=
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
66/137
". 'l 70> de los trabajadores con experiencia intermedia se
encuentran entre ,1 % 7,67 a;os.
(. 'l rango intercuart#lico es 6 a;os 0 meses aproximadamente
Bi hacemos *"mplitud Anter2cuartilica-
8.37 a;os * 70> central de las observaciones var#a en8,3 con respecto a la mediana
Q= Q 3 – Q1 2
clase5!alaenubicase 5.250
100
)334(75PQLugar 753
o=→=
( )4
40
1248100
75(334)
5.153
Q
+−
+= aos 65.153
Q =
OTRAS MEDIDAS ESTADÍSTICAS
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
67/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
68/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
69/137
's una medida de dispersión ue se utili!a para poder comparar las
desviaciones est&ndar de poblaciones con di/erentes medias % se calcula como
cociente entre la desviación t#pica % la media.
COEFICIE!E "E V#$I#CI%
F%$MU
Muestral
'oblacional
100"S C 1
= ×
100"C σ µ
= ×
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
70/137
Ejemplo (.
'n dos cursos los promedios ue sacaron sus alumnos /ueron 6. % 3.8 % las desviaciones
est&ndar respectivas /ueron 0.6 % 0.37 respectivamente.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
71/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
72/137
2DA PARTE“LA DISTRIBUCIÓN DE
PROBABILIDAD NORMAL”
D b d P bbld d
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
73/137
Distribuciones de Probabilidad
Distribuciones de
)robabilidad
Continuas
(inomial
)oisson
Distribuciones de
)robabilidad
Distribuciones de
)robabilidad
"iscretas
Normal
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
74/137
Unavariable aleatoria contínua es aquella que puede asumir un número infinito de valores dentrode cierto rango específico. Por ejemplo, el peso de
una persona podría ser 80.5, 80.52, 80.525,...dependiendo de la precisión de la báscula;
Unadistribución de probabilidad es un
despliegue de todos los posibles resultados de un experimento junto con las probabilidades de cadaresultado.
Repasemos…
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
75/137
las características principales de ladistribución de probabilidad normal
la distribución normal estándar
En esta unidad estudiaremos:
IMPORTANCIADELADISTRIBUCIÓNNORMAL
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
76/137
IMPORTANCIA DE LA DISTRIBUCIÓN NORMAL
1. Es un tipo particular de distribución de frecuencias.
2. De todas las distribuciones de probabilidad, la
distribución normal es la más importante.
3. Se utiliza para reflejar la distribución de variablesque son divisibles infinitamente.
4. La distribución normal casi se ajusta a lasdistribuciones de frecuencias reales observadas enmuchos fenómenos, incluyendo característicashumanas (Peso, altura, IQ)
CARACTERÍSTICAS DE LA DISTRIBUCIÓNNORMALDEPROBABILIDAD
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
77/137
NORMAL DE PROBABILIDAD
1) La curva tiene forma de campana y posee una sola
cima en el centro de la distribución.2) La media de una población distribuida normalmentecae en el centro de una curva normal.
3) Debido a la simetría, la mediana y la moda también
se encuentran en el centro. Para una curva normal,la media, la mediana y la moda tienen el mismo valor.4) Los dos extremos se extienden indefinidamente.5) La localización se determina a través de la media y la
desviación estándar .
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
78/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
79/137
FAMILIA DE DISTRIBUCIONES DE PROBABILIDAD NORMAL.
La curva varía en su formadependiendo de los
resultados que se obtengande los estudios realizados. Algunas curvas pueden parecerse; pero, ser muydistintas.
Se pueden obtener infinitacantidad de distribucionesnormales.
79
FÓROMULADELADISTRIBUCIÓNDE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
80/137
FÓROMULA DE LA DISTRIBUCIÓN DE PROBABILIDAD NORMAL
La distribución normal viene generada por una fórmula biencompleja para trabajar con probabilidades continuas.
80
Es una de las técnicas de investigación estadística másutilizada con probabilidades estimadas con exactitudvariable.
La información base para trabajar con unadistribución normal son la Media poblacional y la Desviación estándar poblacional.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
81/137
REGLAEMPÍRICA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
82/137
REGLA EMPÍRICA
1.Cerca del 68% del área bajo la curvanormal se encuentra a una desviación estándar de la media.
2. Alrededor del 95% del área bajo lacurva normal se encuentra a 2desviaciones estándar de la media.
3. Prácticamente toda el área bajo lacurva normal se encuentra a 3desviaciones estándar de la media.
82
EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
83/137
EJEMPLO…
La distribución de los ingresos anuales de un
grupo de empleados de mandos medios enCompton Plastics se aproxima a unadistribución normal, con una media de $ 47,200 y desviación estándar $ 800.
a) Entre qué valores se encuentra el 68% de losingresos
b) Entre qué valores se encuentra el 95% de losingresos
c)¿Cuál es el ingreso medio y el ingreso modal?d)¿La distribución de ingresos es simétrica?
83
…EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
84/137
El 68% de losingresosanuales se
encuentran en$46,400 y$48,000.
EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
85/137
…EJEMPLO
El 95% de losingresosanuales seencuentran en
$45,600 y$48,800.
…EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
86/137
En la distribución normal, la media aritmética
es igual que la moda y la mediana.
Ingreso medio =Moda =
Distribución de Probabilidad Normal
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
87/137
Estándar Puede existir un número infinito de distribuciones normales posibles, cada una con su propia media y su desviación estándar.
Ya que obviamente no se puede analizar un número tan grandede posibilidades, es necesario convertir todas esas distribuciones
normales a una“forma de conversión”. Esta conversión a ladistribución normal estándar se efectúa con la fórmula deconversión (o fórmula Z ).
Tomando de base la media aritmética y la desviación estándar,
éstas se convierten en media 0 y desviación estándar 1 paraobtener los resultados que se buscan.
El resultado que convierte a la media en 0 y la desviación estándar en 1 se llama“Valor tipificado” o “valor z”.
ValorZ
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
88/137
Valor Z
Z es la “desviación normal”, es decir, distancia entre
un valor seleccionado X y la media aritméticadividido entre la desviación estándar.
88
Después de este proceso de conversión, la media de ladistribución es 0 y la desviación estándar es 1.
La distribución Z posee todas las características decualquier distribución de probabilidad normal.
VALORZ
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
89/137
VALOR Z
Z, la desviación normal, se define como “elnúmero de desviaciones estándar a las queuna observación está de la media”.
El valor Z, siempre es un datos entre 0.00 y 3.00;todos los valores decimales se manejas con 2dígitos.
En los apéndices de los libros de estadísticasiempre viene una tabla con todos los posiblesresultados de Z.
Todos los resultados de estas probabilidades sebuscan en la tabla “Área bajo la curva normal”.
89
REGLAEMPÍRICA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
90/137
REGLA EMPÍRICA
90
EJEMPLO…
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
91/137
Los ingresos mensuales de los supervisores de losturnos de la Maquila “El buen rastro” se rigen
por una distribución de probabilidad normal conmedia de $10,000.00 y una desviación estándarde $ 850.¿Cuál es el valor z para el ingreso X de unsupervisor que percibe $12,000.00 mensuales?
91
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
92/137
EJEMPLO…
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
93/137
Los ingresos mensuales de los supervisores de losturnos de la Maquila “El buen rastro” se rigen por
una distribución de probabilidad normal con mediade $10,000.00 y una desviación estándar de $ 850.¿Cuál es el valor z para el ingreso X de unsupervisor que percibe $ 9,000.00 mensuales?
93
El valor Z indica que el salario de este supervisor
esmenorqueelpromedio
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
94/137
EJEMPLO…..
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
95/137
Calcular el área bajo la curva para Z = 1.23
Dividir Z en dos partes:1.- 1.2
2.- 0.03
Buscar el dato que resulta al unir la filade 1.2 con la columna 0.03.
Resultado = 0.3907
95
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
96/137
CARACTERÍSTICAS DE LAÓ Á
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
97/137
DETERMINACIÓN DEL ÁREA BAJO LA CURVA
97
CARACTERÍSTICAS DE LACÓ Á
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
98/137
DETERMINACIÓN DEL ÁREA BAJO LA CURVA
Lo cálculos para los Z menores que 0 se realizan en el lado positivo; es decir, si el valor de Z es
-1.22, se busca en la curva como si fuera 1.22
98
DETERMINACIÓN DEL ÁREA BAJO LA CURVA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
99/137
El tema anterior se refiere al área bajo la curva cuandolos datos están entre 0 y Z. Los cálculos de datos que cubren ambos lados de lamedia se duplican.
1°-) El enunciado indica que los valores de Z estánantes de la Media y después de la media. 2°-) Se hace el cálculo para los valores que están entre 0 y Z1.
3°.-) Se hace el cálculo para los valores que están entre 0 y Z 2. 4°.-) Se suman ambos resultados
99
EJEMPLO…..
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
100/137
Calcular el área bajo la curva, para los datos que están entre Z=-1.00 y Z=1.00
Calcular el área bajo la curva entre 0 y 1.1.- Buscar en las filas el dato 1.00 2.- Buscar en la columna el dato 0.00
3.- El resultado es 0.3413
Calcular el área bajo la curva entre -1 y 0.1.- Buscar en las filas el dato 1.00
2.- Buscar en la columna el dato 0.00 3.- El resultado es 0.3413
Resultado = 0.3413 + 0.3413 = 0.6826
100
DETERMINACIÓN DEL ÁREA BAJO LA CURVA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
101/137
Otra forma de calcular áreabajo la curva es cuando ésta no está junto al valor de la media.
En este caso se dice que Z > z1 Primero se calcula el área bajola curva entre 0 y Z.
El resultado se obtienemediante la resta de 0.5 y elárea bajo la curva obtenida.
101
EJEMPLO…..
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
102/137
Calcular el área bajo la curva para Z >1.3
Z = 1.30 Dividir Z en dos partes:
1.- 1.3 2.- 0.00
Buscar el dato que resulta al unir la fila
de 1.3 con la columna 0.00 El resultado del área entre 0 y Z=1.3 es 4032.
Resultado = 0.5- 0.4032 =0.596810
2
R:// 0.0968
DETERMINACIÓNDELÁREABAJOLACURVA
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
103/137
DETERMINACIÓN DEL ÁREA BAJO LA CURVA
Es posible que se desee conocerlas áreas bajo la curva en elcaso contrario; que Z < z1.
El resultado cubre los doslados de la curva normal.
Se resuelve calculando el áreabajo la curva entre 0 y z.
El resultado se obtienemediante la suma de 1 y el50% del otro lado de la gráfica.
10
3
EJEMPLO…..
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
104/137
Calcular el área bajo la curva para Z < 0.25
Z = 0.25Dividir Z en dos partes:
1.- 0.22.- 0.05Buscar el dato que resulta al unir la filade 0.2 con la columna 0.05
El resultado entre 0 y Z=0.25 es 0.0987Resultado = 0.5 + 0.0987 =0.5987
10
4
R:// 0.5987
EJEMPLO…
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
105/137
Los ingresos mensuales de lossupervisores de los turnos de la
Maquila “El buen rastro” se rigen por una distribución de probabilidad normal con media de$10,000.00 y una desviación
estándar de $ 850.a) ¿Cuál es la probabilidad de queun supervisor tenga ingresos
entre 10,500 y 11,500?
10
5
X = 10,500 X = 11,500
…EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
106/137
a) ¿Cuál es la probabilidad de que unsupervisor tenga ingresos entre10,500 y 11,500?
10
6
X = 10,500 X = 11,500
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
107/137
EJEMPLO …
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
108/137
b. ¿Cuál es la probabilidad de que un
supervisor tenga ingresos entre $9,500 y $10,900.
10
8
X = 9,500 X= 10,900
… EJEMPLO
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
109/137
Calcular el área entre 0 y 0.590.5 y 0.09
Calcular el área entre 0 y 1.061.0 y 0.06
Resultado del área entre -0.59 y 1.060.2224+0.3554 = 0.5778
La probabilidad de que un supervisortenga ingresos entre $9,500 y $10,900 esde 0.5778
10
9
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
110/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
111/137
EJEMPLO: PEP ZONE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
112/137
Distribución de Probabilidad Normal Estandarizada Las tablas normales estándar muestran una área de
0, 2967 para la región entre z = 0 y z = 0,83 de las líneasabajo. El área de la cola sombreada es 0,5 – 0,2967 =0,2033. La probabilidad de quedarse sin inventarios es de0,2033.
z = (x - µ )/σ = (20 - 15)/6
= 0,83
0 .83
Area = 0,2967
Area = 0.5
Area = 0,5 – 0,2967
= 0,2033
z
EJEMPLO: PEP ZONE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
113/137
Usando la Tabla de Probabilidades Normal
Estándar! .00 .01 .02 .03 .04 .05 .0 .0! .0" .09.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .039
.1 .0398 .0438 .0478 .017 .07 .096 .0636 .067 .0714 .073
.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
.3.1179 .1217 .12 .1293 .1331 .1368 .1406 .1443 .1480 .117
.4 .14 .191 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
.5 .191 .190 .198 .2019 .204 .2088 .2123 .217 .2190 .2224
. .227 .2291 .2324 .237 .2389 .2422 .244 .2486 .218 .249
.! .280 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .282
." .2881 .2910 .2939 .2967 .299 .3023 .301 .3078 .3106 .3133
.9 .319 .3186 .3212 .3238 .3264 .3289 .331 .3340 .336 .3389
DistribucióndeProbabilidadNormalEstandarizada
EJEMPLO: PEP ZONE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
114/137
Distribución de Probabilidad Normal EstandarizadaSi el administrador de Pep Zone quiere que la prob. dequedarse sin inventarios sea no más de 0,05 ¿En que nivel de
inventarios debería emitir una orden de recompra?
z.05 representa el valor z de corte del área de 0,05 en la cola
Area = .05 Area = .05
Area = .5 Area = .5 Area = .45 Area = .450 z.05
EJEMPLO: PEP ZONE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
115/137
Usando la Tabla de Probabilidades Normal Estándar
Buscamos el área 0, 4500 en la tabla de probabilidades área encontrar el valor de z.05
z.05 = 1.645 es el estimado más cercano.
! .00 .01 .02 .03 .04 .05 .0 .0! .0" .09
. . . . . . . . . . .
1.5 .4332 .434 .437 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1. .442 .4463 .4474 .4484 .449 .40 .41 .42 .43 .44
1.! .44 .464 .473 .482 .491 .499 .4608 .4616 .462 .4633
1." .4641 .4649 .466 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .470 .476 .4761 .4767
. . . . . . . . . . .
EJEMPLO: PEP ZONE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
116/137
Distribución de Probabilidad Normal Estandarizada
El valor correspondiente de x está dado por x = µ + z.05σ
= 15 + 1.645(6) = 24.87
Cuando los inventarios alcancen 24.87 galones, debe emitirseuna orden de recompra para que la probabilidad de quedarse sin
ellos sea de 0,05.
Tal vez el administrador de Pep Zone deba emitir la orden derecompra en 25 galones, y no en los 20 galones actuales, paramantener dicha probabilidad bajo 0,05.
EJERCICIOS DISTRIBUCIÓN NORMAL
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
117/137
.2 'l tiempo promedio ue recorre una persona para llegar de su casa al trabajo es de 13 min
con una desviación est&ndar de 8. min.
a
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
118/137
8.2 $na m&uina expendedora de re/rescos, rellena vasos de 100ml con una
desviación est&ndar de 7ml.
a de los vasos?
3.2 'l peso promedio de ratas de laboratorio, utili!adas para experimentos, es de
5grs, con una desviación est&ndar de 7.4grs.
a
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
119/137
3RA PARTE “INTRODUCCION A LA
REGRESION LINEALSIMPLE YCORRELACIÓN”
La regresión y la correlación son las dos herramientas estadísticas más poderosas y versátiles que se pueden
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
120/137
utilizar para solucionar problemas comunes en losnegocios;
Muchos estudios se basan en la creencia de que se puedeidentificar y cuantificar alguna relación funcional entre doso más variables;
En laregresión simple , se establece que Y es una funciónde sólo una variable independiente X (regresiónbivariada), en donde Y y X son dos variables cualquiera:
Y = f(X) En unmodelo de regresión múltiple , Y es una funciónde dos o más variables independientes:
Y = f(X1 , X 2 , X 3 ,………………X k )
1
d H h h d d l dd
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
121/137
1 1
2 1
n 1
Covarianza:
Recordemos que: Hasta ahora hemos estudiado lasmedidastendencia central(Media, Mediana, Moda) ydispersión (Varianza y Desviación Estándar)
parauna Variable Cuantitativa(x).
Es una medida deVariabilidad Conjunta entredos variables ( x1 , x 2 ) o
bien ( x , y ) 1 0)1( 1 43 0 1
)2( 1 43 0 2
)(n 1 4n3 0Si Cov(x,y) es positiva:la asociación entrexey es directamenteproporcional, es decir que cuandoxaumentay también aumenta; y
viceversa.Si Cov(x,y) es negativa:la asociación entrexey es inversamenteproporcional, es decir que cuandox aumentay disminuye; y viceversa.
Si Cov(x,y) es cero:no existe asociación entre xey.
∑=
−−==n
iii 10 0 0 1 1
n 0 1S
1
))((1
),co#(
Sxy> 0 relación lineal directa o
positiva
Sxy< 0 relación lineal inversa o negativa
Y Y -
Y Y -
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
122/137
,
-
,
-
Sxy= 0 independencia lineal ,
-
X X - X X -
X X -
Y Y -
Se refiere al grado de asociación entredos variables ( x1 , x 2 ) o bien(x y)
Correlación:
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
123/137
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación
Lineal entre dos variablesCuantitativas
( x , y )
1 0
)1( 1 43 0 1
)2( 1 43 0 2
)(n 1 4n3 0
Si r es positivo:la asociación entre x e y es directamente proporcional, es decir quecuando xaumenta y también aumenta; y viceversa.Si r=1:la asociación lineal es
perfecta.
Si r es negativo:la asociación entre x e y es inversamente proporcional, es decir quecuando x aumenta y disminuye; y viceversa.Si r=-1:la asociación lineal es perfecta.
Si r es cero:no existe asociación entre x e y.
11 ≤≤− r 0 1 s s
4 0 & 1co"3 r =
0 1
n
i
ii
s sn
0 1n 0 1
r )1(
1
−
−
=∑=
− ≤ ≤ +1 1r 1 0
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
124/137
Correlación ) causalidad
Bi el coe/iciente de correlación entre dos variables es alto *cercano a o a indica ue
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
125/137
Bi el coe/iciente de correlación entre dos variables es alto *cercano a 2 o a , indica ue
estas dos variables toman valores ue est&n relacionados entre si, pero no permite concluir
una relación causal *causa E e/ecto entre esas variables.
Ejemplo: se tienen dos variables Fel nGmero de matrimonios mensual en una ciudadH % Flatemperatura promedio mensualH en un periodo determinado. 'l coe/iciente de correlación
entre estas dos variables es igual a 0,40.
- 9as dos variables muestran una asociación, pero no podemos pensar ue el nGmero de
matrimonios aumente con la temperatura, ni ue una ola de calor produ!ca ma%or numero de
matrimonios.
- " este tipo correlación se denomina correlación espuria.
Covarianza versus Correlación
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
126/137
Si, por ejemplo las unidades de la variable X son centimetros y lasunidades de la variable Y son gramos, entonces las unidades de la
covarianza son cm × g y si cambiamos la escala de las variables,cambia la covarianza. Esto hace que el valor de la covarianza seadifícil de interpretar. Una medida normalizada es la correlación(carece de unidades de mediada – adimensional -).
Si lo que tienes que hacer es demostrar es que no hay correlacion, entonces es indiferente usar uno u otra, ya que si no hay correlacionambos valen cero. La covarianza tiene en este caso la ventaja de querequiere menos calculos.
En cambio, si hay que medir el grado de correlacion es convenienteusar el coeficiente de correlacion precisamente porque la covarianzadepende de la escala, y un valor grande o pequeño de la covarianzano significa necesariamente correlacion grande o pequeña.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
127/137
REGRESION LINEAL SIMPLE
.ODELO DE RE5RESI LIEAL SI.,LE
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
128/137
DATOS
.ODELO DE RE5RESI LIEAL SI.,LE
% / (/ε
3re#ación pob#aciona# o "erdadera4
1 0
)1( 1 43 0 1
)2( 1 43 0 2
)(n 1 4n3 0
M0D-*0 -+TIM1D0
ESTI.ADORES
-rror -st,ndar de -stimación: se
Medida del *rado de dispersión de los
+alores ,)- alrededor de la recta de
Modelo lineal con base a datos muestrales
ε representa el carácter aleatorio que muestra lavariable dependiente y por lo tanto el término de
error en la expresión Residuos o Errores
eb1a 0 ++=$
1b 0a −=
2
11
2
111
−
−=
∑∑
∑∑∑
==
===
n
ii
n
i
n
ii
n
ii
n
i
1 1n
0 1 10n
b
iii 0 0e $−=
2
),co#(
1 s
0 1b =
1
0
s
sr b =
22
)$(1
2
1
2
−=
−−= ∑∑ ==
n
e
n
0 0Se
n
i
n
i
ii
a yb son estimaciones de y , respectivamente, y e es el términoaleatorio.Habitualmenteseledenomina“residual”cuandoseutilizan
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
129/137
aleatorio. Habitualmente se le denomina residual cuando se utilizandatos muestrales, e reconoce que no todas las observaciones caen exactamente en una línea recta;
el propósito del análisis de regresión es determinar una recta que se ajustea los datos muestrales mejor que cualquier otra recta que puedadibujarse;
la recta que más se ajusta está determinada mediante la estimación dea
yb. Un procedimiento matemático utilizado para estimar esos valores sedenomina“mínimos cuadrados ordinarios (MCO)” ;
MCO producirá una recta que se extiende por el centro del diagrama dedispersión aproximándose a todos los puntos de datos más que cualquierotra recta;
MCO minimizará la“suma de los errores al cuadrado”. Es por esoque se denomina mínimos cuadrados ordinarios; produce una recta talque la suma de los errores al cuadrado es menor de lo que sería concualquier otra recta.
REGRESION LINEAL SIMPLE
Una #ariable )espuesta $y& una #ariable -xplicativa $x&
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
130/137
.ODELO DE RE5RESI LIEAL SI.,LE
Y= + X+ ε
.ODELO ESTI.ADO
Una #ariable )espuesta $y& una #ariable -xplicativa $x&
%
-rror -st,ndar de -stimación: se
Medida del *rado de dispersión de los +alores ,)-alrededor de la recta de re*resión.
/ecta e(ti"ada
El criterio de mnimos cuadrados /MCO0 nos proporciona
un +alor de a ) uno de b1 tal ue
sea mínimo
iii 0 0e $−=
22
)$(1
2
1
2
−=
−
−=
∑∑==
n
e
n
0 0
Se
n
i
n
i
ii
eb1a 0 ++=$
( )2
%
1
n
i i
i
F F
=
−∑
ElCoeficiente de Determinación R 2 es otra medida quizá más importante que el error estándar de estimación.
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
131/137
El coeficiente de determinación R 2 es una medida de la proximidad o de ajuste de larecta de regresión a la nube de puntos. También se le denominabondad del ajuste. Amayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la
variable Y.
También se puede entender este coeficiente de determinación como el porcentaje de varianza explicada por la recta de regresión ysu valor siempre estará entre 0 y 1 y siempre esigual al cuadrado del coeficiente de correlación (r).
1− R 2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de losresiduos.
0 ≤ R 2 ≤ 1
Un R 2
= 1: ajuste lineal perfecto, es decir, la variacióntotal de la variable Y es explicada por el modelo deregresión;Un R 2 = 0: la variación total de la variable Y no es
explicada por el modelo de regresión.
Nota:
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
132/137
El coeficiente de correlacion “r”, revela la fuerza ydirección de la relación lineal .
El coeficiente de determinación “R 2”, mide la fuerza dela relación entre Y y X de manera distinta que en r.
R 2 mide el porcentaje de la variabilidad en Y que se
explica por la diferencia en X.
Este R 2 tiene significado sólo para las relacioneslineales. Dos variables pueden tener un R 2 de cero y sin
embargo estar relacionadas en sentido curvilíneo.
El R 2 es otra medida quizá más importante de la bondadde ajuste.
Supuestos del modelo de regresión lineal
En el caso en que nuestras observaciones sean una muestra aleatoria proveniented bl ió t it d li if i b l i
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
133/137
de una población, estaremos interesados en realizar inferencias sobre la misma.A fin de que estas inferencias sean “estadísticamente razonables”, se han decumplir las siguientes condiciones:
1.En la población, la relación entre las variables X e Y debe seraproximadamente lineal, i.e.: y =α + β x + ε, siendoε la v.a. que representa losresiduos(diferencias entre el valor estimado por el modelo y el verdadero valorde Y ).
2.Los residuos se distribuyen según una Normal de media 0, i.e., ε ≈ N (0 , σ 2 ).
3.Los residuos son independientes unos de otros (independencia o noautocorrelación entre las perturbaciones – Series Cronológicas) .
4. Los residuos tienen varianza σ 2
constante (Homocedasticidad – datos de cortetransversal).
Afortunadamente, el modelo de regresión lineal es bastante “robusto”, lo quesignifica que no es necesario que las condiciones anteriores se cumplan conexactitud (en particular las tres últimas).
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
134/137
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
135/137
REGRESION LINEAL SIMPLE
-2-MP*0: 1plicación del Modelo de )e3resión *ineal +imple
Problema 1& La 'erolnea o* Sco!c+ consiera -ue eis!e una relaci/n irec!a en!re los gas!os
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
136/137
Problema 1& La 'erolnea o* Sco!c+ consiera -ue eis!e una relaci/n irec!a en!re los gas!os
*ublici!arios el nero e *asaeros -ue escoan #iaar *or la 'erolnea. La 'erolnea eciieron
u!iliar los *roceiien!os *ara e!erinar el oelo e egresi/n . ecolec!aron los #alores
ensuales *or gas!os e *ublicia nero e *asaeros *ara los n15 eses :s recien!es.
;e acuero al coe
-
8/17/2019 CLASE 2 - Estadística Descriptiva [7192]
137/137
p 3 p
Interpretación de los resultados =is!e asociaci/n o e*enencia en!re los gas!os *ublici!arios el nero e
*asaeros ( )40,94). =l R 2 e !"# es!ablece -ue el 94" el cabio en el
nero e *asaeros se e*lica eian!e un cabio en la *ublicia. =l in!erce*!o es 4.40 e inica una *enien!e *osi!i#a. =l coe