estadística descrptiva
Post on 02-Apr-2016
217 Views
Preview:
DESCRIPTION
TRANSCRIPT
Estadística descriptiva
La mayor parte de la información
estadística que aparece en los diarios,
revistas, informes de compañías y demás
publicaciones consiste en datos resumidos
y presentados en forma comprensible para
el lector. Esos resúmenes de datos, que
pueden ser tabulares, gráficos o numéricos
se llaman estadísticas descriptivas.
Ejemplo
En la tabla 1.4 hay un resumen tabular de los datos de la variable
cualitativa bolsa. En la figura 1.5 se representa un resumen de los
mismos datos conocidos como gráfica de barras. El objeto de los
resúmenes tabulares y gráficos como éstos es facilitar la
interpretación de los datos. Si se observa la tabla 1.4 o la figura 1.5
se puede percibir con facilidad que la mayoría de las acciones se
negocian en ventanilla, 24% en American Stock Exchange (AMEX)
y sólo 20% en la bolsa de valores de Nueva York (NYSE)
Bolsa Frecuencia Porcentaje
NYSE 5 20
AMEX 6 24
OTC 14 56
Total 25 100
Tabla 1.4: Frecuencias y frecuencias
porcentuales para la variable bolsa
Figura 1.5: Gráfica de barras para la variable bolsa
Bolsa
po
rce
nta
je
OTCAMEXNYSE
60
50
40
30
20
10
0
Gráfica de barras para la variable bolsa
Inferencia estadística
Uno de los mayores aportes de la
estadística es que los datos de una
muestra pueden emplearse para
elaborar estimaciones y probar
hipótesis acerca de las
características de una población. A
este proceso se le denomina
inferencia estadística.
Población
Una población es el conjunto de todos los elementos de interés
en determinado estudio.
Muestra
Una muestra es un subconjunto de la población
Ejemplo de inferencia estadística
Veamos el estudio de Norris Electronics. Esta empresa
fabrica una bombilla de gran intensidad, que se
emplea en varios productos eléctricos. Al tratar de
aumentar la vida útil de sus bombillas, los diseñadores
del producto desarrollaron un nuevo filamento. En este
caso, se define la población como todas las bombillas
que se pueden producir con el nuevo filamento. Para
evaluar las ventajas del producto mejorado se
fabricaron y se puso a prueba una muestra de 200
bombillas con el nuevo filamento. Se reunieron los
datos sobre la cantidad de horas que funcionó cada
uno de ellos hasta fundirse.
Suponga que a Norris le interesa usar los mismos
datos para hacer una inferencia acerca de las horas
promedio de vida útil para la población de todas las
bombillas que se puedan producir con el nuevo
filamento. Al sumar los 200 valores y dividir el total
entre 200 se determina la vida media para la
muestra: 76 horas. Podemos usar este resultado para
estimar que la vida promedio de las bombillas es 76
horas
La siguiente figura es un resumen gráfico del
proceso de inferencia estadística en el caso
de Norris Electronics
Proceso de inferencia estadística en el ejemplo de Norris Electronics
1. La población es
igual a todas las
bombillas
fabricadas con el
nuevo filamento. Se
desconoce la
duración promedio
2. Se fabrica una
muestra de 200
bombillas con el nuevo
filamento
3.El resumen de los datos de
la muestra da como
resultado una duración
promedio de 76 horas por
bombilla
4.4 El valor del promedio de
la muestra se emplea para
estimar el promedio de la
población
Resumen de datos cualitativos
Primero describiremos cómo se pueden
emplear métodos tabulares y gráficos para
resumir datos cualitativos a partir de la
definición de distribución de frecuencias
Distribución de frecuencias
Una distribución de frecuencias es un
resumen tabular de un conjunto de
datos que muestra el número
(frecuencia) de artículos en cada una
de varias clases que no se traslapan.
Ejemplo
Suponga que se tiene un resumen de
cómo se distribuyen las 50 compras
de una bebida carbonatada. Mediante
este resumen se tiene una visión más
clara de las preferencias
Distribución de frecuencias de compras de
bebidas carbonatadas
Marca Frecuencia
Coke Classic 19
Diet Coke 8
Dr. Pepper 5
Pepsi-Cola 13
Sprite 5
Total 50
Distribución de frecuencias
relativas
La frecuencia relativa de una clase es la
fracción o proporción de elementos que
pertenecen a esa clase. Para un conjunto de
datos con n observaciones, la frecuencia
relativa de cada clase es como sigue:
n
claseladeFrecuenciaclaseunaderelativaFrecuencia
Frecuencia porcentual
Es la frecuencia relativa multiplicada
por 100
Distribuciones de frecuencias relativas y procentuales de
compras de bebidas carbonatadas
Marca
Frecuencia
relativa
Frecuencia
porcentual
Coke Classic 0.38 38
Diet Coke 0.16 16
Dr. Pepper 0.10 10
Pepsi-Cola 0.26 26
Sprite 0.10 10
Total 1.00 100
Gráficas de barras
Es una forma gráfica de representar datos cualitativos que se han
resumido en una distribución de frecuencias, de frecuencias
relativas o de porcentuales. En uno de los ejes de la gráfica (por lo
común el eje horizontal), especificamos las etiquetas que se utilizan
para las clases (categorías) de los datos. Para el otro eje de la
gráfica (por lo general el eje vertical), se puede usar una escala de
frecuencias, de frecuencias relativas o de frecuencias
porcentuales. Entonces, con una barra de un ancho fijo trazada
sobre cada indicador de clase llegamos a la altura que
corresponda a la frecuencia, a la frecuencia relativa o a la
porcentual de la clase. Para los datos cualitativos, las barras deben
estar separadas para enfatizar el hecho de que cada clase
(categoría) es separada
Marca
Fre
cu
en
cia
re
lati
va
SpritePepsi ColaDr. PepperDiet CokeCoke Classic
0,4
0,3
0,2
0,1
0,0
Gráfica de Barras de las frecuencias relativaspara las 50 compras de refresco
Diagrama de pastel
Es otra forma de representar las distribuciones
de frecuencias relativas y de frecuencias
porcentuales. En la construcción de un
diagrama de pastel primero se traza un círculo
para representar todos los datos. A
continuación, con las frecuencias relativas, se
divide el círculo en sectores o partes, que
corresponden a la frecuencia relativa de cada
clase
Ejemplo
Como hay 360 grados en un círculo, y como Coke
Classic tiene 0.38 de frecuencia relativa, el sector de la
gráfica de pastel que le corresponde debe tener
0.38(360) = 136.8 grados. El sector del diagrama
etiquetado como Diet Coke consiste en 0.16(360) = 57.6
grados. Se efectúan cálculos semejantes para las
demás clases, obteniéndose el diagrama de pastel
correspondiente. Los valores numéricos que se ven en
cada sector pueden ser frecuencias, frecuencias
relativas o frecuencias porcentuales
Category
0,10
0,26
0,36
0,38
Diagrama de pastel de las frecuencias relativaspara las 50 compras de refresco
Resumen de datos
cuantitativos
Distribución de frecuencias
Como ya hemos señalado anteriormente, una
distribución de frecuencias es un resumen tabular que
muestra el número (frecuencia) de elementos en cada
una de varias clases que no se traslapan. Esta
definición es válida para datos cuantitativos y
cualitativos. Sin embargo, debemos tener más cuidado
con los datos cuantitativos al definir las clases no
traslapantes que se usan en la distribución de
frecuencias.
Ejemplo
Veamos los datos cuantitativos de la
siguiente tabla. Estos muestran el tiempo
requerido, en días, para terminar
auditorías de fin de año en una muestra
de 20 clientes de Sanderson y Clifford,
pequeño bufete de contadores públicos
Tiempo de auditorias de fin de año (días)
12 14
19
18
15 15
18
17
20 27
22
23
22 21
33
28
14 18
16
13
Los tres pasos necesarios para definir las clases en
una distribución de frecuencias con datos cuantitativos
son:
1.-Determinar la cantidad de clases no traslapantes.
2.- Determinar el ancho de cada clase.
3.-Determinar los límites de clase.
Número de clases
Las clases se forman al especificar los intervalos que se utilizarán
para agrupar los datos. Como regla general, se recomienda usar
entre 5 y 20 clases. Para un número pequeño de elementos, se
podrían usar cinco o seis clases para resumir los datos. Para una
cantidad más grande de elementos se requiere un número mayor
de clases. El propósito es emplear suficientes clases para mostrar
la variación de los datos, pero no tantas que varias contendrían
unos cuantos elementos. Debido a que el número de elementos
en la tabla es relativamente pequeño (n = 20), optaremos por
formar una distribución de frecuencias con cinco clases.
Ancho de clase
El segundo paso en la formación de una distribución
de frecuencias para datos cuantitativos es elegir un
ancho de las clases. Como regla general
recomendamos igual ancho para todas las clases. Así,
las opciones de la cantidad de clases y el ancho de
ellas no son decisiones independientes. Una mayor
cantidad de clases se traduce en un menor ancho de
clase, y viceversa.
Para determinar un ancho aproximado de
clase se comienza por identificar los valores
máximo y mínimo. Una vez especificada la
cantidad deseada de clases, podemos aplicar
la siguiente ecuación para determinar el ancho
aproximado de clase:
clasesdeCantidad
datoslosenmínimovalordatoslosenmáximovalorclasedeaproximadoAncho
El ancho de clase obtenido con la ecuación puede
ajustarse a un valor conveniente con base en la
preferencia de quien desarrolla la distribución de
frecuencias. Por ejemplo, un ancho de clase calculado
de 9.28 se podría ajustar a 10, simplemente porque 10
es un valor más conveniente para trazar y representar
una distribución de frecuencias.
Para el conjunto de datos de los tiempos de
auditoría, el valor máximo es 33 y el mínimo es
12. Como hemos decidido resumir ese conjunto
con cinco clases, al aplicar la ecuación se
obtiene un ancho aproximado de clase de (33-
12)/5 = 4.2. En consecuencia, optamos por usar
un ancho de clase de cinco para la distribución
de frecuencias.
Límites de clase
Se deben escoger los límites de clase de tal
manera que cada valor de dato pertenezca a una
clase y sólo una. El límite inferior de clase es el
valor mínimo posible de los datos que se asignan
a la clase. El límite superior de clase es el valor
máximo posible de los datos que se asignan a la
clase.
Para los datos de tiempo de auditoría definimos los
límites de clase como 10-14; 15-19; 20-24; 25-29 y 30-
34. El valor mínimo de los datos que es 12, se incluye
en la clase de 10-14, 10 es el límite inferior de clase y
14 es el límite superior. La diferencia entre los límites
inferiores de clase adyacentes es igual al ancho de
clase. Al usar los primeros límites inferiores de clase,
que son 10 y 15, vemos que el ancho de clase es 15-10
= 5.
Una vez determinada la cantidad de clases, el
ancho de clase y los límites de clase, se puede
obtener la distribución de frecuencias
contando la cantidad de datos que pertenecen
a cada clase. En la siguiente tabla se
presentan estos datos:
Tiempo de auditoría (días) Frecuencia
10-14 4
15-19 8
20-24 5
25-29 2
30-34 1
Total 20
En la tabla vemos que:
1.- Las duraciones más frecuentes de auditoría están en la clase de
15 a 19 días. Ocho de los 20 tiempos de auditoría pertenecen a esa
clase.
2.- Sólo una auditoría requirió de 30 días o más.
Punto medio de clase O MARCA DE CLASE
Este punto medio de clase es el valor
promedio entre los límites inferior y superior de
clase. Para los datos de tiempo de auditoría, los
puntos medios de las cinco clases son 12, 17,
22, 27 y 32.
Distribuciones de frecuencias relativas
Recordamos que la frecuencia relativa simplemente
es la proporción de la cantidad total de artículos que
pertenece a una clase. Con n observaciones:
n
clasedeFrecuenciaclasederelativaFrecuencia
Frecuencia porcentual
Es la frecuencia relativa multiplicada por 100
Tiempo de auditoría
(días)
Frecuencia
relativa
Frecuencia
porcentual
10-14 0.20 20
15-19 0.40 40
20-24 0.25 25
25-29 0.10 10
30-34 0.05 5
Total 1.00 100
Observe que 0.40, o 40% de las auditorías requirieron de 15 a 19 días.
Sólo el 0.05 o 5%, requirió de 30 o más días. Hay otras interpretaciones
que también se pueden obtener revisando la tabla.
Gráfica de puntos
Uno de los gráficos más sencillos para los
datos es una gráfica de puntos. Un eje
horizontal muestra el intervalo de los valores
para los datos. A continuación, el valor de
cada dato se representa con un punto
colocado sobre el eje.
Tiempo de auditoría
3330272421181512
Grífica de puntospara los tiempos de auditoría
En la gráfica: los tres puntos localizados arriba de
18 en el eje horizontal indican que hay tres
observaciones con un valor de 18. Las gráficas de
puntos muestran los detalles de los datos, y son
útiles para comparar la distribución de los datos
para dos o más variables.
Histogramas
Otra representación gráfica común de datos cuantitativos
es el histograma. Este resumen gráfico se puede
preparar con datos que se han resumido anteriormente
en una distribución de frecuencias, de frecuencias
relativas o de frecuencias porcentuales. Un histograma
se traza colocando la variable de interés sobre el eje
horizontal y la frecuencia, la frecuencia relativa o la
frecuencia porcentual en el eje vertical. Cada frecuencia
de clase se representa trazando un rectángulo cuya
base es el intervalo de clase sobre el eje horizontal, y
cuya altura es la frecuencia correspondiente. Los
rectángulos adyacentes de un histograma se tocan entre
sí
Como los límites de clase de los datos de tiempo de
auditoría se definieron como 10 a 14, 15 a 19, 20 a
24, 25 a 29 y de 30 a 34, parece haber intervalos de
una unidad, de 14 a 15, de 19 a 20, de 24 a 25 y de
29 a 30 entre las clases. Esos espacios se eliminan
trazando las líneas verticales del histograma a medio
camino entre los límites de clase. Las líneas verticales
que separan las clases en el histograma están en los
valores 9.5, 14.5, 19.5, 24.5, 29.5 y 34.5. Este
pequeño ajuste para eliminar los espacios entre las
clases ayuda a mostrar que, aunque los datos están
redondeados, son posibles todos los valores entre el
límite inferior de la primera clase y el límite superior
de la última.
Tiempo
Fre
qu
en
cy
353025201510
9
8
7
6
5
4
3
2
1
0
1
2
5
8
4
Histograma del tiempo de auditoría de fin de año
Distribuciones acumuladas
Una variación de la distribución de frecuencias, que
proporciona otro resumen tabular de datos
cuantitativos, es la distribución de frecuencias
acumuladas. En ella se usa el número de clases,
anchos de clase y límites de clase que fueron definidos
para la distribución de frecuencias. Sin embargo, más
que mostrar la frecuencia de cada clase, la distribución
de frecuencias acumuladas muestra la cantidad de
elementos con valores menores que, o iguales al
límite superior de clase para cada clase.
Las dos primeras columnas de la siguiente tabla,
muestran la distribución de frecuencias acumuladas de
los datos de tiempo de auditoría.
Tiempo de auditoría
(días)
Frecuencia
acumulada
Frecuencia relativa
acumulada
Frecuencia porcentual
acumulada
Menor que o igual a 14 4
0.20
20
Menor que o igual a 19 12
0.60
60
Menor que o igual a 24 17
0.85
85
Menor que o igual a 29 19
0.95
95
Menor que o igual a 34 20
1.00
100
Se puede interpretar en la tabla, que se terminaron cuatro
auditorías en 14 días o menos, y que 19 auditorías se
terminaron en 29 días o menos
Ojiva
Una gráfica de una distribución acumulada se
llama ojiva. Los valores de los datos están en el
eje horizontal y las frecuencias acumuladas,
frecuencias relativas acumuladas o frecuencias
porcentuales acumuladas se muestran en el eje
vertical.
Tiempo (días)
Fre
cu
en
cia
acu
mu
lad
a
3530252015
20,0
17,5
15,0
12,5
10,0
7,5
5,0
Ojiva de la distribución acumulada del tiempo de auditoría
top related