unidad 3 estadistica

13
U N I D A D 3 3.1 DISTRIBUCIONES DE FRECUENCIA Y FRCUENCIA ACUMULADA La distribución de frecuencia es una disposición tabular de datos estadísticos, ordenados ascendente o descendentemente, de acuerdo a la frecuencia de cada dato. Las frecuencias pueden ser: FRECUENCIA ABSOLUTA (f i ): Es el número de veces que se repite un determinado valor de la variable (x i ). Se designa por f i. PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total de observaciones (n). FRECUENCIA ACUMULADA (F i ): Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las filas de una distribución de frecuencia, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras F i . Se calcula: PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones. DISTRIBUCION DE FRECUENCIAS ABSOLUTAS Es la representación estructurada en forma de tabla de toda la información que se ha recogido sobre la variable que se estudia, es decir, es una tabla que presenta de manera ordenada los distintos valores de una variable y sus correspondientes frecuencias. Su forma mas común es la siguiente: Variable (x i ) f i F i h i H i x 1 f 1 F 1 h 1= f 1 /n h 1 x 2 f 2 f 1 +f 2 h 2= f 2 /n h 1 +h 2 ... ... ... ... ... x n f n f 1 +f 2 + … + f n h n= f n /n h 1 +h 2 + … + h n Σf i =n Σh i =1 Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia en cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces,

Upload: van-drn

Post on 25-Nov-2015

12 views

Category:

Documents


0 download

TRANSCRIPT

U N I D A D 3

3.1 DISTRIBUCIONES DE FRECUENCIA Y FRCUENCIA ACUMULADA La distribucin de frecuencia es una disposicin tabular de datos estadsticos, ordenados ascendente o descendentemente, de acuerdo a la frecuencia de cada dato. Las frecuencias pueden ser: FRECUENCIA ABSOLUTA (fi): Es el nmero de veces que se repite un determinado valor de la variable (xi). Se designa por fi. PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total de observaciones (n). FRECUENCIA ACUMULADA (Fi): Las frecuencias acumuladas de una distribucin de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las filas de una distribucin de frecuencia, esto se logra cuando la acumulacin de las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras Fi. Se calcula: PROPIEDAD: La ltima frecuencia acumulada absoluta es igual al total de observaciones. DISTRIBUCION DE FRECUENCIAS ABSOLUTAS Es la representacin estructurada en forma de tabla de toda la informacin que se ha recogido sobre la variable que se estudia, es decir, es una tabla que presenta de manera ordenada los distintos valores de una variable y sus correspondientes frecuencias. Su forma mas comn es la siguiente:

Variable (xi) fi Fi hi Hi

x1 f1 F1h1= f1/n h1

x2 f2f1+f2h2= f2/n h1+h2

... ... ... ... ...

xn fnf1+f2+ + fnhn= fn/n h1+h2+ + hn

fi=n hi=1

Es aquella distribucin en la que la disposicin tabular de los datos estadsticos se encuentran ordenados en clases y con la frecuencia en cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cundo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el nmero total de datos (N) es igual o superior 50 y adems el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizar la distribucin de frecuencia para datos agrupados, tambin se utilizar este tipo de distribucin cuando se requiera elaborar grficos lineales como el histograma, el polgono de frecuencia o la ojiva. La razn fundamental para utilizar la distribucin de frecuencia de clases es proporcionar mejor comunicacin acerca del patrn establecido en los datos y facilitar la manipulacin de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la informacin obtenida de una investigacin sea manejable con mayor facilidad. Al agrupar los datos en una distribucin de frecuencia de clase se pierde parte de la informacin. La reduccin o agrupamiento a que son sometidos los datos de una serie de valores cuando existen muchos valores diferentes, originan los denominados errores de agrupamiento; sin embargo, estos errores son en general muy pequeos, razn por la cual la distribucin de frecuencia de clase tiene una validez estadstica prctica. Para agrupar los datos en intervalos de clase se deben seguir las siguientes reglas generales: El numero de intervalos de clase se toma entre 5 y 15 dependiendo de los datos. Cada observacin debe estar incluida en una y solo una clase o intervalo. El valor mas pequeo y mas grande deben entrar en la clasificacin. No deben existir brechas o vacos entre clases sucesivas. Los intervalos no se deben sobreponer. En la medida de lo posible, se debe utilizar la misma amplitud para todos los intervalos. COMPONENTES DE UNA DISTRIBUCIN DE FRECUENCIAS DE CLASES 1.- Clase o Intervalo de clase.- Son divisiones o categoras en las cuales se agrupan un conjunto de datos ordenados con caractersticas comunes. Para organizar los valores de la serie de datos hay que determinar un nmero de clases que sea conveniente. En otras palabras, que ese nmero de intervalos no origine un nmero pequeo de clases ni muy grande. Un nmero de clases pequeo puede ocultar la naturaleza natural de los datos y un nmero muy alto puede provocar demasiados detalles como para observar alguna informacin de gran utilidad en la investigacin. A las fronteras del intervalo, la llamaremos, lmites inferior y superior de la clase y los denotaremos por Li-1, Li. 2.- Punto medio o Marca de clase (X&).- Es la semisuma del lmite inferior y superior de una clase, tal como lo indica la siguiente formula: 21+=iiiLLX. 3.- Amplitud , Longitud o Tamao del Intervalo.- Los intervalos de clases pueden ser de tres tipos: Clases de igual tamao, clases de tamaos desiguales y clases abiertas. En trminos generales, las clases de igual tamao son los mas utilizados y recomendados para los clculos estadsticos. Se designa por las letras Ic. Nota: Al nmero de observaciones de una clase se le llama frecuencia de clase, si dividimos esta frecuencia por el nmero total de observaciones, se llama frecuencia relativa de clase, y del mismo modo que lo hacamos para datos sin agrupar definiramos Hi, y Fi.

3.3 Medidas de dispersin: Rango, Varianza, Desviacin Estndar, Coeficiente de Variacin y de Pearson.

Datos no agrupadosMEDIDAS DE DISPERSIN (datos no agrupados)

Medidas de Dispersin. Cuando se tiene una muestra de datos obtenida de una poblacin cualquiera, es importante determinar sus medidas de tendencia central as como tambin es bsico el determinar que tan dispersos estn los datos en la muestra, por lo que se hace necesario determinar su rango, la varianza, la desviacin estndar, etc., ya que una excesiva variabilidad o dispersin en los datos indica la inestabilidad del proceso en anlisis en la mayora de los casos.Rango o recorrido. El rango es la diferencia entre el valor mayor y el valor menor encontrados en la muestra, tambin se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de inters; y se determina de la siguiente manera:R = VM Vm Donde: R = rango o recorridoVM = valor mayor en la muestraVm = valor menor en la muestraEjemplo: 1. Se han tomado como muestras las mediciones de la resistencia a la tensin de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0, 90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.Solucin:VM = 92.4 kgVm = 75.9 kgR = VM Vm = 92.4 75.9 = 16.5 kg2. Se toman las mediciones de la cantidad de grasa de la leche en gramos por cada 100 ml de leche que entra a un proceso de pasteurizacin, a continuacin se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el rango o recorrido de la cantidad de grasa de la leche.Solucin:VM = 17.61Vm = 12.76R = 17.61 12.76 = 4.85gramosDesviacin absoluta media (). Esta medida de dispersin nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera: Donde:xi = dato i= media aritmtica de la muestran = nmero de datos en la muestraEjemplo:1. Determine la desviacin absoluta media de los siguientes datos que son las concentraciones de plomo de algunas muestras, las que a continuacin se enumeran: 18gr, 12, 21, 19, 16, 20, 22Solucin:Para determinar la desviacin absoluta media o promedio, lo primero que hay que hacer es calcular la media aritmtica de los datos de la muestra, la que es 128/7 =18.286, luego se procede a calcular el promedio de las diferencias absolutas entre cada dato y la media calculada.

La interpretacin de este resultado sera que el grado de alejamiento absoluto promedio de los datos con respecto a su media es de 2.5305 gramos.Por qu sacar el valor absoluto de las diferencias entre cada dato y la media aritmtica? Si solo se hicieran diferencias entre cada dato y la media aritmtica, estas tendran signos positivos y negativos ya que algunos datos son menores que la media y otros son mayores que la media, luego al sumar las diferencias, con sus signos correspondientes, stas se iran anulando unas con otras y no sera posible medir leal grado de alejamiento promedio de los datos en la muestra.Varianza o variancia (s2). Es el promedio de las diferencias elevadas al cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmtica () de los datos y se determina de la siguiente manera: Donde n es el nmero de datos en la muestra.Ejemplo:Los siguientes datos es la cantidad de glucosa en miligramos encontrada en muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine su varianza.Solucin:Lo primero que hay que calcular es la media aritmtica de la muestra como ya se ha hecho anteriormente. Nota:Dentro de la inferencia estadstica se plantea la deferencia entre una variancia muestral s2 y una poblacional, representada por 2.

Desviacin estndar (s). Es la desviacin o diferencia promedio que existe entre cada dato de la muestra y la media aritmtica de la muestra. Y se obtiene a partir de la varianza, sacndole raz cuadrada. donde:s2= varianza o varianciaPor tanto la desviacin estndar de la muestra anterior sera;s = La interpretacin de este resultado sera, que la cantidad de glucosa encontrada en la muestra es en promedio de 14.86 miligramos y que la cantidad de glucosa en la muestra se aleja o dispersa en promedio 2.2029 mg alrededor de la media.En este caso solo nos interesa conocer el significado de la desviacin estndar, aunque es necesario decir que s es la desviacin de la muestra y que es la desviacin de la poblacin, as como s2 es la varianza de la muestra y 2 es la varianza de la poblacin.

MEDIDA DE ASIMETRADiremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coinciden.Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas) descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es asimtrica a la izquierda. Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es el Coeficiente de Asimetra de Pearson:

Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y negativo cuando existe asimetra a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

EJEMPLO 1El nmero de das necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, mediana, moda, varianza y desviacin tpica. SOLUCIN: La media: suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone:

La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:15, 21, 32, 59, 60, 60,61, 64, 71, 80.Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana.La moda: el valor de la variable que presenta una mayor frecuencia es 60La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Sx2=

La desviacin tpica S: es la raz cuadrada de la varianza.

S = 427,61 = 20.67El rango: diferencia entre el valor de las observaciones mayor y el menor80 - 15 = 65 dasEl coeficiente de variacin: cociente entre la desviacin tpica y el valor absoluto de la media aritmticaCV = 20,67/52,3 = 0,39Datos agrupados

MEDIDAS DE DISPERSIN TRATAMIENTO PARA DATOS AGRUPADOS.Cuando la muestra consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las caractersticas de la muestra y por consiguiente las de la poblacin de donde fue tomada.

Antes de pasar a definir cul es la manera de determinar las caractersticas de inters (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos.Pasos para agrupar datos.

1. Determinar el rango o recorrido de los datos. Rango = Valor mayor Valor menor1. Establecer el nmero de clases (k) en que se van a agrupar los datos tomando como base para esto la siguiente tabla. Tamao de muestra o No. De datosNmero de clases

Menos de 505 a 7

50 a 996 a 10

100 a 2507 a 12

250 en adelante10 a 20

El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para establecer el nmero de clases en las que se van a agrupar los datos, existen otros para hacerlo.1. Determinar la amplitud de clase para agrupar (C). 1. Formar clases y agrupar datos.Para formar la primera clase, se pone como lmite inferior de la primera clase un valor un poco menor que el dato menor encontrado en la muestra y posteriormente se suma a este valor C, obteniendo de esta manera el lmite superior de la primera clase, luego se procede a obtener los lmites de la clase siguiente y as sucesivamente.Ejemplo:Los siguientes datos se refieren al dimetro en pulgadas de un engrane.6.757.007.006.756.506.507.157.00

6.506.506.506.256.256.506.657.00

7.256.706.006.756.006.756.757.10

7.006.706.506.756.256.656.757.10

7.256.756.256.257.006.757.007.15

a) Agrupe datos, considere k=6.

1. Obtenga: media, mediana, moda y desviacin estndar.Solucin:

1. Agrupando datos;1. R= VM - Vm = 7.25 6.00 = 1.25 2. k = 6 3. 4. Formando clases.Para formar la primera clase se toma un valor un poco menor que el valor menor encontrado en la muestra; luego,LI LSFrecuencia Marca de claseLmite real inferiorLmite real superiorFrecuencia relativaFrecuencia Relativa acumulada

5.97 6.1826.0755.9656.1852/40 = 0.050.05

6.19 6.4056.2956.1856.4055/40=0.1250.175

6.41 6.6276.5156.4056.6250.1750.350

6.63 6.84136.7356.6256.8450.3250.675

6.85 7.0676.9556.8457.0650.1750.850

7.07 7.2867.1757.0657.2850.151.000

Total401.000

1. Media ().

=Donde:k = nmero de clasesxi = marca de clase ifi = frecuencia de la clase in = nmero de datos en la muestra1. Mediana (Xmed). Donde:Li = lmite real inferior de la clase que contiene a la medianaFme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la medianafme = frecuencia de la clase en donde se encuentra la medianaA = amplitud real de la clase en donde se encuentra la medianaA = LRS-LRILRS = lmite real superior de la clase que contiene a la medianaLRI = lmite real inferior de la clase que contiene a la medianaN = nmero de datos en la muestraf) Moda (Xmod).

Donde:Li = lmite real inferior de la clase que contiene a la modad1 = =d2 = =fmo = frecuencia de la clase que contiene a la modafmo-1= frecuencia de la clase anterior a la que contiene a la modafmo+1= frecuencia de la clase posterior a la que contiene a la modaA = amplitud real de la clase que contiene a la modaA = LRS LRILRS = lmite real superior de la clase que contiene a la modaLRI = lmite real inferior de la clase que contiene a la modag) Desviacin estndar (S). =Donde:xi = marca de clase i= media aritmticafi = frecuencia de la clase i = nmero total de datos en la muestra

3.4 Muestreo aleatorioEs la extraccin de una muestra de una poblacin finita, en el que el proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la misma oportunidad de ser incluidos en dicha muestra. Esta condicin garantiza la representatividad de la muestra porque si en la poblacin un determinado porcentaje de individuos presenta la caracterstica A, la extraccin aleatoria garantiza matemticamente que por trmino medio se obtendr el mismo porcentaje de datos muestrales con esa caracterstica.El muestreo aleatorio puede ser de dos tipos: Sin reposicin de los elementos: los elementos extrados se descartan para la siguiente extraccin. Por ejemplo, si se extrae una muestra de bombillas para inferir su vida media, no es posible la reposicin. Con reposicin de los elementos (Muestreo Aleatorio Simple o m.a.s.):las observaciones se realizan con reemplazamiento de los individuos, de forma que la poblacin es idntica en todas las extracciones y, por tanto, cada observacin es independiente de la anterior. En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse con reposicin aunque, realmente, no lo sea.Para realizar este tipo de muestreo, y en determinadas situaciones, es muy til la extraccin de nmeros aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.3.5 Muestreos no aleatorios, circunstanciales o errticos

Este tipo de muestreo no exacto o de carcter confiable, debido a que la poblacin que conforma la muestra es escogida por criterio del investigador o por conveniencia misma. En este tipo de muestreo no es posible calcular la probabilidad de obtener cada una de las muestras posible.Entre los tipos de muestreos no aleatorios que tenemos podemos encontrar:1. Muestreo dirigido, adaptado a juicio, intencional u opintico.2. Muestreo por cuotas.3. Muestreo deliberado.4. Muestreo voluntario.5. Muestreo por prorrateo.6. Muestreo por conveniencia.En este caso estudiaremos el muestreo deliberado y el muestreo voluntario.Muestreo deliberado:La muestra se elije cobre la base de conocimientos que le investigador tenga de la poblacin, sus elementos y la naturaleza de los objetivos de la investigacin. El asunto crtico es la objetividad que tanto se puede confiar en el juicio d el investigador al seleccionar una muestra. Aplica bien ara estudios de pre pruebas o prueba piloto para in instrumento. La idea se centra en que el investigador elije la muestra porque los considera mas representativos. Se caracteriza este tipo de muestreo por un esfuerzo deliberado de obtener muestras representativas mediante la inclusin en la muestra de sujetos supuestamente tpicos.Ejemplo: Tomar una muestra de la lista de clasificados de un diario o un peridico local en el que se solicite empleo a profesionales o a personas con estudios universitarios.Muestreo voluntario: es creada cuando los miembros de una poblacin tienen la oportunidad de participar en la muestra. Una muestra de voluntarios puede ser una la alternativa prctica cuando no hay lista de los miembros de la poblacin de quien una muestra aleatoria se podra escoger, o cuando es difcil de contactar a la gente en una muestra porque sus direcciones no se saben. La desventaja es que es difcil determinar la presencia del sesgo, es decir si las opiniones u otras caractersticas interesantes de los voluntarios de desvan de esos de la poblacin.Ejemplo: si tomamos como poblacin los clientes que han llenado voluntariamente una encuesta de satisfaccin en un buzn de sugerencia de un restaurante, y tomamos como muestra los clientes que no se sintieron a gusto con el servicio y los productos de dicho lugar. Para poder analizar el motivo por el cual su experiencia no fue placentera.