unidad ii. distribución de frecuencias

13
Distribución de frecuencias La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. Tipos de frecuencias Frecuencia absoluta La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por f i . La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N. Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria. Frecuencia relativa La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se representa por n i . La suma de las frecuencias relativas es igual a 1. Frecuencia acumulada La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por F i . Frecuencia relativa acumulada La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento. Ejemplo:

Upload: maria-veronica-villegas-jerez

Post on 05-Dec-2015

219 views

Category:

Documents


1 download

DESCRIPTION

estadistica

TRANSCRIPT

Page 1: UNIDAD II. Distribución de Frecuencias

Distribución de frecuenciasLa distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

Tipos de frecuencias

Frecuencia absolutaLa frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por fi. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.

Frecuencia relativaLa frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumuladaLa frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Fi.Frecuencia relativa acumuladaLa frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.Ejemplo: Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

Page 2: UNIDAD II. Distribución de Frecuencias

xi Recuento fi Fi ni Ni

27 I 1 1 0.032 0.032

28 II 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.516

31 8 24 0.258 0.774

32 III 3 27 0.097 0.871

33 III 3 30 0.097 0.968

34 I 1 31 0.032 1

    31   1  

Este tipo de tablas de frecuencias se utiliza con variables discretas.

Representación gráficaLos gráficos que representan de manera adecuada una distribución de frecuencias son: Histograma de frecuencia

Está formado por un conjunto de rectángulos, cada uno levantado para cada intervalo, de tal manera que la base será igual a la amplitud C y la altura está dado, ya sea por la frecuencia absoluta o por la relativa. En el ejemplo de las ventas, (tabla anterior) tenemos:

Polígono de frecuenciaCon la misma información que fue utilizada para elaborar el histograma de frecuencia se puede dibujar el polígono de frecuencia. Se establece los puntos medios del intervalo, denominados marca de clase, que se colocan en el eje horizontal o abscisa. Para cada valor de la variable corresponderá un valor de la frecuencia señalándose en el plano cartesiano por un punto; luego de establecidos todos los puntos, se unen mediante líneas rectas, las que en conjunto forman el polígono. El polígono de frecuencia para el ejemplo anterior es:

Page 3: UNIDAD II. Distribución de Frecuencias

OjivaEs el gráfico de las frecuencias acumuladas. Para el trazado de esta grafica, en primer lugar, se ubican los puntos en el plano cartesiano. Dichos puntos se determinan teniendo en cuenta la marca de clase (eje x) y las frecuencias absolutas o relativas acumuladas (eje y) tal como se presenta a continuación:

MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN. Las medidas de tendencia central,dan una idea de un número alrededor del cual tienden a concentrarse todo un conjunto de datos. Las medidas de tendencia central mas comúnmente usadas son: La media Aritmética, la mediana y el modo; cada una de éstas medidas es representativa de una serie de datos en una forma particular. La media aritmética es la que frecuentemente se le denomina promedio, sin embargo, el término es utilizado también para las otras medidas de tendencia central.

Page 4: UNIDAD II. Distribución de Frecuencias

CALCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS:

LA MEDIA ARITMÉTICA ( X ) Aún y cuando existen varias media, la media aritmética es la mas frecuentemente utilizada en Estadística. La media aritmética, es la suma de las puntuaciones o valores originales dividida entre el número de ellas.

EJEMPLO. Las calificaciones en una evaluación sobre 100 puntos fueron:60,55,70,70,85 y 80. Luego, X = 420 = 70. ( La calificación media es 70 puntos.) 6 Nota: Las puntuaciones extremas afectan o modifican la media, a saber: En los grupos de valores 1,3,5,5,5,6 y 1,3,5,5,5,110 las medias son 4.2 en el primer grupo y 21.5 en el segundo. Estos dos grupos no tienen la misma media, por lo tanto,En un conjunto de valores donde existen valores muy extremos, no se debe calcular la media

LA MEDIANA (Md) Es el punto medio, arriba o debajo del cual caen el 50% de las puntuaciones o casos. Para calcular la mediana, se ordenan las puntuaciones en orden creciente o decreciente. En caso de ser el número de datos impar, la mediana es el valor central; en el caso de ser par, la mediana es el promedio de los valores centrales.

EJEMPLO. (a) 6,11,9,12,13,10,20,15,17. Al ordenarlos se obtiene: 6,9,10,11,12,13,15,17,20. La mediana es 12. Md=12

(b) 9,10,12,11,3,6,20,17,13,15. Al ordenarlos se obtiene: 3,6,9,10,11,12,13,15,17,20. La mediana es el promedio entre 11 y 12, por haber dos valorescentrales. Md= 11.5

Nota: Una característica de la mediana es su insensibilidad hacia los valores extremos. Así, en el conjunto de valores: 2,3,8,11,48la Md= 8; esto es verdad aún y cuando hay un valor extremo de 48. Si cambiamos éste valor por 98 la mediana seguiría siendo la misma. Esta característica de la mediana la hace muy útil para la descripción de la tendencia central en ciertos tipos de distribuciones en las cuales la media es una medida inaceptable de tendencia central, debido a su sensibilidad hacia las calificaciones extremas.

EL MODO (Mo). DENOMINADO TAMBIEN MODA. Es el valor que aparece con mas frecuencia en una serie de datos.

Page 5: UNIDAD II. Distribución de Frecuencias

EJEMPLO. 1,1,2,2,2,3,3,3,3,4,5,6,8. La cifra 3 aparece cuatro veces lo cual es mas frecuente que otro valor; por lo cual el valor modal o modo es 3. ( Mo=3)

1,1,2,2,2,2,3,3,3,4,4,4,4,5,6,7,8. Las cifras 2 y 4 aparecen cuatro veces. Luego Mo= 2,(Bimodal) Cuando aparecen tres o mas veces se denomina Multimodal.

CALCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL (PARA DATOS AGRUPADOS)

MEDIA ARITMÉTICA.(X) Cuando se tienen distribuciones de frecuencia y siempre que el valor del intervalo de clase sea constante, es decir, el mismo en cada una de las clases, se puede calcular la Media a través del Método de los desvíos unitarios o Abreviado; Igualmente se puede utilizar el Método directo.

METODO ABREVIADO. Pasos para calcular la Media Aritmética:

1.- Se elige una media aritmética supuesta (Xa), la cual es el valor del punto medio de una de las clases; Aunque puede tomarse el punto medio de cualquiera de las clases y obtener el mismo resultado, por facilidad en el cálculo se acostumbra a elegir el de la clase de mayor frecuencia o el de aquella que esté ubicada hacia en el centro de la escala.(En el ejemplo,tomaremos Xa=49 ubicado en 48-50) 2.- Se anexa otra columna X, en la cual se anotan las desviaciones respecto a la media supuesta. Como la clase 48-50 contiene a Xa, la desviación es nula, por lo cual anotamos cero en la columna X. El intervalo o clase 51-53 se desvía una clase de la que contiene a la media supuesta, luego, en la columna X anotamos uno (1) para dicho intervalo. Se continúa así hasta llegar a la clase mayor. A las clases con valores inferiores, se les asigna consecutivamente Los números enteros negativos: -1,-2,-3,-4,-5,... 3.- Se anexa otra columna fiX en la cual se colocan los productos entre la frecuencias fi y la desviación X correspondiente. 4.- Se suman algebraicamente los valores de la columna fiX. 5.- Se reemplazan los valores obtenidos en la fórmula: X = Xa + EfiX. i N EJEMPLO: CLASE fi x fix 66-68 1 6 6 63-65 2 5 10 60-62 4 4 16

Page 6: UNIDAD II. Distribución de Frecuencias

57-59 4 3 12 54-56 5 2 10 51-53 7 1 7 x = 49 + 2.05 48-50 8 0 0 45-47 5 -1 -5 x = 51.05 42-44 3 -2 -6 39-41 2 -3 -6 El puntaje medio es: 51.05 36-38 1 -4 -4 33-35 2 -5 -10

METODO DIRECTO. (Método largo) Pasos para calcular la media aritmética, usando éste método: 1.- Se elabora una columna con los puntos medios xi de cada clase. 2.- En otra columna se escribe el producto entre las frecuencias y el punto medio de cada clase (fi.xi) 3.- Se obtiene la sumatoria de los valores de la columna fi.xi 4.- Se reemplazan los valores obtenidos en la fórmula siguiente: EJEMPLO: CLASE fi xi fixi 66-68 1 67 67 63-65 2 64 128 60-62 4 61 244 57-59 4 58 232 x= 2246 54-56 5 55 275 44 51-53 7 52 364 x = 51.05 48-50 8 49 392 45-47 5 46 230 42-44 3 43 129 39-41 2 40 80 36-38 1 37 37 33-35 2 34 68 N=44 Efixi= 2246

LA MEDIANA. (Md) Para calcular la mediana a partir de un conjunto de datos que han sido organizados previamente en una tabla de distribución de frecuencias, se procede de la siguiente manera: 1.- Se anexa a la tabla dada una columna fa de frecuencias acumuladas. 2.- Se divide entre 2 el número total de casos, obteniendo N/2.Es decir,se determina el número de casos que han de estar por debajo y por encima de la mediana.(En la tabla del ejemplo que usaremos, N=38 por lo tanto N/2= 38/2= 19. Luego, la mediana es el valor que deja 19 observaciones tanto por debajo como por encima de él. 3.- Se identifica en la columna fa, un valor que sea igual o inmediato superior a N/2; En ésta

Page 7: UNIDAD II. Distribución de Frecuencias

clase está la mediana.(En la tabla del ejemplo dado, en la columna fa, el valor 24 es inmediato superior a 19 por lo cual, la clase 90-94 contiene a la mediana.) 4.- Se identifica la frecuencia acumulada fa de la clase anterior a la que contiene a la mediana. ( En el ejemplo, 14 es la frecuencia acumulada de la clase 85-89 que precede a 90-94 que contiene a la mediana.) 5.- Se identifica la frecuencia fi de la clase que contiene a la mediana. En el ejemplo ésta es 10. 6.- Se identifica el límite real inferior de la clase que contiene a la mediana. En el ejemplo, éste es 89.5. 7.- Se reemplazan éstos valores en la fórmula EJEMPLO: CLASE fi fa 95-99 14 38 90-94 10 24 85-89 6 14 Md = 89.5 + 2.5 80-84 4 8 75-79 2 4 Md = 92 70-74 2 2 N=38 Interpretación: Por encima y por debajo de 92,se encuentra el 50% de los casos, es decir, 19.

LA MODA O EL MODO. (Mo) Se define como el punto medio de la CLASE de mayor frecuencia. En el primer ejemplo, Mo=49. En el segundo ejemplo, Mo=97

MEDIDAS DE VARIABILIDAD

Las medidas de variabilidad nos informan sobre el grado de concentración o dispersión que presentan los datos respecto a su promedio. Llamaremos homogénea, concentrada o poco

Page 8: UNIDAD II. Distribución de Frecuencias

dispersa a aquella distribución en la que todos los datos están cercanos al centro, como 4 4 5 5 5 5 6 6 6 6 7, y heterogénea o dispersa a la distribución con datos más separados del centro, como 1 3 5 8 10 16 20. Existen muchas formas de medir la variabilidad. Se Destacan las más importantes:

RANGOTambién llamado Recorrido o Amplitud total, es la diferencia entre el máximo valor del conjunto de datos y el mínimo de ellos. A mayor rango, mayor dispersión.El rango del conjunto 4 6 4 7 8 6 5 3 4 7 7 9 6 5 es 6, la diferencia entre el máximo 9 y el mínimo 3.A veces se usa el Rango verdadero que consiste en considerar cada dato rodeado de una unidad, por efecto de los redondeos, con lo que en el ejemplo anterior el mínimo sería 2,5 y el máximo 9,5. Con ello el rango se convertiría en 7.No es una medida buena, pues ignora todo lo que ocurre dentro de ese rango.

DESVIACIÓN MEDIAEs una medida de la dispersión consistente en la media aritmética de las desviaciones individuales respecto a la media, tomadas en valor absoluto. También se usan desviaciones respecto a la mediana.

VARIANZAEs una medida muy sensible de la variabilidad y base de muchas técnicas estadísticas.Junto con la media forma el conjunto más importante de medidas.Es propia de las medidas de intervalo o razón. Su inconveniente es que no usa la misma unidad que los datos, sino su cuadrado.No se deben comparar varianzas en conjuntos de unidades muy distintas, como estatura e inteligencia.En teoría del muestreo se sustituye por la cuasi-varianza, de idéntica fórmula, pero con cociente N-1 en lugar de N. En este caso no sería válida la segunda fórmula.

DESVIACIÓN TÍPICAEs la raíz cuadrada de la anterior. Su objeto es conseguir medir la variabilidad en las mismas unidades que los datos. Así, un conjunto medido en metros, tendrá la varianza medida en metros cuadrados, pero la desviación típica en metros.Como en la varianza, para datos aislados basta con suprimir las frecuencias ni.La desviación típica s es base de muchas técnicas, al igual que la media y la varianza. Su gran ventaja es estar medida en las mismas unidades que los datos y la media, lo que permite establecer razones y proporciones entre ellas.La desviación típica cumple la llamada desigualdad de Tchebychev: según la cual, los datos que se alejan de la media una distancia igual o menor que s, multiplicado por un coeficiente k suponen más de la proporción 1-1/k2. Así, el 75% de los datos al menos, se encuentra a menos de dos desviaciones típicas y el 89% a menos de tres.

Page 9: UNIDAD II. Distribución de Frecuencias

Coeficiente de VariacionEl coeficiente de variación es la relación entre la desviación típica de una muestra y su media.

El coeficiente de variación se suele expresar en porcentajes:

El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas.Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí.La mayor dispersión corresponderá al valor del coeficiente de variación mayor.Ejercicio: Una distribución tiene x = 140 y σ = 28.28 y otra x = 150 y σ = 24. ¿Cuál de las dos presenta mayor dispersión?

La primera distribución presenta mayor dispersión.

Excel como una herramienta asequible en la enseñanza de la EstadísticaIntroducciónActualmente la presencia de la computadora en los programas educativos se ha vuelto una constante. En las últimas décadas  en los llamados países desarrollados el coeficiente de estudiante por computadora ha ido cambiando drásticamente, tal es el caso de Estados Unidos donde en Dakota del Norte se informa que este es de dos estudiantes por una computadora[1]. Ciertamente nuestros países aún están lejos de este índice pero,  no podemos dejar de reconocer la presencia cada vez mayor de esta herramienta en las instituciones educativas.De la misma forma en que ha aumentado  la disponibilidad de computadores en la educación y en sus programas, también lo ha hecho su uso. En la actualidad, es común que los programas y asignaturas en muchas instituciones de educación Básica y Media incluyan  la utilización del  procesador de texto,  mientras que en el nivel medio superior  les soliciten el usar  CD ROMS o bien el navegar en la Red.  La Hoja de Cálculo como herramientaLa Hoja de Cálculo puede convertirse en una poderosa herramienta para crear ambientes de aprendizaje que enriquezcan la representación (modelado), comprensión y solución de problemas, especialmente en el área de matemáticas. Desafortunadamente, la mayoría de docentes y estudiantes nos limitamos a utilizar sólo funciones básicas de ella, como tabular

Page 10: UNIDAD II. Distribución de Frecuencias

información y realizar cálculos mediante formulas, desconociendo que ofrece funcionalidades que van más allá de la tabulación, cálculo de fórmulas y graficación de datos, permitiendo crear  y hacer uso de simulaciones que posibilitan  a los estudiantes para realizar  representaciones que permiten construir un puente entre las ideas intuitivas y los conceptos formales. Excel y la EstadísticaSi nos enfocamos al uso de la hoja de cálculo en  la Estadística, es importante primero, realizar algunas consideraciones  detectadas a lo largo de varios años de guiar en el conocimiento de esta disciplina, antes de entrar en materia.·        En la actualidad se está reconociendo  la importancia de la probabilidad y la estadística dentro de los programas educativos, como una asignatura que fortalece la toma de decisiones.·        A nivel universitario los cursos de estadística se incluyen prácticamente en todas las especialidades, ya sea como probabilidad y estadística, bioestadística, teoría del muestreo  o con algún otro nombre, hoy en día la estadística se encuentra presente en los diferentes campos de la ciencia.