tema1(introduccion)
DESCRIPTION
tema 2 estadisticaTRANSCRIPT
MSc. Ing. Tania N. Colque Ortiz
CAPITULO 1
INTRODUCCION A LA ESTADISTICA DESCRIPTIVA
EL PROCESO ESTADÍSTICOTO
La estadística es una ciencia que estudia una serie de fenómenos no deterministas, a partir de la
recogida, análisis e interpretación de unos datos que tienen lugar dentro de una colectividad.
Un ejemplo nos ayuda a diferenciar entre fenómenos deterministas y no deterministas:
Al pulsar el interruptor de la luz, si ésta estaba apagada, se encenderá; y al contrario, si la luz
está encendida y pulsamos el interruptor, la luz se apagará. Este fenómeno es determinista,
ya que antes de ejecutar la acción puedo prever el resultado de la misma, y, si no hay ningún
imprevisto (en el caso de la luz, que la bombilla esté encendida), obtendremos el resultado
esperado.
Los fenómenos no deterministas son aquellos en los que no se puede predecir el resultado,
antes de su ejecución. Sería un fenómeno no determinista “la puntuación que se obtiene al
tirar un dado”; antes de realizar la tirada no sabemos los puntos que se obtendrán. Además
este fenómeno descrito se denomina aleatorio, ya que el resultado depende exclusivamente
del azar (si el dado no está trucado). También hay fenómenos no deterministas que no son
aleatorios, por ejemplo, la respuesta a la pregunta sobre el Estado Civil en una encuesta. El
encuestador no conoce previamente la respuesta que va a obtener, pero de ninguna manera
depende la respuesta del azar.
Tenemos por tanto:
Deterministas
Fenómenos
Aleatorios
No deterministas
No aleatorios
Otras acepciones de la palabra “estadística”:
Colección de datos numéricos ordenados y clasificados según un determinado criterio; así
hablamos de estadísticas de producción, de cotizaciones bursátiles, demográficas, etc.
1
MSc. Ing. Tania N. Colque Ortiz
Es una ciencia que, utilizando como instrumento a las matemáticas, estudia las leyes de
comportamiento de aquellos fenómenos que dependen del azar. Generalizando estas leyes y
basándose en ellas predice e infiere resultados.
Significa la técnica o el método que se sigue para recoger, organizar, resumir, presentar,
analizar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
La importancia de la estadística no está reducida al ámbito de la matemática sino que se ha
convertido en una herramienta de trabajo fundamental para muchas otras ciencias y facilita
mediciones e inferencias de ámbito educativo y social: por ejemplo, costumbres relativas al
cuidado de la salud, niños que están escolarizados en diferentes tipos de centros, capacidades
(tests).
La Estadística es una ciencia positiva y sigue unas reglas y procesos determinados.
Resumiéndolo de una manera sencilla, enumeramos los pasos elementales a seguir en un estudio
estadístico.
Para llevar a cabo el proceso estadístico son necesarias varias fases, que se pueden resumir en
estas cuatro1:
1. El diseño o planteamiento, mediante el cual se fija el objetivo a conseguir, la población y
muestra que va a estudiarse, los caracteres que interesan y la presentación que se hará con los
datos recogidos; es preciso también determinar tanto costes como tiempo que se va a invertir.
Se respondería a las siguientes preguntas: ¿sobre quién se realiza el estudio? y ¿qué
característica o características vamos a analizar?
2. La recogida de datos, que puede ser directa, cuando es el propio individuo el que facilita los
datos, generalmente mediante un cuestionario o la observación directa; o puede ser indirecta,
cuando se recurre a un fichero, a un banco de datos, etc.
3. La obtención de resultados mediante el tratamiento de datos: son las operaciones, cuadros,
tablas, gráficos, previstos en el diseño, que hay que efectuar para obtener los resultados. Si la
cantidad de datos es grande, se usan técnicas informáticas. En este punto tratamos, por tanto
la cuantificación y análisis de los datos. Las técnicas que se utilizan para ello son tanto de
cálculo como gráficas.
4. La interpretación de resultados. Al final del proceso, se pueden tomar las soluciones
pertinentes a partir de la información obtenida. Dependiendo del estudio y de la temática, se
terminará definiendo predicciones o conclusiones sobre los fenómenos estudiados.
Analizamos estos pasos a la luz de un ejemplo:
1
2
MSc. Ing. Tania N. Colque Ortiz
Suponemos que nos preocupa el nivel de violencia infantil y juvenil; sus índices
han crecido enormemente en los últimos años y que formamos parte de un equipo
que pretende analizar la causas de dicha situación. Debemos ir perfilando en
primer término los diferentes factores: violencia familiar, soledad de niños y
adolescentes, situaciones de marginación, influencia de programas televisivos con
una gran carga de violencia, etc. Debemos definir ahora nuestro centro de interés,
formular nuestra hipótesis.
Nuestra hipótesis se centra en que el índice de violencia infantil ha crecido debido
al elevado número de horas que los niños ven la televisión. (Hemos dejado de
lado otros factores, pues es necesario completar el ejemplo).
Primero determinamos la población: el término “niños” es ambiguo y amplio;
necesitamos escoger los márgenes con los que vamos a trabajar: por ejemplo,
analizaremos a los niños entre 7 y 10 años; también necesitamos hacer una
concreción geográfica: niños españoles (o que viven en España) de edades
comprendidas entre 7 y 10 años.
Tras definir la población y dado que no podemos obtener datos de todos los niños
españoles de esas edades, pues convertiría nuestro trabajo en algo inabarcable y
costoso, buscamos la selección de una parte de la población. Para que el resultado
sea fidedigno, tendremos que respetar el reparto proporcional de niños de la
población y niños encuestados: es decir, si hay 300.000 niños de las características
señaladas, no podemos recoger datos de 450, o solamente de alumnos de colegios
públicos o solo de habitantes de grandes poblaciones urbanas. En la muestra
(definiremos más tarde este concepto) tendrá que haber niños de diferentes niveles
socioeconómicos, de barrios acomodados y marginales, de colegios públicos,
privados y concertados, de ámbito rural y ámbito urbano; y todo, guardando la
debida proporción muestra-población. (No hemos querido hacer un elenco
exhaustivo de factores, simplemente ilustrar las necesidades que surgen al
seleccionar la muestra).
3
MSc. Ing. Tania N. Colque Ortiz
Recogeríamos los datos de los niños incluidos en la muestra. Pero es necesario
perfilar la pregunta, objeto de estudio: ¿cuántas horas ves la televisión? Esta
pregunta no está bien definida, pues es diferente el número de horas entre semana
que el fin de semana, en vacaciones o durante el curso escolar, la franja horaria,
etc. Para no alargar excesivamente el ejemplo concretaremos el número de horas
semanales que ven la televisión los niños españoles entre 7 y 10 años, durante
el curso escolar. Este es por tanto nuestro objeto de estudio.
Recogemos los datos de 5.000 niños, cuidando la proporción con la población
real, lo ordenamos, los analizamos gráfica y matemáticamente y ya hemos
obtenido los resultados. Hemos llegado al punto 6 del proceso y estamos en
disposición de presentar nuestros resultados a los representantes del MEC que nos
lo han encargado. Ahora bien, aunque hemos obtenido datos de 5.000 niños, no
concluimos que “cinco mil niños españoles ven una media de 6,7 h de televisión a
la semana”, sino que lo expresaremos diciendo que los niños españoles de edades
comprendidas entre 7 y 10 años ven la TV una media de 6,7h a la semana. Es
decir, aunque nosotros hemos recogido datos de una parte de la población, los resultados
los extendemos a toda la población.
GENERALIDADES.-
El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso
de datos para tomar decisiones y resolver problemas. Cualquier persona, tanto en su
carrera profesional como en la vida cotidiana recibe información en forma de datos a
través de periódicos, de la televisión y de otros medios. De manera específica, el
conocimiento de la estadística y la probabilidad puede constituirse en una herramienta,
poderosa para ayudar a los científicos e ingenieros a diseñar nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos
productivos.
4
MSc. Ing. Tania N. Colque Ortiz
¿Qué es la estadística?
ESTADISTICA DESCRIPTIVA.- Es la ciencia que estudia a los métodos para
reunir, clasificar, presentar y describir a un conjunto de datos.
El término estadística tiene su raíz en la palabra Estado. Surge cuando se hace necesario
para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación
se hará en función de unos fines económicos o militares. El estado quiere conocer censo
de personas, de infraestructura, de recursos en general, para poder obtener conclusiones
de esta información.
Actualmente la estadística es una ciencia. No es ya una cuestión reservada al
estado. Podríamos decir que se encuentra en la totalidad del resto de ciencias. La razón
es clara: por una parte la estadística proporciona técnicas precisas para obtener
información, (recogida y descripción de datos) y por otra parte proporciona métodos
para el análisis de esta información.
5
ESTADÍSTICA DESCRIPTIVA
ESTADISTICA INFERENCIA ESTADÍSTICA
Es una ciencia que estudia los métodos científicos, para reunir, organizar, resumir y analizar datos; así como para sacar conclusiones y tomar decisiones sobre la base de tales análisis.
MSc. Ing. Tania N. Colque Ortiz
De ahí el nombre de ESTADÍSTICA DESCRIPTIVA, ya que el objetivo será, a
partir de una muestra de datos (recogida según una técnica concreta), la descripción de
las características más importantes, entendiendo como características, aquellas
cantidades que nos proporcionen información sobre el tema de interés del cual hacemos
el estudio.
ESTADISTICA INFERENCIAL.- Es la ciencia que estudia los métodos que
permiten generalizar o tomar decisiones en base a la información particular o parcial
que presenta la Estadística Descriptiva; es decir, cuando se trata de inferir o predecir
conclusiones de un conjunto de datos.
La estadística inferencial comprende las técnicas con las que, con base únicamente en
una muestra sometida a observación, se toman decisiones sobre una población o proceso
estadísticos. Dado que estas decisiones se toman en condiciones de incertidumbre,
suponen el uso de conceptos de probabilidad. Mientras que a las características medidas
de una muestra se les llama estadísticas muestrales, a las características medidas de una
población estadística, o universo, se les llama parámetros de la población. El
procedimiento para la medición de las características de todos los miembros de una
población definida se llama censo. Cuando la inferencia estadística se usa en el control
de procesos, al muestreo, le interesa en particular el descubrimiento y control de las
fuentes de variación en la calidad de la producción.
Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivo
eléctrico, una muestra de estos dispositivos puede someterse a voltajes crecientes hasta
que falle cada uno de ellos. Con base en estos resultados muestrales puede estimarse la
probabilidad de falla a varios niveles de voltaje de los demás dispositivos de la
población muestreada.
6
MSc. Ing. Tania N. Colque Ortiz
ALGUNAS DEFINICIONES IMPORTANTES.-
- Individuo.- Es cada uno de los elementos de la población
La población es un agregado de unidades individuales, compuesto de personas o cosas
que se hallan en una situación determinada. Las unidades individuales se llaman
unidades elementales. Definir una población es determinar sus unidades elementales de
acuerdo con el interés que se tiene respecto a alguna característica de aquélla.
Tanto la definición de una población como la característica por observar de sus
unidades elementales dependen de la naturaleza del problema. Por ejemplo, si el
problema es "Camisas para personas adultas de El Salvador", se trata de determinar la
cantidad adecuada de producción de camisas de acuerdo con las diversas medidas. La
población son todas las personas adultas de El Salvador. La característica de interés son
las medidas del cuello de las personas adultas en dicho país.
Las poblaciones pueden ser infinitas o finitas. Una población infinita es la que contiene
un número infinito de unidades elementales; por ejemplo, el conjunto de piezas que se
obtienen en un proceso productivo; en el sentido de que se siguen produciendo
indefinidamente. Otro ejemplo son todos los posibles resultados al lanzar una moneda
sin cesar.
Una población es finita cuando tiene un número finito de unidades elementales. Por
ejemplo, los estudiantes de una determinada universidad; el número de escuelas que
existen en una determinada ciudad, el número de árboles de coco sembrados en una
7
Población
Muestra
POBLACIÓN.- La población es el conjunto de de todos los elementos, que cumpliendo una condición, deseamos estudiar.Por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una granja, etc.
MUESTRA.- Una muestra es cualquier subconjunto representativo de la población (por ejemplo: 100 alumnos del colegio, 1.000 habitantes de una ciudad, 300 gallinas de una granja, etc).
MSc. Ing. Tania N. Colque Ortiz
determinada parcela, etcétera. El número de unidades elementales de una población se
denota con la letra N.
Una muestra es una parte de la población; por ejemplo, cuando se desea hacer un
estudio relativo al rendimiento académico de los alumnos de cierta universidad, y para
esto se toma sólo un grupo de estudiantes de la misma. Todos los estudiantes de ella son
la población y el grupo escogido constituye la muestra. Es importante hacer notar que
para hacer una investigación mediante el análisis de una muestra, ésta tiene que ser,
necesariamente, representativa. La representatividad de la muestra implica que cada
unidad de la población debe tener igual probabilidad de ser seleccionada. En estas
condiciones, se dice que la muestra es aleatoria. La obtención de una muestra
representativa es uno de los aspectos más importantes de la teoría estadística. Incluye
preguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datos deben ser
recolectados?, ¿cómo se recogerán éstos? Estas preguntas serán contestadas más
adelante. (El número de unidades elementales de una muestra se denota con la letra n).
Parámetro: Son todas las medidas dirigidas a la población. Un parámetro es un valor
desconocido, y por lo tanto tiene que ser estimado. Los parámetros se utilizan para
representar una determinada característica de la población. Por ejemplo, la media
poblacional es un parámetro que normalmente se utiliza para indicar el valor
promedio medio de una cantidad.
Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra
tomada de la población tiene su propio valor de cualquier estadística que se utilice para
estimar este parámetro. Por ejemplo, la media de los datos en una muestra es utilizada
para dar información sobre la media de la población total de la cual esa muestra fue
tomada.
8
MSc. Ing. Tania N. Colque Ortiz
Estadístico: Son todas las medidas dirigidas a la muestra. Un estadístico es una
cantidad calculada de una muestra de datos. Se utiliza para dar información sobre
valores desconocidos correspondientes a la población. Por ejemplo, el promedio de los
datos en una muestra se utiliza para dar información sobre el promedio total de la
población de la cual esa muestra fue tomada.
Los datos discretos son datos contables y recolectados por conteo, por ejemplo, el
número de los artículos defectuosos producidos durante un día de producción.
Los datos continuos son recolectados por medición y expresados en una escala
continua. Por ejemplo, midiendo la altura de una persona.
Al tratar las variables cuantitativas, podemos encontrarnos a la hora de elaborar las
tablas con los siguientes casos:
1. La variable es discreta y hay un número no muy grande de valores diferentes: un
ejemplo es el del número de medios de transporte, donde solamente hay 4 valores
diferentes (0, 1, 2 y 3), aunque haya 50 datos.
2. La variable es continua, es decir, cabe la posibilidad de que haya “infinitos” valores
diferentes. (Pesos, calorías, etc.)
3. La variable es discreta, pero hay gran disparidad de valores diferentes. Por ejemplo,
si preguntara a los alumnos de una clase cuál es el número total de páginas que tiene
el libro (recreativo) que están leyendo en ese momento. Lo más probable es que no
hubiera dos respuestas iguales. En estos casos la variable se tratará como en el caso
2; es decir, aunque sea discreta su tratamiento se equipara al de las variables
continuas.
Las variables cuantitativas continuas o discretas del caso 3, pueden ofrecer problemas a
la hora de situar sus valores en una tabla, puesto que podíamos tener una gran
disparidad de valores; por ello se utilizan para este tipo de variables los intervalos de
clase, definidos como los intervalos parciales en que dividimos el campo de variación
de una variable estadística continua. Un intervalo queda definido por sus extremos -
inferior y superior- y por la pertenencia o no de dichos extremos al intervalo: intervalos
abiertos, cerrados, semiabiertos.
9
MSc. Ing. Tania N. Colque Ortiz
Ejemplos:
Intervalo cerrado: [2,4 : incluye todos los valores comprendidos entre dos y cuatro y
también los extremos 2 y 4.
Intervalo abierto: (2,4) : incluye todos los valores comprendidos entre dos y cuatro, pero no
los extremos 2 y 4, éstos no pertenecen al intervalo.
Intervalo semiabierto: [2,4) : incluye todos los valores comprendidos entre dos y cuatro,
además el 2, pero no el 4.
Variables.- Son todas las cualidades de la población objeto de estudio.
Ejercicio.- Clasificación de algunas variables:
10
Variables
Variables Cuantitativas
Variables Cualitativas
(Son medibles; son numéricas)
(No son medibles; no son numéricas)
Variables Discretas
Variables Continuas
(Son valores puntuales, exactos)
(Pueden estar dentro de un intérvalo)
Número de hijosNúmero de hermanosNúm. De materias aprobadasCantidad de autosCantidad de televisores
EdadPeso EstaturaSalarios TiempoDosis de medicamento
Variables Nominales
Variables Ordinales
(No tienen orden Ni jerarquía)
(Tienen orden y jerarquía)
Marca de cerveza, gaseosasNombre de karaokesCarreras universitariasLugar de nacimiento
Grado MilitarDías de la semanaMeses del añoGrado de aceptaciónNivel académico
MSc. Ing. Tania N. Colque Ortiz
1. Preferencias políticas (MIR, UCS, MAS, PODEMOS) (Var. Cualitativa Nominal)
2. Marcas de cerveza. (Variable cualitativa nominal)
3. Velocidad en Km/h. (Variable cuantitativa continua)
4. El peso en Kg. (Variable cuantitativa continua)
5. Signo del zodiaco. (Variable cualitativa ordinal)
6. Nivel educativo (primario secundario, superior). (Variable cualitativa ordinal)
7. Tipo de enseñanza (privada o pública). (Variable cualitativa nominal)
8. Número de empleados de una empresa pequeña. (Variable cuantitativa discreta)
9. La clase social (baja, media o alta). (Variable cualitativa ordinal)
10. La presión de un neumático en Nw/cm2 (Var. Cuantitativa Continua)
La población puede ser según su tamaño de dos tipos:
Población finita: cuando el número de elementos que la forman es finito, por
ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: cuando el número de elementos que la forman es infinito, o
tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase
un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas
calidades que esta población podría considerarse infinita.
TABLA DE DISTRIBUCION DE FRECUENCIAS.-
11
MSc. Ing. Tania N. Colque Ortiz
Para poder analizar la forma como se distribuye la frecuencia con que aparecen los
diferentes valores correspondientes a las mediciones de las variables que se están
estudiando, es necesario organizar, resumir y simplificar los datos mediante un soporte
que posibilite su recuperación para el procesamiento estadístico. Esto se realiza
mediante Tablas Inteligibles, denominadas Distribuciones de Frecuencias, o también
Base de Datos.
La tabla de distribución de frecuencia es la representación estructurada, en forma de
tabla, de toda la información que se ha recogido sobre la variable que se estudia.
Variable Frecuencias absolutas Frecuencias relativas(Valor) Simple Acumulada Simple Acumulada
x X x x XX1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1
Xn nn n fn = nn / n f
A continuación veremos como proceder en la tabulación de las diferentes variables.
Regla de sturges
Para obtener la fórmula , se deben hacer los siguientes supuestos:
1. El mínimo de datos que amerita clasificación en intervalos es 16.
2. El número de intervalos no debe ser inferior a (5).
3. Cada vez que se duplique la información se incrementa en uno (1) el número de
intervalos.
Así las cosas, se obtiene la siguiente correspondencia:
12
MSc. Ing. Tania N. Colque Ortiz
Se llega a la siguiente igualdad:
n= 2m –1
Tomando logaritmo a ambos lados de la ecuación
El uso de esta formula puede dar resultados irrazonables cuando el número de
observaciones es muy grande o muy pequeño. Por esta razón la Regla de Sturges no es
un sustituto del buen juicio. También hay otros autores que toman como sugerencia
para hallar el número de clases log n o también Raiz de n ( ), con “n” número
de datos.
VARIABLES CUANTITATIVAS CONTINUAS.-
13
MSc. Ing. Tania N. Colque Ortiz
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que tienen en ese momento ahorrado, nos encontramos con los siguientes datos:
450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100
5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100
Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 euros, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir cuántos intervalos queremos. Normalmente se suele trabajar con no más de 10 ó 12 intervalos.
Amplitud =4998/10 = 499,8 por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
-Tomar pocos intervalos implica que la "pérdida de información" sea mayor.-Los intervalos serán siempre cerrados por la izquierda y abiertos por la derecha [ L i-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li ) Frecuencia
[ 0,500) 16
[ 500, 1000) 6
[ 1000,1500) 3
[ 1500, 2000) 2
[ 2000, 2500) 1
14
MSc. Ing. Tania N. Colque Ortiz
[ 2500, 3000) 1
[ 3000, 3500) 0
[ 3500, 4000) 0
[ 4000, 4500) 0
[ 4500, 5000) 0
[ 5000,5500) 1
A continuación desarrollamos un ejercicio paso a paso:
Ej: Con los siguientes datos elaborar una tabla de distribución de frecuencias.
35 42 31 20 80 7156 52 53 43 61 5829 36 41 48 54 6072 66 64 60 56 5243 44 61 32 27 34
1er. Paso.- Se calcula el Rango, que es igual a la diferencia entre el valor máximo y el mínimo del conjunto de datos.
2do. Paso.-Se calcula la cantidad de clases, intervalos o filas que tendrá la tabla de distribución de frecuencias. Para ello se utiliza la Regla de Sturges.
Donde n = Tamaño de la muestra
3er. Paso.-Se encuentra el Ancho de Clases (AC)
15
n=30
MSc. Ing. Tania N. Colque Ortiz
TIPOS DE FRECUENCIAS.-
- Frecuencia absoluta.- (fi) Es la cantidad de valores u observaciones que están contenidos en cada clase.
- Frecuencia Acumulada (fa) Es la cantidad de valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.
- Frecuencia Relativa.-(hi)
La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por hi
16
Li - Ls fi
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
356943
Li - Ls fi fa
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
356943
3814232730
AC = Ancho de clasesR = RangoK = Cantidad de clases o intervalos
Lo que indica que cada intervalo tendrá un ancho de 6 unidades
Li = Límite inferior de claseLs = Límite superior de clasefi = Frecuencia absoluta
SU
MA
R
MSc. Ing. Tania N. Colque Ortiz
Es la fracción de valores u observaciones que está concentrada en cada clase.
- Frecuencia Relativa Acumulada (Hi) Es el acumulo de fracciones de los valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.
- Frecuencia Porcentual.- hi % Es el porcentaje de valores u observaciones que se encuentra concentrado en cada clase.
17
Li - Ls hi
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
0,1000,1670,2000,3000,1330,100
Li - Ls hi Hi (-)
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
0,1000,1670,2000,3000,1330,100
0,1000,2670,4670,7670,9001,000
Li - Ls hi %20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
10,016,720.030,013,310,0
hi = Frecuencia Relativafi = Frecuencia absolutan = Número total de observaciones
La sumatoria de todas las frecuencias relativas es igual a 1
SU
MA
R
hi %= Frecuencia Porcentualhi = Frecuencia Relativa
La sumatoria de todas las frecuencias porcentuales es igual a 100 %
MSc. Ing. Tania N. Colque Ortiz
- Frecuencia Porcentual Acumulada (H) Es el acúmulo de porcentajes de los valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.
MARCA DE CLASE.- Llamado también “Punto Medio de Clase”, es el valor que se encuentra exactamente en el centro de cada clase. Se lo obtiene sumando los límites de cada clase divididos entre 2.
18
Li - Ls hi % Hi %(-)
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
10,016,720.030,013,310,0
10,026,746,776,790.0100,0
Li - Ls fi fa hi Hi hi % Hi %
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
356943
3814232730
0,1000,1670,2000,3000,1330,100
0,1000,2670,4670,7670,9001,000
10,016,720.030,013,310,0
10,026,746,776,790.0100,0
Li - Ls fi MC
20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80
356943
253545556575
SU
MA
R
MSc. Ing. Tania N. Colque Ortiz
GRAFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS.-
a) HISTOGRAMA ABSOLUTO.- Para la elaboración de un histograma absoluto podemos relacionar:
19
Límites de clase vs. Frecuencia Absoluta
Límites de clase vs. Frecuencia Relativa
Límites de clase vs. Frecuencia Porcentual
20 40 5030 7060 80
2
1
7
5
8
3
6
4
9
fi
Límites
MSc. Ing. Tania N. Colque Ortiz
b) HISTOGRAMA ACUMULADO “MENOR QUE”.- Para la elaboración de un histograma acumulado “menor que” podemos relacionar:
20
Límites de clase vs. Frecuencia Acumulada
Límites de clase vs. Frecuencia Relativa Acumulada
Límites de clase vs. Frecuencia Porcentual Acumulada
20 40 5030 7060 80
6
3
21
15
24
9
18
12
27
Fa (-)
Límites
30
MSc. Ing. Tania N. Colque Ortiz
c) OJIVA.- Para la elaboración de una Ojiva podemos relacionar:
d) POLIGONO DE FRECUENCIA.- Para la elaboración de un polígono de frecuencia podemos relacionar:
21
Marca de Clase (MC) vs. Frecuencia Acumulada
Marca de Clase (MC) vs. Frecuencia Relativa Acumulada
Marca de Clase (MC) vs. Frecuencia Porcentual Acumulada
MC25 45 5535 7565
6
3
21
15
24
9
18
12
27
Fa (-)
30
Marca de Clase (MC) vs. Frecuencia Absoluta
Marca de Clase (MC) vs. Frecuencia Relativa
Marca de Clase (MC) vs. Frecuencia Porcentual
25 45 5535 7565
2
1
7
5
8
3
6
4
9
fi
MC
MSc. Ing. Tania N. Colque Ortiz
EJERCICIO.-
Los siguientes datos corresponden a los ingresos en dólares de un grupo de 50 personas. Elaborar la tabla de distribución de frecuencias.
Calcular Rango:
Calcular Número de clases:
Calcular Ancho de Clase:
22
MSc. Ing. Tania N. Colque Ortiz
VARIABLES CUANTITATIVAS DISCRETAS.-
Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:
Personas Activas en 50 familias
2 1 2 2 1 2 4 2 1 1
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 3 4 3 2 2 2 1 3 3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Personas Activas Número de Familias
1 16
2 20
3 9
4 5
23
MSc. Ing. Tania N. Colque Ortiz
Total 50
Una vez calculada las frecuencias absolutas, se procede a encontrar las demás frecuencias de la misma manera que para datos cuantitativos continuos.
EJEMPLO.-Ej: Se realiza una encuesta a 20 estudiantes de la Universidad sobre la cantidad de hermanos que tiene, obteniéndose los siguientes resultados
1 3 0 1 1 2 3 4 5 13 1 1 2 33 2 2 2 1
Introducimos los datos a una tabla de distribución de frecuencias:
24
Cantidadhermanos
fi fa hi Hi Hi (+) hi % Hi %
012345
175511
1813181919
0,050,350,250,250,050,05
0,050,400,650,900,951,00
1,000,950,600,350,100,05
5,035,025,025,05,05,0
540659095100
20 1,00 100 %
¿Cuántas personas tienen menos de 3 hermanos?Resp.- 13 personas
¿Qué fracción de personas tienen 2 o 4 hermanos?Resp.- 0,30
¿Qué porcentaje de personas menos de 4 hermanos?Resp.- 90 %
MSc. Ing. Tania N. Colque Ortiz
GRAFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS.-
a) Diagrama de Frecuencias Absolutas.-
Para la elaboración del diagrama de frecuencias relacionamos:
(Valores de la variable vs. Frecuencia absoluta (Valores de la variable vs. Frecuencia relativa
b) Diagrama de Frecuencias Acumuladas.-
Para la elaboración del diagrama de frecuencias relacionamos:
25
0 2 31 4
1
6
3
2
7
Cant. hermanos
4
5
fi
MSc. Ing. Tania N. Colque Ortiz
(Valores de la variable vs. Frecuencia acumulada (Valores de la variable vs. Frecuencia relativa acumulada
VARIABLES CUALITATIVAS.-
Ej: Se realiza una encuesta a 25 personas fumadoras sobre la marca de cigarrillos que fuman, obteniendo los siguientes resultados:
EJERCICIOS VARIABLE CUALITATIVA
26
Marca de Cigarrillos
fi fa(-) hi Hi Hi (+) hi % Hi %(-)
CAMELLMMARLBORODERBYEXTRA
73843
710182225
0,280,120,320,160,12
0,280,400,720,881,00
1,000,720,600,280,12
28,012,032,016,012,0
28,040,072,088,0100,0
25 1,00 100 %
¿Cuantas personas fuman CAMEL o MARLBORO?Resp.- 15 personas
¿Qué fracción de personas fuman CAMEL o LM?Resp.- 0,40
¿Qué porcentaje de personas fuman CAMEL o EXTRA?Resp.- 40 %
0 2 31 4
4
16
Cant. hermanos
8
fa(-)
5
12
20
MSc. Ing. Tania N. Colque Ortiz
Se les preguntó a 50 personas la opinión sobre la película: Terror en el aire”, obteniéndose las siguientes respuestas.
RESPUESTA fi
MUY BUENA 2
BUENA 34
REGULAR 10
MALA 3
MUY MALA 1
Elaborar una tabla de distribución de frecuencia.
SOLUCIÓN.-
fi fa hi Hi hi% Hi
MUY BUENA 2 2 0,04 0,04 4 4
BUENA 34 36 0,68 0,72 68 72
REGULAR 10 46 0,2 0,92 20 92MALA 3 49 0,06 0,98 6 98MUY MALA 1 50 0,02 1,00 2 100
GRAFICOS.-
Para las variables cualitativas podemos crear los siguientes gráficos:
a) TORTA O PASTEL.- b) DIAGRAMA DE BARRAS
27
MUY BUENA
4%
MALA6%
MUY MALA2%
REGULAR20%
BUENA68%
2
34
10
31
0
5
10
15
20
25
30
35
40
MUYBUENA
BUENA REGULAR MALA MUYMALA
MSc. Ing. Tania N. Colque Ortiz
EJERCICIO RESUELTO.-
La distribución de una variable tiene por polígono acumulativo de frecuencias el siguiente gráfico:
28
Hi (-)
Límites
0,2
0,1
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
5 7 12 15
MSc. Ing. Tania N. Colque Ortiz
Si el número total de observaciones es 50:1. Elaborar una tabla estadística con los siguientes elementos: Intervalos, Marcas
de clase, frecuencia absoluta, las frecuencia acumuladas, frecuencias relativas y frecuencias relativas acumuladas
2. ¿Cuántas observaciones tuvieron un valor inferior a 10, y cuantas fueron superior a 11?
Solución.-
Li - LS fi hi HI
0 – 55 – 77 – 1212 – 15
0,20,30,30,2
0,20,50,81,0
n = 50
Completando la tabla de distribución de frecuentas:
29
Li - LS fi hi HI(-)
0 – 55 – 77 – 1212 – 15
10151510
0,20,30,30,2
0,20,50,81,0
n = 50
Siendo:
Entonces: Reemplazamos para encontrarlas frecuencias absolutas:
MSc. Ing. Tania N. Colque Ortiz
¿Cuántas observaciones tuvieron un valor inferior a 10?
10 + 15 + 9 = 34 observaciones
30
Li - LS fi fa hi HI
0 – 55 – 77 – 1212 – 15
10151510
10254950
0,20,30,30,2
0,20,50,81,0
n = 50 1,0
7 a 12 157 a 10 x
5 153 x