tema1(introduccion)

41
MSc. Ing. Tania N. Colque Ortiz CAPITULO 1 INTRODUCCION A LA ESTADISTICA DESCRIPTIVA EL PROCESO ESTADÍSTICOTO La estadística es una ciencia que estudia una serie de fenómenos no deterministas, a partir de la recogida, análisis e interpretación de unos datos que tienen lugar dentro de una colectividad. Un ejemplo nos ayuda a diferenciar entre fenómenos deterministas y no deterministas: Al pulsar el interruptor de la luz, si ésta estaba apagada, se encenderá; y al contrario, si la luz está encendida y pulsamos el interruptor, la luz se apagará. Este fenómeno es determinista , ya que antes de ejecutar la acción puedo prever el resultado de la misma, y, si no hay ningún imprevisto (en el caso de la luz, que la bombilla esté encendida), obtendremos el resultado esperado. Los fenómenos no deterministas son aquellos en los que no se puede predecir el resultado, antes de su ejecución. Sería un fenómeno no determinista “la puntuación que se obtiene al tirar un dado”; antes de realizar la tirada no sabemos los puntos que se obtendrán. Además este fenómeno descrito se denomina aleatorio , ya que el resultado depende exclusivamente del azar (si el dado no está trucado). También hay fenómenos no deterministas que no son aleatorios, por ejemplo, la respuesta a la pregunta sobre el Estado Civil en una encuesta. 1

Upload: edwincontreras

Post on 24-Jan-2016

216 views

Category:

Documents


0 download

DESCRIPTION

tema 2 estadistica

TRANSCRIPT

Page 1: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

CAPITULO 1

INTRODUCCION A LA ESTADISTICA DESCRIPTIVA

EL PROCESO ESTADÍSTICOTO

La estadística es una ciencia que estudia una serie de fenómenos no deterministas, a partir de la

recogida, análisis e interpretación de unos datos que tienen lugar dentro de una colectividad.

Un ejemplo nos ayuda a diferenciar entre fenómenos deterministas y no deterministas:

Al pulsar el interruptor de la luz, si ésta estaba apagada, se encenderá; y al contrario, si la luz

está encendida y pulsamos el interruptor, la luz se apagará. Este fenómeno es determinista,

ya que antes de ejecutar la acción puedo prever el resultado de la misma, y, si no hay ningún

imprevisto (en el caso de la luz, que la bombilla esté encendida), obtendremos el resultado

esperado.

Los fenómenos no deterministas son aquellos en los que no se puede predecir el resultado,

antes de su ejecución. Sería un fenómeno no determinista “la puntuación que se obtiene al

tirar un dado”; antes de realizar la tirada no sabemos los puntos que se obtendrán. Además

este fenómeno descrito se denomina aleatorio, ya que el resultado depende exclusivamente

del azar (si el dado no está trucado). También hay fenómenos no deterministas que no son

aleatorios, por ejemplo, la respuesta a la pregunta sobre el Estado Civil en una encuesta. El

encuestador no conoce previamente la respuesta que va a obtener, pero de ninguna manera

depende la respuesta del azar.

Tenemos por tanto:

Deterministas

Fenómenos

Aleatorios

No deterministas

No aleatorios

Otras acepciones de la palabra “estadística”:

Colección de datos numéricos ordenados y clasificados según un determinado criterio; así

hablamos de estadísticas de producción, de cotizaciones bursátiles, demográficas, etc.

1

Page 2: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Es una ciencia que, utilizando como instrumento a las matemáticas, estudia las leyes de

comportamiento de aquellos fenómenos que dependen del azar. Generalizando estas leyes y

basándose en ellas predice e infiere resultados.

Significa la técnica o el método que se sigue para recoger, organizar, resumir, presentar,

analizar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.

La importancia de la estadística no está reducida al ámbito de la matemática sino que se ha

convertido en una herramienta de trabajo fundamental para muchas otras ciencias y facilita

mediciones e inferencias de ámbito educativo y social: por ejemplo, costumbres relativas al

cuidado de la salud, niños que están escolarizados en diferentes tipos de centros, capacidades

(tests).

La Estadística es una ciencia positiva y sigue unas reglas y procesos determinados.

Resumiéndolo de una manera sencilla, enumeramos los pasos elementales a seguir en un estudio

estadístico.

Para llevar a cabo el proceso estadístico son necesarias varias fases, que se pueden resumir en

estas cuatro1:

1. El diseño o planteamiento, mediante el cual se fija el objetivo a conseguir, la población y

muestra que va a estudiarse, los caracteres que interesan y la presentación que se hará con los

datos recogidos; es preciso también determinar tanto costes como tiempo que se va a invertir.

Se respondería a las siguientes preguntas: ¿sobre quién se realiza el estudio? y ¿qué

característica o características vamos a analizar?

2. La recogida de datos, que puede ser directa, cuando es el propio individuo el que facilita los

datos, generalmente mediante un cuestionario o la observación directa; o puede ser indirecta,

cuando se recurre a un fichero, a un banco de datos, etc.

3. La obtención de resultados mediante el tratamiento de datos: son las operaciones, cuadros,

tablas, gráficos, previstos en el diseño, que hay que efectuar para obtener los resultados. Si la

cantidad de datos es grande, se usan técnicas informáticas. En este punto tratamos, por tanto

la cuantificación y análisis de los datos. Las técnicas que se utilizan para ello son tanto de

cálculo como gráficas.

4. La interpretación de resultados. Al final del proceso, se pueden tomar las soluciones

pertinentes a partir de la información obtenida. Dependiendo del estudio y de la temática, se

terminará definiendo predicciones o conclusiones sobre los fenómenos estudiados.

Analizamos estos pasos a la luz de un ejemplo:

1

2

Page 3: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Suponemos que nos preocupa el nivel de violencia infantil y juvenil; sus índices

han crecido enormemente en los últimos años y que formamos parte de un equipo

que pretende analizar la causas de dicha situación. Debemos ir perfilando en

primer término los diferentes factores: violencia familiar, soledad de niños y

adolescentes, situaciones de marginación, influencia de programas televisivos con

una gran carga de violencia, etc. Debemos definir ahora nuestro centro de interés,

formular nuestra hipótesis.

Nuestra hipótesis se centra en que el índice de violencia infantil ha crecido debido

al elevado número de horas que los niños ven la televisión. (Hemos dejado de

lado otros factores, pues es necesario completar el ejemplo).

Primero determinamos la población: el término “niños” es ambiguo y amplio;

necesitamos escoger los márgenes con los que vamos a trabajar: por ejemplo,

analizaremos a los niños entre 7 y 10 años; también necesitamos hacer una

concreción geográfica: niños españoles (o que viven en España) de edades

comprendidas entre 7 y 10 años.

Tras definir la población y dado que no podemos obtener datos de todos los niños

españoles de esas edades, pues convertiría nuestro trabajo en algo inabarcable y

costoso, buscamos la selección de una parte de la población. Para que el resultado

sea fidedigno, tendremos que respetar el reparto proporcional de niños de la

población y niños encuestados: es decir, si hay 300.000 niños de las características

señaladas, no podemos recoger datos de 450, o solamente de alumnos de colegios

públicos o solo de habitantes de grandes poblaciones urbanas. En la muestra

(definiremos más tarde este concepto) tendrá que haber niños de diferentes niveles

socioeconómicos, de barrios acomodados y marginales, de colegios públicos,

privados y concertados, de ámbito rural y ámbito urbano; y todo, guardando la

debida proporción muestra-población. (No hemos querido hacer un elenco

exhaustivo de factores, simplemente ilustrar las necesidades que surgen al

seleccionar la muestra).

3

Page 4: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Recogeríamos los datos de los niños incluidos en la muestra. Pero es necesario

perfilar la pregunta, objeto de estudio: ¿cuántas horas ves la televisión? Esta

pregunta no está bien definida, pues es diferente el número de horas entre semana

que el fin de semana, en vacaciones o durante el curso escolar, la franja horaria,

etc. Para no alargar excesivamente el ejemplo concretaremos el número de horas

semanales que ven la televisión los niños españoles entre 7 y 10 años, durante

el curso escolar. Este es por tanto nuestro objeto de estudio.

Recogemos los datos de 5.000 niños, cuidando la proporción con la población

real, lo ordenamos, los analizamos gráfica y matemáticamente y ya hemos

obtenido los resultados. Hemos llegado al punto 6 del proceso y estamos en

disposición de presentar nuestros resultados a los representantes del MEC que nos

lo han encargado. Ahora bien, aunque hemos obtenido datos de 5.000 niños, no

concluimos que “cinco mil niños españoles ven una media de 6,7 h de televisión a

la semana”, sino que lo expresaremos diciendo que los niños españoles de edades

comprendidas entre 7 y 10 años ven la TV una media de 6,7h a la semana. Es

decir, aunque nosotros hemos recogido datos de una parte de la población, los resultados

los extendemos a toda la población.

GENERALIDADES.-

El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso

de datos para tomar decisiones y resolver problemas. Cualquier persona, tanto en su

carrera profesional como en la vida cotidiana recibe información en forma de datos a

través de periódicos, de la televisión y de otros medios. De manera específica, el

conocimiento de la estadística y la probabilidad puede constituirse en una herramienta,

poderosa para ayudar a los científicos e ingenieros a diseñar nuevos productos y

sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos

productivos.

4

Page 5: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

¿Qué es la estadística?

ESTADISTICA DESCRIPTIVA.- Es la ciencia que estudia a los métodos para

reunir, clasificar, presentar y describir a un conjunto de datos.

El término estadística tiene su raíz en la palabra Estado. Surge cuando se hace necesario

para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación

se hará en función de unos fines económicos o militares. El estado quiere conocer censo

de personas, de infraestructura, de recursos en general, para poder obtener conclusiones

de esta información.

Actualmente la estadística es una ciencia. No es ya una cuestión reservada al

estado. Podríamos decir que se encuentra en la totalidad del resto de ciencias. La razón

es clara: por una parte la estadística proporciona técnicas precisas para obtener

información, (recogida y descripción de datos) y por otra parte proporciona métodos

para el análisis de esta información.

5

ESTADÍSTICA DESCRIPTIVA

ESTADISTICA INFERENCIA ESTADÍSTICA 

Es una ciencia que estudia los métodos científicos, para reunir, organizar, resumir y analizar datos; así como para sacar conclusiones y tomar decisiones sobre la base de tales análisis.

Page 6: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

De ahí el nombre de ESTADÍSTICA DESCRIPTIVA, ya que el objetivo será, a

partir de una muestra de datos (recogida según una técnica concreta), la descripción de

las características más importantes, entendiendo como características, aquellas

cantidades que nos proporcionen información sobre el tema de interés del cual hacemos

el estudio.

ESTADISTICA INFERENCIAL.- Es la ciencia que estudia los métodos que

permiten generalizar o tomar decisiones en base a la información particular o parcial

que presenta la Estadística Descriptiva; es decir, cuando se trata de inferir o predecir

conclusiones de un conjunto de datos.

La estadística inferencial comprende las técnicas con las que, con base únicamente en

una muestra sometida a observación, se toman decisiones sobre una población o proceso

estadísticos. Dado que estas decisiones se toman en condiciones de incertidumbre,

suponen el uso de conceptos de probabilidad. Mientras que a las características medidas

de una muestra se les llama estadísticas muestrales, a las características medidas de una

población estadística, o universo, se les llama parámetros de la población. El

procedimiento para la medición de las características de todos los miembros de una

población definida se llama censo. Cuando la inferencia estadística se usa en el control

de procesos, al muestreo, le interesa en particular el descubrimiento y control de las

fuentes de variación en la calidad de la producción.

Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivo

eléctrico, una muestra de estos dispositivos puede someterse a voltajes crecientes hasta

que falle cada uno de ellos. Con base en estos resultados muestrales puede estimarse la

probabilidad de falla a varios niveles de voltaje de los demás dispositivos de la

población muestreada.

6

Page 7: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

ALGUNAS DEFINICIONES IMPORTANTES.-

- Individuo.- Es cada uno de los elementos de la población

La población es un agregado de unidades individuales, compuesto de personas o cosas

que se hallan en una situación determinada. Las unidades individuales se llaman

unidades elementales. Definir una población es determinar sus unidades elementales de

acuerdo con el interés que se tiene respecto a alguna característica de aquélla.

Tanto la definición de una población como la característica por observar de sus

unidades elementales dependen de la naturaleza del problema. Por ejemplo, si el

problema es "Camisas para personas adultas de El Salvador", se trata de determinar la

cantidad adecuada de producción de camisas de acuerdo con las diversas medidas. La

población son todas las personas adultas de El Salvador. La característica de interés son

las medidas del cuello de las personas adultas en dicho país.

Las poblaciones pueden ser infinitas o finitas. Una población infinita es la que contiene

un número infinito de unidades elementales; por ejemplo, el conjunto de piezas que se

obtienen en un proceso productivo; en el sentido de que se siguen produciendo

indefinidamente. Otro ejemplo son todos los posibles resultados al lanzar una moneda

sin cesar.

Una población es finita cuando tiene un número finito de unidades elementales. Por

ejemplo, los estudiantes de una determinada universidad; el número de escuelas que

existen en una determinada ciudad, el número de árboles de coco sembrados en una

7

Población

Muestra

POBLACIÓN.- La población es el conjunto de de todos los elementos, que cumpliendo una condición, deseamos estudiar.Por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una granja, etc.

MUESTRA.- Una muestra es cualquier subconjunto representativo de la población (por ejemplo: 100 alumnos del colegio, 1.000 habitantes de una ciudad, 300 gallinas de una granja, etc).

Page 8: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

determinada parcela, etcétera. El número de unidades elementales de una población se

denota con la letra N.

Una muestra es una parte de la población; por ejemplo, cuando se desea hacer un

estudio relativo al rendimiento académico de los alumnos de cierta universidad, y para

esto se toma sólo un grupo de estudiantes de la misma. Todos los estudiantes de ella son

la población y el grupo escogido constituye la muestra. Es importante hacer notar que

para hacer una investigación mediante el análisis de una muestra, ésta tiene que ser,

necesariamente, representativa. La representatividad de la muestra implica que cada

unidad de la población debe tener igual probabilidad de ser seleccionada. En estas

condiciones, se dice que la muestra es aleatoria. La obtención de una muestra

representativa es uno de los aspectos más importantes de la teoría estadística. Incluye

preguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datos deben ser

recolectados?, ¿cómo se recogerán éstos? Estas preguntas serán contestadas más

adelante. (El número de unidades elementales de una muestra se denota con la letra n).

Parámetro: Son todas las medidas dirigidas a la población. Un parámetro es un valor

desconocido, y por lo tanto tiene que ser estimado. Los parámetros se utilizan para

representar una determinada característica de la población. Por ejemplo, la media

poblacional es un parámetro que normalmente se utiliza para indicar el valor

promedio medio de una cantidad.

Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra

tomada de la población tiene su propio valor de cualquier estadística que se utilice para

estimar este parámetro. Por ejemplo, la media de los datos en una muestra es utilizada

para dar información sobre la media de la población total de la cual esa muestra fue

tomada.

8

Page 9: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Estadístico: Son todas las medidas dirigidas a la muestra. Un estadístico es una

cantidad calculada de una muestra de datos. Se utiliza para dar información sobre

valores desconocidos correspondientes a la población. Por ejemplo, el promedio de los

datos en una muestra se utiliza para dar información sobre el promedio total de la

población de la cual esa muestra fue tomada.

Los datos discretos son datos contables y recolectados por conteo, por ejemplo, el

número de los artículos defectuosos producidos durante un día de producción.

Los datos continuos son recolectados por medición y expresados en una escala

continua. Por ejemplo, midiendo la altura de una persona.

Al tratar las variables cuantitativas, podemos encontrarnos a la hora de elaborar las

tablas con los siguientes casos:

1. La variable es discreta y hay un número no muy grande de valores diferentes: un

ejemplo es el del número de medios de transporte, donde solamente hay 4 valores

diferentes (0, 1, 2 y 3), aunque haya 50 datos.

2. La variable es continua, es decir, cabe la posibilidad de que haya “infinitos” valores

diferentes. (Pesos, calorías, etc.)

3. La variable es discreta, pero hay gran disparidad de valores diferentes. Por ejemplo,

si preguntara a los alumnos de una clase cuál es el número total de páginas que tiene

el libro (recreativo) que están leyendo en ese momento. Lo más probable es que no

hubiera dos respuestas iguales. En estos casos la variable se tratará como en el caso

2; es decir, aunque sea discreta su tratamiento se equipara al de las variables

continuas.

Las variables cuantitativas continuas o discretas del caso 3, pueden ofrecer problemas a

la hora de situar sus valores en una tabla, puesto que podíamos tener una gran

disparidad de valores; por ello se utilizan para este tipo de variables los intervalos de

clase, definidos como los intervalos parciales en que dividimos el campo de variación

de una variable estadística continua. Un intervalo queda definido por sus extremos -

inferior y superior- y por la pertenencia o no de dichos extremos al intervalo: intervalos

abiertos, cerrados, semiabiertos.

9

Page 10: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Ejemplos:

Intervalo cerrado: [2,4 : incluye todos los valores comprendidos entre dos y cuatro y

también los extremos 2 y 4.

Intervalo abierto: (2,4) : incluye todos los valores comprendidos entre dos y cuatro, pero no

los extremos 2 y 4, éstos no pertenecen al intervalo.

Intervalo semiabierto: [2,4) : incluye todos los valores comprendidos entre dos y cuatro,

además el 2, pero no el 4.

Variables.- Son todas las cualidades de la población objeto de estudio.

Ejercicio.- Clasificación de algunas variables:

10

Variables

Variables Cuantitativas

Variables Cualitativas

(Son medibles; son numéricas)

(No son medibles; no son numéricas)

Variables Discretas

Variables Continuas

(Son valores puntuales, exactos)

(Pueden estar dentro de un intérvalo)

Número de hijosNúmero de hermanosNúm. De materias aprobadasCantidad de autosCantidad de televisores

EdadPeso EstaturaSalarios TiempoDosis de medicamento

Variables Nominales

Variables Ordinales

(No tienen orden Ni jerarquía)

(Tienen orden y jerarquía)

Marca de cerveza, gaseosasNombre de karaokesCarreras universitariasLugar de nacimiento

Grado MilitarDías de la semanaMeses del añoGrado de aceptaciónNivel académico

Page 11: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

1. Preferencias políticas (MIR, UCS, MAS, PODEMOS) (Var. Cualitativa Nominal)

2. Marcas de cerveza. (Variable cualitativa nominal)

3. Velocidad en Km/h. (Variable cuantitativa continua)

4. El peso en Kg. (Variable cuantitativa continua)

5. Signo del zodiaco. (Variable cualitativa ordinal)

6. Nivel educativo (primario secundario, superior). (Variable cualitativa ordinal)

7. Tipo de enseñanza (privada o pública). (Variable cualitativa nominal)

8. Número de empleados de una empresa pequeña. (Variable cuantitativa discreta)

9. La clase social (baja, media o alta). (Variable cualitativa ordinal)

10. La presión de un neumático en Nw/cm2 (Var. Cuantitativa Continua)

La población puede ser según su tamaño de dos tipos:

Población finita: cuando el número de elementos que la forman es finito, por

ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.

Población infinita: cuando el número de elementos que la forman es infinito, o

tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase

un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas

calidades que esta población podría considerarse infinita.

TABLA DE DISTRIBUCION DE FRECUENCIAS.-

11

Page 12: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Para poder analizar la forma como se distribuye la frecuencia con que aparecen los

diferentes valores correspondientes a las mediciones de las variables que se están

estudiando, es necesario organizar, resumir y simplificar los datos mediante un soporte

que posibilite su recuperación para el procesamiento estadístico. Esto se realiza

mediante Tablas Inteligibles, denominadas Distribuciones de Frecuencias, o también

Base de Datos.

La tabla de distribución de frecuencia es la representación estructurada, en forma de

tabla, de toda la información que se ha recogido sobre la variable que se estudia.

Variable Frecuencias absolutas Frecuencias relativas(Valor) Simple Acumulada Simple Acumulada

x X x x XX1 n1 n1 f1 = n1 / n f1

X2 n2 n1 + n2 f2 = n2 / n f1 + f2

... ... ... ... ...Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1

Xn nn n fn = nn / n f

A continuación veremos como proceder en la tabulación de las diferentes variables.

Regla de sturges

Para obtener la fórmula  , se deben hacer los siguientes supuestos:

1. El mínimo de datos que amerita clasificación en intervalos es 16.

2. El número de intervalos no debe ser inferior a (5).

3. Cada vez que se duplique la información se incrementa en uno (1) el número de

intervalos.

Así las cosas, se obtiene la siguiente correspondencia:

12

Page 13: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Se llega a la siguiente igualdad:

n= 2m –1

Tomando logaritmo a ambos lados de la ecuación

El uso de esta formula puede dar resultados irrazonables cuando el número de

observaciones es muy grande o muy pequeño. Por esta razón la Regla de Sturges no es

un sustituto del buen juicio. También hay otros autores que toman como sugerencia

para hallar el número de clases log n o también Raiz de n ( ), con “n” número

de datos.

VARIABLES CUANTITATIVAS CONTINUAS.-

13

Page 14: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que tienen en ese momento ahorrado, nos encontramos con los siguientes datos:

 450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100

5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 euros, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir cuántos intervalos queremos. Normalmente se suele trabajar con no más de 10 ó 12 intervalos.

Amplitud =4998/10 = 499,8 por lo que tomaremos intervalos de amplitud 500

Debemos tener en cuenta las siguientes consideraciones:

-Tomar pocos intervalos implica que la "pérdida de información" sea mayor.-Los intervalos serán siempre cerrados por la izquierda y abiertos por la derecha [ L i-1 , Li )

Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.

Con estas recomendaciones tendremos la siguiente tabla:

[ Li-1 , Li ) Frecuencia

[ 0,500) 16

[ 500, 1000) 6

[ 1000,1500) 3

[ 1500, 2000) 2

[ 2000, 2500) 1

14

Page 15: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

[ 2500, 3000) 1

[ 3000, 3500) 0

[ 3500, 4000) 0

[ 4000, 4500) 0

[ 4500, 5000) 0

[ 5000,5500) 1

A continuación desarrollamos un ejercicio paso a paso:

Ej: Con los siguientes datos elaborar una tabla de distribución de frecuencias.

35 42 31 20 80 7156 52 53 43 61 5829 36 41 48 54 6072 66 64 60 56 5243 44 61 32 27 34

1er. Paso.- Se calcula el Rango, que es igual a la diferencia entre el valor máximo y el mínimo del conjunto de datos.

2do. Paso.-Se calcula la cantidad de clases, intervalos o filas que tendrá la tabla de distribución de frecuencias. Para ello se utiliza la Regla de Sturges.

Donde n = Tamaño de la muestra

3er. Paso.-Se encuentra el Ancho de Clases (AC)

15

n=30

Page 16: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

TIPOS DE FRECUENCIAS.-

- Frecuencia absoluta.- (fi) Es la cantidad de valores u observaciones que están contenidos en cada clase.

- Frecuencia Acumulada (fa) Es la cantidad de valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.

- Frecuencia Relativa.-(hi)

La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por hi

16

Li - Ls fi

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

356943

Li - Ls fi fa

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

356943

3814232730

AC = Ancho de clasesR = RangoK = Cantidad de clases o intervalos

Lo que indica que cada intervalo tendrá un ancho de 6 unidades

Li = Límite inferior de claseLs = Límite superior de clasefi = Frecuencia absoluta

SU

MA

R

Page 17: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Es la fracción de valores u observaciones que está concentrada en cada clase.

- Frecuencia Relativa Acumulada (Hi) Es el acumulo de fracciones de los valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.

- Frecuencia Porcentual.- hi % Es el porcentaje de valores u observaciones que se encuentra concentrado en cada clase.

17

Li - Ls hi

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

0,1000,1670,2000,3000,1330,100

Li - Ls hi Hi (-)

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

0,1000,1670,2000,3000,1330,100

0,1000,2670,4670,7670,9001,000

Li - Ls hi %20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

10,016,720.030,013,310,0

hi = Frecuencia Relativafi = Frecuencia absolutan = Número total de observaciones

La sumatoria de todas las frecuencias relativas es igual a 1

SU

MA

R

hi %= Frecuencia Porcentualhi = Frecuencia Relativa

La sumatoria de todas las frecuencias porcentuales es igual a 100 %

Page 18: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

- Frecuencia Porcentual Acumulada (H) Es el acúmulo de porcentajes de los valores u observaciones que se van acumulando a medida que avanzamos en las clases de la primera a la última clase.

MARCA DE CLASE.- Llamado también “Punto Medio de Clase”, es el valor que se encuentra exactamente en el centro de cada clase. Se lo obtiene sumando los límites de cada clase divididos entre 2.

18

Li - Ls hi % Hi %(-)

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

10,016,720.030,013,310,0

10,026,746,776,790.0100,0

Li - Ls fi fa hi Hi hi % Hi %

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

356943

3814232730

0,1000,1670,2000,3000,1330,100

0,1000,2670,4670,7670,9001,000

10,016,720.030,013,310,0

10,026,746,776,790.0100,0

Li - Ls fi MC

20 – 3030 – 4040 – 5050 – 6060 – 7070 – 80

356943

253545556575

SU

MA

R

Page 19: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

GRAFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS.-

a) HISTOGRAMA ABSOLUTO.- Para la elaboración de un histograma absoluto podemos relacionar:

19

Límites de clase vs. Frecuencia Absoluta

Límites de clase vs. Frecuencia Relativa

Límites de clase vs. Frecuencia Porcentual

20 40 5030 7060 80

2

1

7

5

8

3

6

4

9

fi

Límites

Page 20: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

b) HISTOGRAMA ACUMULADO “MENOR QUE”.- Para la elaboración de un histograma acumulado “menor que” podemos relacionar:

20

Límites de clase vs. Frecuencia Acumulada

Límites de clase vs. Frecuencia Relativa Acumulada

Límites de clase vs. Frecuencia Porcentual Acumulada

20 40 5030 7060 80

6

3

21

15

24

9

18

12

27

Fa (-)

Límites

30

Page 21: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

c) OJIVA.- Para la elaboración de una Ojiva podemos relacionar:

d) POLIGONO DE FRECUENCIA.- Para la elaboración de un polígono de frecuencia podemos relacionar:

21

Marca de Clase (MC) vs. Frecuencia Acumulada

Marca de Clase (MC) vs. Frecuencia Relativa Acumulada

Marca de Clase (MC) vs. Frecuencia Porcentual Acumulada

MC25 45 5535 7565

6

3

21

15

24

9

18

12

27

Fa (-)

30

Marca de Clase (MC) vs. Frecuencia Absoluta

Marca de Clase (MC) vs. Frecuencia Relativa

Marca de Clase (MC) vs. Frecuencia Porcentual

25 45 5535 7565

2

1

7

5

8

3

6

4

9

fi

MC

Page 22: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

EJERCICIO.-

Los siguientes datos corresponden a los ingresos en dólares de un grupo de 50 personas. Elaborar la tabla de distribución de frecuencias.

Calcular Rango:

Calcular Número de clases:

Calcular Ancho de Clase:

22

Page 23: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

VARIABLES CUANTITATIVAS DISCRETAS.-

Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:

Personas Activas en 50 familias

2 1 2 2 1 2 4 2 1 1

2 3 2 1 1 1 3 4 2 2

2 2 1 2 1 1 1 3 2 2

3 2 3 1 2 4 2 1 4 1

1 3 4 3 2 2 2 1 3 3

Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:

Personas Activas Número de Familias

1 16

2 20

3 9

4 5

23

Page 24: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Total 50

Una vez calculada las frecuencias absolutas, se procede a encontrar las demás frecuencias de la misma manera que para datos cuantitativos continuos.

EJEMPLO.-Ej: Se realiza una encuesta a 20 estudiantes de la Universidad sobre la cantidad de hermanos que tiene, obteniéndose los siguientes resultados

1 3 0 1 1 2 3 4 5 13 1 1 2 33 2 2 2 1

Introducimos los datos a una tabla de distribución de frecuencias:

24

Cantidadhermanos

fi fa hi Hi Hi (+) hi % Hi %

012345

175511

1813181919

0,050,350,250,250,050,05

0,050,400,650,900,951,00

1,000,950,600,350,100,05

5,035,025,025,05,05,0

540659095100

20 1,00 100 %

¿Cuántas personas tienen menos de 3 hermanos?Resp.- 13 personas

¿Qué fracción de personas tienen 2 o 4 hermanos?Resp.- 0,30

¿Qué porcentaje de personas menos de 4 hermanos?Resp.- 90 %

Page 25: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

GRAFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS.-

a) Diagrama de Frecuencias Absolutas.-

Para la elaboración del diagrama de frecuencias relacionamos:

(Valores de la variable vs. Frecuencia absoluta (Valores de la variable vs. Frecuencia relativa

b) Diagrama de Frecuencias Acumuladas.-

Para la elaboración del diagrama de frecuencias relacionamos:

25

0 2 31 4

1

6

3

2

7

Cant. hermanos

4

5

fi

Page 26: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

(Valores de la variable vs. Frecuencia acumulada (Valores de la variable vs. Frecuencia relativa acumulada

VARIABLES CUALITATIVAS.-

Ej: Se realiza una encuesta a 25 personas fumadoras sobre la marca de cigarrillos que fuman, obteniendo los siguientes resultados:

EJERCICIOS VARIABLE CUALITATIVA

26

Marca de Cigarrillos

fi fa(-) hi Hi Hi (+) hi % Hi %(-)

CAMELLMMARLBORODERBYEXTRA

73843

710182225

0,280,120,320,160,12

0,280,400,720,881,00

1,000,720,600,280,12

28,012,032,016,012,0

28,040,072,088,0100,0

25 1,00 100 %

¿Cuantas personas fuman CAMEL o MARLBORO?Resp.- 15 personas

¿Qué fracción de personas fuman CAMEL o LM?Resp.- 0,40

¿Qué porcentaje de personas fuman CAMEL o EXTRA?Resp.- 40 %

0 2 31 4

4

16

Cant. hermanos

8

fa(-)

5

12

20

Page 27: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Se les preguntó a 50 personas la opinión sobre la película: Terror en el aire”, obteniéndose las siguientes respuestas.

RESPUESTA  fi

MUY BUENA 2

BUENA 34

REGULAR 10

MALA 3

MUY MALA 1

Elaborar una tabla de distribución de frecuencia.

SOLUCIÓN.-

  fi fa hi Hi hi% Hi

MUY BUENA 2 2 0,04 0,04 4 4

BUENA 34 36 0,68 0,72 68 72

REGULAR 10 46 0,2 0,92 20 92MALA 3 49 0,06 0,98 6 98MUY MALA 1 50 0,02 1,00 2 100

GRAFICOS.-

Para las variables cualitativas podemos crear los siguientes gráficos:

a) TORTA O PASTEL.- b) DIAGRAMA DE BARRAS

27

MUY BUENA

4%

MALA6%

MUY MALA2%

REGULAR20%

BUENA68%

2

34

10

31

0

5

10

15

20

25

30

35

40

MUYBUENA

BUENA REGULAR MALA MUYMALA

Page 28: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

EJERCICIO RESUELTO.-

La distribución de una variable tiene por polígono acumulativo de frecuencias el siguiente gráfico:

28

Hi (-)

Límites

0,2

0,1

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

5 7 12 15

Page 29: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

Si el número total de observaciones es 50:1. Elaborar una tabla estadística con los siguientes elementos: Intervalos, Marcas

de clase, frecuencia absoluta, las frecuencia acumuladas, frecuencias relativas y frecuencias relativas acumuladas

2. ¿Cuántas observaciones tuvieron un valor inferior a 10, y cuantas fueron superior a 11?

Solución.-

Li - LS fi hi HI

0 – 55 – 77 – 1212 – 15

0,20,30,30,2

0,20,50,81,0

n = 50

Completando la tabla de distribución de frecuentas:

29

Li - LS fi hi HI(-)

0 – 55 – 77 – 1212 – 15

10151510

0,20,30,30,2

0,20,50,81,0

n = 50

Siendo:

Entonces: Reemplazamos para encontrarlas frecuencias absolutas:

Page 30: TEMA1(INTRODUCCION)

MSc. Ing. Tania N. Colque Ortiz

¿Cuántas observaciones tuvieron un valor inferior a 10?

10 + 15 + 9 = 34 observaciones

30

Li - LS fi fa hi HI

0 – 55 – 77 – 1212 – 15

10151510

10254950

0,20,30,30,2

0,20,50,81,0

n = 50 1,0

7 a 12 157 a 10 x

5 153 x