01 primer cuestionario

36
TECSUP - PFR Estadística y Probabilidades UNIDAD I ESTADÍSTICA 1. INTRODUCCIÓN El uso de los métodos estadísticos para analizar datos se ha convertido en una práctica común en todas las disciplinas científicas. Este material de ayuda pretende introducir métodos que utilizan los estudiantes en sus carreras de formación tecnológica. La exposición matemática es relativamente modesta. El uso sustancial del cálculo se hace sólo en el capítulo de probabilidades. No se utiliza álgebra matricial en absoluto. Por lo tanto, casi toda la exposición deberá ser accesible para aquellos estudiantes cuyo conocimiento en matemática es básico. La unidad 1 se inicia con algunos conceptos y terminología básicos (población, muestra, estadística descriptiva e inferencial, variables y tipos) y continúa con la elaboración de tablas de frecuencia para variables cualitativas y cuantitativas y gráficos importantes. La unidad 2 corresponde a las medidas resumen de posición y de dispersión. La unidad 3 se estudia el análisis de dos variables: cualitativas vs cualitativas, cualitativas vs cuantitativas y cuantitativas vs cuantitativas, además de gráficos importantes. En la unidad 4 se ofrece el desarrollo un tanto tradicional de la probabilidad, la probabilidad condicional, la probabilidad total y el teorema de Bayes. 1.1 POBLACIÓN Y MUESTRA A fin de entender cómo se puede aplicar los métodos estadísticos, se debe distinguir entre población y muestra. Una población o universo es cualquier colección finita o infinita de individuos o elementos, 1

Upload: miriannina

Post on 09-Nov-2015

250 views

Category:

Documents


0 download

DESCRIPTION

tecsup guia

TRANSCRIPT

Microsoft Word - Unidad 1 Conceptos bsicos, grficos y tablas de frecuencia

UNIDAD I ESTADSTICA 1. INTRODUCCIN El uso de los mtodos estadsticos para analizar datos se ha convertido en una prctica comn en todas las disciplinas cientficas. Este material de ayuda pretende introducir mtodos que utilizan los estudiantes en sus carreras de formacin tecnolgica. La exposicin matemtica es relativamente modesta. El uso sustancial del clculo se hace slo en el captulo de probabilidades. No se utiliza lgebra matricial en absoluto. Por lo tanto, casi toda la exposicin deber ser accesible para aquellos estudiantes cuyo conocimiento en matemtica es bsico. La unidad 1 se inicia con algunos conceptos y terminologa bsicos (poblacin, muestra, estadstica descriptiva e inferencial, variables y tipos) y contina con la elaboracin de tablas de frecuencia para variables cualitativas y cuantitativas y grficos importantes. La unidad 2 corresponde a las medidas resumen de posicin y de dispersin. La unidad 3 se estudia el anlisis de dos variables: cualitativas vs cualitativas, cualitativas vs cuantitativas y cuantitativas vs cuantitativas, adems de grficos importantes. En la unidad 4 se ofrece el desarrollo un tanto tradicional de la probabilidad, la probabilidad condicional, la probabilidad total y el teorema de Bayes. 1.1 POBLACIN Y MUESTRA A fin de entender cmo se puede aplicar los mtodos estadsticos, se debe distinguir entre poblacin y muestra. Una poblacin o universo es cualquier coleccin finita o infinita de individuos o elementos, para cada uno de los cuales se tiene que contar o medir una o varias caractersticas. Los elementos son los objetos que poseen la informacin que busca el investigador y acerca del cual deben hacerse las inferencias. Entre posibles elementos se tiene: una sustancia, un compuesto, un mineral, etc. Aunque existe la libertad de llamar poblacin a un grupo cualquiera de elementos definidos en el tiempo y el espacio, en la prctica depende del contexto en el cual se observarn los elementos. Suponga, por ejemplo, el nmero de total de compuestos que pueden elaborarse con 5 sustancias, puede considerarse como una poblacin. Una muestra es un subconjunto de elementos de la poblacin que puede servir de base para generalizaciones vlidas En trabajos qumicos, se toman muestras de un material, se ensayan y se hacen deducciones para la totalidad de dicho material, a partir de los resultados obtenidos. La muestra no es exactamente la poblacin, sino que se supone que la representa, y la validez de cualquier conclusin obtenida de ella depende de la verdadera representatividad que tenga. La muestra debera ser seleccionada en forma aleatoria, es decir, ca- da elemento tiene una probabilidad conocida y no nula de seleccin. No siempre es posible obtener una muestra aleatoria. Esto es especialmente cierto cuando el estadstico puede confiar en su propio juicio o conveniencia al seleccionar los elementos de la muestra. Con la aleatoriedad se per- sigue que la muestra sea representativa de la poblacin, para que concentre todas las caractersticas y particularidades de inters. Sin embargo, la aleatoriedad no garantiza necesariamente la representatividad. Los factores que determinan la seleccin de muestras son: costo, tiempo y la imposibilidad prctica (o destruccin de la unidad de estudio). En tanto, el tamao de la muestra queda determinado por la variabilidad de la poblacin, el nivel de confianza y el error mximo permisible. Cuando los elementos de una poblacin tienen cierto grado de heterogeneidad entre ellos, el tamao de la muestra tiende a ser grande. Cabe destacar, que es completamente errneo asegurar que la muestra depende del tamao de la poblacin. Cuando se hace una investigacin con todos los elementos de la poblacin, se llama censo o enumeracin total. En tanto, cuando se elabora con base en una muestra, se le denomina estudio por muestreo. En la mayora de los casos los qumicos no estn interesados en los datos de enumeracin total (o censo) sino en datos muestrales. 1.2 ESTADSTICA Disciplina que nos proporciona un conjunto de mtodos y procedimientos que nos permitan recopilar, clasificar, presentar y describir datos en forma adecuada para tomar decisiones frente a la incertidumbre o predecir o afirmar algo acerca de la poblacin a partir de los datos extrados de la misma. Esta definicin nos permite distinguir la Estadstica Descriptiva de la Inferencial. La estadstica descriptiva se puede definir como los mtodos estadsticos que pretenden describir las caractersticas ms importantes de un conjunto de datos, sea que provenga de una muestra o de una poblacin. Utiliza tcnicas estadsticas, como la representacin grfica, cuadros estadsticos, medidas de posicin y de variabilidad. Uno de los propsitos fundamentales de los mtodos estadsticos es utilizar estadsticos muestrales para estimar los parmetros de la poblacin. A este proceso de utilizar los estadsticos muestrales para llegar a conclusiones acerca de los verdaderos parmetros de la poblacin, se le llama inferencia estadstica. La estadstica inferencial generaliza los resultados observados en una muestra a toda la poblacin bajo estudio, por medio del planteamiento y pruebas de hiptesis y clculo de intervalos de confianza; se aplica a problemas como estimar, mediante pruebas, el rendimiento promedio de un proceso qumico, verificar las especificaciones de produccin a partir de mediciones efectuadas sobre muestras o predecir los residuos de cloro en una piscina basndose en una muestra de datos tomados en ciertos periodos de tiempo. 1.3 CICLO METODOLGICO DE UN TRABAJO ESTADSTICO Cuando no sea posible obtener una informacin completa de la poblacin, se extraen muestras representativas de dicha poblacin mediante las tcnicas de muestreo, y en base al estudio o informacin obtenidas de los datos muestrales se afirma algo acerca de la poblacin total o se toman decisiones generales confiables con ayuda de la Estadstica Inferencial. Este ciclo se cumple en la mayora de las veces del quehacer estadstico Figura 1 Ciclo metodolgico de un trabajo estadstico 1.4 VARIABLES Se dice que algo vara si puede tomar por lo menos dos valores, grados o formas o, incluso, cuando una caracterstica puede estar presente o ausente en una situacin especfica. Dicho esto, podramos estar de acuerdo en que nociones como sexo, nmero de hijos por familia, color de automvil, nmero de huelgas anuales, nivel de estudios, etc., son variables, ya que son caractersticas que admiten por lo menos dos valores, grados o formas dentro de un universo determinado. No obstante, al empezar a familiarizarse con este tema, se suele confundir la caracterstica que admite variaciones con el universo o con los elementos del mismo. Comprese la lista del prrafo anterior con esta otra: persona, vivienda, lmpara, automvil. Estos trminos se refieren a objetos y no a caractersticas de objetos; por lo tanto, no son variables. Variables seran las caractersticas que quisiramos indagar de esos objetos. Por ejemplo, de un universo formado por personas podramos conocer su edad, lugar de nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas peculiaridades son variables. Tambin son variables, de un universo formado por automviles, su marca, modelo, color, potencia, etc., ya que son caractersticas que van cambiando de auto en auto. Otra confusin frecuente se da con los datos estadsticos. Consideremos estos ejemplos: "nmero de huelgas" y "produccin de azcar". Si decimos que el nmero de huelgas en una regin y en un periodo determinados es A, estamos aportando informacin global del fenmeno, que es un dato estadstico, no una variable. El nmero de huelgas se convierte en variable si se estudia, digamos, en un periodo determinado y en diferentes regiones, o en una sola regin y en diferentes periodos (anualmente, sexenalmente, etc.). Lo mismo pasa si afirmamos que la produccin de azcar en el ingenio X es B toneladas: se trata de un dato estadstico, no de una variable. La produccin de azcar se convertir en variable cuando se indague en diferentes fbricas y en un mismo momento o en una misma fbrica y en distintos momentos. Ahora bien, toda variable tiene dos niveles: uno conceptual o terico y otro operacional o de medicin. Si nos preguntaran qu se entiende por alcoholismo, por ejemplo, podramos decir que se trata de una enfermedad progresiva y mortal, exclusiva de los seres humanos, que consiste en la ingestin de bebidas alcohlicas. De ser ms o menos correcta esta definicin, estaramos en el nivel estrictamente conceptual o terico, que no permite efectuar ninguna medicin. Si, en cambio, a partir de este concepto definimos al alcoholismo como el grado de dependencia de los seres humanos respecto a la ingestin de bebidas alcohlicas, habremos pasado del nivel conceptual a otro donde es posible medir, pues en una poblacin dada encontraramos desde el que no ha bebido jams una gota de alcohol, el abstemio, hasta el que no puede dejar de beber. La correspondencia entre el nivel terico y el operacional de una variable se consigue mediante un procedimiento llamado medicin, que no debe entenderse como un procedimiento arbitrario de asignacin de nmeros u otros smbolos a las observaciones: esta asignacin se efecta en concordancia con un conjunto de procedimientos admisibles para la variable conceptual que s est manejando. A nivel operacional o de medicin, variable es un conjunto de nmeros u otros smbolo; asignados a las observaciones, que sirven para clasificarlas con respecto a una variable conceptual Sin embargo, no ahondaremos en esta cuestin; ser suficiente, por ahora, que sepamos identificar variables, ya que del tipo a que pertenezcan depender el procedimiento estadstico con que se le trate. Tipos de variables Segn su naturaleza las variables pueden clasificarse en: a) Variables cuantitativas, son aquellas que consisten de nmeros que representan conteos o mediciones. Las variables cuantitativas pueden ser: Discreta, corresponde al conteo o numeracin de sucesos. Ejemplos: nmero de computadores en un aula, nmero de artculos defectuosos en un embarque, nmero de hijos por familia, etc. Continua, corresponde a mediciones y por tanto sus valores estn comprendidos en un intervalo ya que entre dos valores existen infinitos valores intermedios. Ejemplos: contenido neto en gramos en una lata de caf, dimetro de un tornillo, ingreso familiar, etc. b) Variables cualitativas se dividen en diferentes categoras que se distinguen por alguna caracterstica no numrica. Ejemplos: genero, nivel socio econmico, grado de instruccin, etc. Observacin: Los datos pueden estar codificados numricamente, sin que ello signifique que sea una variable cuantitativa. Ejemplo. Clasifica las siguientes variables: Marca de detergente que una ama de casa usa. El grado de instruccin. Nmero de artculos defectuosos producidos por una mquina en un periodo de dos horas. La longitud de 1000 tornillos con arandela y tuerca. Segn la funcin que cumplen en el estudio: Una distincin de particular importancia es aquella entre variables dependientes e independientes. Los trminos dependiente e independiente se utilizan para representar una relacin de causalidad entre dos variables. El problema de la determinacin de causalidad (cules variables son dependientes y cules independientes?) es uno de los problemas ms serios que enfrenta la estadstica. El anlisis emprico o estadstico slo puede decirnos si dos variables parecen estar relacionadas, pero no puede decirnos: (a) si de hecho existe una relacin de dependencia y (b) cul es la direccin de dicha relacin (cul es la causa y cul el efecto o la variable causada). Necesitamos una teora para dar plausibilidad a una relacin emprica. Independiente (X): Una variable independiente es aquella cuyo valor no depende del de otra variable. La variable independiente se representa en el eje de abscisas. Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrnsecamente a los casos del mismo. Es aquella caracterstica o propiedad que se supone ser la causa del fenmeno estudiado. En investigacin experimental se llama as a la variable que el investigador manipula. Dependiente (Y): Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente en una funcin se suele representar por y. La variable dependiente se representa en el eje ordenadas. Son las variables de respuesta que se observan en el estudio y que podran estar influidas por los valores de las variables independientes. Hayman (1974: 69) la define como propiedad o caracterstica que se trata de cambiar mediante la manipulacin de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente. Considere la siguiente cuestin: Es el aumento del ingreso per cpita de un pas que causa mejoras en el nivel de educacin o la mejora en el nivel de educacin que causa mejoras en el ingreso per cpita? O tal vez un tercer factor es la causa de ambos? Cultura? Este complejo y viejo debate no se puede resolver slo sobre la base del anlisis estadstico, aunque la estadstica es un importante instrumento en nuestros continuos esfuerzos por dilucidar estas cuestiones. El debate mencionado ha persistido por dcadas, adems, porque muchas de las teoras que han sido propuestas para explicar la relacin entre educacin y desarrollo econmico no pueden ser refutadas slo sobre la base del anlisis emprico. ESCALAS DE MEDICIN La medicin de una variable consiste en asignar un valor a la caracterstica o propiedad observada. Por ejemplo, si la caracterstica observada es el gnero de las personas, al clasificar a una persona como de sexo femenino le estamos asignando un valor, estamos haciendo una medicin de la caracterstica. El proceso de medicin utiliza diversas escalas: Nominal, Ordinal, Intervalo y Razn. Escala Nominal: Slo permite asignar un nombre, etiqueta o valor al elemento sometido a medicin. Los nmeros que se puedan asignar a las propiedades observadas en los elementos se utilizan slo como etiquetas con la finalidad de clasificarlos. Con esta escala no tiene sentido realizar operaciones aritmticas. Por ejemplo: Gnero (femenino, masculino), nacionalidad (peruano, colombiano, etc.), marcas de gaseosa preferida (fanta, coca cola, pepsi etc.). Escala Ordinal: Adems de asignar un nombre, etiqueta o valor, esta escala permite establecer un orden entre los elementos sometidos a medicin. Con esta escala solo se puede establecer una relacin de orden. Los nmeros que se asignen a las propiedades deben respetar el orden de la caracterstica que se mide. Cada categora puede ser comparada con otra en relacin de mayor que o menor que. Por ejemplo: Grado de satisfaccin (alto, medio, bajo), estado de salud (bueno, regular, malo), grado de instruccin (primaria, secundaria, superior). Escala de Intervalo: Adems de asignar un nombre o etiqueta y establecer un orden entre los elementos, esta escala permite calcular diferencias entre los nmeros asignados a las mediciones (el intervalo entre observaciones que se expresa en trminos de una unidad fija de medida). Los datos de intervalo siempre son numricos. En esta escala el cero es relativo, es decir, no indica la ausencia de la caracterstica medida. Por ejemplo: Temperatura (se puede medir en grado Celsius o grado Fahrenheit), ao calendario (el ao puede referirse al calendario gregoriano o calendario chino), en el caso de la escala de intervalos podemos asignar el cero a cualquier valor posible (el cero es arbitrario). Escala de Razn: Una variable est medida en escala de razn si los datos tienen todas las propiedades de los datos de intervalo y el cociente de los dos valores es significativa. La escala de medicin de razn tiene las propiedades de la escala de intervalo con la propiedad adicional de tener un punto de partida natural o cero (cero absoluto), que indica que ausencia de la variable (no existe nada para una variable). Para esta escala de medicin, es posible establecer una relacin de proporcionalidad entre sus distintos valores, es decir el cociente de los valores es significativo. Por ejemplo: Costo de un automvil, nmero de aprobados, nmero de artculos defectuosos. 2. ESTADSTICA DESCRIPTIVA La estadstica descriptiva se ocupa de la recopilacin, clasificacin, presentacin y descripcin de los datos. 2.1 RECOPILACIN Los datos pueden recopilarse de dos maneras fundamentales: a) Si se consideran todos los elementos de la poblacin y se registran sus caractersticas se denomina censo. b) Si se seleccionan algunos elementos de la poblacin, pero no todos, se denomina muestra y la informacin obtenida por este procedimiento se llama por muestreo; si la recopilacin de los elementos muestrales se efecta al azar se dice que el muestreo es aleatorio y la muestra se denomina muestra aleatoria. Un ejemplo de una recopilacin completa o censo es el Censo Poblacional del Per realizado en el ao 1993. 2.2 CLASIFICACIN Los datos obtenidos por observacin o medicin suelen ser registrados en el orden en que se recopilan. Para facilitar su interpretacin y el anlisis correspondiente deben ser clasificados y esto equivale a que los datos deben ser organizados de alguna manera sistemtica o particionado en clases bien definidas y una manera sencilla de hacerlo es ordenar los datos segn su magnitud o agruparlos de acuerdo a sus caractersticas. 2.3 PRESENTACIN DE DATOS Una vez recolectados los datos y optado por su posible clasificacin es necesario presentarlos en forma tal que se facilite su comprensin y su posterior anlisis. Para ello se ordenan en cuadros numricos llamados TABLAS (Tablas de frecuencias) y luego se presentan mediante GRFICAS (de barras, sectores circulares, histograma, polgono de frecuencias, ojiva, pictograma, etc.) 3. ELABORACIN DE TABLAS SEGN LAS NORMAS APA Cualquier forma de presentacin empleada en el trabajo tendr que ser denominada Tabla o Figura. Segn las normas APA, generalmente las tablas exhiben valores numricos exactos y los datos estn dispuestos de forma organizada en lneas y columnas, facilitando su comparacin" (APA, 2001, p. 133). Ya las figuras son cualquier tipo de ilustracin que no sea tabla. Una figura puede ser un cuadro, un grfico, una fotografa, un dibujo u otra forma de representacin (APA, 2001, p. 149). Ttulo de la tabla El ttulo de la tabla debe ser breve, claro y explicativo. Debe ser puesto arriba de la tabla, en el margen superior izquierdo, debajo de la palabra Tabla (con la inicial en mayscula) y acompaado del nmero con que la designa (las tablas deben ser enumeradas con nmeros arbigos secuencialmente dentro del texto y en su totalidad). Ej.: Tabla 1, Tabla 2, Tabla 3, etc. Citar tablas en el cuerpo del texto Al citar tablas en el cuerpo del texto, escriba apenas el nmero correspondiente a la tabla, por ejemplo: Tabla 1, Tabla 2, Tabla 3, etc. (la palabra Tabla tendr que ser presentada con la inicial mayscula) Nunca escriba "tabla abajo/arriba o tabla de la pgina xx, pues la numeracin de las pginas del trabajo puede ser alterada. Cuerpo de la fuente de la tabla Times New Roman, tamao 10. Fuente de las notas de la tabla Times New Roman, tamao 9. Notas de la tabla Las tablas presentan tres tipos de notas: notas generales, notas especficas y notas de probabilidad. Las notas son tiles para eliminar la repeticin en el cuerpo de una tabla (APA, 2001, p. 147). Ellas son presentadas en el margen izquierdo (sin sangra) debajo de la tabla (entre la tabla y la nota hay que inserir dos espacios). Y deben ser ordenadas en esta secuencia: nota general, nota especfica y nota de probabilidad, y cada tipo de nota debe ser puesta en una lnea nueva. Notas generales: Una nota general cualifica, explica u ofrece informaciones relacionadas a la tabla como un todo y finaliza con una explicacin de abreviaturas, smbolos y afines (APA, 2001, p. 145). Nota especfica se refiere a una columna, lnea o tem especfico y debe ser indicada por letra minscula sobrescrita (a, b, c). Nota de probabilidad indica los resultados de pruebas significativos y se indican con asterisco sobrescrito (*). Tabla N 1 Tabla N 2 4. TABLA DE FRECUENCIAS PARA VARIABLES CUALITITATIVAS Se deber representar en la tabla los diferentes valores que asume la variable cualitativa y en la columna de las frecuencias absolutas simples la cantidad de veces con las que aparece esta categora de la variable. Si la variable cualitativa est medida en escala ordinal, tendr sentido mostrar las frecuencias acumuladas absolutas o relativas. Si la medicin est hecha en escala nominal slo deber mostrarse las frecuencias absolutas simples y/o relativas. Por ejemplo: Tabla N 3 Calidad en el servicio en el servicio de atencin al cliente. Opinin Frecuencia Frecuencia relativa Porcentaje

Deficiente 20 20/160 = 0.1250 0.125*100 = 12.50 %

Bueno 35 35/160 = 0.2188 21.88 %

Excelente 65 0.4063 40.63 %

Otros 40 0.2500 25.00 %

Total 160 1

Fuente: Sabadini, (2013) 5. ELABORACIN DE FIGURAS SEGN LAS NORMAS APA Segn la APA, una figura es cualquier tipo de ilustracin que no sea tabla. Una figura puede ser un cuadro, un grfico, una fotografa, un dibujo u otra forma de representacin (APA, 2001, p. 149). Tanto para las figuras como para las tablas el interlineados que se utiliza es sencillo (1,0) o de uno punto cinco (1,5). Esto en el contenido de las tablas y figuras como en las notas de las tablas, ttulo de tablas o figuras y leyendas. Segn sea el caso. Ttulo de la figura El ttulo explica la figura de forma concisa, pero de forma discursiva. Debe ser puesto debajo de la figura, con nmeros arbigos secuencialmente dentro del texto como un todo, precedido por la palabra Figura (con la inicial en mayscula). Ej.: Figura 1, Figura 2, Figura 3, etc. Cualquier otra informacin necesaria para elucidar la figura (como la unidad de medida, smbolos, escalas y abreviaturas) que no estn incluidas en la leyenda, tendrn que ser colocadas luego del ttulo. Cuerpo de la fuente de la figura Times New Roman, tamao 10. Leyenda Se trata de la explicacin de los smbolos empleados en la figura y debe ser puesto dentro de los lmites de la figura. Citar figuras en el cuerpo del texto Al citar figuras en el cuerpo del texto, escriba apenas el nmero correspondiente a la figura, por ejemplo: Figura 1, Figura 2, Figura 3, etc. (la palabra Figura tendr que ser presentada con la inicial mayscula) Nunca escriba "figura abajo/arriba o figura de la pgina xx, pues la numeracin de las pginas del trabajo puede ser alterada. Figuras reproducidas de otra fuente Las figuras reproducidas de otra fuente deben presentar, debajo de la figura, la referencia del autor original, aunque se trate de una adaptacin. Ejemplos Nota Fuente: Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H. (2009). Publicar en psicologa: un enfoque para a revista cientfica (p.175). So Paulo: Associao Brasileira de Editores Cientficos de Psicologa/Instituto de Psicologa da Universidade de So Paulo. Nota Fuente: Adaptado de Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H. (2009). Publicar en psicologa: un enfoque para a revista cientfica (p. 176). So Paulo: Associao Brasileira de Editores Cientficos de Psicologa/Instituto de Psicologa da Universidade de So Paulo. 6. REPRESENTACIN GRFICA DE VARIABLES CUALITATIVAS 6.1 DIAGRAMA DE BARRAS Un diagrama de barras es una grfica para representar un conjunto de datos cualitativos que se han resumido en una distribucin de frecuencias absolutas, relativas o porcentuales. En uno de los ejes de la grfica, por lo general el eje horizontal, se colocan las categoras de la variable y en el otro eje de la grfica (por lo general el eje vertical) se pueden usar las frecuencias absolutas, relativas o porcentuales. Luego, se construye una barra de ancho fijo en cada categora y cuya altura corresponda a la frecuencia utilizada en el grfico. Las barras deben estar separadas para enfatizar el hecho que las categoras no se superponen. Ejemplo: Grfica 1. Rentabilidad por AFP del Sistema Privado de Pensiones Fuente: Sabadini, (2013) 6.2 DIAGRAMA CIRCULAR El diagrama circular, tambin llamado diagrama de pie, es otra forma de representar la distribucin de frecuencias relativas o porcentuales. Para su construccin primero se traza un crculo y luego se divide en sectores circulares de forma proporcional a la frecuencia relativa de cada categora. Puesto que todo el crculo representa un ngulo de 360 en total cada sector es el porcentaje correspondiente de dicho total, es decir, el ngulo del sector que le corresponde a cada categora se obtiene multiplicando 360 por la respectiva frecuencia relativa. Ejemplo: Figura 2. Distribucin de la poblacin segn lugar de residencia Fuente: Revista Per Econmico, (2004) 6.3 TABLAS DE FRECUENCIA PARA VARIABLES CUANTITATIVAS Haremos algunas definiciones en base a un ejemplo: Clasificar los siguientes datos recopilados del nmero de cabezas de ganado vacuno que posee cada una de las 40 familias de las comunidades campesinas de la Sierra Central del Per, tomados al azar. 1 2 0 3 5 1 0 8 1 2 4 3 3 5 12 10 4 3 0 10 0 0 4 9 0 1 3 13 1 3 5 4 6 8 11 0 1 3 8 0 Alcance (A): es el intervalo definido por los datos de mayor y menor valor. En el ejemplo: A 0; 13 Intervalos de clase ( Ii ) y Lmites de clase ( Li ): clasificar los datos en k grupos equivale a particionar el alcance A en k clases o k intervalos Ii ,donde: i=1, 2, ...,k y determinar cuntos datos pertenecen a cada uno. Ii Li , Li1 , i=1, 2, ...,k Los intervalos semi-abiertos por la derecha Ii se denominan intervalos de clase. Los Li , i=1, 2, ...,k+1 se denominan los lmites de clase. El valor entero de k, fundamentalmente, depende del estadstico y/o investigador, pero es recomendable utilizar la regla de Sturges para determinar un valor aproximado de k: k 1 3,3logn Donde n es el nmero total de datos disponibles. La frmula es un poco conservadora y nos da un nmero de intervalos un poco menor del que se utiliza en la prctica. Cuando el nmero de datos es menor que 100, el nmero de intervalos se debe tomar menor que 10. Para un nmero de datos bastante grande, el nmero de intervalos es mayor que 10, la prctica aconseja los siguientes lmites: 5 k 15 . En el ejemplo: k = 1 + 3,3 log(40) = 6,286 Luego k podr tomar valores enteros: 5, 6 o 7 Tomemos: k = 7 . Ancho de Clase ( Wi ): es la longitud de un intervalo de clase. Wi l(Ii ) Li1 Li Para conseguir anchos de clase iguales (W ), como es deseable; se usa la siguiente relacin: l(A) W , donde l(A) es la longitud del alcance. k En el ejemplo: W 1,857 tomamos W = 2 Frecuencia Absoluta (ni ): una vez decidido el valor de k y calculado el ancho de clase. Mediante la tabulacin se determina el nmero de datos contenidos en cada clase y este nmero entero se denomina frecuencia absoluta( ni ) ni : frecuencia absoluta de i sima clase . Distribucin de Frecuencias Absolutas: Tabla N 4 Cabezas de ganado Tabulacin N de familias por clases

Intervalos de clase o clases: Ii Frecuencias Absolutas: ni

[0; 2> 14

[2; 4> 9

[4; 6> 7

[6; 8> 1

[8; 10> 4

[10; 12> 3

[12; 14> 2

TOTAL 40

En el ejemplo: n = 40 , k = 7 Se verifica que: 1 ni 14 k ni n1 n2 n3 n4 n5 n6 n7 14 9 7 1 4 3 2 40 n i 1 n3= 3, se lee: la frecuencia absoluta de la tercera clase es Los intervalos de clase son: I1 0;2 ,I2 2;4 ,I3 4;6 ,I4 6;8 ,I5 8;10 ,I6 10;12 ,I7 12;14 Los lmites de clase son: L1 0,L2 2,L3 4,L4 6,L5 8,L6 10,L7 12,L8 14 Tabla N 5 Cabezas de ganado N de familias Marcas de clase Frecuencias relativas Frecuencias relativas acumuladas Frecuencias absolutas acumuladas Frecuencias relativas porcentuales Frecuencias relativas acumuladas porcentuales

Clases ni xi hiHiNi100hi% 100Hi%

[0; 2> 14 1 0,350 0,35 14 35 35

[2; 4> 9 3 0,225 0,575 23 22,5 57,5

[4; 6> 7 5 0,175 0,750 30 17,5 75

[6; 8> 1 7 0,025 0,775 31 2,5 77,5

[8; 10> 4 9 0,100 0,875 35 10 87,5

[10; 12> 3 11 0,075 0,950 38 7,5 95

[12; 14> 2 13 0,050 1 40 5 100

TOTALES 40 1 100

Sigamos con las definiciones, observando la tabla N2: Marcas de Clase ( xi ): son los puntos medios de los intervalos de clase. xLi Li1; i = 1, 2, ....., k TECSUP - PFR Estadstica y Probabilidades Estadstica y Probabilidades TECSUP - PFR TECSUP - PFR Estadstica y Probabilidades

120 1i 2 x1 L1 2L2 0 2 2 1

x2 L2 2L3 2 2 4 3 ; ...... x3 = 5, se lee: la marca de clase del tercer intervalo de clase es 5 ni ; i = 1, 2, ....., k Frecuencias Relativas ( hi ): se define: hi nn1 14 0,350 h1 n 40 n2 9 0,225 ; ..... h2 n 40 Se verifica que: 0 hi 1 k hi h1 h2 h3 h4 h5 h6 h7 0,350 0,225 0,175 0,025 0,100 0,075 0,050 1 i 1 h3= 0,175, se lee: la frecuencia relativa de la tercera clase es 0,175 Frecuencia Relativa Porcentual (100 hi%) Nos permite contestar preguntas del siguiente tipo: Qu porcentaje de familias, de las 40 bajo estudio, tienen 4 5 cabezas de ganado? Respuesta: 17,5 % Frecuencia Absoluta Acumulada ( Ni ): Se define: Ni = n1 + n2 + .... + ni ; i = 1, 2, ....., k En el ejemplo: N1 n114N2 n1 n2 14 9 23 N3 30,.... N7 40 Se verifica: 0 Ni40 Nk N7 40 N4 31, se lee: la frecuencia absoluta acumulada hasta la cuarta clase es 31 Frecuencia Relativa Acumulada ( Hi ): Se define: Ni ;i 1, 2, ... , kHi h1 h2 ... hiHi n H1 h10,350H2 h1h2 0,575 H3 0,750,..... H7 1 Se verifica: 0 Hi1 Hk H7 1 H2 0,575, se lee: la frecuencia relativa acumulada hasta la 2da.clase es 0,575 Frecuencia Relativa Acumulada Porcentual (100 Hi%): Nos permite contestar preguntas del siguiente tipo: Qu porcentaje de familias, de las 40 bajo estudio tienen menos de 8 cabezas de ganado? Respuesta: 77,5 % Grficas Las distribuciones de frecuencias pueden ser representadas grficamente mediante: a) Histogramas Son grficas de barras o rectngulos cuyas bases representan los intervalos de clase y las alturas las frecuencias absolutas o relativas. I ivs .ni Iivs .hi (Fig. 3) b) Polgonos de frecuencias Son polgonos construidos uniendo los puntos xi , ni xi , hi mediante segmentos de recta, o uniendo los puntos medios de los techos de los rectngulos del histograma. (Fig. N 3) IiIi1510520 468 101214n i HistogramaFigura 31510510121480246niPolgono de FrecuenciasFigura 4

c) Diagramas escalonados o funciones escalonadas Son grficas de barras o rectngulos cuyas bases representan los intervalos de clase y las alturas las frecuencias absolutas o relativas acumuladas. I ivs .Ni Iivs .Hi

(Fig. 5) d) Ojivas Son poligonales asociadas a distribuciones de frecuencias absolutas o relativas acumuladas construidas como aparece en la Figura 5. 1020304002 846 10 12 14N i IiFuncin Escalonada 1020304002468 10 1214NiIiOjiva

Figura 5 Figura 6 7. PROBLEMAS PROPUESTOS 1. En un artculo se report las siguientes observaciones, listadas en orden creciente sobre la duracin de brocas (nmero de agujeros que una broca fresa antes de que se rompa) cuando se fresaron agujeros en una cierta aleacin de latn. 11 14 2023 31 36 3944475 59 61 6567 68 71 747678781 84 85 89 91 93 96 99 101 10 105 105 112 118 123 136 139 141 148 15161 168 184 206 248 263 289 322 388 51 a. Por qu una distribucin de frecuencia no puede estar basada en los intervalos de clase 0-50, 50-100, 100-150 y as sucesivamente? b. Construya una distribucin de frecuencia e histograma de los datos con los lmites de clase 0, 50, 100, . . . y luego comente sobre las caractersticas interesantes. c. Construya una distribucin de frecuencia e histograma de los logaritmos naturales de las observaciones de duracin y comente sobre caractersticas interesantes. d. Qu proporcin de las observaciones de duracin en esta muestra son menores que 100? Qu proporcin de las observaciones son de por lo menos 200? 2. Un diagrama de Pareto es una variacin de un histograma de datos categricos producidos por un estudio de control de calidad. Cada categora representa un tipo diferente de no conformidad del producto o problema de produccin. Las categoras se ordenaron de modo que la categora con la frecuencia ms grande aparezca a la extrema izquierda, luego la categora con la segunda frecuencia ms grande, y as sucesivamente. Suponga que se obtiene la siguiente informacin sobre no conformidades en paquetes de circuito: componentes averiados, 126; componentes incorrectos, 210; soldadura insuficiente, 67; soldadura excesiva, 54; componente faltan- te, 131. Construya un diagrama de Pareto. 3. Los accidentes en una planta de papas fritas se clasifican de acuerdo con la parte del cuerpo lesionada. Dedos: 17 Ojos: 5 Brazos: 2 Piernas: 1 Trace un diagrama de barras 4. Los siguientes datos constituyen las vidas tiles en horas de una muestra aleatoria de 60 bombillas de luz de 100 watts: 807 811 620 650 815 725 743 703 844 907 660 753 1050 918 850 876 1027 889 878 890 881 872 869 841 863 842 851 837 822 811 766 787 923 792 799 937 816 758 817 753 1056 1076 958 970 765 896 740 891 1075 1074 832 863 852 788 968 817 678 865 759 923 a. Constryase una distribucin de frecuencias con anchos de clases iguales b. Trcese el polgono de frecuencias sobre un Histograma de intervalos de clases vs. frecuencias relativas. c. Trcese la ojiva asociada a la funcin escalonada representando intervalos de clases vs. frecuencias absolutas acumuladas. 5. La siguiente tabla muestra la distribucin de los empleados de una compaa aseguradora por sueldos mensuales en nuevos soles (ao 2001) Clases Frecuencias

menos de 450 32

450 a menos de 900 47

900 a menos de 1350 75

1350 a menos de 1800 89

1800 a menos de 2500 126

2500 a menos de 4250 38

4250 a ms 10

TOTAL 417

a) Qu porcentaje de empleados ganan sueldos mensuales inferiores a 900 nuevos soles?. Qu porcentaje ganan 2500 nuevos soles o ms? b) Qu porcentaje de empleados ganan entre 1350 y 4250 nuevos soles? c) Determinar los anchos y las marcas de clase. Nota. Se averigu que el mximo haber percibido en la compaa es de 5500 nuevos soles. Si no se tiene ninguna informacin se asume un mximo valor de acuerdo al problema en cuestin; as como se supondr cero, como el haber mnimo. 6. Para un estudio sobre resistencia de un metal, se han realizado cien experiencias de rotura frente a la carga de un hilo del mismo grosor, y han sido anotados los pesos lmites en cada caso. Cargas de rotura de un hilo en gramos 711 862 851 912 922 791 825 935 895 758

915 873 926 864 800 931 722 774 903 925

853 700 885 857 844 907 917 786 820 930

789 790 753 910 847 784 936 706 758 887

941 909 784 882 859 903 925 704 792 888

890 925 895 768 869 892 895 912 850 920

763 805 796 759 916 853 789 943 712 764

892 893 915 890 888 865 909 931 710 798

914 794 931 701 772 935 887 880 933 905

889 791 782 713 724 868 842 892 905 792

a) Reagrupar estos datos en 7 intervalos de clase de igual longitud. b) Trcese el histograma y el polgono de frecuencias. c) Trcese la ojiva correspondiente, y conteste: Qu porcentaje presentan una carga no menor de 770 gramos? Qu porcentaje presentan una carga entre 800 y 900 gramos? 7. Las distribuciones cualitativas o por categoras se suelen presentar en diagramas de sectores en la que un crculo aparece dividido en sectores proporcionales en su abertura a las frecuencias de las categoras que representan: a) Construir un diagrama de sectores para trasmitir la informacin de que (segn las cifras ms recientes disponibles) en el Per el nmero total de botellas de vino consumidas provienen el 69% de ICA, el 18% de otras partes del pas, el 5% se importan de Francia y el resto de otros pases. b) Dibujar un diagrama de sectores para mostrar que en un hospital de una gran ciudad la distribucin de su presupuesto es como sigue: 73% de sueldos, honorarios profesionales mdicos y bonificaciones a los empleados; 13% en suministros y equipo mdico y quirrgico; 8% en mantenimiento, alimentacin y energa y el 6% en gastos administrativos. 8. En 1972, la poblacin activa de Francia estaba compuesta de: 11,1% de agricultores, 10,6% de patronos, 16,5% de ejecutivos, 16,7% de empleados, 38,6% de obreros, 6,5% de personal de servicios y otras categoras. Representar esta distribucin mediante el grfico que parezca ms adecuado. 9. Las prdidas en una fbrica de papel (en miles de dlares) debidas a rasgaduras pueden dividirse segn el producto: Papel higinico: 132 Toallas desechables: 85 Servilletas: 43 Otros: 12 productos a) Trace un diagrama en barras. b) Qu porcentaje de las prdidas ocurre en la elaboracin de papel higinico?. c) Qu porcentaje de las prdidas ocurre en la elaboracin de papel higinico o toallas desechables? 10. Los pesos de ciertos especimenes minerales, dados en la dcima ms cercana de una onza, se agrupan en una tabla con los intervalos: 10,5 11,4; 11,5 12,4; 12,5 13,4; y 13,5 14,4 onzas. a) Determine las marcas de clase. b) Es posible determinar a partir de los datos agrupados cuntos especimenes minerales pesan?: Menos de 11, 5 onzas. Ms de 11,5 onzas. Al menos 12,4 onzas. Cuando mucho 12,4 onzas. De 11,5 a 13,5 onzas? 11. Los siguientes datos son las velocidades (en km/h) de 80 carros que pasaron por un punto de control de velocidad: 60 30 31 60 45 20 34 29 35 20 40 54 38 35 27 45 40 55 45 60 49 49 85 83 30 40 46 105 29 38 102 60 80 35 28 60 82 72 63 36 70 60 31 65 34 73 68 81 65 80 25 70 108 26 24 27 40 75 43 85 120 45 39 83 65 72 46 62 43 63 60 70 100 55 50 63 64 65 61 69 Clasifique estos datos convenientemente y: a) Muestre el histograma y el polgono de frecuencias correspondiente. b) Disee la funcin escalonada y la ojiva respectiva. c) Los carros con velocidades mayores a 80 km/h, son multados por exceso de velocidad. Qu porcentaje sern multados? d) Los carros con velocidades entre 45 y 70 km/h, van a ser considerados en premios organizados por una compaa. Qu porcentaje sern premiados? 12. El grfico muestra el impuesto mensual (en soles) que debe pagar una persona, segn su sueldo mensual (en soles): IMPUESTO SUELDO 2200 3400 4000 1000 120 360 900

Cunto de impuesto mensual paga una persona que gana s/.1500? Cunto gana una persona que paga mensualmente s/.300 de impuesto? 13. La siguiente tabla de frecuencias muestra los haberes mensuales de 200 obreros de cierta fbrica, en nuevos soles (ao2000) Haberes mensuales Nmero de obreros

Menores a 500 4

500 , 700 60

700 , 900 40

900 ,1100 48

1100 ,1300 24

1300 ,1500 14

1500 ,1700 8

ms de 1700 2

TOTAL 200

Con referencia a esta tabla, contestar: a) Qu porcentaje de obreros tienen haberes inferiores a s/.1000 mensuales? b) Qu porcentaje de obreros tienen haberes superiores a s/.1100 mensuales? c) Qu porcentaje de obreros tienen haberes entre 1000 a 1500 soles mensuales? d) Graficar el histograma, el polgono de frecuencias y la ojiva correspondientes.

ANOTACIONES: