apunte unidad iii estadistica descriptiva 2013 rev00

33
1 APUNTES ESTADISTICA UNIVARIADA Asignatura: Matemática II; Inacap Sede Apoquindo; Docente: Ismael Valdivia Z. ESTADÍSTICA DESCRIPTIVA Inicialmente entendamos en su contexto etimológico el término estadística, este proviene de la palaba latina “status” que significa estado. En una época reciente los primeros usos de la estadística implicaron la recopilación de datos y construcción de gráficas, para describir diversos aspectos de un lugar o país. Jhon Graunt 1662 publicó información estadística de los nacimientos y decesos, al trabajo de Graunt siguieron otros relacionados con la demografía. Ahora bien, podemos definir Estadística como la ciencia de los datos. La palabra ciencia viene del latín scientia” que significa conocimiento. El método científico es un conjunto de principios y procedimientos para la búsqueda sistemática del conocimiento. Diremos que la Estadística es una ciencia relacionada con el Método Científico en la colección y análisis de datos, muchas veces con el objeto de deducir o inferir conclusiones y tomar decisiones ante condiciones de incertidumbre. Es frecuente que la Estadística se identifique con una tabla o colección de datos. De hecho, eso es una estadística. Pero qué duda cabe que la Estadística no debe entenderse como una mera colección de datos, aunque los mismos se presenten de forma ordenada y sistemática. La gran aportación de la estadística es, precisamente, ese arsenal de instrumentos y técnicas que permiten tratar y sintetizar esa gran cantidad de información, en un intento de buscar las posibles regularidades que la misma esconde detrás de la enorme variabilidad con la que se presenta. El objetivo último de ese tratamiento estadístico de la información es reducir, en la medida que ello sea posible, la incertidumbre inherente a la variabilidad de la información, para que la toma de decisiones, de cualquier agente (económico o de otra naturaleza), se lleve a cabo con el menor grado de incertidumbre posible. Intuitivamente la estadística se puede diferenciar en dos grandes temas: Estadística Descriptiva: Se ocupa de la organización y presentación de los datos en forma convenientemente útil y de fácil comunicación además de hacer mediciones con esta información. La estadística descriptiva trata dos aspectos: el obtener información de los datos también conocido como “análisis exploratorio de datos * ” y por otro lado se preocupa de la “presentación de resultados”. Inferencia Estadística: Se orienta a lograr generalizaciones, es decir, a partir de los datos de la muestra obtener información sobre una población. * El padre del análisis exploratorio de datos es John W. Tukey (1915-2000) Estados Unidos

Upload: practica-profesional-clelia-clavel

Post on 25-Nov-2015

168 views

Category:

Documents


11 download

TRANSCRIPT

  • 1

    APUNTES ESTADISTICA UNIVARIADA

    Asignatura: Matemtica II; Inacap Sede Apoquindo; Docente: Ismael Valdivia Z.

    ESTADSTICA DESCRIPTIVA Inicialmente entendamos en su contexto etimolgico el trmino estadstica, este proviene de la palaba latina status que significa estado. En una poca reciente los primeros usos de la estadstica implicaron la recopilacin de datos y construccin de grficas, para describir diversos aspectos de un lugar o pas. Jhon Graunt 1662 public informacin estadstica de los nacimientos y decesos, al trabajo de Graunt siguieron otros relacionados con la demografa. Ahora bien, podemos definir Estadstica como la ciencia de los datos. La palabra ciencia viene del latn scientia que significa conocimiento. El mtodo cientfico es un conjunto de principios y procedimientos para la bsqueda sistemtica del conocimiento. Diremos que la Estadstica es una ciencia relacionada con el Mtodo Cientfico en la coleccin y anlisis de datos, muchas veces con el objeto de deducir o inferir conclusiones y tomar decisiones ante condiciones de incertidumbre. Es frecuente que la Estadstica se identifique con una tabla o coleccin de datos. De hecho, eso es una estadstica. Pero qu duda cabe que la Estadstica no debe entenderse como una mera coleccin de datos, aunque los mismos se presenten de forma ordenada y sistemtica. La gran aportacin de la estadstica es, precisamente, ese arsenal de instrumentos y tcnicas que permiten tratar y sintetizar esa gran cantidad de informacin, en un intento de buscar las posibles regularidades que la misma esconde detrs de la enorme variabilidad con la que se presenta. El objetivo ltimo de ese tratamiento estadstico de la informacin es reducir, en la medida que ello sea posible, la incertidumbre inherente a la variabilidad de la informacin, para que la toma de decisiones, de cualquier agente (econmico o de otra naturaleza), se lleve a cabo con el menor grado de incertidumbre posible. Intuitivamente la estadstica se puede diferenciar en dos grandes temas: Estadstica Descriptiva: Se ocupa de la organizacin y presentacin de los datos en forma convenientemente til y de fcil comunicacin adems de hacer mediciones con esta informacin. La estadstica descriptiva trata dos aspectos: el obtener informacin de los datos tambin conocido como anlisis exploratorio de datos* y por otro lado se preocupa de la presentacin de resultados. Inferencia Estadstica: Se orienta a lograr generalizaciones, es decir, a partir de los datos de la muestra obtener informacin sobre una poblacin. * El padre del anlisis exploratorio de datos es John W. Tukey (1915-2000) Estados Unidos

  • 2

    Trminos estadsticos bsicos.

    Poblacin: es el conjunto de todos los datos de una caracterstica medida en cada individuo del universo.

    Muestra: es un subconjunto seleccionado de la poblacin de inters. El elegir una muestra representativa es un problema importante en las investigaciones estadsticas.

    Parmetro: es cualquier valor caracterstico de una poblacin, este valor es siempre fijo. Estadgrafo o Estadstico: es un valor caracterstico obtenido a partir de una muestra. Unidad: es un objeto individual o persona en la poblacin. Variable: es una caracterstica de inters medida en cada unidad de la muestra

    Ejemplo 1: 1. Suponga que usted est a encargado de recibir un embarque de 1000 ampolletas. Para decidir si acepta la carga revisa 20 ampolletas y cuenta el nmero de ampolletas que estn falladas. Poblacin?

    Unidades?

    Muestra?

    Variable?

    Parmetro?

    Estadstico?

    2. En un canal de televisin desea conocer las edades de los televidentes que ven una telenovela. Para esto se lleva a cabo un estudio y se seleccionan al azar 350 adultos de familias de cinco municipios de Santiago. Cul sera un dato de estudio? Cul sera la poblacin y la muestra? Mtodo estadstico El mtodo cientfico es un procedimiento que se aplica al ciclo completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. En forma esquemtica y con las limitaciones que esto supone, podemos distinguir diversas etapas en el mtodo cientfico: 1) Eleccin y enunciado del problema. 2) Formulacin de una hiptesis. 3) Deduccin de consecuencias verificables de la hiptesis. 4) Verificacin de la hiptesis. 5) Interpretacin de los resultados. Es el mtodo estadstico el que nos proporciona las tcnicas necesarias para recolectar y analizar la informacin requerida. Los pasos a seguir en una investigacin se clasifican en dos grandes etapas: la

  • 3

    planificacin y la ejecucin. Para cada una se sealan subetapas que no necesariamente deben cumplirse en la secuencia anotada. El listado no es exhaustivo y hay algunas subetapas no aplicables en determinados diseos de investigacin: Planificacin: Mientras mejor planeada este una investigacin, ms se facilitar su realizacin. Es conveniente considerar los siguientes aspectos en la planificacin o diseo de una investigacin. En esta fase debemos considerar: a.- Definicin de los objetivos: Debe ser el primer paso de toda investigacin. Consiste en sealar detalladamente lo que se pretende investigar, el qu, cmo, dnde, cundo y por qu. Los objetivos podrn modificarse en las etapas siguientes si se ve que por alguna circunstancia no ser factible cumplirlos. Idealmente, toda modificacin debera hacerse en la etapa de planificacin para que la ejecucin se realice con objetivos definidos. Formalmente, los objetivos pueden corresponder a la descripcin del problema que da origen a la investigacin o a las preguntas que la investigacin pretende contestar. d- Definicin de la poblacin: Se debe definir el grupo del cual se extraer la informacin y al cual se generalizarn las conclusiones que se obtengan de la investigacin. Por ejemplo, Si desea describir el problema de las drogas en la juventud chilena ser importante definir qu se entender por juventud chilena y si no es posible abarcar a toda la juventud, delimitar a qu parte de ella se refiere el estudio. c- Diseo de la Muestra: Con frecuencia es imposible, innecesario, o poco prctico, el estudio de toda la poblacin. En estos casos se estudiar una muestra que, si se disea de acuerdo con ciertos principios probabilsticos, permitir la generalizacin de los resultados al universo de origen.

    Ejecucin: Consiste en llevar a la prctica lo que se planific. Pueden mencionarse algunas subetapas: a.- Recoleccin de la informacin: Deber hacerse siguiendo criterios e instrucciones uniformes, sobre todo cuando hay varios investigadores. b.- Elaboracin de la informacin: La informacin se revisar respecto de su integridad y de la existencia de errores. Luego se clasificarn las unidades de observacin de acuerdo con las escalas elaboradas previamente y se har el recuento de unidades en cada categora. La presentacin tabular y grfica facilitar la descripcin y anlisis. El resumen de los datos mediante medidas adecuadas permitir la descripcin y comparacin de los grupos de estudio. c.- Anlisis de los resultados: Cuando un estudio es solo descriptivo, esta etapa consiste en la presentacin de los hechos encontrados. Cuando existe una hiptesis, se evala el cumplimiento de los supuestos tericos a la luz de la inferencia estadstica. Los resultados nos llevarn a rechazar o no la hiptesis en estudio con probabilidades de error conocidas y aceptadas, siempre que el diseo de la investigacin permita este anlisis.

  • 4

    Tipos de variables Es muy importante en un estudio estadstico la naturaleza de las variables consideradas. Variables cualitativas son aquellas que clasifican las unidades en categoras. Las categoras pueden tener un orden natural (ordinales) o no (nominales). Las variables cualitativas tambin se llaman variables categricas. Con estas variables podemos contar nmero de casos, comparar entre categoras, pero no podemos realizar operaciones numricas. Variables cuantitativas tienen valores numricos que representan medidas (largo, peso, etc.) o frecuencias (nmero de). Tiene sentido realizar operaciones numricas con estas variables. Adems distinguimos dentro de las variables cuantitativas las discretas y las continuas. Una variable discreta es aquella en la cual se puede contar el nmero posible de valores. Una variable continua puede tomar cualquier valor en un intervalo dado. Ejemplo 2: Nominal: est asociada a nombres. Marca de auto, Sexo, Religin Ordinal: tiene asociado un orden. Nivel educacional, Estado nutricional, Nivel Socioeconmico Discreta: slo puede tomar un nmero finito (o contable) de posible valores. Considerando como ejemplo: el nmero de respuestas correctas en una prueba de 5 preguntas de V o F.

    0 1 2 3 4 5

    Continua: puede tomar cualquier valor en un intervalo(s). Como por ejemplo de agua en un vaso de 50 ml. Ejercicios 1: 1. Determine qu tipo son las siguientes variables. Si son variables cualitativas (nominal u ordinal) o cuantitativas (discretas o continuas).

    Nominales Ordinales

    Cualitativas

    Discretas Continuas

    Cuantitativas

    Tipos de variables

  • 5

    a. Marca, color y modelo de un automvil b. Duracin de un DVD (segundos) c. Nmero de temas de un lbum de Soda Stereo. d. Nivel educacional (bsica, media, universitaria) e. Temperatura al medioda en Santiago (grados Celsius) f. Estado civil (soltero, casado, divorciado, viudo) g. Cantidad de lluvia en un ao en Santiago (mm3) h. Nmero de acciones vendidas cada da en un mercado de valores. i. Periodo de duracin de luces LED producidas por una compaa. j. Longitud de 1.000 cerrojos producidos en una fbrica.

    2. Conocimientos estadsticos y pensamiento crtico

    a. Parmetro y estadstico. Cul es la diferencia entre un parmetro y un estadstico? b. Datos cualitativos y cuantitativos. Cul es la diferencia entre los datos cualitativos y los datos

    cuantitativos? c. Datos discretos y continuos. Cul es la diferencia entre los datos discretos y los datos

    continuos? d. Datos continuos y cuantitativos. Si un experimento produce datos que son de naturaleza

    continua, los datos tambin deben ser cuantitativos o pueden ser cualitativos? 3. Determine si el valor dado es un estadstico o un parmetro.

    a. En la ciudad de Santiago hay 3250 botones para caminar, que los peatones emplean en las intersecciones de trnsito. Se descubri que el 77% de dichos botones no funciona.

    b. Con base en una muestra de 877 ejecutivos encuestador, se encontr que el 45% de ellos no contratara a alguien con un error ortogrfico en su solicitud de empleo.

    c. Tamao de la familia. Se selecciona una muestra de hogares y el nmero promedio (media) de personas por familia es de 2,58 (segn datos del INE).

    d. Titanic. En un estudio de los 2223 pasajeros del Titanic, se encontr que 706 sobrevivieron cuando se hundi.

    e. Audiencia televisiva. Se selecciona una muestra de Chilenos y se descubre que la cantidad de tiempo promedio (media) que ven la televisin es de 4,6 horas al da.

    4. Identifique la muestra y la poblacin. Adems, determine si la muestra parece ser representativa de la poblacin.

    a. Un cientfico poltico selecciona al azar a 25 de los 100 senadores que actualmente conforman e1 Congreso, y luego calcula la cantidad de tiempo que han prestado servicio.

    b. Durante la final del torneo de apertura de la primera A, una encuesta de 5.101 hogares elegidos al azar revela que el 44% de ellos tienen sus televisores sintonizados en el partido.

  • 6

    c. En una encuesta en la ciudad de Santiago de 1.059 adultos seleccionados al azar el 39% respondi que s cuando se les pregunt tiene un arma en su casa?

    d. Una estudiante de postgrado de la Universidad de Chile realiza un proyecto de investigacin sobre la comunicacin. Ella enva por correo una encuesta a los 500 adultos que conoce, y les pide que respondan y regresen por correo la siguiente pregunta: prefiere utilizar el correo electrnico o el correo ordinario?. Ella recibe 65 respuestas, y 42 de ellas indican una preferencia por e1 correo ordinario.

    Mtodos para describir variables cualitativas Definicin: La distribucin de una variable nos da los valores posibles de la variable y cuantas veces ocurren. La distribucin de una variable nos muestra la forma en que vara la variable. Tablas de distribucin de frecuencias Lo primero que hacemos al querer describir variables cualitativas es contar cuantas unidades caen en cada categora de la variable. Esto lo presentamos en una tabla de distribucin de frecuencias de la forma:

    Valor o categora de la variable

    Frecuencia

    Porcentaje

    ... Total n 100

    Ejemplo: Estado Civil de las personas que trabajan en la Empresa INACAP.

    Estado Civil Frecuencia

    Absoluta Frecuencia

    Relativa Soltero 85 Casado 36

    Divorciado 05 Viudo 03 Total 129

    Grficos para variables cualitativas Una vez que conocemos la distribucin de la variable, nos interesa presentarla de alguna manera grfica, uno de los grficos o diagramas ms usados en variables cualitativas son los diagramas sectoriales o de torta y los grficos de barra. Un grfico sectorial (o de torta) muestra la distribucin de una variable cualitativa dividiendo un crculo en partes que corresponden a las categoras de la variable, tal que el tamao (ngulo) de cada pedazo es proporcional al porcentaje de tems en cada categora.

  • 7

    Un grfico de barras muestra la distribucin de una variable cualitativa listando las categoras o valores de la variable en el eje x y dibujando una barra sobre cada categora. La altura de la barra es igual al porcentaje de tems en esa categora. Las barras deben tener el mismo ancho. Grfico sectorial Figura 1 (a): Figura 1 (b): Diagrama sectorial con 1/4 de los tems que comparten alguna propiedad.

    Diagrama sectorial con 7/8 de los tems que comparten alguna propiedad

    75.0%

    25.0%

    87.5%

    12.5%

    Grfico de barras Compare los siguientes grficos. Cules son las diferencias? Ejemplo 3: Grfico de barras: Cul de los grficos presenta mayor utilidad?

    Tablas estadsticas Los datos que deben manejarse para ser sometidos a un anlisis estadstico son, en general, suficientemente numerosos como para justificar la bsqueda de estructuras de presentacin ordenada y resumida. Que brinda una tabla estadstica o de frecuencias, que como su nombre claramente est compuesta por diferentes tipos de frecuencias detalladas en las siguientes lneas.

    Sexo

    MF

    Por

    cent

    aje

    60

    50

    40

    30

    20

    10

    0

    Sexo

    MF

    Frec

    uenc

    ia

    212019181716151413121110987654321

  • 8

    Tipos de frecuencias a.- Frecuencia o Frecuencia Absoluta: Es el nmero de veces que se presenta un valor o una categora de la variable. Se representa por ni. b.- Frecuencia Relativa: La frecuencia relativa se puede expresar en trminos de porcentaje o de proporcin y se representa por pi . En general, es ms claro e informativo indicar que proporcin del total de los datos representa cada frecuencia ni. As, si hay n datos en total, una frecuencia ni representa una proporcin pi = ni/n del total. c.- Frecuencia Absoluta Acumulada: Se representa por Ni. Donde N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3 . Nk = n1 + n2 + n3 + + nk = n d.- Frecuencia Relativa Acumulada: Se representa por Pi y corresponde a la proporcin Pi = Ni/n del total. Ejemplo 4: La siguiente informacin corresponde a los montos de los prstamos de consumo que la entidad Fast-Bank otorg a sus clientes el ao 2012. Completar la informacin de la tabla

    Monto de los

    Prestamos (miles de $)

    Frecuencia Absoluta

    (ni)

    Frecuencia Relativa

    (pi)

    Frecuencia Absoluta

    Acumulada (Ni)

    Frecuencia Relativa

    Acumulada (Pi)

    Marca de Clase (Xi)

    150-400 3

    400-600 15

    600-900 18

    900-1200 35

    1200-1800 20

    1800-2500 20

    2500-3500 11

    3500-7000 8

    Total

    a) Cul es el nmero total de prstamos otorgados? b) Realice una grfica de barras de las frecuencias absolutas. c) Realice una grfica de barras de las frecuencias relativas.

  • 9

    d) Realice una grfica de las frecuencias absolutas acumuladas. e) Cul es la cantidad de monto de los prstamos ms frecuente? f) Cul es el valor de prstamo que supera al 27,7% de las observaciones? g) Cul es el intervalo que presenta un 15,4% del total de observaciones?

    Ejemplo 5: Cmo decidir educadamente Se anima a tomar una decisin? le voy a proponer una situacin en la que alguien tiene que decidir qu hacer y se supone que usted ser el encargado de opinar qu camino conviene tomar. Hay dos escuelas que estn en una misma ciudad. Todos los nios de la zona se distribuyen entre las dos. Son muchos los parmetros que tendrn en cuenta, pero lo que ms les importa a los padres es limitar lo ms posible el nivel de desercin de los alumnos. Pero, justamente, quieren tomar una decisin educada, basada en la mayor cantidad de datos que puedan conseguir y no dejarse llevar por el impulso emocional. Ac es donde interviene usted. Haga de cuenta de que la/lo citan a usted como consultor(a) y le piden que d su opinin para saber a qu escuela preferira. La situacin es la siguiente. Las dos escuelas (llammoslas A y B, respectivamente) estuvieron abiertas durante muchos aos. A continuacin, los datos, todo lo que reflejan es la cantidad total de alumnos y de abandonos que se presentan. A la escuela A concurrieron en total 10.500 nios. De ese total, 315 abandonaron antes de graduarse. Por su parte, a la escuela B, que es un poco ms chica en tamao, asistieron 4.000 nios, de los cuales abandonaron 80. Con esta informacin, parece que est todo claro, no? Cuando ya estaba todo preparado para comunicar la decisin, apareci una nueva informacin que no haba sido considerada y que tiene a disposicin de usted para saber si lo que usted estaba pensando hasta ac sigue en pie. Los nuevos datos dicen lo siguiente: En la escuela A, los 10.500 alumnos se dividieron entre 3.000 varones y 7.500 mujeres. De los 3.000 varones, solamente 30 no terminaron el colegio. De las 7.500 mujeres, 285 no se graduaron. Y en la escuela B, los 4.000 alumnos se dividieron entre 3.000 varones y 1.000 mujeres. De los varones, solamente 40 no terminaron sus estudios y las mujeres que abandonaron fueron tambin 40. Y ahora?

  • 10

    Metodologa para confeccionar una tabla de frecuencias Una metodologa que es posible aplicar en la construccin de una tabla de frecuencias para una variable continua, a partir de datos no agrupados, incluye los siguientes pasos: Paso 1: Encontrar el valor mnimo , y el valor mximo , y calcular el rango: = Paso 2: Elegir el nmero de intervalos de clase () de igual longitud que cubre el recorrido de los datos. El nmero de intervalos de clase se debe verificar que 5 15. Tambin se puede utilizar la regla: = 1 + 3.3 (), con nmero muestral, aproximando el valor de al entero ms cercano. Paso 3: Determinar la amplitud de clase (), donde: = , que debe tener la misma precisin de los datos Paso 4: Verificar que efectivamente se cubre el recorrido de todas las observaciones, calculando el excedente = + . El excedente debe ser no negativo, en caso contrario, la amplitud de clase () debe ser aumentada en una unidad de precisin () y recalculando el excedente. Estos ltimos valores corregidos son los que se utilizan en los clculos posteriores. Paso 5: Calcular el primer lmite inferior: = Paso 6: Calcular los lmites inferiores siguientes sumndole la amplitud al anterior

    = +

    Paso 7: Calcular los lmites superiores restando una unidad de precisin al lmite inferior de la clase siguiente: = , o sumando la amplitud al lmite superior anterior: = + Paso 8: Contar el nmero de observaciones en los datos que pertenecen a cada intervalo de clase, para obtener la frecuencia absoluta (). Determinar los otros tipos de frecuencias. Ejemplo 6: Los siguientes datos corresponden, a los datos obtenidos en una empresa en el turno vespertino, compuesto por trabajadores que prestan servicios a la empresa. Los datos se presentan en horas trabajadas en la semana.

    14,0 8,0 18,4 16,6 20,0 10,0 22,4 9,4 13,0 17,4 15,6 18,4 17,6 26,0 12,2 16,0 16,8 12,6 18,0 10,5 17,6 19,4 19,8 21,6 24,0 18,0 17,0 19,0 16,6 15,5 15,6 15,8 15,0 12,2 20,0 11,2 21,8 19,6 12,8 18,0

  • 11

    a) Identifique y defina la poblacin y la muestra. b) Identifique la unidad y la variable. c) Construya una tabla de distribucin de frecuencias. d) Cuntos intervalos de clases son? e) Cul de las clases contiene el 15% de las observaciones? f) Cul es la cantidad de horas ms frecuente de trabajo? g) Qu valor acumula el 87,5% de las horas trabajadas? h) Qu proporcin de las observaciones se encuentra por sobre 23,2 horas trabajadas? i) Qu porcentaje se observa entre 10,9 y 20,1 horas trabajadas? j) Determine el promedio de horas trabajadas en la clase 4. k) Mediante una grfica adecuada, caracterice la forma de la distribucin. l) Represente mediante una grfica adecuada las frecuencias acumuladas.

  • 12

    MEDIDAS DE RESUMEN Mtodos numricos para describir variables cuantitativas

    Especficamente medidas de resumen o medidas descriptivas numricas que son de tres tipos. Entre las medidas que permiten resumir informacin proveniente de una poblacin, podemos considerar las medidas de posicin, medidas de dispersin y medidas de forma. 9 las que ayudan a encontrar el centro de la distribucin, llamadas medidas de tendencia central. 9 las que miden la dispersin, llamadas medidas de dispersin. 9 las que describen la posicin relativa de una observacin dentro del conjunto de datos,

    llamadas medidas de posicin relativa.

    Medidas de Tendencia Central Las medidas de tendencia central son valores numricos que quieren mostrar el centro de un conjunto de datos, nos interesan especialmente tres medidas: la media, la mediana y la moda. Si los datos son una muestra, se llamarn estadsticas. Si los datos son una poblacin entonces estas medidas de tendencia central se llamarn parmetros. Una estadstica o estadgrafo es una medida descriptiva numrica calculada a partir de datos de una muestra. Un parmetro es una medida descriptiva numrica que usa la totalidad de las unidades de una poblacin. Promedio o Media El promedio de un conjunto de n observaciones es simplemente la suma de las observaciones dividida por el nmero de observaciones, n. Es una de las medidas de tendencia central de mayor uso. La media muestral se simboliza por y la media poblacional de denota por . Notacin: Si , , . . . , denota una muestra de n observaciones, entonces el promedio de la muestra se llama x-barra y se denota por:

    =

    Si se tiene todos los valores de una poblacin, el promedio de la poblacin es la suma de todos los valores dividida por cuntos son.

    El promedio de la poblacin se denota por la letra Griega (mu): = Ejemplo 1: Nmero promedio de acciones con variacin. Los datos siguientes son el nmero acciones con variacin positiva en una muestra aleatoria de 10 das:

    2, 3, 0, 2, 1, 0, 3, 0, 1, 4

  • 13

    El promedio de estas 10 observaciones es: Supongamos que una observacin en el ltimo da se anot como 40 en vez de 4. Qu le pasar al promedio? 9 Notar que 9 de las 10 observaciones son menores que el promedio. El promedio es sensible a

    las observaciones extremas. La mayora de los mtodos grficos nos ayudarn de detectar observaciones extremas.

    Media para datos tabulados: Si los datos estn tabulados en una tabla de distribucin de frecuencias, entonces la media se debe calcular como:

    =

    Siendo xi el valor de la variable en el intervalo i-simo si esta es cuantitativa discreta, y resulta ser la marca de clase si la variable esta tabulada en intervalos. Ejemplo 2: Calcular el promedio para el ejemplo de las horas trabajadas por semana. Media Aritmtica Ponderada: En la definicin de media aritmtica, el peso o ponderacin de cada observacin es la misma (1/), pero hay casos en que esta ponderacin es distinta. En tal caso el promedio se estima a partir de la siguiente frmula:

    =

    Ejemplo 3: Un alumno saca un 4,0 - 5,1 - 2,8 en sus pruebas parciales, un 5,9 en controles y un 2,1 en su examen final. Las notas tienen una ponderacin de 10%, 15%, 30%, 25% y 20% respectivamente. Cul es la calificacin final del alumno? Ejemplo 4: Si el examen final de un curso cuenta 3 veces ms que una evaluacin parcial, y un estudiante tiene calificaciones de 85 en el examen y parciales de 70 y 90, su calificacin media es:

    Ejemplo 5: Combinando Promedios el promedio de 3 estudiantes es 5,4 y el promedio de otros 4 estudiantes es 6,7. Cul es el promedio de los 7 estudiantes? Media geomtrica: La media geomtrica puede utilizarse para mostrar los cambios porcentuales en una serie de nmeros positivos. Como tal, tiene una amplia aplicacin en los negocios y en la economa, debido a que con frecuencia se est interesado en establecer el cambio porcentual en las ventas, en el producto nacional bruto o en cualquier serie econmica. La media geomtrica proporciona una medida precisa de un cambio porcentual promedio en una serie de nmeros. La media geomtrica (MG) se halla tomando la raz ensima del producto de n nmeros. As,

    =

  • 14

    La media geomtrica se utiliza con ms frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a travs del tiempo. Ejemplo 6: El director ejecutivo de White Airlines desea determinar la tasa de crecimiento promedio en los ingresos con base en las cifras dadas en la tabla. Si la tasa de crecimiento promedio es menor que el promedio industrial del 10%, se asumir una nueva campaa publicitaria.

    Ao Ingreso (US$)

    2006 55.000

    2007 55.000

    2008 66.000

    2009 60.000

    2010 78.000

    Observaciones: Un promedio NO es siempre representativo

    El promedio tambin se define como el punto de equilibrio, el punto donde distribucin se balancea. Si la distribucin es simtrica, el promedio ser exactamente el centro de la distribucin.

    Si la observacin ms grande se mueve a la derecha, el promedio se mueve con la observacin extrema

    Si la distribucin es sesgada, vamos a querer usar una medida que sea ms resistente para mostrar el centro. La medida de tendencia central que es ms resistente a los valores extremos es la mediana.

    Mean =2

    1 2 3

    Mean =2.5

    1 2 5

    Mean =4

    1 2 11

  • 15

    Mediana Definicin: La mediana de un conjunto de n observaciones, ordenadas de menor a mayor, es un valor tal que la mitad de las observaciones son menores o iguales que tal valor y la mitad de las observaciones son mayores o iguales que ese valor. Pasos para encontrar la mediana de datos NO agrupados: 1. Ordenar los datos de menor a mayor; 2. Calcular la posicin de la mediana: (n+1)/2, donde n es el nmero de observaciones 3. a) Si el nmero de observaciones es impar, la mediana es la observacin del medio.

    b) Si el nmero de observaciones es par, la mediana es el promedio de las dos observaciones del medio.

    Ejemplo 7:

    a) El conjunto de nmeros 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana b) El conjunto de nmeros 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana

    Ejemplo 8: El nmero de ventas en una confitera en 20 das son:

    32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51 Ejemplo 9: Encuentre la mediana del nmero de cuotas impagas en la muestra de 10 clientes de una tienda de retail.

    Cliente 1 2 3 4 5 6 7 8 9 10 Nmero de cuentas impagas 2 3 0 1 4 0 3 0 1 2

    a) Ordenar las observaciones de menor a mayor b) Calcular (n+1)/2 c) Obtener la Mediana d) Qu le pasa a la mediana si la quinta observacin en la lista se anota incorrectamente como 40 en

    vez de 4? e) Qu le pasa a la mediana si la tercera observacin en la lista se anota incorrectamente como 20 en

    vez de 0? 9 Nota: La mediana es resistente (robusta), es decir, no cambia o cambia muy poco con

    observaciones extremas. Mediana para datos agrupados: la mediana obtenida por interpolacin viene dada por la siguiente expresin: Primero se debe hallar la clase mediana de la distribucin de frecuencias; La clase mediana es la clase cuya frecuencia acumulada es mayor o igual que , entonces:

  • 16

    = + 2

    Donde:

    = Lmite inferior de la clase del intervalo mediano. = nmero de datos (frecuencia total) = frecuencia absoluta acumulada anterior al intervalo mediano.

    = frecuencia absoluta del intervalo mediano = amplitud de clase del intervalo mediano

    Moda Como su nombre lo indica es aquel valor de la variable que tiene una mayor frecuencia. Si una variable es nominal, la moda es la nica Medida de Posicin que se puede calcular Definicin: La moda de un conjunto de observaciones es el valor ms frecuente. Ejemplo 10: La moda de los valores: {0, 0, 0, 0, 1, 1, 2, 2, 3, 4} es: Ejemplo 11: {0, 0, 0, 1, 1, 2, 2, 2, 3, 4} la moda es: Ejemplo 12: Cul sera la moda del siguiente conjunto de valores? {0, 1, 2, 4, 5, 8} La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin embargo la Moda es LA medida de tendencia central que puede ser calculada en datos cualitativos. En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos, la moda ser el valor (o valores) de X correspondiente al mximo (o mximos) de la curva. La moda puede deducirse de una distribucin de frecuencias o de un histograma a partir de la frmula que se describe a continuacin. Ya que por definicin la moda es la observacin que ocurre con mayor frecuencia, se hallar en la clase que tenga la frecuencia ms alta, llamada la clase modal. Para estimar la moda en el caso de datos agrupados, se utiliza la frmula.

    = +

    + Donde:

    = Lmite inferior de la clase modal. = es la diferencia entre la frecuencia de la clase modal y la clase que antecede = es la diferencia entre la frecuencia de la clase modal y la clase que sigue = amplitud de clase del intervalo modal

  • 17

    Ejemplo 13: Calcular el promedio, la mediana y la moda de los datos de la tabla de frecuencia de pasajeros para New Airlines.

    Clases ni 50 59 3 60 69 7 70 79 18 80 89 12 90 99 8 100-109 2

    Observaciones sobre la Media, Mediana y Moda Si la distribucin de frecuencias de la variable es simtrica estas tres medidas coinciden. Ejemplo 14: La siguiente tabla muestra la distribucin de frecuencia de los sueldos (en miles de pesos) que reciben 150 empleados en una empresa.

    Clases ni 120 160 20 160 200 30 200 240 50 240 280 30 280 320 20

    Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa. 9 Nota: La media es muy influenciable por los valores extremos, por lo cual se recomienda que

    cuando una distribucin es demasiado asimtrica se utilice la mediana, como medida de tendencia central.

    Diferentes medidas pueden dar diferentes impresiones El promedio, la mediana y la moda representan tres mtodos diferentes para encontrar EL valor del centro. Estos tres valores pueden ser un mismo valor pero a menudo son distintos. Cuando son distintos, pueden servir para diferentes interpretaciones de los datos que queremos resumir. Ejemplo 15: Considere el ingreso mensual de cinco familias en un barrio:

    $120.000 $120.000 $300.000 $900.000 $1.000.000

    a) Cul es el ingreso tpico de este grupo? b) El ingreso mensual promedio es: c) La mediana del ingreso mensual es: d) La moda del ingreso mensual es: e) Si usted est tratando de promover el barrio qu medida usara? f) Si usted est tratando que bajen las contribuciones qu medida usara?

  • 18

    Ejemplo 16: Pensamiento crtico y medidas de tendencia central Para cada uno de los siguientes ejercicios podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razn importante por la que, en estos casos, la media y la mediana no son estadsticos que puedan servir de manera precisa y efectiva como medidas de tendencia central. 9 Cdigos postales: 12601; 90210; 02116; 76177; 19102 9 Clasificaciones de los niveles de estrs de distintos empleos: 1; 2; 3; 7; 9 9 Los sujetos encuestados se codifican de la siguiente manera segn la preferencia de club: 1 ( U.

    de Chile), 2 (U. Catlica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Espaola). Ejemplo 17: Su firma est introduciendo un nuevo chip de computador del cual se promociona que realiza clculos estadsticos mucho ms rpidamente que los que actualmente se encuentran en el mercado. Se hacen veinte clculos diferentes, produciendo los tiempos en segundos que se ven ms adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera ms favorable para su empresa. Determine la media, la mediana y la moda. Comente los beneficios relativos de utilizar cada estadstico.

    3,2 4,1 6,3 1,9 0,6 5,4 5,2 3,2 4,9 6,2 1,8 1,7 3,6 1,5 2,6 4,3 6,1 2,4 2,2 3,3

    Ejemplo 18: Una empresa grande de equipos deportivos est probando el efecto de dos planes publicitarios sobre las ventas de los ltimos 4 meses. Dadas las ventas que se ven aqu, cul programa de publicidad parece producir el crecimiento promedio ms alto en ventas mensuales?

    Mes Plan 1 Plan 2

    Enero 1.657.000 4.735.000

    Febrero 1.998.000 5.012.000

    Marzo 2.267.000 5.479.000

    Abril 3.432.000 5.589.000

    Los trminos usados para describir la forma de una distribucin son: 9 Simtrica: La distribucin puede ser dividida en dos partes alrededor de un valor central y cada

    parte es el reflejo de la otra. 9 Sesgada: Un lado de la distribucin se alarga ms que el otro. La direccin del sesgo es la

    direccin del lado ms largo. 9 Unimodal: La distribucin tiene un nico mximo que muestra el o los valores ms comunes en

    los datos. 9 Bimodal: La distribucin tiene dos mximos. Esto resulta a menudo cuando la muestra proviene

    de dos poblaciones. 9 Uniforme: Los valores posibles tienen la misma frecuencia.

  • 19

    Medidas de dispersin (variacin) Las medidas de posicin por si solas, no son suficientes para describir las distribuciones, ya que ellas no consideran la variabilidad de estas. Al comparar dos o ms distribuciones puede suceder que estas tengan el mismo promedio, pero que la dispersin de los valores observados no sea la misma. Las medidas de tendencia central son tiles pero nos dan una interpretacin parcial de los datos. Ejemplo19: Analizaremos los tiempos de espera de los clientes en tres bancos diferentes. En el primer banco, el gerente controla de forma muy cuidadosa los tiempos de espera modificando el nmero de cajeros segn sea necesario. En el segundo banco, todos los clientes esperan en una sola fila y son atendidos por los cajeros disponibles. En el tercer banco hay una fila para cada ventanilla. A continuacin se muestran los tiempos de espera (en minutos) especficos de los clientes,

    Construya un grfico para la situacin de cada banco y analice. Ejemplo 20: Considere los dos siguientes conjuntos de datos, del nmero de unidades producidas por dos operarios, a Ud. la gerencia le solicitar realizar una recomendacin para un ascenso A quin recomienda Ud.?

    Operario 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65 Operario 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85

    Las medidas de dispersin son las siguientes: Rango o Amplitud Si la variable no est tabulada en intervalos el rango se define como la diferencia entre el valor mximo y el valor mnimo, de los valores observados.

    = Rango o Amplitud para datos tabulados en intervalos X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 20 21 22 23 24 25 26 27 28 29 30 20 21 22 23 24 25 26 27 28 29 30

    Cliente 1 2 3

    Banco 1 6 6 6 Banco 2 4 7 7 Banco 3 4 1 13

  • 20

    Analice cuales podran ser las ventajas y desventajas del rango como medida de variabilidad. Si la variable est tabulada en intervalos el rango o amplitud se define de la siguiente forma:

    1ISRango k = Nota: Aunque el rango es la medida de dispersin ms fcil de calcular, casi nunca se usa como la nica medida de dispersin. La razn es que se basa slo en dos de las observaciones y, por consiguiente est muy influido por los valores extremos de los datos. Varianza (Var(X)) La varianza es una medida de la dispersin que emplea todos los datos. Se basa en la diferencia entre el valor de cada observacin (xi) y la media. La diferencia entre cada xi y la media, se llama desviacin respecto al promedio. Para calcular la varianza, las desviaciones respecto al promedio se elevan al cuadrado. Si , , . . . , denota una muestra de n observaciones, la varianza muestral se denota por:

    = ( )

    1

    La desviacin estndar muestral, denotada por s , es la raz cuadrada de la varianza: = La desviacin estndar poblacional, se denota por la letra Griega (sigma), es la raz cuadrada de la varianza poblacional y se calcula como:

    = = ( )

    Sea X una variable cuantitativa y sea x1, x2,..., xn una muestra de tamao n de observaciones de la variable. Ejemplo 21: El siguiente conjunto de datos entrega en nmero de ausentes durante 20 das en cierta empresa, obtenga la varianza:

    0, 2, 1, 1, 0, 0, 1, 1, 2, 3, 0, 1, 3, 2, 1, 1, 0, 0, 1, 2 Varianza para datos tabulados: Si los datos estn tabulados, la varianza muestral se define como sigue:

    = ( )

    1 Y la varianza poblacional

    = ( )

  • 21

    Y para desarrollar de forma ms prctica el clculo se utiliza la expresin, para la varianza muestral:

    =

    1 ()

    Y la varianza poblacional

    =

    ()

    Ejemplo 22: Calcular la varianza para los ejercicios anteriores. Desviacin Estndar Es una medida de la dispersin de las observaciones a la media. Es un promedio de la distancia de las observaciones a la media Ejemplo 23: Recordemos los datos de cuotas impagas en la muestra de 10 clientes de una tienda de retail: Cliente 1 2 3 4 5 6 7 8 9 10 Nmero de cuentas impagas 2 3 0 1 4 0 3 0 1 2 La desviacin estndar muestral es entonces: Interpretacin Pensemos la desviacin estndar como aproximadamente un promedio de las distancias de las observaciones a la media. Si todas las observaciones son iguales, entonces la desviacin estndar es cero. La desviacin estndar es positiva y mientras ms alejados estn los valores del promedio, mayor ser la desviacin estndar.

    0 1 2 3 4 5 6 7mean=4

    deviation = -4deviation =1

    deviation = 3

  • 22

    Notas: 9 La varianza y la desviacin estndar no son medidas de variabilidad distintas, debido a que la

    ltima no puede determinarse a menos que se conozca la primera. 9 A menudo se prefiere la desviacin estndar en relacin con la varianza, porque se expresa en

    las mismas unidades fsicas de las observaciones.

    9 Una aproximacin (referencial) al valor de la desviacin estndar es el Rango dividido en 4. 4

    9 As como el promedio es una medida de tendencia central que no es resistente a las

    observaciones extremas, la desviacin estndar, que usa el promedio en su definicin, tampoco es una medida de dispersin resistente a valores extremos.

    9 Tenemos argumentos estadsticos para demostrar porque dividimos por n 1 en vez de n en el

    denominador de la desviacin estndar muestral. Coeficiente de Variacin (CV(X)): En algunos casos nos puede interesar una medida estadstica descriptiva que indique lo grande que es la desviacin estndar en comparacin con la media. El coeficiente de variacin es una medida relativa de variabilidad, porque evala la desviacin estndar en relacin con la media, y se calcula como sigue:

    . . () = Aplicaciones del Coeficiente de Variacin, comparar la variabilidad de dos distribuciones de una misma variable con unidades distintas. Ejemplo 24: En un curso de 20 alumnos se midi la estatura (en cm.) y el peso (en kg.), obtenindose la siguiente informacin:

    Estatura Peso Promedio 135 24,8

    Desviacin estndar 30 8,3

    Qu distribucin tiene mayor variabilidad?, o bien, se puede preguntar: Qu distribucin es ms heterognea? Regla Emprica: Una regla til para interpretar los valores de una desviacin estndar es la regla emprica. Esta regla establece que las siguientes propiedades se aplican a conjuntos de datos con una distribucin aproximadamente normal.

  • 23

    Entonces, para cualquier distribucin Normal se cumple que: 9 68,3% de las observaciones se encontrarn a una desviacin estndar de la media 9 95,4% de las observaciones se encontrarn a dos desviaciones estndar de la media 9 99,7% de las observaciones se encontrarn a tres desviaciones estndar de la media Teorema de Chebyshev Otro indicador es el teorema de Chebyshev que calcula la proporcin (o fraccin) de cualquier conjunto de datos que est dentro de desviaciones estndar a partir de la media siempre es al menos 1 1/, donde K es cualquier nmero positivo mayor que 1. Para K= 2 y K= 3 tenemos las siguientes aseveraciones, respectivamente: 9 Al menos 3/4 (o el 75%) de todos los valores estn dentro de 2 desviaciones estndar de la

    media. 9 Al menos 8/9 (o el 89%) de todos los valores estn dentro de 3 desviaciones estndar de la

    media. El teorema de Chebyshev, en vez de limitarse a conjuntos de datos con distribuciones normales, se aplica a cualquier conjunto de datos, pero sus resultados son muy aproximados. Como los resultados son lmites inferiores (al menos), este teorema tiene una utilidad limitada. Ejercicios 2: Conocimientos estadsticos y pensamiento crtico

    1. Variacin. Por qu la desviacin estndar se considera una medida de variacin? Describa con sus propias palabras las caractersticas de un conjunto de datos medido con la desviacin estndar.

    2. Comparacin de la variacin. Cules datos cree usted que tengan mayor variacin: las

    puntuaciones de CI de 30 estudiantes de un curso de estadstica o las puntuaciones de CI de 30 individuos que ven una pelcula? Por qu?

    3. Valor infrecuente? Un profesor de estadstica aplica un examen que tiene una media de 4,5 y

    una desviacin estndar de 0,8. Un estudiante obtiene una calificacin de 6,5 en el examen. En este contexto, la calificacin de 6,5 es poco comn? Por qu?

    4. Enunciado correcto? En el libro How to Lie with Charts, Gerald E. Dones escribe que la

    desviacin estndar suele definirse como ms o menos la diferencia entre la puntuacin ms alta y la media, y la puntuacin ms baja y la media. Por ejemplo, si la media es 1, el valor ms alto es 3 y el valor ms bajo es 1. La desviacin estndar es 2. Es correcto este enunciado? Por qu?

  • 24

    5. Percepcin del tiempo. Algunos estudiantes de estadstica participaron en un experimento que intentaba probar su capacidad para determinar el transcurso de 1 minuto (o 60 segundos). A continuacin se presentan los resultados en segundos. Identifique al menos una buena razn por la que la desviacin estndar de esta muestra no sera un buen estimado de la desviacin estndar de la poblacin de adultos.

    53 52 75 62 68 58 49 49

    6. Giser del Tatio. Abajo se indican los intervalos (en minutos) entre las erupciones del giser del

    Tatio en la regin de Antofagasta. Con base en los resultados, es poco comn un intervalo de 100 minutos?

    98 92 95 87 96 90 65 92 95 93 98 94

    7. Exactitud del pronstico del clima. En un anlisis de la exactitud del pronstico del clima se

    comparan las temperaturas mximas reales con las temperaturas mximas pronosticadas un da anterior y con las temperaturas mximas pronosticadas cinco das antes. Ms abajo se sealan los errores entre las temperaturas pronosticadas y las temperaturas mximas reales para das consecutivos en Santiago. La desviacin estndar sugiere que las temperaturas pronosticadas un da antes son ms exactas que las pronosticadas cinco das antes, como se esperara?

    (real) (pronosticada un da antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1

    (real) (pronosticada cinco das antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4

    8. Regla emprica. Las estaturas de un grupo de hombres tienen una distribucin normal, con una

    media de 176 cm y una desviacin estndar de 7 cm. Por medio de la regla emprica,

    a. cul es el porcentaje aproximado de hombres entre 169 cm y 183 cm? b. cul es el porcentaje aproximado de hombres entre 155 cm y 197 cm?

  • 25

    Medidas de posicin relativa Aunque la varianza y la desviacin estndar son las medidas de dispersin ms tiles en anlisis estadstico, existen otras tcnicas con las cuales puede medirse la dispersin de un conjunto de datos. Estas medidas adicionales de dispersin o posicin relativa son los cuartiles, los deciles y los percentiles. Definicin: Las medidas de posicin relativa son medidas que describen la posicin que tiene un valor especfico en relacin con el resto de los datos. Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo cuartil es justo la mitad. La mitad de las observaciones estn por debajo y la mitad por encima; en este sentido, es lo mismo que la mediana. El tercer cuartil es el valor debajo del cual est el 75% de las observaciones y encima del cual puede encontrarse el 25% restante. La determinacin de cuartiles con frecuencia es de utilidad. Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los percentiles en 100 partes. Ejemplo 25: Si su nota estuvo en el percentil 84, entonces el 84% de las notas fueron inferiores a la suya y el 16% superiores. Vale la pena destacar que los datos han sido puestos en una serie ordenada. El lugar del P-simo percentil se halla. Ubicacin del percentil:

    = ( + 1)100

    Donde: = lugar del percentil en la serie ordenada de los datos = nmero de observaciones = Percentil a calcular Ejemplo 26: Para ilustrar el clculo de percentiles, se asume que se tienen observaciones para el nmero de acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se muestra en la tabla. Se desea calcular el percentil 25, para las acciones; se debe hallar primero su ubicacin en la serie ordenada.

    3 10 19 27 34 38 48 56 67 74 4 12 20 29 34 39 48 59 67 74 7 14 21 31 36 43 52 62 69 76 9 15 25 31 37 45 53 63 72 79 10 17 27 34 38 47 56 64 73 80

  • 26

    El valor resultante de 12,75 dice que el percentil 25 est ubicado al 75% del trayecto comprendido entre la doceava observacin, que es 20 y la treceava observacin que es 21. Por lo tanto el Percentil 25 es 25 = = 20,5 21, por criterio de aproximacin. Ejemplo 27: Calcular para el nmero de acciones transadas (tabla anterior): el cuartil 3, el sexto decil y el percentil 35. Rango entre cuartiles Una medida nica de dispersin es el rango o recorrido intercuartlico. El RQ es la diferencia entre el tercer cuartil y el primer cuartil. La mitad de las observaciones se clasifican dentro de este rango. Consta del 50% de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los puntos de datos. Como resultado, el RQ proporciona una medida de dispersin que no est muy influenciada por unas cuantas observaciones extremas. Por definicin, la diferencia entre el tercer cuartil y el primer cuartil se llama rango entre cuartiles, denotado por:

    = .

    El rango entre cuartiles mide la variabilidad de la mitad central de los datos. Notas: 9 Cuando el nmero de observaciones es impar, la observacin del medio es la mediana. Esta

    observacin no se incluye luego en los clculos de Q1 y Q3. 9 Pueden encontrar diferentes frmulas en libros, calculadoras o computadores, pero todas estas

    frmulas se basan en el mismo concepto. 9 Si la distribucin es simtrica, los cuartiles deben estar a la misma distancia de la mediana.

    Ejemplo 28: Los datos presentados son el nmero de ventas en una confitera en 20 das son: 32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51 Determine el Rango entre cuartiles (RQ) y analice su resultado. Percentiles para datos agrupados: Corresponden a medidas de orden, que dividen a la muestra en forma ordenada en grupos de igual tamao. Su frmula para datos tabulados es la siguiente: Denotemos por el percentil i-simo con i=1, 2, 3,...,100

    = + 100

    Donde: = Lmite inferior de la clase del intervalo que contiene el percentil i = nmero de datos (frecuencia total) = frecuencia absoluta acumulada anterior al intervalo que contiene el percentil i.

    = frecuencia absoluta del intervalo que contiene el percentil i = amplitud de clase del intervalo que contiene el percentil i

  • 27

    Qu es Variabilidad? Considere los 4 conjuntos de datos siguientes y sus histogramas: Datos I: 2 3 3 3 4 4 4 4 5 5 5 5 5 Datos II: 3 3 3 3 3 4 4 4 4 5 5 5 6 Datos III: 2 3 3 4 4 4 4 4 4 4 5 5 6 Datos IV: 3 3 3 3 3 3 4 5 5 5 5 5 5 Ejemplo 29: Calculemos las siguientes medidas de variabilidad para los datos anteriores

    Medidas de variabilidad I II III IV Rango

    Rango entre cuartiles

    Desviacin Estndar

    Nota: 9 El recorrido intercuartlico es particularmente til cuando la variable es ordinal, como en el

    ejemplo siguiente: Ejemplo 30: La tabla siguiente muestra la experiencia laboral (en aos) de un grupo de personas que postulan a un empleo.

    Experiencia Laboral (en aos)

    ni

    0 - 3 30 3 - 5 23 5 - 6 20 6 - 8 15 8 - 9 8 9 - 10 27

    a.- Clasificacin de la variable segn nivel de medicin y tamao de recorrido.

    2 3 4 51 6

    2

    4

    6 Distribution I

    2 3 4 51 6

    2

    4

    6 Distribution II

    2 3 4 51 6

    2

    4

    6

    Distribution III

    2 3 4 51 6

    2

    4

    6Distribution IV

  • 28

    b.- Medida de posicin ms adecuada. c.- Graficar adecuadamente esta informacin. d.- Calcular e interpretar el percentil 5. d.- Calcular e interpretar el percentil 78. e.- Calcular e interpretar el rango intercuartlico. Diagramas de caja (boxplot): El diagrama de caja se construye de la siguiente manera: 1. Dibujar la caja que empieza en el primer y termina en el tercer cuartil. 2. Dibujar la mediana con una lnea dentro de la caja. 3. Por ltimo se extienden las lneas, llamadas bigotes, saliendo de la caja hasta el mnimo y el

    mximo.

    Los grficos de caja son muy tiles para comparar distribuciones de dos o ms grupos. En la presencia de valores extremos, los bigotes se extienden hasta el valor observado anterior al valor extremo. Valores extremos: son valores que se alejan del conjunto de datos Regla para identificar valores o datos extremos: Vamos a definir una observacin como extrema, si:

    < 1 1,5 > 3 + 1,5 Donde el sern las primeras y ltimas observaciones en la serie ordenada de los datos. Ejemplo 31: Construyamos el Box-plot para los datos del nmero de ventas en la confitera. Tiene valores extremos, la variable nmero de ventas en una confitera en 20 das son? 32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51 Sntesis general En resumen, cuando queremos describir una variable usamos alguna medida de posicin central y una medida de dispersin. El par de medidas ms comnmente usado es el promedio y la desviacin estndar. Pero vimos que cuando la distribucin de las observaciones es sesgada, el promedio no es una buena medida de posicin central y preferimos la mediana. La mediana en general va acompaada del rango como medida de dispersin. Pero cuando observamos valores extraos (extremos) el rango se ve muy afectado, por lo que preferimos usar el rango entre cuartiles.

  • 29

    Medida de tendencia

    central

    Medida de dispersin

    Uso en distribuciones Ventajas Desventajas

    Promedio Desviacin

    estndar Simtricas

    Buenas propiedades, muy usados.

    Sensible a valores extremos.

    Mediana Rango Sesgadas, sin

    valores extremos

    Mediana robusta a valores extremos. Rango muy

    conocido, fcil de entender.

    Rango sensible a valores extremos.

    Mediana Rango entre

    cuartiles Sesgadas con

    valores extremos Medidas robustas a valores

    extremos.

    El rango entre cuartiles no es muy

    conocido.

    EJERCICIOS

    1.- Consideremos algunas caractersticas de un grupo de doce personas. Edad ( aos): 22, 24, 25, 26, 27, 28, 28, 29, 30, 31, 33, 34 Ingreso diario: $8000 ; $8200; $9000; $10.000; $11.000; $12.000; $12.300 ; $12.500; $13.000; $13.500; $88.000; $100.000 Nmero de zapatos: 30; 35 ; 35; 35; 35; 35; 40; 40; 42; 46; 48; 48 Selecciona la medida de tendencia central ms apropiada para cada una de las variables 2.- La siguiente tabla muestra la distribucin de las edades segn sexo, de los trabajadores de una empresa.

    Edad (aos) Hombres Mujeres

    21 - 25 2 3

    25 - 35 53 60

    35 - 45 60 37

    45 - 60 25 18

    Qu distribucin tiene menor variabilidad? o Qu distribucin es ms homognea?

  • 30

    3.- Consideremos la distribucin de frecuencias de los 210 dispositivos en el control de calidad, distribuidos como lo muestra la siguiente tabla:

    Intervalo Marcas de

    clase Frecuencia Absoluta

    Frecuencia Absoluta

    Acumulada

    Frecuencia Relativa

    Frecuencia Relativa

    Acumulada 350 400 400 450 450 500 500 550 550 600 600 650 650 700 700 750 750 800 800 - 850

    4 6 9 20 31 80 42 10 8 2

    Determine:

    a) Dibuje en un solo grfico, el histograma y el polgono de frecuencias. b) Calcule la media aritmtica, la mediana y la moda. c) Qu % de estos dispositivos se encuentran entre 550 y 750?

    4.- En una industria dos operarios en siete das de trabajo, son capaces de producir, por da, y en forma individual las siguientes cantidades de rboles para fresa de 250 mm de longitud por 300 mm de dimetro.

    Operario A 105 106 104 102 103 100 101 Operario B 103 102 107 101 105 102 103

    Determine:

    a) Produccin media de cada operario b) Moda del operario A. c) Mediana del operario B. d) Rango del operario A y del operario B. e) Varianza del operario A. f) Desviacin estndar de ambos operarios. g) Son las muestras homogneas?

    5.- Una distribucin de datos se dice que es simtrica si Media=Mediana=Moda. Demuestre que la siguiente distribucin de datos es simtrica. Adems compare la variabilidad utilizando: la deviacin estndar y el RQ. Intervalos 160 162 163 165 166 168 169 171 172 174 175 177 178 - 180

    ni 3 5 7 10 7 5 3

  • 31

    6.- A cada persona que se presenta como candidato para un trabajo de ensamble es una empresa de muebles, se le aplica una prueba de aptitudes mecnicas. Una parte de la prueba consiste en ensamblar un armario con base e instrucciones numeradas. En la siguiente distribucin de frecuencias se tiene una muestra de los tiempos que necesitaron 42 personas para ensamblar el armario.

    Tiempo (minutos) n i N i p i P i X i 1 4 4 5 7 8 8 10 14 11 13 9 14 16 5 17 - 19 2

    a) Cul es la amplitud total? b) Cul es el tiempo medio de la 5ta clase? c) Cuntas personas ensamblaron el armario en menos de 10 minutos? d) Qu porcentaje de las personas a lo ms tard 16 minutos en ensamblar el armario? e) Cuntas personas tardaron, en promedio, 5 minutos y medio? f) Interprete n 2, , N 4 , P 3 g) Defina mediante estadstico adecuado si existe sesgo. h) En base a la distribucin Normal, cmo podemos caracterizar la muestra?

    7.- La siguiente informacin nos proporciona el nmero de causas que ingresan en un da determinado a la corte de apelaciones, presentadas por 50 abogados de diferentes empresas:

    5 12 8 25 4 10 15 23 2 0 8 3 15 18 14 9 6 7 6 21 4 11 7 9 12 14 10 11 14 4 10 15 4 8 5 12 11 14 8 9 20 17 14 11 3 4 1 18 12 10

    Con la informacin anterior construya una tabla de distribucin de frecuencias. Cul es el valor tpico de tendencia central adecuado para representar el nmero de causas? Formule un anlisis detallado. Observacin: Calcule la Media, Moda, Mediana y Varianza, adems, construya un histograma. 8.- En una empresa que presta servicios computacionales, donde trabajan 350 empleados, se ha estudiado el ingreso mensual, obtenindose los siguientes datos separados por sexo.

  • 32

    Ingreso (miles de pesos) Hombres Mujeres

    220 240 40 40 240 260 85 10 260 280 85 10 280 - 300 40 40

    En cul grupo de empleados, es ingreso est distribuido en forma ms homognea? Compare. 9.- Los siguientes datos representan una lista de puntajes en un examen de estadstica de 40 alumnos, que tena un total de 100 puntos. a) Construya la tabla de frecuencias. b) Determine mediante el uso de estadgrafos si existe sesgo en la muestra. c) Cul es el intervalo de puntajes comunes o esperados segn la variabilidad? d) Calcular Q3, P30 y P75. e) Grafique la informacin entregada (histograma y box-plot), realice una comparacin con los datos

    obtenidos en la pegunta c).

    63 88 79 92 86 87 83 78 41 67 68 76 46 81 92 77 84 76 70 66 77 75 98 81 82 81 87 78 70 60 94 79 52 82 77 81 77 70 74 61

    10.- En una clnica veterinaria se examin a 35 perros de la comuna, encontrndose la siguiente informacin respecto de la cantidad de parsitos que tena cada uno, en los meses estivales. La autoridad sanitaria indica que si los estadsticos indican que los valores estimados son mayores a 3 parsitos, es necesario implementar un plan de sanitizacin canina. Ocurre esta situacin?

    6 5 3 3 4 0 2 4 3 1 7 2 3 5 1 1 3 2 5 0 1 2 2 4 6 3 1 6 3 1 2 0 2 1 3

    a) Clasifique la informacin en una tabla de frecuencias. b) Cul es el rango de parsitos esperados y cul es el lmite? c) Qu porcentaje de perros no tena parsitos? d) Cuntos perros tenan menos de 4 parsitos? e) Cuntos perros tenan ms de 3parsitos? f) Grafique los datos en una ojiva de porcentajes. g) Construya un box-plot y de informacin de la prevalencia de los parsitos 11.- Los datos financieros con frecuencia estn contenidos en un grfico de mximos - mnimos y al cierre. Como su nombre lo indica, muestra el valor ms alto, el valor ms bajo y el valor al cierre de los instrumentos financieros como por ejemplo las acciones. Confeccione un grfico basado en los datos tomados de The Wall Street Journal para el ndice Dow Jones respecto a 15 acciones durante un

  • 33

    perodo de cinco das con base en los siguientes datos, compare los valores mximos mnimos y de cierre utilizando elementos estadsticos.

    Da Mximos Mnimos Cierre

    1 181,07 178,17 178,88

    2 180,65 178,28 179,11

    3 180,24 178,17 179,35

    4 182,79 179,82 181,37

    5 182,14 179,53 181,31