curso breve de estadística

Upload: manuel-maluenga

Post on 10-Jul-2015

655 views

Category:

Documents


9 download

TRANSCRIPT

CURSO BREVE DE ESTADSTICACOLECTIVO DE AUTORES: MSc. Manuel Ernesto Acosta [email protected] [email protected]

Prof. Asistente Prof. Auxiliar Prof. Auxiliar

MSc. Luis Pia Len MSc. Daysi Espallargas [email protected]

DPTO. ESTADSTICA - INFORMTICA FACULTAD DE ECONOMA UNIVERSIDAD DE LA HABANA 2008

NDICE

INTRODUCCIN A LA ESTADSTICA ..................................................................................... 3 OBJETIVOS DEL CURSO ............................................................................................................ 4 TEMA I: MTODOS DESCRIPTIVOS......................................................................................... 51.1: Definicin de poblacin y muestra. Clasificacin de las variables. Organizacin de los datos. Tablas de frecuencias. Grficos...............................................................................................................5 1.2: Medidas descriptivas o estadgrafos. Estadgrafos de posicin ms usados: media, mediana y moda. Estadgrafos de dispersin ms usados: varianza, desviacin tpica y coeficiente de variacin.....................................................................................................................................................16

TEMA II: PROBABILIDADES. .................................................................................................. 282.1: Introduccin a los fenmenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificacin de sucesos. Definicin clsica de Probabilidad. Definicin estadstica de Probabilidad...............................................................................................................................................28 2.2: Axiomatizacin de la Probabilidad. Reglas de clculo de probabilidades. Probabilidad condicional. Independencia de sucesos. ..............................................................................................35

TEMA III: DISTRIBUCIONES TERICAS DE PROBABILIDAD.......................................... 413.1: Definicin de variable aleatoria. Funcin de probabilidad univariada: casos discreto y continuo. Funcin de distribucin. Media y varianza de variables aleatorias. ................................41 3.2: Distribucin binomial: caractersticas y uso. Distribucin de Poisson: caractersticas y uso. .....................................................................................................................................................................49 3.3: Distribucin normal o de Gauss. Distribucin chi-cuadrado. Distribucin t de Student. Distribucin F de Fisher...........................................................................................................................58

TEMA IV: MUESTREO Y ESTIMACIN ................................................................................. 744.1. Conceptos bsicos: Poblacin y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple. Uso de la tabla de nmeros aleatorios para efectuar un muestreo aleatorio. ................................74 4.2 Estimadores. Propiedades deseables para un buen estimador. Estimacin puntual. Distribucin muestral. Distribucin muestral de la media tanto con varianza (2) conocida como desconocida. Distribucin muestral de las proporciones y de la varianza. .....................................80 4.3: Error mximo permisible y tamao de muestra necesario para la estimacin de y p. Estimacin por intervalos de confianza. ...............................................................................................89

TEMA V: PRUEBAS DE HIPTESIS ........................................................................................ 985.1. Conceptos bsicos. Desarrollo general de pruebas de hiptesis. Pruebas para medias en una poblacin............................................................................................................................................98 5.2: Tamao del error tipo II. Funcin de potencia. Tamao de la muestra. ................................112 5.3: Pruebas no paramtricas: Prueba chi-cuadrado de la bondad de ajuste para verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas de contingencia. ...........................................................................................................................................119

TEMA VI: ANLISIS DE VARIANZA.................................................................................... 1296.1: Conceptos bsicos del anlisis de varianza. Modelo de clasificacin simple. Supuestos del mtodo. ....................................................................................................................................................129

BIBLIOGRAFA BSICA:........................................................................................................ 140

1

PRESENTACINA los estudiantes: Este texto ha sido elaborado por un colectivo de profesores de Estadstica de la Facultad de Economa de la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta asignatura en las carreras de perfil econmico y social, en general, particularmente en la Licenciatura en Economa. El objetivo del estudio de la Estadstica en cualquier carrera es dotar al alumno de algunos elementos que le servirn para trabajar con conjuntos de datos, describir situaciones de inters, hacer inferencias sobre la base de observaciones y evaluar hiptesis relacionadas con alguna circunstancia prctica; adems, pueden iniciarse en el estudio de los fenmenos y experimentos aleatorios, estableciendo el vnculo entre los conocimientos y habilidades de los contenidos de la Estadstica Descriptiva, la Teora de las Probabilidades y la Estadstica Inferencial. Debe sealarse que la Estadstica es eminentemente prctica, sin embargo, se necesita del conocimiento de la teora que la sustenta para la correcta aplicacin de las frmulas de clculo y los modelos que intentan representar la realidad existente. En el texto se detallan los objetivos generales del curso y la distribucin del mismo en los seis temas en que est subdividido. Tambin se incluyen los objetivos especficos de cada una de las unidades didcticas que conforman los distintos temas. Adems, se desarrolla sucintamente el contenido de la asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografa bsica. Finalmente, se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han aadido ejercicios para que sirvan de autoevaluacin. Es aspiracin de los autores que estos apuntes para el estudio de Estadstica sean de utilidad tanto para sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio. Los Autores. La Habana, 2008

2

INTRODUCCIN A LA ESTADSTICAEl vocablo estadstica (con minscula) se utiliza para denominar cualquier coleccin sistemtica de datos, por ejemplo: natalidad o mortalidad en un pas o provincia, resultados peridicos en cierto deporte, cifras de produccin de una empresa, pasajeros transportados durante un perodo, enfermos recuperados con ciertos medicamentos Las estadsticas son tan antiguas como las sociedades humanas, pero la Estadstica como ciencia (con mayscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades. La Estadstica como ciencia puede definirse como un conjunto de principios y mtodos que se han desarrollado para analizar datos numricos, utilizando las probabilidades; sus mtodos se clasifican en: Mtodos descriptivos (Estadstica Descriptiva) Describen el comportamiento de los datos estadsticos, se ocupan de la recoleccin, organizacin, reduccin, tabulacin y presentacin de la informacin. Inferencia estadstica (Estadstica Inferencial) Estudia y concluye sobre un fenmeno basndose en el anlisis e investigacin de una parte del mismo, por lo que constituye una poderosa herramienta para la investigacin cientfica.

3

OBJETIVOS DEL CURSO1. Clasificar las variables en cualitativas, cuantitativas discretas y cuantitativas continuas. Organizar los datos u observaciones de diferentes variables (discretas y continuas) en tablas de frecuencias. Construir grficos de barras (histogramas) y polgonos de frecuencias. Calcular e interpretar los principales estadgrafos o medidas de posicin y de dispersin. Aplicar e interpretar resultados obtenidos mediante algn paquete de cmputo estadstico. 2. Diferenciar entre determinismo y aleatoriedad. Definir el espacio muestral de un experimento o fenmeno aleatorio. Calcular la probabilidad de ocurrencia de un suceso utilizando la definicin clsica y la estadstica. Aplicar las propiedades o teoremas derivados de la definicin axiomtica de probabilidad. Aplicar las definiciones de probabilidad condicional e independencia. Aplicar e interpretar los fundamentos de la teora de probabilidades en la solucin de problemas. 3. Asociar a la nocin de variable aleatoria (tanto discreta como continua), los conceptos de funcin de probabilidad, funcin de distribucin o acumulacin, y caracterizar estas funciones mediante la esperanza, valor esperado o media terica, y la varianza terica. Identificar y caracterizar las distribuciones probabilsticas: Binomial, Poisson, Normal, Chi-Cuadrado, t Student y F de Fisher. Calcular probabilidades asociadas a las distribuciones anteriores haciendo uso de las tablas correspondientes. 4. Identificar los conceptos bsicos de poblacin, muestra, muestreo, parmetro y estimador. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto Aleatorio (MIA). Obtener muestras aleatorias simples mediante la tabla de nmeros aleatorios. Aplicar la distribucin muestral de la media, la varianza y la proporcin en la estimacin puntual y por intervalos de los parmetros correspondientes (, 2 y p), as como tambin a la obtencin de una medida probabilstica del error y del tamao de la muestra requerido para la estimacin de los mismos. 5. Identificar los conceptos bsicos asociados a las pruebas de hiptesis: hiptesis nula e hiptesis alternativa, regin crtica o de rechazo y nivel de significacin. Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear distintas pruebas paramtricas para una poblacin: de media (con varianza conocida y desconocida), de proporciones, y de varianza. Identificar y emplear las pruebas no paramtricas chicuadrado, tanto para probar normalidad, como para verificar independencia entre variables o criterios de clasificacin. Verificar el supuesto de normalidad a travs de la prueba Jarque-Bera, a partir de salidas del programa de cmputo EViews. 6. Aplicar el anlisis estadstico para verificar la igualdad de tres o ms medias poblacionales a travs del anlisis de varianza. Establecer los supuestos del anlisis de varianza.

4

TEMA I: MTODOS DESCRIPTIVOSCon este tema se inicia el estudio de la parte de la estadstica que se ocupa de la recoleccin, organizacin, resumen y presentacin de la informacin; cuestin esencial para cualquier investigacin. El buen uso de los mtodos descriptivos ahorra tiempo y esfuerzo, facilita la interpretacin de resultados y sirve de base incuestionable para el desarrollo de mtodos de inferencia y prediccin: La informacin recogida durante el proceso de observacin, medicin, entrevista, etc., suele ser dispersa, y no es hasta que la misma se organiza, procesa y presenta adecuadamente que cobra real dimensin la misma y puede considerarse, ms all de un conjunto de datos, verdadera informacin.

1.1: Definicin de poblacin y muestra. Clasificacin de las variables. Organizacin de los datos. Tablas de frecuencias. Grficos.Ya se ha dicho que los mtodos descriptivos se ocupan de la recoleccin, organizacin, reduccin, tabulacin y presentacin de la informacin en un estudio o investigacin dados. Durante este proceso siempre se hace referencia de alguna manera a conceptos bsicos en el contexto de la Estadstica, como son: Poblacin: Coleccin de individuos o elementos que representan el objeto de inters (seres vivos o inanimados). Tamao de la poblacin: Cantidad de elementos que abarca la poblacin. En casi todos los textos se representa con el smbolo N. Censo: Observacin y estudio de todos los elementos que componen la poblacin. Muestra: Cualquier subconjunto de la poblacin tomado para su estudio. Muestreo: Procedimiento mediante el cul se extrae una muestra. Tamao de muestra: Cantidad de elementos contenidos en la muestra. En casi todos los textos se representa con el smbolo n. Variable o caracterstica: Es el signo o detalle que interesa caracterizar en la poblacin. Para organizar los datos muchas veces es til conocer qu tipo de variables stos miden. Con este fin, las variables pueden clasificarse en: Cualitativas: Tambin llamadas atributos, y se refieren a cualidades tales como: calidad (bueno, regular, malo), sexo, color del pelo o de los ojos, estado civil, nivel escolaridad, etc. Cuantitativas: Se refieren a cantidades tales como costos, estaturas, pesos, ingresos, nmero de hijos, etc. A la vez, se distinguen dos tipos de datos o variables cuantitativos: Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo de definicin, o sea, toman valores determinados, predefinido. Generalmente representan valores enteros asociados a observaciones susceptibles de conteo.

5

Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su intervalo de definicin. Generalmente representan observaciones susceptibles de medicin. Es importante tener en cuenta que la continuidad est dada por la propia naturaleza de variable, no porque sta se exprese con valores decimales o no, pues esto es algo que depende de las unidades de medida utilizadas, de la precisin deseada o de costumbres al expresar una magnitud.

TABULACIN DE DATOS (TABLAS DE FRECUENCIAS):Segn la forma en que se presenta la informacin, se habla de: Recoleccin simple o no organizada (datos no organizados): Es el listado de los datos presentados en su forma primaria, es decir, tal como fueron obtenidos durante el proceso observacin o medicin en la muestra o poblacin. Recoleccin organizada o tabulacin (datos organizados): Es el ordenamiento de la informacin en tablas, denominadas tablas de frecuencias o distribuciones de frecuencias, a partir de los datos primarios. Cuando los datos se tabulan, o se organizan en las tablas de frecuencias, pueden estar no agrupados, es decir, de manera que se leen directamente los valores observados, o agrupados, esto es, se construyen intervalos para resumir la informacin observada.

Se dice que los datos estn organizados, pero no agrupados, cuando en las tablas de frecuencias se ponen, organizados, todos y cada uno de los valores que toma la variable; esto es, se colocan los datos en columnas que recogen los distintos valores de la variable y las frecuencias (las veces) con que han aparecido tales valores. Por su parte, se dice que los datos estn organizados y agrupados cuando en la tabla se presentan stos no con sus valores individuales, sino en agrupaciones parciales del recorrido de la variable, denominadas clases o intervalos de clases. Una clase se caracteriza por un valor que es su lmite inferior y otro que es su lmite superior. El promedio de los dos lmites, que muchas veces se toma como el valor representativo de la clase, es llamado marca de clase. Y a la diferencia o distancia entre los lmites de la clase se le llama ancho de clase: aunque no es obligatorio, es usual utilizar clases del mismo ancho siempre que es posible. (Si las clases no tienen el mismo ancho, no es la altura de las barras o rectngulos la que debe ser proporcional a las frecuencias representadas, sino su rea.) La forma general de una tabla de frecuencias es la siguiente:

Li-1 - Li L0 - L1 L1 - L2 Lk-1 - Lk slo si hay clases (datos agrupados)

Xi X1 X2 Xk

ni n1 n2 nk

fi f1 f2 fk

Ni N1 N2 Nk

Fi F1 F2 Fk

frecuencias complementarias

6

Los smbolos y definiciones correspondientes son:

Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de clase (en datos agrupados en clases) Li-1 - Li : representan las clases (si los datos se agruparon), delimitadas por los lmites de clase, el inferior (Li-1) y el superior (Li) ni ( frecuencia absoluta ): nmero de veces que se repite el i-simo valor de la variable; donde ni = n n ( tamao de la muestra ): cantidad de observaciones efectuadas, es decir, nmero de elementos contenidos en la muestra k: representa el nmero de valores diferentes observados (datos no agrupados) o la cantidad de clases creadas (datos agrupados)Tambin pueden incorporarse a la tabla otras frecuencias, como:

fi ( frecuencia relativa ): proporcin de veces que se repite el i-simo valor de la variable (si semultiplica por cien constituye un porciento); se cumple que: fi = ni/n y donde fi = 1

Ni ( frecuencia absoluta acumulada ): Es el nmero de observaciones menores o iguales al isimo valor de la variable, donde N1 = n1, N2 = n1 + n2, N3 = n1 + n2 + n3, y as sucesivamente hasta Nk = n. As, se interpreta como el nmero de observaciones menores o iguales al i-simo valor de la variable.o iguales al i-simo valor de la variable, siendo F1 = f1, F2 = f1 + f2, F3 = f1 + f2 + f3, y as sucesivamente hasta Fk = 1. Generalmente se agrupan las observaciones correspondientes a variables continuas, ya que estas son las que pueden tomar cualquier valor en un intervalo, y prcticamente es imposible considerar todos y cada uno de los valores que toma la variable, como s ocurre con las variables discretas. No obstante no se puede decir rotundamente que no se agrupan en clases las variables discretas y s las continuas, porque esto depende de la cantidad de datos que se tiene y del tipo de anlisis que se va a hacer. As, se podra presentar la situacin de que se tiene una variable discreta que toma tantos valores diferentes que es necesario agruparla; o el caso de que se tiene una variable continua para la cual todas las observaciones constituyen valores enteros y se pueden recoger entonces en una tabla de frecuencia con datos no agrupados. Por todo ello, cuando se insiste en que las variables discretas se presentan en tablas de frecuencia sin agrupar, y las variables continuas en tablas de frecuencias agrupadas, esto es ante todo con fines metodolgicos.

Fi ( frecuencia relativa acumulada ): es la proporcin (o porciento) de observaciones menores

7

PROPIEDADES DE LAS FRECUENCIAS:De la definicin de las distintas frecuencias se deduce que stas son siempre nmeros no negativos, y pueden considerarse como propiedades de las mismas las siguientes: 1. ni 0 2. ni = n 3. fi = 1 4. 0 fi 1 5. Nk = n / 0 Fi 1 / Ni 0 6. Fk = 1 7. N1 = n1 8. F1 = f1 9. n1 = N1 N2 N3 ... Nk 10. f1 = F1 F2 F3 ... Fk

AGRUPACIN DE LOS DATOS EN CLASES:La agrupacin de datos en clases incluye muchas cuestiones subjetivas, como facilidad o conveniencias de agrupacin, diversidad de criterios o necesidades de la investigacin; e incluso puede depender de la propia naturaleza de los datos. Se debe considerar tambin que la agrupacin de datos siempre conlleva un grado de prdida de informacin, pues ya no se cuenta con todos y cada uno de los valores de la variable sino con los intervalos creados; no obstante, esta prdida de informacin en general no es significativa para el anlisis global. Algunas de las formas en que se presentan los intervalos de clases son: Caso A 10 15 20 14,9 19,9 24,9 Caso B 10 15,1 20,1 15 20 25 Caso C 10 15 20 15 20 25

Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un lmite de clase, de manera que para una observacin dada sea inequvoca (nica) la pertenencia a una clase; pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una clase y el inicio de la otra, es decir, entre 14,9 y 15 (caso A) y lo mismo entre 15 y 15,1 (caso B). Por ello muchos autores e investigadores prefieren la variante C, donde el valor que cierra una clase es el mismo que abre la siguiente, y se suele recurrir al siguiente convenio: cuando una observacin coincide con un lmite de clase se incluye en la clase donde dicho lmite es el lmite superior, es decir, se consideran los intervalos de clase como abiertos al inicio y cerrados al final, as: ( Li-1 ; Li ] Tambin existen los intervalos abiertos atendiendo al tipo de informacin que se puede presentar:

8

Abierto en la primera clase menos de 10 10 20 20 30 30 40 40 50

Abierto en la ltima clase 0 10 10 20 20 30 30 40 ms de 50

Abierto en la primera y en la ltima clase menos de 10 10 20 20 30 30 40 ms de 50

Es til tener en cuenta adems que no siempre los intervalos podrn ser de igual amplitud, sin embargo es recomendable que estos tengan el mismo ancho si es posible ello, para lograr mayor facilidad en las interpretaciones, representaciones y clculos. Entre los mtodos seguidos para crear las clases, dos son los ms utilizados: 1. Definir, a partir del uso que se har de la informacin, el ancho de clases que se emplear, y con esto ver cuntas clases surgen. 2. Definir, a partir de la cantidad de datos disponibles, la cantidad de clases que se crearn, y a partir de ah calcular el ancho que debern tener las mismas. Los pasos que se deben dar para agrupar los valores observados segn el segundo mtodo pueden resumirse como sigue: 1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor mximo y el mnimo de la variable: R = Xmax - Xmin 2. Definir el nmero de intervalos o clases (k): La prctica indica que menos de 4 5 clases suele ser muy poco y que en general ms de 20 clases puede ser excesivo, es decir, ni tan pocos, que se pierda demasiada informacin, ni tantos que parezca que no se han agrupados los datos ( 4 k 20 ) 3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de los datos entre la cantidad de clases que se decidi usar, aproximado convenientemente y siempre por exceso: c R/k 4. Crear las clases, partiendo del valor mnimo observado (xmin) o un valor inferior, y sumando sucesivamente el ancho de clases (c) determinado. 5. Clasificar la variable en las distintas clases, para lo cual se puede hacer un tarjado, obteniendo las frecuencias absolutas correspondiente (ni). 6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni) y relativas acumuladas (Fi). 7. Determinar las marcas de clases (Xi), valores que representarn a sus respectivas clases.

REPRESENTACIN GRFICA DE LOS DATOS:Otra manera de presentar los datos de manera de que brinden informacin a primera vista es una representacin grfica de los mismos, y entre los grficos ms usados se encuentran: Grficos de barras o histogramas Constan de dos ejes; un eje horizontal, donde se distribuyen los valores observados de la variable (datos no agrupados) o sus lmites de clases (datos agrupados), y un eje vertical 9

donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes. En el punto correspondiente a cada observacin o clase se levanta una barra cuya altura indica el valor de la frecuencia observada. Si los datos estn agrupados en clases las barras conforman rectngulos contiguos, y el grfico suele ser denominado histograma. Polgonos de frecuencias Son similares a los grficos de barras, y tienen la misma funcin, aunque actualmente se utilizan menos que aquellos. Constan de tambin de dos ejes, con la diferencia de que en el eje horizontal, si los datos estn agrupados en clases se distribuyen no sus lmites de clase sino sus marcas de clase. En cualquier caso, sobre el punto correspondiente a cada observacin o marca de clase se hace una marca a la altura de la frecuencia observada, y posteriormente estas marcas se unen con trazos rectos, formando una lnea poligonal. Grficos circulares o de pastel Parten de subdividir un crculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene, de manera que la amplitud angular del sector, y por tanto su rea, es proporcional a la frecuencia absoluta correspondiente (y consecuentemente tambin a la relativa).

EJEMPLO 1 (Datos no agrupados): Se tiene los datos recopilados acerca de la variable X: nmero de ausencias a clase que tienen los estudiantes de un grupo. 0 3 4 2 1 2 3 2 2 1 2 3 2 4 0 0 1 2 0 3

Datos en su forma primaria (sin organizar) Variable cuantitativa discreta.

Qu tipo de variable es esta?:

Construccin de la tabla o distribucin de frecuencias: Al tratarse de una variable discreta (un conteo siempre tomar valores enteros) y con pocos valores diferentes, no parece necesario crear clases para agrupar los datos. En este caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4). Para facilitar el conteo de las observaciones se suele hacer algn tipo de marcas, a lo cual se le llama tarjado.

nmero de ausencias Xi 0 1 2 3 4

tarjado //// /// /////// //// //

cantidad de estudiantes ni 4 3 7 4 2 n = 20

proporcin de estudiantes fi 0,20 0,15 0,35 0,20 0,10

Ni 4 7 14 18 20

Fi 0,20 0,35 0,70 0,90 1,00

10

Interpretacin de las distintas frecuencias: ni indica las veces que se repite el valor de la variable, as: n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias. n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias. fi indica el porciento de veces que se repite el valor de la variable, as: f4 = 0.20 indica que el 20% de los estudiantes tienen 3 ausencias f5= 0.10 indica que el 10% de los estudiantes tienen 4 ausencias Ni indica el nmero de observaciones menores o iguales al valor de la variable, as: N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como mximo) 1 ausencia N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias Fi indica el porciento de observaciones menores o iguales al valor de la variable, as: F2 = 0.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia. F3 = 0.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias. Representacin grfica: A partir de la tabla de frecuencias se puede construir cualquiera de los grficos siguientes:ni8 7 6 5 4 3 2 1 0 0 1 2 3 4 xi

grfico de barras

ni8 7 6 5 4 3 2 1 0

polgono de frecuencias

0

1

2

3

4 xi

diagrama circular 4 10% 3 20% 1 15% 0 20%

2 35%

11

EJEMPLO 2 (Datos agrupados): Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50 taxis, en litros, un da dado: 46 43 28 26 29 39 28 30 23 30 34 30 26 30 48 33 27 21 43 47 32 32 37 40 23 36 42 39 36 31 41 30 25 21 24 26 31 33 38 38 32 34 47 31 35 36 41 28 38 36

Qu tipo de variable es sta? Aunque los datos observados son todos enteros la variable es continua, por su propia naturaleza (de hecho, un taxi podra haber consumido 24,75 litros de gasolina). Se tiene n = 50 taxis (tamao de la muestra). Determinacin del recorrido: R = Xmax - Xmin = 48 - 21 = 27 Definicin del nmero de clases a usar: Para 50 observaciones podran usarse 5, 6, 7 u 8 clases, segn decisin de quien va a organizar los datos. Sea en este caso k = 6. Determinacin del ancho de clases: c R/k R/k = 27/6 = 4,5 5 c=5 (El valor R/k = 4,5 se redondea a 5 porque no tendra sentido en este caso hacer los intervalos de amplitud decimal, ya que complicara, en vez de facilitar, la interpretacin y el trabajo con la informacin; ntese que esta aproximacin fue a un valor superior al verdadero cociente, es decir, por exceso.) Creacin de las clases: Se podra partir del valor Xmin = 21, pero resulta ms cmodo comenzar ligeramente por debajo de l, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5), o sea, de 20 a 25; la segunda de 25 a 30, sin incluir el 25 (lmite inferior y extremo abierto) e incluyendo el 30 (lmite superior y extremo cerrado), y as sucesivamente hasta la sexta clase (k = 6), que sera desde 45 (extremo abierto) a 50 (extremo cerrado). Determinacin de las marcas de clases (Xi): Siendo el promedio de los lmites de clase se tiene que: Xi = (Li Li-1)/2 As: X1 = (20 + 25)/2 = 45/2 = 22,5 X2 = (25 + 30)/2 = 55/2 = 25,5 X2 = X1 + c Y as sucesivamente Clasificacin de la variable y clculo de las distintas frecuencias: Para ello se puede hacer previamente un tarjado Se debe tener en cuenta, adems, el convenio de que si una observacin coincide con un lmite de clase, se incluye en la clase donde dicho lmite est como lmite superior; as, 12

todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30, no en la que va de 30 a 35.

clases (Li-1; Li] 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50

tarjado Xi 22,5 27,5 32,5 37,5 42,5 47,5 ni ///// / 6 ///// ///// /// 13 ///// ///// / 11 ///// ///// / 11 ///// 5 //// 4 n = 50 fi 0,12 0,26 0,22 0,22 0,10 0,08 1,00 Ni 6 19 30 41 46 50 Fi 0,12 0,38 0,60 0,82 0,92 1,00

Interpretacin de las distintas frecuencias: n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina, o que consumieron como promedio 27,5 litros (utilizando la marca de clases) f3 = 0,22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina, o que consumieron 32,5 litros como promedio. N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina, o un mximo de 40 litros. (Las frecuencias acumuladas se interpretan utilizando el lmite superior del intervalo, nunca con la marca de clases.) F5 = 0,92: indica que el 92% de los taxis consumi HASTA 45 litros de gasolina, o un mximo de 45 litros.

Representacin grfica: ni14 12 10 8 6 4 2 020 25 30 35 40 45 50

histograma

ni

polgono de frecuencias

14 12 10 8 6 4 2 0 22,5 27,5 32,5 37,5 42,5 47,5 i X

X (clases)

EJERCICIOS DE AUTOEVALUACIN1.- Ponga 3 ejemplos de variables discretas y 3 de variables continuas 2.- Qu quiere decir organizar los datos? 3.- Cmo se forma una tabla de frecuencias? 13

4.- A partir de los siguientes datos, que representan el nmero de habitaciones de 50 viviendas del municipio Plaza, que se estn visitando para estudiar el grado de hacinamiento, construya una distribucin de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3 frecuencias absolutas y relativas acumuladas. 3 4 2 3 4 2 3 3 2 4 3 2 2 2 3 4 1 1 3 3 3 1 2 4 2 5 2 2 1 2 2 5 2 1 2 1 2 3 5 1 3 3 3 2 1 2 1 4 3 2

5.- Es absolutamente privativo de las variables discretas la organizacin de los datos directamente a partir de los valores observados, o considera que una variable continua tambin podra organizarse de esta forma? Explique. 6.- Qu pasos se deben dar para conformar una tabla de frecuencia? 7.- En casos de datos agrupados se cumple que: ni = n y fi = 1? Fundamente su respuesta. 8.- Cmo se determina el recorrido de la variable? 9.- Se agrupan en intervalos de clase slo las variables continuas? 10.- Cmo determinara el nmero de intervalos o clases a considerar en una tabla de frecuencias? 11.- En que casos utilizara intervalos de amplitud diferentes? 12.- Si una observacin le coincide con un lmite de clases, dnde la pondra y por qu? 13.- Investigados los precios por habitacin de 50 hoteles del pas se ha obtenido los siguientes resultados (en cientos de pesos): 7 5 4 3 7 3 7.5 5 4 8 5 3 3 7 7.5 4 7 5 4 7 5 10 10 7 7.5 7 15 3 5 8 4 5 4 4 7 7.5 7.5 5 7 7 8 12 7 10 12 5 8 5 7.5 8

a) Diga qu tipo de variable es. b) Construya la distribucin de frecuencias para esta variable. 14.- Realizada una encuesta en una regin del pas, se han agrupados los establecimientos hoteleros por el nmero de cuartos, obtenindose la siguiente distribucin: cuartos 0 100 100 200 200 300 300 400 # de hoteles 25 37 12 22 14

400 500 600 700

500 600 700 800

21 13 5 3

a.- Determine el nmero de establecimientos hoteleros con ms de 300 cuartos. b.- Determine el porcentaje de establecimientos que tienen ms de 100 cuartos y hasta 400. c.- Represente grficamente la distribucin. d.- Que tipo de variable es sta? e.- Por qu, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?

15

1.2: Medidas descriptivas o estadgrafos. Estadgrafos de posicin ms usados: media, mediana y moda. Estadgrafos de dispersin ms usados: varianza, desviacin tpica y coeficiente de variacin.La organizacin de los datos y el anlisis del comportamiento de los mismos mediante tablas o grficos, aportan una informacin inicial sobre la poblacin en estudio, pero no suelen ser suficiente para describir a la misma. Sin embargo, es posible la obtencin de ciertas cantidades numricas, denominadas estadgrafos o estadsticos, que caracterizan mejor el conjunto de datos. Un estadgrafo o estadstico es una medida descriptiva que resume alguna de las principales caractersticas de un conjunto de datos, como puede ser la tendencia central, la dispersin o la forma. Precisamente atendiendo al tipo de resumen que brindan los estadgrafos, stos suelen clasificarse. Cuando un estadgrafo es calculado a partir de todos los datos poblacionales, es decir, no en una muestra sino en toda la poblacin, se dice que es un parmetro poblacional.

1.2.1- ESTADGRAFOS O MEDIDAS DE POSICIN O TENDENCIALos llamados estadgrafos de posicin son medidas que informan sobre el centro de la distribucin (tendencia central) o sobre valores significativos de sta. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible encontrar algn tipo de valor promedio que describa todo el conjunto. Un valor tpico descriptivo como ese, es una medida de tendencia central. Con frecuencia se utilizan, como las ms importantes medidas de tendencia central, la media aritmtica, la mediana, la moda y la media geomtrica. No obstante, aunque menos usadas, tambin se recurre en muchos casos a otras estadgrafos de posicin que no son medidas de tendencia central, como las cuantilas, entre las que se encuentran las cuartilas, las decilas y los percentiles, que son aquellos valores que dividen el conjunto de datos en cuatro, diez y cien partes iguales, respectivamente.

MEDIA ARITMTICA (O MEDIA)La media aritmtica, ms frecuentemente denominada slo media, es el promedio o medida de tendencia central que se utiliza con mayor frecuencia. Se define como la suma de todos los valores de la variable dividida entre el nmero de elementos, dicho en otras palabras, es lo que comnmente se conoce como promedio. La media se representa: en la muestra, por x en la poblacin, por (la letra griega miu) en definiciones y demostraciones, por M(x) A partir de la propia definicin se deduce que la media en una muestra puede calcularse como:

16

x=

xi n

x=

1 xi n

(definicin)

EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 5 5 Su promedio es, por tanto: 34 1 1 = 4,25 x = x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) = 8 8 n Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por tanto, la expresin matemtica derivada de la definicin de la media debe modificarse, como se muestra, multiplicando cada valor por su respectiva frecuencia.

x=

1 x in i x = n x in i x = x i f i n

(en datos tabulados)

EJEMPLO 1 (caso de datos no agrupados, continuacin): Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0,20 0,15 0,35 0,20 0,10 Ni 4 7 14 18 20 Fi 0,20 0,35 0,70 0,90 1,00 Xini 0 3 14 12 8 37

x=

1 37 = 1,85 x in i = n 20

Nota: Es usual, cuando se efectan clculos utilizar la propia tabla de frecuencia, creando columnas auxiliares, como se ve, para facilitar los mismos.

EJEMPLO 2 (caso de datos agrupados, continuacin): Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota. clases 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 Xi 22,5 27,5 32,5 37,5 42,5 47,5 ni 6 13 11 11 5 4 fi 0,12 0,26 0,22 0,22 0,10 0,08 Xini 135,0 357,5 357,5 412,5 212,5 190,0 1665,0x= 1 1665 = 33,3 x in i = 50 n

(O sea, el consumo promedio en el da fue de 33,3 litros por auto.)

Nota: Para los clculos de la media en datos agrupados en clases se utilizan las marcas de clase, y salvo eso, la expresin matemtica empleada no se diferencia del caso en que los 17

datos no estn agrupados. Algo a tener en cuenta en este sentido es que si existen intervalos abiertos, como a veces se presenta la primera o la ltima clase, la media no se puede calcular a menos que se modifiquen los mismos. PROPIEDADES Y CARACTERSTICAS DE LA MEDIA: Algunas propiedades importantes y con utilidad prctica de la media son: 1. M(k) = k (La media de una constante es igual a la propia constante.) 2. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por la media de la variable.) 3. M(k + x) = k + M(x) (La media de una constante ms una variable es igual a la constante ms la media de la variable.) 4. M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de las medias de ambas variables.) 5. M(x - x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero.) 6. M(x - x )2 = mnimo. (La media del cuadrado de las desviaciones con respecto a la media al cuadrado es un mnimo.) Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y un valor fijo; cuando este valor fijo es la propia media de la variable, se le llama desviaciones con respecto a la media. De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de equilibrio de la distribucin, o sea, el valor que correspondera a una distribucin equitativa para todas las observaciones. Una caracterstica notable en la media es que sta se ve afectada por la ocurrencia de valores extremos, esto quiere decir que si hay algunos valores atpicos en el conjunto, estos arrastran consigo el valor de la media; as, valores atpicos muy grandes conducirn a una media mayor que la real del conjunto, mientras que valores muy pequeos provocarn que la media sea menor que la real.

MODALa moda se define como el valor mas frecuente en un conjunto de datos, es decir, el valor modal es el de mayor frecuencia. Se denota por Mo(x) y puede no existir en una distribucin (distribucin amodal), o existir ms de una (distribucin multimodal). La moda cobra especial importancia en datos de tipo cualitativo, pues en ellos es imposible calcular otros estadgrafos de posicin, como la media. Esto no quita que tambin para datos cuantitativos suele ser de inters conocer el valor modal, que se utiliza en ocasiones como medida de tendencia central.

18

Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero estos, conformando lo que se llama un arreglo ordenado. EJEMPLO: Sean las calificaciones de tres estudiantes: A: 3 4 3 4 5 4 5 4 4 B: 3 4 5 4 5 4 5 5 4 Organizando primeramente los datos se tiene: A: 3 3 4 4 4 4 4 5 5 B: 3 4 4 4 4 5 5 5 5 C: 3 3 3 4 4 4 5 5 5 Mo(A) = 4 (conjunto unimodal) Mo(B) = { 4 ; 5 } (conjunto bimodal) Mo(C) = (conjunto amodal) C: 3 4 3 4 5 4 5 5 3

Nota: Para el estudiante C ninguna nota es ms frecuente que las dems, por eso no tiene valor modal.

En datos tabulados es muy sencillo encontrar el valor o valores modales, pues son aquellos que presentan la mxima frecuencia absoluta. EJEMPLO 1 (caso de datos no agrupados, continuacin): Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0,20 0,15 0,35 0,20 0,10 Ni 4 7 14 18 20 Fi 0,20 0,35 0,70 0,90 1,00 nmod = 7 (frecuencia modal) Mo(X) = 2

Nota: La frecuencia modal es 7, porque la cantidad de inasistencias que ms ocurre, que son dos, se repite 7 veces en la muestra (o un 35% de las veces). Cuando se trabaja con datos agrupados en clases, es sencillo determinar la clase o clases modales existentes, y para muchos fines esto es suficiente. Pero si se quiere indicar un valor modal dentro de la clase modal, se ha determinado, atendiendo a cuestiones geomtricas, que el mismo puede obtenerse a partir de la expresin:

Mo ( x ) = L mod 1 + c Siendo: Lmod-1: c: nmod: nmod-1:

(n mod

n mod n mod 1 n mod 1 ) + (n mod n mod +1 )

el lmite inferior de la clase modal el ancho de la clase modal (que en general es el de todas las clases) la frecuencia absoluta de la clase modal la frecuencia absoluta de la clase anterior a la modal 19

nmod+1: la frecuencia absoluta de la clase siguiente a la EJEMPLO 2 (caso de datos agrupados, continuacin): Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota. clases 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 Xi 22,5 27,5 32,5 37,5 42,5 47,5 ni 6 13 11 11 5 4 fi 0,12 0,26 0,22 0,22 0,10 0,08

nmod = 13 clase modal: 25 - 30

Para determinar un valor modal puntual se parte de la clase modal:

Mo ( x ) = L mod 1 + c

(n mod

n mod n mod 1 13 6 = 25 + 5 (13 6 ) + (13 11) n mod 1 ) + (n mod n mod +1 )

Mo ( x ) = 25 + 5

7 = 25 + 3,89 = 28,89 9

CARACTERSTICAS DE LA MODA: A diferencia de la media, la moda no se afecta ante la presencia de valores extremos. La moda, como se ha visto, no tiene necesariamente que existir, ni tiene que ser nica. Adems, la moda puede ser definida en forma relativa, aunque es menos frecuente este uso, llamando valor modal a aquel donde exista un mximo relativo en la distribucin de frecuencias, esto es, donde: ni 1 < ni >ni + 1

MEDIANALa mediana se define como el valor central de un grupo de datos ordenados, o sea, como aquel valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 % de las observaciones. Se denota por Me(x). Para calcular la mediana a partir de un conjunto de datos en su forma primaria, es necesario antes ordenarlos; despus, se puede buscar la posicin del valor mediano en el arreglo ordenado, atendiendo al nmero de observaciones, segn las dos siguientes reglas: Regla 1: Si el tamao de la muestra es un nmero impar, la mediana est representada por el valor numrico correspondiente a la posicin del centro de las observaciones ordenadas.

20

Regla 2: Si el tamao de la muestra es un nmero par, entonces el valor mediano, ser la semisuma o promedio de los dos valores centrales de las observaciones ordenadas. (Esto, estrictamente hablando, es un convenio adoptado, pues cualquier valor entre los dos valores centrales podra ser considerado como un valor mediano) EJEMPLO: Sean las calificaciones de un estudiante en dos semestres: SI: 5 3 5 4 4 5 5 SII: 5 3 5 4 4 5 5 4 Ordenando los datos, se tiene: SI: 3 4 4 5 5 5 5 Me(x) = 5 Me(x) = (4 + 5)/2 = 4,5

SII: 3 4 4 4 5 5 5 5

Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder de la siguiente manera: 1. Determinar la fraccin n/2, que ubica el centro de la distribucin. 2. Encontrar la denominada frecuencia mediana, que es la primera frecuencia absoluta acumulada que iguala o supera a n/2 (representada por Nmed); y entonces: Si Nmed > n/2, Me(x) = Xmed (Es decir, si la frecuencia mediana encontrada supera a n/2, la mediana es el valor de X al que le corresponde dicha frecuencia en la tabla) Si Nmed = n/2, Me(x) = (Xmed + Xmed+1)/2 (Es decir, si la frecuencia mediana encontrada coincide con n/2, la mediana es el promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el valor de X siguiente)

EJEMPLO 1 (caso de datos no agrupados, continuacin): Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0,20 0,15 0,35 0,20 0,10 Ni 4 7 14 18 20 Fi 0,20 0,35 0,70 0,90 1,00 n/2 = 10 Nmed = 14 ( >10 ) Me(X) = 2 Nota: La frecuencia mediana es 14, porque es la primera frecuencia absoluta acumulada que sobrepasa a n/2 = 10.

21

En el caso de datos agrupados en clases, se determina ante todo una clase mediana, como aquella cuya frecuencia absoluta acumulada sobrepasa a n/2; y si quiere un valor mediano, sobre esa clase se aplica la siguiente expresin:

n N med1 Me( x ) = L med1 + c 2 nmedSiendo: Lmed-1: c: Nmed-1: nmed: el lmite inferior de la clase mediana el ancho de la clase modal (que en general es el de todas las clases) la frecuencia absoluta acumulada hasta la clase anterior a la mediana la frecuencia absoluta de la clase mediana

EJEMPLO 2 (caso de datos agrupados, continuacin): Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota.

clases 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50

Xi

ni

Ni

22,5 27,5 32,5 37,5 42,5 47,5

6 13 11 11 5 4

6 19 30 41 46 50

Nmed = 30 clase mediana: 30 - 35

n Nmed1 25 19 6 Me( x ) = Lmed1 + c 2 = 30 + 5 = 30 + 5 = 30 + 2,73 = 32,73 nmed 11 11CARACTERSTICAS DE LA MEDIANA:

La mediana no se ve afectada por datos extremos, es por ello que cuando stos existen ella es ms representativa que la media como medida de tendencia central.

1.2.2- ESTADGRAFOS O MEDIDAS DE DISPERSINA pesar de toda la informacin que brindan los estadgrafos de posicin, no basta con ellos para caracterizar un conjunto de datos: Tngase por caso dos empresas que reportan el mismo promedio de recaudaciones mensuales, siendo que una de ellas esto se debe a que todos los meses ha recaudado esa misma cantidad, mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de ese valor medio, habiendo recaudado unos meses mucho ms que dicho valor, pero otros, mucho menos; de esta manera, no puede decirse que ambas empresas tiene el mismo comportamiento, a pesar de que han coincidido en el valor de la recaudacin media mensual: la primera de ellas es mucho ms estable en su comportamiento que la segunda Esto sera til conocerlo a travs de alguna medida resumen, junto con el valor de la media.

22

Precisamente, los estadgrafos de dispersin son medidas que describen cmo se distribuyen los datos alrededor de alguno de sus valores representativos, principalmente alrededor de su media. Por tanto, las medidas de posicin no dicen mucho si no estn acompaadas de medidas de dispersin o variabilidad, porque a travs de estas ltimas es que se puede determinar si la medida de posicin es significativa o representativa de la distribucin. Entre las medidas de dispersin ms empleadas destacan la varianza, la desviacin tpica y el coeficiente de variacin.

VARIANZALa varianza de un conjunto de datos se define como la media o promedio del cuadrado de las desviaciones de la variable respecto a su media. Por sus propiedades, es la medida de dispersin ms usada, y base para el clculo de otras. La varianza se representa: en la muestra, por S2 en la poblacin, por 2 (la letra griega sigma, al cuadrado) en definiciones y demostraciones, por V(x) De la definicin de la varianza se desprende que sta, en una muestra, puede calcularse como:

S2 =EJEMPLO:

(x i x ) n

2

S2 =

1 2 (x i x ) n

(definicin)

Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 El promedio es: x = 4 Por tanto, la varianza es:S2 = 1 1 2 2 2 2 2 2 2 (x i x ) = (5 4 ) + (4 4 ) + (3 4 ) + (4 4 ) + (5 4 ) + (3 4 ) n 6 1 4 2 2 S 2 = 12 + 0 2 + ( 1) + 0 2 + 12 + ( 1) = = 0,67 6 6

[

]

[

]

Al trabajar con datos tabulados debe tenerse en cuenta, al igual que en los clculos de la media, que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni), y por tanto, la expresin matemtica derivada de la definicin debe modificarse, como se muestra:

23

(x i x ) n i S = n2 2

S2 =

1 2 2 (x i x ) n i S 2 = (x i x ) fi n

(en datos tabulados)

EJEMPLO 1 (caso de datos no agrupados, continuacin):

Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado:Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0,20 0,15 0,35 0,20 0,10 Ni 4 7 14 18 20 Fi 0,20 0,35 0,70 0,90 1,00

(x i x )2 ni

13,6900 2,1675 0,1575 1 30,55 2 2 5,2900 S = n (x i x ) n i = 20 = 1,53 9,2450 30,5500 Nota: Algunos clculos se han organizado utilizando la propia tabla de frecuencias.EJEMPLO 2 (caso de datos agrupados, continuacin):

Se tiene que: x = 1,85 Por tanto:

Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota. clases 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50Xi ni

(x i x )2 ni703,7334 441,8557 7,5779 191,2779 420,4445 803,1556 2568,0450

22,5 27,5 32,5 37,5 42,5 47,5

6 13 11 11 5 4 n=50

Se tiene que: x = 33,3 Por tanto:

S2 =

1 2568 ,045 2 = 128 ,4 (x i x ) n i = n 50

PROPIEDADES Y CARACTERSTICAS DE LA VARIANZA:

Algunas propiedades importantes y con utilidad prctica de la varianza son: 1. V(x) 0 (La varianza es un nmero no negativo.) 2. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.) 3. V(x k) = V(x) (La varianza de la suma de los valores de una variable ms una constante es igual a la varianza de la variable.) 4. V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable.) La varianza, dada la manera en que se define y calcula, se expresa en unidades cuadrticas respecto a la variable de la que procede, y esto hace que no se le pueda dar una interpretacin realista a dicho estadgrafo.

24

No obstante, la varianza, por la misma forma en que se define y calcula, indica el grado de dispersin de los datos; se dice que es una medida de dispersin absoluta: mientras mayor es la varianza en un conjunto de observaciones, mayor es su dispersin; por el contrario, si una varianza nula indica que todas las observaciones coinciden en un mismo valor.

DESVIACIN TPICA O ESTNDARPuesto que la varianza pierde interpretacin por estar su resultado en unidades cuadrticas, resulta conveniente contar con otro estadstico que basado en el valor de la varianza sirva para dar una medida de la dispersin en las mismas unidades o dimensiones en que estn expresados los datos y este estadstico es la desviacin tpica. La desviacin tpica o desviacin estndar se define como la raz cuadrada positiva de la varianza. Se denota por S en la muestra y por en la poblacin:

S = S2EJEMPLO:

Sea X el precio de venta, en centavos, los distintos jabones de una marca dada: X: 40 35 45 50 40 El precio promedio para la marca es: x =

1 40 + 35 + 45 + 50 + 40 = 42 xi = n 5

La varianza es: S 2 =

1 130 2 = 26 2 (x i x ) = n 5

Por tanto, la desviacin estndar es: S = S 2 = 26 = 5,1

La desviacin tpica es una magnitud no negativa, y con el misma interpretacin que la varianza en cuanto a medida de dispersin absoluta, pero no cumple las restantes propiedades matemticas de aquella, pues la extraccin de la raz no lo permite.

COEFICIENTE DE VARIACINEn ocasiones resulta necesario contar con un estadgrafo que refleje la dispersin sin depender de la magnitud de las observaciones, esto es que sea un valor relativo. Esta necesidad surge generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en unidades diferentes, o incluso entre variables expresadas en las mismas unidades pero con diferencias significativas en sus valores medios. Este estadstico es el denominado coeficiente de variacin. El coeficiente de variacin se define como el cociente de la desviacin tpica entre la media. Se denota por CV(x), y en forma matemtica puede expresarse:

25

CV( x ) =

Sx x

Del coeficiente de variacin se dice que es una medida de dispersin relativa, por carecer de unidades, o una medida de la variabilidad de los datos. Muchas veces su valor se multiplica por 100, para expresar el resultado en porciento.EJEMPLO:

Sea cuenta con datos del peso y la estatura de un grupo de 20 nios entre 8 y 10 aos, y se desea saber cul de las dos variables tiene mayor variabilidad. X: estatura (cm) Y: peso (kg)

X = 155 cm S2 X = 110 cm S X = 10,5 cm2

Y = 42 kg S 2 = 20 kg2 Y S Y = 4,5 kg

En este caso no tiene sentido decir que hay mayor dispersin en trminos absolutos en la estatura, por el hecho de que la desviacin estndar para dicha variable es 10,5 mientras que para el peso es 4,5, pues las unidades en que estn expresadas ambas no son comparables. Aqu cobran especial importancia los coeficientes de variacin, que quedan:CV( X) = 10,5 = 0,068 = 6,8% 155 CV( Y ) = 4,5 = 0,107 = 10,7% 42

De ello resulta que hay mayor variabilidad en el peso (10,7%) que en la estatura de los nios (6,8%).

EJERCICIOS DE AUTOEVALUACIN1.- Qu indican las medidas de tendencia central? 2.- Cmo se define la media aritmtica? Cules son sus propiedades? 3.- Qu desventajas se le pudiera atribuir a la media? 4.- Cmo se define la mediana? 5.- Cul de los dos estadsticos, media y mediana, considera que es mejor para representar el promedio? Explique su respuesta. 6.- Cmo se define la moda? 7.- En que casos considera til utilizar la moda?

26

8.- Qu indican las medidas de dispersin? 9.- Cmo se define la varianza? Mencione algunas de sus propiedades. 10.- Cmo interpretara el resultado de la varianza? 11.- Cmo se define la desviacin tpica? Cmo la interpretara en general? 12.- Cundo y porqu utilizara la desviacin tpica en vez de la varianza? 13.- Cmo se define el coeficiente de variacin? Cmo se interpreta este coeficiente? 14.- Cules son las ventajas del coeficiente de variacin sobre la desviacin tpica? 15.- Un fabricante de pilas para linternas tom una muestra de 13 piezas de la produccin de un da y las utiliz de forma continua hasta que comenzaron a fallar. El resultado en horas de funcionamiento fue: 342, 426, 317, 545, 264, 451, 1049, 631, 512, 266, 492, 562, 298

a.- Calcule la media, la mediana y la moda. Qu medidas descriptivas parecen ser las mejores y cuales las peores? Por que? b.- Calcule la varianza, la desviacin tpica y el coeficiente de variacin. c.- Utilizando la informacin anterior qu se aconsejara al fabricante si l deseara anunciar que sus bateras duran 400 horas? 16.- Examinando los registros de cuentas mensuales de una empresa que vende libros por correo, el auditor toma una muestra de 20 de esas cuentas no pagadas (dadas en cientos de pesos). Los adeudos de la empresa eran: a.- Calcule la media, la mediana y la moda. b.- Calcule la varianza y el coeficiente de variacin e interprete los resultados. c.- A que conclusin llegara acerca de la empresa conociendo que tiene 370 facturas pendientes de pago. Li-1 10 15 20 25 30 Li 15 20 25 30 35 ni 4 6 7 2 1

27

TEMA II: PROBABILIDADES.2.1: Introduccin a los fenmenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificacin de sucesos. Definicin clsica de Probabilidad. Definicin estadstica de Probabilidad.La Teora de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos de azar, y entre sus principales precursores estuvo el matemtico Pascal, junto con Fermat, Huygens y Bernoulli; algo despus se sum la importante contribucin de De Moivre, Gauss, Laplace y Poisson. Esta teora se encarga del estudio de las leyes que rigen el comportamiento de los fenmenos aleatorios, y es la base de la inferencia estadstica, de ah la necesidad de su estudio si se quiere pasar de la mera descripcin al trazado de predicciones. Para desarrollar la teora de las probabilidades es preciso establecer la barrera entre el determinismo y la necesario aleatoriedad o azar: Un fenmeno o experimento es determinista cuando se puede predecir con total exactitud el resultado del mismo a partir del conocimiento de las condiciones iniciales; as, los fenmenos y experimentos de que se ocupan ciencias exactas como la fsica y la qumica son deterministas. Un fenmeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que por lo general ocurre en el campo de las ciencias econmicas y sociales. Segn lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se conozca cul es la altura permitira determinar antes y con exactitud, sobre la base de leyes fsicas, con qu velocidad llegar el dado al suelo, lo que hace de sta una observacin determinista; sin embargo, no sera posible predecir con total certeza qu cara del dado quedar hacia arriba, siendo esta otra una observacin aleatoria. Se plantea que la estadstica es la tecnologa del mtodo cientfico que proporciona instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de incertidumbre y siempre que pueda ser medida en trminos de probabilidad. Luego es una ciencia que estudia los fenmenos aleatorios. La probabilidad, en una aproximacin intuitiva, puede definirse como una medida cuantitativa de que las posibilidades pueden llegar a ser realidades.

TERMINOLOGA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:Para llegar a una definicin ms rigurosa de lo que lo que es probabilidad resulta til dominar algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:Espacio muestral: Es el conjunto formado por todos los posibles resultados de un experimento o fenmeno aleatorio. Se suele representar con S, mayscula, y utilizando la notacin de la Teora de Conjuntos. La cantidad de elementos (puntos muestrales) que conforman el especio muestral es denominada tamao del espacio muestral, y se representa como N(S).

Ej. 1: Lanzamiento de una moneda...

S: { C ; E } donde C: Cara E: Escudo28

Ej. 2: Lanzamiento de un dado...

N(S) = 2 S: { 1, 2, 3, 4, 5, 6 } N(S) = 6

Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimento de muestreo), el espacio muestral es la combinacin de los posibles resultados en cada una de las observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas de rbol. En un diagrama de rbol se ordenan las diferentes observaciones y se establecen los posibles resultados para cada observacin atendiendo a las observaciones anteriores. Ej. 3: Lanzamiento de dos monedas

S: { CC ; CE ; EC ; CC } N(S) = 4 El espacio muestral puede ser finito o infinito segn el conjunto tenga un nmero finito o infinito de elementos (puntos muestrales).Punto muestral: Es cada uno de los resultados posibles de un experimento o fenmeno aleatorio. Suceso o evento: Cualquier caracterstica observada como resultado de un experimento o fenmeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una coleccin cualquiera de puntos muestrales. Se utilizan letras maysculas para representarlos, exceptuando la S.

Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral como un rectngulo, y dentro de este, con crculos u otras formas geomtricas los diferentes sucesos de inters, as:

S A

Ejemplos de sucesos, en el experimento del lanzamiento de un dado son: A: Que salga el 6. B: Que salga un nmero > 3 C: Que salga un nmero 2 D: Que salga un nmero par E: Que salga un nmero impar F: Que salga un nmero primo G: Que salga un nmero < 10 H: Que salga un nmero > 6 A={6} B = { 4; 5; 6 } C = { 1; 2 } D = { 2; 4; 6 } E = { 1; 3; 5 } F = { 1; 2; 3; 5 } G = { 1; 2; 3; 4; 5; 6 } (= S ) H = (conjunto vaco)29

Los sucesos pueden clasificarse atendiendo a diferentes criterios; as, en dependencia de la cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos:Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior, el suceso A.) Suceso compuesto: Es aquel que tiene dos o ms puntos muestrales. (En el ejemplo anterior, los sucesos del B al G.)

Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesos imposibles o nulos:Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldr un nmero del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral. Suceso imposible o nulo. Es aquel que nunca ocurrir. (En el ejemplo anterior, el suceso H.) Los sucesos imposibles constituyen conjuntos vacos.

Adems, en funcin del vnculo de un suceso o evento con otros existen las siguientes denominaciones:Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A estn incluidos en B, o sea, A B. (En el ejemplo anterior: A B, A D, C F, E F.)

ABSucesos complementarios: Un suceso es complementario de otro suceso A, si est formado por todos los puntos del espacio muestral que no estn incluidos en A; se dice entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo anterior se tiene para A = { 6 } que el complemento es A = { 1; 2; 3; 4; 5}.)

Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos en comn. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.)

30

Nota: Un caso particular de sucesos excluyentes son los complementarios. Todos los sucesos complementarios son excluyentes; lo contrario no necesariamente ocurre.Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir simultneamente, es decir, si tienen puntos en comn. (En el ejemplo anterior son no excluyentes A y B, C y D, B y D, C y E, etc.)

Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la ocurrencia de ambos abarca el espacio muestral. (En el ejemplo anterior son no exhaustivos: D y E, D y F.)

Nota: Un caso particular de sucesos exhaustivos son los complementarios. Todos los sucesos complementarios son exhaustivos; lo contrario no necesariamente ocurre.

OPERACIONES ENTRE SUCESOS:Para establecer la relacin entre diferentes sucesos se recurre a las operaciones definidas por el lgebra booleana en la propia Teora de Conjuntos, entre ellas, las ms usadas son: Interseccin o producto: La interseccin de los sucesos A y B da como resultado un suceso que consiste en la ocurrencia simultnea de ambos, es decir, que contiene los puntos muestrales contenidos a la vez en A y en B. Se denota por A B AB.

Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que 3) y D = { 2; 4; 6 } (que salga un nmero par), la interseccin es el suceso dado por que salga un nmero par y mayor que tres, es decir: B D BD = { 4; 6 }

B D BD

31

Unin o suma: La unin de dos sucesos A y B da como resultado un suceso que consiste en la ocurrencia de al menos uno de los dos sucesos, es decir que contiene todos los puntos muestrales contenidos en A o en B (o en ambos). Se denota por A B A + B.

Ej.: En el lanzamiento del dado, siendo B = { 4; 5; 6 } (que salga un nmero mayor que 3) y D = { 2; 4; 6 } (que salga un nmero par), la unin es el suceso dado por que salga un nmero par o mayor que tres, es decir: B D = { 2; 4; 5; 6 }

BD

Complemento o negacin: El complemento de un suceso A da como resultado su suceso complementario, es decir, que no ocurra A. Se denota como A Ac.

Ej.: En el lanzamiento del dado, siendo C = { 1; 2 } (que salga un nmero menor o igual que 2), el complemento unin es el suceso dado por que salga un nmero mayor que 2, es decir: C = { 3; 4; 5; 6 }

C Cc

DEFINICIN CLSICA DE PROBABILIDAD:En el siglo XIX, concretamente en el ao 1812, Laplace formula la que es conocida como definicin clsica de probabilidad, que establece que: Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente representativos, entonces la probabilidad de ocurrencia de cualquier suceso A definido en S puede calcularse como el cociente del nmero de resultados favorables al suceso A (tamao del suceso) entre el nmero de resultados posibles (tamao del espacio muestral), as:

P( A ) =

N( A ) N(S)

Ejemplos: La probabilidad de obtener el nmero 6 al lanzar un dado ser: A: Que salga el 6. N(A) = 1 P(A) = 1/6 = 0,167

La probabilidad de obtener un nmero par ser: D: Que salga un nmero par N(D) = 3

P(D) = 3/6 = 0,5

32

La definicin clsica tambin se conoce como definicin a priori de probabilidad, porque no es necesario realizar el experimento para calcular la probabilidad de ocurrencia. Esta definicin tiene las siguientes limitaciones: 1. No puede ser aplicada a espacios muestrales infinitos. 2. No puede ser aplicada cuando los puntos muestrales no son equiprobables, o lo que es lo mismo, igualmente probables.

DEFINICIN ESTADSTICA DE PROBABILIDAD:Debido a las limitaciones que confronta la definicin clsica de probabilidad, se comenzaron a realizar experimentos con los juegos de azar, surgiendo el concepto de regularidad estadstica. Se le llama regularidad estadstica a la estabilidad que presentan las frecuencias relativas asociadas a un suceso al considerar un gran nmero de veces un experimento bajo las mismas condiciones; por ejemplo, si una moneda se lanza un gran nmero de veces (500, 1000 veces), se observar que aproximadamente el 50% de estas veces sale cara, y mientras ms lanzamientos se haga ms tender este valor al 50%. A partir de la regularidad estadstica, surge la definicin estadstica de probabilidad que plantea: Si el nmero de observaciones (n) tiende a infinito, la frecuencia relativa asociada a un suceso A (fA), alcanza un cierto valor lmite o ideal, y entonces puede asociarse a un nmero P(A) equivalente a la probabilidad de ocurrencia de A, as: P( A ) = lim nA = lim f A n n

n

Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100 intentos, y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro.

Sea A: acertar en el blanco Se tiene que n = 100 y nA = 70. Entonces: P(A) = 70/100 = 0,70 O sea, se espera que el arquero haga blanco un 70% de las veces que tire. La definicin estadstica o frecuencial adems se conoce como definicin a posteriori de probabilidad, porque si no se realiza el experimento no se puede calcular la misma. Esta definicin tambin tiene limitaciones, dadas por lo siguiente: No siempre es posible repetir un experimento un mismo nmero de veces bajo las mismas condiciones.

PROPIEDADES DE LA PROBABILIDAD:La probabilidad, como medida de la posibilidad de ocurrencia de un suceso, cumple las siguientes propiedades: P(A) 0 P(S) = 1

33

Lo anterior implica que: 0 P(A) 1Nota: Es comn multiplicar las probabilidades por 100 para expresarlas porcentualmente, y de esta forma, lgicamente, resultar un nmero (un valor porcentual) entre 0 y 100.

EJERCICIOS DE AUTOEVALUACIN1.- Qu es un experimento aleatorio? 2.- Puede calcularse probabilidad a partir de un experimento determinista?. Explique. 3.- Cules son los sucesos mutuamente excluyentes? 4.- Cules son los sucesos complementarios? 5.- Explique la diferencia entre unin e interseccin y proporcione un ejemplo de cada uno. 6.- Cmo se define la probabilidad clsicamente? Bajo que condiciones puede aplicarse? 7.- Cmo se define la probabilidad estadstica o frecuencialmente? 8.- Cules son las limitaciones de ambas definiciones? 9.- En una amplia red metropolitana se seleccion una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas hechas se encontraba: disfruta ir de compras?. De 240 hombres 136 contestaron que s; de 260 mujeres 224 contestaron que s. a.- De un ejemplo de un evento simple. b.- Cul es el complemento de disfrutar ir de compras? c.- Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ... c.1 sea hombre? c.2 disfrute ir de compras? c.3 sea mujer? c.4 no disfrute ir de compras? c.5 sea mujer y disfrute ir de compras? c.6 sea hombre y no disfrute ir de compras? c.7 sea hombre y disfrute ir de compras? c.8 sea mujer o disfrute ir de compras? c.9 sea hombre o no disfrute ir de compras?

34

2.2: Axiomatizacin de la Probabilidad. Reglas de clculo de probabilidades. Probabilidad condicional. Independencia de sucesos.Existen mltiples situaciones complejas en las que es necesario o deseable conocer la probabilidad de ocurrencia de un determinado suceso, y donde la aplicacin directa de alguna de las definiciones de este concepto parece prcticamente imposible; de ah que la teora en torno a las probabilidades continuase desarrollndose para encontrar solucin a estos casos, dando lugar a numerosos teoremas y reglas. Dadas las limitaciones que presentan las dos definiciones previas, en 1933 se axiomatiza la probabilidad a partir de la formulacin de tres axiomas bsicos. Entonces, si S es un espacio muestral y A un suceso definido en S, se dir, que todo suceso A definido en S est asociado a un numero real P(A), llamado probabilidad de A, el cual cumplir con los siguientes axiomas: 1. P(A) 0 2. P(S) = 1 3. P(A1 A2 A3 ... Ak) = P(A1) + P(A2) + ... + P(Ak) si los k sucesos son excluyentes o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = siendo i j.

TEOREMAS ASOCIADOS AL CLCULO DE PROBABILIDADES:De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran aplicacin directa en el clculo de probabilidades, entre los ms usados estn:Teorema 1: Teorema 2: Teorema 3:

La probabilidad de un suceso imposible o nulo es cero: P() = 0 Si A es un subconjunto de B entonces P(A) P(B) La probabilidad del suceso complementario al suceso A es igual a la probabilidad del espacio muestral, que es igual a 1 ( P(S) = 1 ), menos la probabilidad de A. P(A') = 1 - P (A)

Teorema 4:

La probabilidad de que ocurra A y no ocurra B ser: P(AB') = P(A) - P(AB)

Teorema 5:

La probabilidad de que ocurra la unin de dos sucesos, A y B, ser: P(A B) = P(A) + P(B) - P(AB) Este teorema es conocido como regla de la unin. El mismo puede generalizarse para ms de dos sucesos; por ejemplo, la regla de la unin referida a tres sucesos queda:35

P(A B C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)Teorema 6:

La probabilidad de que no ocurra ninguno de dos sucesos, A y B, ser: P(AB) = 1 - P(A B)

Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma, 105 leen Juventud Rebelde y 45 leen ambos peridicos. a.- Cul es la probabilidad de seleccionar aleatoriamente un habanero del grupo y lea Granma o Juventud Rebelde. b.- Qu probabilidad hay de que el habanero seleccionado no lea ninguno de los peridicos? c.- Qu probabilidad hay de que lea slo Granma?

Sean los sucesos: G: leer Granma J: leer Juventud Rebelde. Se tiene: N(S) = 1000 N(G) = 420, por tanto: N(J) = 105, por tanto: N(GJ) = 45, por tanto:

P(G) = 0,42 P(J) = 0,105 P(GJ) = 0,045

a.- P(G J) = P(G) + P(J) + P(GJ) = 0,42 + 0,105 - 0,045 = 0,48 b.- P(G J)' = 1 - P(G J) = 1 - 0,48 = 0,52 c.- P(GJ') = P(G) - P(GJ) = 0,42 - 0,045 = 0,385

PROBABILIDAD CONDICIONAL:Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso asumiendo la ocurrencia de otro, que puede ser llamado condicionante; esto quiere decir que ya no interesa la totalidad del espacio muestral, sino slo aquella parte o subconjunto de aquel que coincide con la realizacin del suceso condicionante. La probabilidad as calculada se le llama probabilidad condicional. Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o condicin) se utiliza la el smbolo P(A/B), que se lee probabilidad de A dado B, o probabilidad de A si ocurre B. Matemticamente se puede calcular la probabilidad condicional como el cociente de la probabilidad de interseccin de los dos sucesos entre la probabilidad del suceso condicionante:

36

P( A / B) =

P( AB) P(B)

Tambin se puede calcular la probabilidad condicional directamente a partir del tamao de los sucesos: N( AB) P( A / B) = N(B)Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina bien el primer ao de Ingls, y que un 59,5% termina bien los dos aos de estudio. Se quiere determinar la probabilidad de que un estudiante termine bien el segundo ao.

Sean los sucesos: A: terminar bien el 1er ao de Ingls B: terminar bien el 2do ao de Ingls Entonces: P(B / A ) =

Se sabe que: P(A)=0,70 P(AB)=0,595

P( AB) 0,595 = = 0,85 P( A ) 0,70

REGLA DEL PRODUCTO:Si A y B son sucesos definidos en S, la probabilidad de AB, de acuerdo a la definicin de probabilidad condicional, se puede expresar como: P(AB) = P(A) P(B/A) P(AB) = P(B) P(A/B) De la misma forma: P(ABC) = P(A)P(B/A)P(C/AB) Luego la regla del producto expresa la probabilidad de que ocurran A y B en un orden determinado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B P(AB)=P(B)P(A/B) que primero salga B y en segundo lugar A Si no interesa el orden, sino que salga una vez A y una vez B, entonces se tienen que expresar las dos combinaciones posibles que hay: P(AB) = P(A1 B2 ) + P(B1 A2 )Ejemplo. De una urna que contiene 4 esmeraldas y 1 brillante, se extraen 2 piedras, una a una, sin reposicin. Calcule la siguiente probabilidad. a.- Que la 1ra piedra sea esmeralda y la 2da brillante. b.- Que las dos piedras sean esmeraldas c.- Solo una sea esmeralda. Solucin: como es sin reposicin las extracciones, entonces los sucesos son dependientes, adems que piden orden. a.- P(E1 B2 )= P(E)P(B/E) = 4/5 . 1/4 = 4/20 = 1/5 = 0.20 b.- P(E1 E2)= 4/5 . 3/4 = 16/20 = 6/10 = 0.6 c.- P(E1 B2 B1 E2) = P(E)P(B/E) + P(B)P(E/B)

37

= 4/5 . 1/4 + 1/5 . 4/4 = 4/20 + 4/20 = 8/20 = 4/10 = 0.4

INDEPENDENCIA DE SUCESOS:Dos sucesos A y B se llaman independientes, cuando la probabilidad de ocurrencia de uno de ellos, no depende de la ocurrencia o no del otro. Dos sucesos son independientes si se cumple alguna de las siguientes igualdades: 1. P(A/B) = P(A) 2. P(B/A) = P(B) 3. P(AB) = P(A) P(B) Se debe aclarar que slo se puede comprobar independencia a travs de esta ltima frmula si se tienen las 3 probabilidades y comprobar si la interseccin es igual al producto de la probabilidad de ambos sucesos. Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces, la probabilidad de que salga cara en el primer lanzamiento, no depende de que salga cara o no en el segundo lanzamiento.Ejemplo:

Si una caja contiene 100 piezas de las cules 20 son defectuosas y se extraen aleatoriamente 2 piezas una a una (con reposicin). Cul ser la probabilidad de obtener una pieza defectuosa en la primera extraccin?: P=20/100=0.20 Y cul ser la probabilidad, en la segunda extraccin, de obtener tambin una pieza defectuosa? P=20/100=0.20, es decir exactamente igual, esto es debido a que se repuso la primera pieza.Por tanto, cuando las observaciones son con reposicin se puede considerar que son independientes, pues lo que ocurre en la segunda extraccin es independiente de lo que ocurre en la primera (y as con las sucesivas, si hay ms). Pero si no se repone, es decir, se hacen las observaciones sin reposicin la probabilidad de cada observacin depende de las anteriores.

Si de la caja de 100 piezas en la primera extraccin sale una pieza defectuosa, la probabilidad de pieza defectuosa en la segunda extraccin, sin reponer la primera pieza tomada, ser 19/99; pero si lo que sale en la primera extraccin es una pieza en buen estado, entonces la probabilidad de pieza defectuosa en la segunda extraccin ser 20/99. Generalmente para los juegos de azar, es fcil decidir si dos sucesos son independientes o no. Para otros experimentos aleatorios, se debe tener ms cuidado.Ejemplo. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que: P(A)=0.40 P(B)=0.42 P(C)=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0 38

Diga si: a.- A y B son independiente b.- A y C son mutuamente excluyentes c.- B y C son independientes d.- A y B son equiprobablesa.- P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relacin. Pero P(A/B) = 0 y P(A) = 0.40 luego son diferentes por tanto no son independiente. b.- Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0, ya que al no tener elementos comunes(AC), la interseccin es igual al conjunto vaco. Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesos A y C son mutuamente excluyentes. c.- P(B/C) = P(B) cualquiera de las dos.

P(C/B) = P(C) ya que para que sean independientes se debe cumplir P(C/B) = P(C) 0 0.15Por tanto, no son independientes.

d.- Para que sean equiprobables se debe cumplir que P(A) = P(B), pero: P(A) = 0.40 P(B) = 0.42, por tanto no son equiprobables.

EJERCICIOS DE AUTOEVALUACIN1.- Cules son los axiomas sobre los que descansa la teora axiomtica de la probabilidad? 2.- Diga al menos 3 propiedades de la definicin axiomtica de probabilidad. 3.- Cundo dos sucesos son independientes? 4.- Cundo dos sucesos son mutuamente excluyentes? 5.- Un embarque de 10 muecos contiene 3 muecos y 7 muecas. a.- Si se seleccionan dos muecos, sin reposicin, cul es la probabilidad de que: a1.- sean dos muecas? a2.- haya una mueca y un mueco? a3.- el primer mueco seleccionado sea una mueca y el segundo un mueco?. b.- compare la respuesta a.2 y a.3 y explique porque son diferentes. 6.- Con referencia al ejercicio 9 de la autoevaluacin de la semana anterior. a.- Supngase que el entrevistado seleccionado sea mujer. Cul es entonces la probabilidad de que no disfrute ir de compras? b.- Supngase que el entrevistado seleccionado disfruta ir de compras. Cul es la probabilidad de que sea un hombre? c.- Son estadsticamente independiente disfrutar ir de compras y el sexo de la persona? Fundamente su respuesta. d.- Cul es la probabilidad de que un entrevistado, seleccionado en forma aleatoria... d.1.- Sea mujer o disfrute ir de compras? 39

d.2.- Sea hombre o no disfrute ir de compras? d.3.- Sea hombre o mujer? Utilice para el inciso d las propiedades de la definicin axiomtica de probabilidad. 7.- A partir de una investigacin realizada, se supo que el 70% de los hombres son fumadores; y que padecen afecciones respiratorias dado que son fumadores un 50%. Adems se conoci que no siendo fumadores, dado que padecen de afecciones existen un 40%, Si se realiza el experimento de seleccionar un individuo del grupo al azar, diga: a.- Probabilidad de que no sea fumador. b.- Probabilidad de que sea fumador y padezca de afeccin pulmonar. c.- Probabilidad de que fume dado que padece de los pulmones. d.- Probabilidad de que no padezca de afecciones pulmonares dado que fuma e.- Probabilidad de que padezca de afeccin respiratoria.

40

TEMA III: DISTRIBUCIONES TERICAS DE PROBABILIDAD3.1: Definicin de variable aleatoria. Funcin de probabilidad univariada: casos discreto y continuo. Funcin de distribucin. Media y varianza de variables aleatorias.En este tema que se estudiarn las distribuciones tericas de probabilidad, que son modelos tericos basados en las probabilidades, establecidos para describir el comportamiento de variables en cuyos valores hay incidencias aleatorias, y que se utilizan atendiendo a las caractersticas de la situacin existente. Se dice que una variable es aleatoria si sobre cuyos valores influye de alguna manera la aleatoriedad o azar. Una manera ms matemtica de expresarlo es la siguiente: una variable aleatoria "X" es una aplicacin definida en un espacio muestral S, que toma valores reales, o sea es la transformacin del espacio muestral en un conjunto numrico, mediante X. La mayor parte de las variables aleatorias se pueden expresar numricamente, y por tanto son clasificables igualmente en discretas y continuas: son discretas las que toman un conjunto finito -o infinito, pero numerable- de valores; son continuas las que pueden tomar cualquier valor real de un intervalo. Ejemplo: Experimento: lanzamiento de una moneda dos veces. El espacio muestral es: S = { CC EE CE EC } Si lo que interesa es conocer la cantidad de caras que pueden aparecer, se define entonces la variable aleatoria X: nmero de caras que aparecen, siendo su espacio muestral o dominio de definicin: X = { 0, 1, 2 } Como para una variable aleatoria es imposible saber con exactitud qu valor tomar en un momento dado, para describir el comportamiento de las mismas se recurre al uso de las probabilidades... Cuando se conocen caractersticas o se efectan estudios sobre el comportamiento de una variable, se puede desarrollar algn modelo que brinde una descripcin probabilstica de la misma, el cual tendr adems implcito un grupo de condiciones que debe cumplir la variable. Todo modelo as desarrollado se basa en lo siguiente: Una funcin de probabilidad: f(x) Una funcin de distribucin: F(x) Parmetros (medidas numricas descriptivas)

FUNCIN DE PROBABILIDAD:Una funcin de probabilidad es la correspondencia que se establece entre los valores, o intervalos de valores, de una variable aleatoria y la probabilidad de ocurrencia de stos. Se denota por f(x).41

Si la funcin de probabilidad [f(x)] es discreta tambin se le denomina funcin de cuanta, y muchos autores la representan entonces como p(x). Para que sea una funcin de probabilidad, la funcin de cuanta, debe cumplir las siguientes propiedades: 1.- f (x) 0 2.- f (x) = 1

Ahora bien, si la funcin de probabilidad [f(x)] es continua se le denomina funcin de densidad. Para que sea una funcin de probabilidad, la funcin de densidad, deben cumplirse las siguientes propiedades:Xmax

1.- f (x) 0

2.-

Xmin

f ( x)dx = 1

3.- P(a < x b) = f ( x )dxa

b

4.- P (X = Xk) = 0

Esta ltima propiedad nos indica que para variables continuas la probabilidad de tomar un valor puntual es nula, y esto conlleva que para las variables continuas se cumpla lo siguiente:

f ( x )dx = P(a x b) = P(a < x b) = P(a x < b) = P(a < x < b)a

b

(Por tanto, en el caso continuo no importa si las desigualdades son estrictas o no, pues da igual: un punto por s mismo no influye, no aporta probabilidad.)

FUNCIN DE DISTRIBUCIN:Existe otra funcin que est ntimamente relacionada con las funciones de probabilidad, la cual se denomina funcin de distribucin o funcin de acumulacin probabilstica, y se denota por F(x). La funcin de distribucin recoge la probabilidad de que la variable tome valores menores o iguales al valor dado, es decir, acumula las probabilidades hasta un valor dado (xk). Esto, matemticamente, quiere decir que: F(xk) = P(X Xk) Toda funcin de distribucin cumple las siguientes propiedades: 1. lim F( x ) = 0X

2. lim F( x ) = 1X

3. 0 F(x) 1

4. x1 x2 F(x1) F(x2) (Es decir, es una funcin no decreciente.) 5. x1 < x2 P(x1 < x x2) = F(x2) - F(x1) Para las funciones de distribucin correspondientes a variables discretas, se cumple que:F( x k ) =Xmin Xk

f(x )i

Y de la quinta propiedad general citada se deriva, en el caso discreto, que:

42

P(x1 < x x2) = F(x2) - F(x1) P(x1 x x2) = F(x2) - F(x1) + f (x1) P(x1 < x < x2) = F(x2) - F(x1) - f (x2) P(x1 x < x2) = F(x2) - F(x1) + f (x1) - f (x2) Debe mencionarse que la funcin de distribucin es ms usada en el caso de variables continuas que en el de las discretas, pues para estas ltimas resulta ms cmodo trabajar directamente con la funcin de cuanta. Para funciones de distribucin correspondientes a variables aleatorias continuas se cumple que:Xk

F( x k ) = f ( x) dxXmin

y

F( x ) = f(x) x

Adems, teniendo en cuenta que la probabilidad puntual en variables continuas es nula, de la quinta propiedad general citada se deriva para este caso, con fines prcticos, lo siguiente: P(x xk) = P(x < xk) = F(xk) P(x xk) = P(x > xk) = 1 - F(xk) P(x1 x x2) = P(x1 < x < x2) = P(x1 < x x2) = P(x1 x < x2) = F(x2) - F(x1)Ejemplos:

1.- Un determinado experimento aleatorio tiene como funcin de probabilidad la relacin: x +1 f(x) = para x = { 0, 1, 2, 3 } 10 Se pide: a.- Verificar las propiedades de f(x) b.- P(x >1) c.- F(1) d.- Probabilidad de que x tome por lo menos valor 1 e.- Probabilidad de que x tome a lo sumo valor 2Solucin: a.- Propiedad f (x) 0 f (x0)= 1/10; f (x1)= 2/10; f (x2)= 3/10; f (x3)= 4/10; por tanto f (x) > 0 Propiedad que la suma de f (x) desde 0 a 3 = 1 f (x)= 1/10[(1+0)+(1+1)+(1+2)+(1+3)] = 10/10 = 1

b.- P(x > 1) = c.- x f (x) 0 1/10 1 2/10

f (x ) = (1+2)/10 + (1+3)/10 = 3/10 + 4/10 = 7/10=0.7x=2

3

F(x) 1/10 3/10

F(1) = 3/10 = 0.3 esto nos indica que x es menor igual a 1.

43

2 3/10 6/10 3 4/10 10/10Nota: Como se ve, si la variable es discreta F(x), se determina de la mismo que Fi, es decir las frecuencias relativas acumuladas.

d.- P(x 1) = f (x) = 1 - f (x = 0) = 1 - 1/10 = 9/10 = 0.9x=1

3

Tambin se podra hacer, sumando, en vez de por el complemento: = 1/10[(1+1) + (1+2) + (1+3) ] = = 1/10 (2 + 3 + 4) = 9/10 = 0.9 e.- P(x 2) = f (x) = 1 - f (x = 3) = 1 - 4/10 = 6/10 = 0.6x=0 2

Tambin se podra hacer sumando en vez de por el complemento: = 1/10[(1+0) + (1+1) + (1+2)] = = 1/10 (1 + 2 + 3) = 6/10 = 0.62.-Sea f (x) = 1/18(3 + 2x) una funcin de densidad para 2 < x < 4 a.- Verifique si se cumplen las propiedades de f (x) b.- Calcule P(x < 3) c.- P(x 3) d.- P(x = 3) e.- Halle F(x) f.- Calcule P(2 < x 3) haciendo uso de la F(x) Solucin:

a.- f (x) = 1/18

(3 + 2x)dx = 1/18[ 3x + 2x /2 ]= 1/18[(12+16) - (6+4)]22

4

= 1/18 (28 - 10) = 18/18 = 1 b.- P(x < 3)= 1/18

(3 + 2 x)dx2

3

= 1 / 18(3x + 2x 2 / 2] = 1 / 18[(9 + 9) - (6 + 4)]

= 1/18 (18 - 10) = 8/18 = 4/9 = 0.44 c.- P(x 3)=1/18

(3 + 2 x)dx3

4

= 1 / 18(3x + 2x 2 / 2] = 1 / 18[(12 + 16) - (9 + 9)]

=1/18(28 -18) = 10/18 = 5/9 = 0.55 d.- P(x=3) = 0xk

e.- F(x) = 1/18

(3 + 2 x)dx2

= 1 / 18(3x + 2x 2 / 2] = [(3xk + x 2 k ) - (6 + 4)]

= 1/18(3xk + x2k - 10) por tanto F(x) ser:F(x) = 1/18 (x2 + 3x - 10)

f.- P(2 < x 3) = F(3) - F(2) = [1/18(9+9-10) ] - [1/18(4+6-10) ]44

= 1/18(8 - 0) = 8/18 = 4/9 = 0.44

MEDIDAS NUMRICAS DE RESUMEN ASOCIADAS A VARIABLES ALEATORIAS:Las medidas numricas de resumen asociadas a variables aleatorias permiten sintetizar la informacin de forma tal que ofrecen las caractersticas generales del fenmeno en estudio, es decir, sus rasgos principales. Tienen su equivalente en los estadgrafos que se utilizan para caracterizar conjuntos de observaciones o muestras, y en este caso se conocen como parmetros de las variables. Entre los parmetros ms usados estn la media, como medida de posicin, y la varianza como medida de dispersin.MEDIA O ESPERANZA MATEMTICA

El valor medio de una variable aleatoria, se denomina media terica, valor esperado o esperanza matemtica, y se denota por E(x) . La media o valor esperado de una variable aleatoria se puede considerar como su promedio ponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidad relacionada con cada uno de los resultados. El clculo del valor esperado est en dependencia si se est trabajando con variables aleatorias discretas o continuas. En el caso de las variables aleatorias discretas, esta medida de resumen se puede obtener multiplicando cada posible de la variable, xi, por su probabilidad correspondiente, P(xi) o f(xi), y despus sumando los productos resultantes, as: = E (x) = x f(x) En el caso de las variables aleatorias continuas, esta medida de resumen se obtiene integrando el producto de la variable x por su funcin de probabilidad, desde el valor mnimo de la variable, xmin, hasta su valor mximo, xmax, de la siguiente forma:Xmax

= E( x ) =Propiedades de la media o valor esperado:

Xmin

x f ( x) dx

1.- La esperanza de una constante es igual a la propia constante:

E (k) = k

2.- La esperanza del producto de una constante por una variable es igual a la constante por la esperanza de la variable: E (kx) = k E (x) 3.- Si x1, x2 , ... , xn son variables aleatorias entonces:E ( xi ) = E (x)

4.- La esperanza de la suma (o resta) de una constante y una variable es igual a la constante ms la suma (o resta) de la esperanza de x:

45

E (k x) = k E (x)

5.- Si la media poblacional es igual a la esperanza de x, entonces la esperanza de las desviaciones con respecto a la media es igual a cero: E (x - )= 0 6.- Si x e y son variables aleatorias independientes entonces, la esperanza del producto de "x" e "y" es igual al producto de la esperanza de "x" y de la esperanza de "y": E (xy) = E (x) E (y) 7.- La esperanza del producto de la suma de n, variables y constantes es igual a la suma del producto de las "n" constantes por las esperanza de las variables.E (C1x1 + C2x2 + ... + Cnxn ) = C1E (x1) + C2E (x2) + ... + CnE (xn) VARIANZA

La varianza es igual a la esperanza de las desviaciones con respecto a la media, al cuadrado: V(x) = E (x - )2 Tambin se simboliza por 2 (sigma al cuadrado, letra griega). Esta definicin hace un tanto difcil el clculo de la varianza, ya que como se dijo anteriormente en el clculo de la esperanza, la variable, es lo que est dentro del parntesis, y en este caso lo que est dentro del parntesis, es (x - )2. Por lo tanto para el clculo de la varianza para una variable aleatoria discreta sera: V(x) = (x - )2 f(x) Y en el caso de variables aleatorias continuas sera:x max