probabilidad y estadstica1

136
PROBABILIDAD Y ESTADÍSTICA UNIDAD I. TEORÍA DE LA PROBABILIDAD 1.1 Conjuntos, sus operaciones, leyes y su representación Definición de conjunto Por Extensión y por Comprensión Un conjunto queda perfectamente definido si se conocen con exactitud los elementos que lo integran o que pertenecen a él; es decir, si se nombran todos sus elementos o bien si se usa un enunciado o propiedad que lo identifique. Independientemente de la forma en que se lo represente, siempre se usa una letra mayúscula que lo define. Esta letra mayúscula representa a un conjunto específico de elementos. Existen dos maneras de definir un conjunto dado: a) Por extensión o enumeración: se define nombrando a cada elemento del conjunto. Por comprensión: se define mediante un enunciado o atributo que representa al conjunto (se busca una frase que represente a la totalidad de elementos sin nombrar a ninguno en particular). Por comprensión Por extensión A = {Números dígitos} A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} B = {Números pares] B = {2, 4, 6, 8, 10, 12, 14, ...} C = {Múltiplos de 5} C = {5, 10, 15, 20, 25, 30, 35...}

Upload: van-drn

Post on 10-Nov-2015

34 views

Category:

Documents


4 download

DESCRIPTION

c

TRANSCRIPT

Probabilidad y estadstica

PROBABILIDAD Y ESTADSTICA

UNIDAD I. TEORA DE LA PROBABILIDAD

1.1 Conjuntos, sus operaciones, leyes y su representacin

Definicin de conjunto

Por Extensin y por Comprensin Un conjunto queda perfectamente definido si se conocen con exactitud los elementos que lo integran o que pertenecen a l; es decir, si se nombran todos sus elementos o bien si se usa un enunciado o propiedad que lo identifique. Independientemente de la forma en que se lo represente, siempre se usa una letra mayscula que lo define. Esta letra mayscula representa a un conjunto especfico de elementos.Existen dos maneras de definir un conjunto dado:a) Por extensin o enumeracin: se define nombrando a cada elemento del conjunto.Por comprensin: se define mediante un enunciado o atributo que representa al conjunto (se busca una frase que represente a la totalidad de elementos sin nombrar a ninguno en particular).Por comprensinPor extensin

A = {Nmeros dgitos}A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

B = {Nmeros pares]B = {2, 4, 6, 8, 10, 12, 14, ...}

C = {Mltiplos de 5}C = {5, 10, 15, 20, 25, 30, 35...}

Diagrama de Venn y entre llaves.Es habitual representar los conjuntos en forma grfica mediante los Diagramas de Venn.En estos diagramas el conjunto se representa mediante una superficie limitada por una lnea. En su interior se colocan los elementos del conjunto. Cada porcin del plano limitada se nombra con una letra mayscula.

El conjunto A est formado por los elementos 1, 2, 3.El conjunto B est formado por los elementos a, b, c, d.Existe, adems, otra forma de representarlos que es entre llaves.En estos ejemplos se escribe:A = {1, 2, 3}B = {a, b, c, d}Otro ejemplo:Por diagramaEntre llaves

S = {a, e, i, o, u}Se escribe una coma para separar los elementos.

Conjunto Disjunto, Conjunto Subconjunto1) Conjuntos disjuntos: Son aquellos conjuntos que no tienen elementos en comn.Por ejemplo: El conjunto A tiene como elementos a los nmeros 1, 2 y 3. El conjunto B tiene como elementos a las letras a, b, c y d. No hay elementos comunes entre los conjuntos A y B. En otras palabras, ningn elemento del conjunto A pertenece al conjunto B; a su vez, ningn elemento de B pertenece al conjunto A.En consecuencia, los conjuntos A y B son disjuntos.Tomando otro ejemplo:Si E = { pizarrn, tiza, borrador} (Conjunto E formado por pizarrn, tiza, borrador) F = { tiza, profesor, regla} (Conjunto F formado por tiza, profesor, regla) G = { nio, cuaderno, sala, lpiz } (Conjunto G formado por nio, cuaderno, sala, lpiz)E y G son conjuntos disjuntos porque: pizarrn, tiza, borrador no pertenecen al conjunto G. E y F no son disjuntos ya que tiza pertenece a E y tambin a F.F y G son conjuntos disjuntos porque: tiza, profesor, regla no pertenecen a G, y nio, cuaderno, sala, lpiz no pertenecen a F.2) Conjunto Subconjunto: Un conjunto es subconjunto de otro si todos los elementos de un conjunto tambin pertenecen al otro.Si se tienen los siguientes conjuntos:P = { a, e, i, o, u } y R = { a, i } R es subconjunto de P porque todos los elementos de R estn en P. En general, para expresar que un conjunto es subconjunto de otro conjunto se pone entre ellos el smbolo . En este ejemplo se escribe:R PSe lee R es subconjunto de Pno es subconjunto de otro cuando al menos un elemento del primero no pertenece al segundo conjunto. El smbolo que representa la frase no es subconjunto de es .Si se tienen los siguientes conjuntos:C = { 3, 5, 7, 9 } y H = { 3, 5, 8 }H no es subconjunto de C porque el elemento 8 no pertenece al conjunto C. Se escribe:H C Se lee H no es subconjunto de C Tambin los subconjuntos pueden representarse mediante Diagramas de Venn.Ejemplo:S CPropiedades de la relacin subconjunto 1.- Todo conjunto es subconjunto de s mismo. Si T = { x, z, y, z }, se tiene que T T2.- El conjunto vaco es subconjunto de cualquier conjunto (el conjunto vaco es aquel que no tiene elementos; se representa por: { } o bien por Si se tiene el conjunto B se puede establecer que T

Relaciones entre conjuntosSean los conjuntos

A = { 5, 7 }B = { 3, 5, 7, 9 }Los elementos 5 y 7 forman parte del conjunto A.En otras palabras, los elementos 5 y 7 pertenecen ( ) al conjunto A. 5 A y 7 ALos elementos 3, 5, 7, 9 forman parte del conjunto B, es decir, pertenecen al conjunto B 3 B 5 B 7 B 9 BSe puede observar, adems, en el diagrama, que los elementos del conjunto A estn incluidos dentro del conjunto B; por lo tanto, dichos elementos tambin pertenecen al conjunto B.En otras palabras, A es subconjunto de B. A B

Operaciones entre conjuntos

Interseccin de conjuntos () La interseccin entre dos o ms conjuntos es otro conjunto formado por los elementos comunes a ellos; es decir, a los elementos comunes o repetidos de ambos conjuntos A y B.La interseccin se simboliza con el signo y se coloca entre las letras que representan a cada conjunto. Conjunto A = {3, 8, 24}Conjunto B = {13, 7, 8, 12}Los elementos que se repiten entre A y B son: 3 y 8. Estos elementos se anotan en la parte de color amarillo pues representa el lugar comn entre ambos conjuntos.Otro ejemplo: B = { a, b, c, d, e, f }C = { a, d, f, g, h }B C = { a, d, f }En el diagrama de Venn la parte ennegrecida representa la interseccin de B y C.Unin de conjuntos: La unin de dos o ms conjuntos es otro conjunto formado por los elementos que pertenecen a uno u otro conjunto o a ambos. La unin se representa por el smbolo Si un elemento est repetido, se coloca una sola vez.

Cuando no hay elementos comunes o repetidos (esquema 1) se anotan todos los elementos en un solo conjunto (una sola figura cerrada): A B = {2, 3, 4, 5, 6, 7}.

Si hay elementos repetidos, stos se anotan en la zona comn a ambos conjuntos (esquema 2), donde se juntan ambas figuras cerradas:W Z = {9, 6, 8, 5, 7}.

La cardinalidad de un conjunto se representa con el smbolo #y corresponde al nmero de elementos que tiene el conjunto.Ejemplos:W = { $, %, &, /, } El conjunto W est integrado por 5 elementos, por lo tanto, su cardinalidad es 5 ( #= 5 )Q =El conjunto Q est formado por 3 elementos

#Q = 3K =El conjunto K tiene un elemento

# K= 1

Conjuntos equivalentesSon aquellos que tienen igual cardinalidad, es decir, igual nmero de elementos. T ={ , , }# T = 3

P ={ a, b, c }# P = 3

Los conjuntos T y P son equivalentes porque tienen la misma cardinalidad.Conjuntos igualesSon todos aquellos conjuntos que tienen elementos iguales. Los elementos de un conjunto tambin pertenecen al mismo conjunto.Ejemplo: D F D = FLos conjuntos D y F son iguales porque tienen el mismo elemento. A veces pueden estar desordenados los elementos cuando son ms de uno, en tal caso, debe recordarse que en un conjunto no importa el orden en que estn los elementos.Conjunto universo

En el Diagrama de Venn de la izquierda se puede observar que el conjunto U contiene a los conjuntos M y N. U es el conjunto universo porque es un conjunto que contiene a todos los conjuntos. Otro ejemplo:Sea Y = { enero, febrero } ; = { marzo, junio, agosto }El conjunto universo ser: U = { meses del ao }

1.2 Probabilidad de eventos aleatorios

Probabilidad de eventosPara calcular la probabilidad de eventos es necesario que stos se comporten de una maner ms o menos estable. Precisamente, se echa mano de la regularidad estadstica, que es la propiedad de los fenmenos aleatorios, y que consiste en que al aumentar el nmero de repeticiones de un experimento en condiciones prcticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo.Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios:1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carcter de subjetividad no se considera con validez cientfica, aunque en la vida diaria es de las ms comnes que se utilizan al no apoyarse ms que en el sentido comn y los conocimientos previos, y no en resultados estadsticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadstica. Esta definicin sera la ms real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Adems, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aqu.) 3. La probabilidad clsica de un evento E, que denotaremos por P(E), se define como el nmero de eventos elementales que componen al evento E, entre el nmero de eventos elementales que componen el espacio muestral:

Es la definicin ms utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir. Axiomas de la probabilidadRecordemos primero que las frecuencias relativas de una distribucin tenan las siguientes propiedades:1. Las frecuencias relativas son mayores o iguales que cero. 2. La frecuencia relativa del espacio muestral es igual a la unidad. 3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultneamente, entonces la frecuencia relativa de su unin es la suma de las frecuencias relativas de cada uno. Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definicin ya expuesta, es la frecuencia relativa cuando se aumenta el tamao de la muestra, se tienen lo siguiente.Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se satisfacen los axiomas de la probabilidad:1. 0 P(E)1. 2. P(S) = 1. 3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces

Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de eventos.Posibilidades y probabilidadesSe habla muy comnmente en sitios de apuestas, como en las autdromos o hipdromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso de razones.En trminos generales, la posibilidad de que ocurra un evento se determina mediante la razn de la probabilidad de que ocurra a la probabilidad de que no ocurra.Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las posibilidades de que ocurra son x a y, es decir

Tales que x y y son enteros positivos.Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que las dos monedas caigan cara es de . Esto quiere decir si alguien apuesta a que las dos monedas no caen simultneamente en cara, la posibilidad de ganar la apuesta es de

es decir, 3 a 1.Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento, entonces se acostumbra mencionar las posibilidades en contra del evento.Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es de 6 a 1.Inversamente, en el caso de tener las posibilidades de un evento, entonces es fcil obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la probabilidad p de que ocurra tal evento es

Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se deca que el equipo mexicano tena una posibilidad de 1 a 75 de llegar a ser el campen del torneo.Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser campen, entonces se tiene que

es la probabilidad de que ocurriese el evento.Esto tiene la ventaja de que permite, en combinacin con el tercer axioma de la probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades que le asignan a algunos eventos. Esto quiere decir que el clculo de las probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera subjetiva resulta como un criterio de consistencia.Por ejemplo: Un criminlogo piensa que las posibilidades de que en la prxima semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad o sea la misma es de 7 a 4.Si se desea saber si son consistentes las probabilidades correspondientes habra que hacer los clculos.Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de delitos es, respectivamente, de

y dado que (como son eventos mutuamente excluyentes) no es lo mismo que 7/11, entonces los criterios del criminlogo pueden ser cuestionados.Propiedades de la probabilidad de eventos no elementalesCuando se tienen eventos elementales no existe mucho problema en el sentido del clculo de las probabilidades, pues basta con una contabilizacin o el uso directo del clculo combinatorio. Pero en el caso de eventos no elementales, que son los compuestos por ms de un evento elemental, el proceder de manera anloga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de clculo existente. Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se podrn expresar las probabilidades de estos eventos en trminos de los eventos elementales que lo componen, siempre y cuando se conozcan las probabilidades de stos.Veamos la probabilidad de una unin de eventos, la cual la podremos calcular de la siguiente manera:Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultneamente. Es decir,P(AB) = P(A) + P(B) - P(AB)

Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene:Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B. Es decirP(AB) = P(A) + P(B)

Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E:Propiedad 3. Si E es un evento y ~E su complemento, entoncesP(~E) = 1 - P(E)

Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue:Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurri el evento B (el evento A depende del evento B), denotado P(A|B), es:

Hay que notar que esta propiedad no es conmutativa, situacin que s ocurre con la probabilidad de unin o la interseccin de eventos, por lo que no hay que confundir P(A|B) y P(B|A).

Finalmente, el criterio para la independencia de eventos queda como sigue:Propiedad 5. Dos eventos A y B son independientes si y slo siP(A|B) = P(A) y P(B|A) = P(B)o, que es lo mismo:P(AB) = P(A) P(B)

1.3 Espacio muestral y eventos

Modelos:

Modelo determinista: designamos as al modelo que estipula que las condiciones en las que se verifica un experimento determinan el resultado del mismo. El modelo seala que las condiciones en las cuales se verifican ciertos fenmenos determinan el valor de ciertas variables observables: la magnitud de la velocidad, el rea recurrida durante un cierto tiempo, etc.

Modelo no determinista (o probabilstico o estocstico): en este modelo las condiciones experimentales solo determinan el comportamiento probabilstico (la distribucin probabilstica) de los resultados observables. Usamos consideraciones especficas para especificar una distribucin de probabilidades.

Caractersticas de un experimento aleatorio:

Es posible repetir cada experimento en forma indefinida sin cambiar esencialmente las condiciones.

Aunque en general no podemos especificar cual ser el resultado particular, podemos describir el conjunto de todos los resultados posibles del experimento.

Cuando el experimento se repite un gran nmero de veces, aparece un patrn definido o regularidad. Esta regularidad hace posible la construccin de un modelo preciso con el cual podemos analizar el experimento.

Espacio muestral:

Para cada experimento E definimos el espacio muestral como el conjunto de todos los resultados posibles de E. Usualmente se designa este conjunto como S.

El espacio muestral, de acuerdo con el nmero de resultados posibles, puede ser: finito, infinito numerable, infinito no numerable.

Eventos:

Un evento A (respecto a un espacio muestral particular S asociado a un experimento E) es simplemente un conjuno de resultados posibles. En terminologa de conjuntos, un evento es un subconjunto del espacio muestral S. Esto implica que S tambien es un evento asi como lo es el conjunto vacio. Cualquier resultado individual tambien puede considerarse como un evento.

Se dice que dos eventos A y B, son mutuamente excluyentes si no pueden ocurrir juntos. Expresamos esto escribiendo IMAGEN; es decir, la interseccin de A y B es el conjunto vaco.

Frecuencia relativa:

Supongamos que repetimos n veces el experimento E, y sean A y B dos eventos asociados con E. Sean nA y nB el nmero de veces que el evento A y el B (respectivamente) ocurrieron en las n repeticiones. Entonces, definimos fA = nA / n como la frecuencia relativa del evento A en las n repeticiones de E.

La frecuencia relativa fA tiene las siguientes propiedades:

0 fA 1

fA = 1 si y slo si A ocurre cada vez en las n repeticiones.

fA = 0 si y slo si A nunca ocurre en las n repeticiones.

Si A y B son dos eventos mutuamente excluyentes, y si f(A U B) es la frecuencia relativa asociada al evento A U B, entonces f(A U B) = fA + fB.

fA, basada en la n repeticiones del experimento y considerada para una funcin de n, "converge" en cierto sentido probabilstico a P(A) cuando n-->+oo. (Esto NO es lo mismo que el concepto corriente de convergencia que se encuentra en otra parte en matematicas. En realidad, sta no es una conclusin matemtica, sino simplemente un hecho emprico.) Lo importante de esta propiedad es que si un experimento se realiza un gran nmero de veces, la frecuencia relativa con que ocurre un evento A tiende a variar cada vez menos a medida que el nmero de repeticiones aumenta. A esta caracterstica se la conoce como regularidad estadstica.

Nociones bsicas de probabilidad:

Sea E un experimento y S un espacio muestral asociado con E. Con cada evento A asociamos un nmero real, designado con P(A) y llamado probabilidad de A, el cual satisface las siguientes propiedades:

0 P(A) 1

P(S) = 1

i A y B son dos eventos mutuamente excluyentes, P(A U B) = P(A) + P(B)

Si X es el conjunto vacio, entonces P(X) = 0

Si AC es el evento complementario de A, entonces P(A) = 1 - P(AC)

Si A y B son dos eventos cualesquiera, entonces P(A U B) = P(A) + P(B) - P(A IMAGEN C)

Si A B, entonces P(A) P(B)

1.4 Definicin clsica de la probabilidadEl concepto de Probabilidad ha evolucionado en el transcurso del tiempo. La probabilidad naci en el juego y es jugando como mejor se aprende la probabilidad. A los aljebristas del siglo XVI, Pacioli, Cardano, Tartaglia, se deben las primeras consideraciones matemticas profundas a propsito de los juegos de azar. Los fundamentos del clculo de probabilidades surgen alrededor del ao 1650, cuando sugerido por los juegos de dados, de cartas, del lanzamiento de una moneda, se plante el debate de determinar la probabilidad de ganar la partida. Fermat y Pascal, esquematizado el tema propuesto (ver primer problema), dieron en 1654 la primera definicin de probabilidad. Se aceptaba como intuitivo el concepto de equiprobabilidad, se admita que la probabilidad de conseguir un acontecimiento fuese igual al cociente entre el nmero de casos favorables y el de casos posibles. El clculo de probabilidades tuvo un notable desarrollo sobre la base de la anterior definicin de probabilidad. Destacan en 1713 el teorema de Bernoulli y la distribucin binomial, y en 1738 el primer caso particular estudiado por De Moivre, del teorema central del lmite. En 1809 Gauss inici el estudio de la teora de errores y en 1810 Laplace, que haba considerado anteriormente el tema, complet el desarrollo de esta teora. A mediados del siglo XIX, un fraile agustino austraco, Gregor Mendel, inici el estudio de la herencia, la gentica, con sus interesantes experimentos sobre el cruce de plantas de diferentes caractersticas. Su obra, La matemtica de la Herencia, fue una de las primeras aplicaciones importantes de la teora de probabilidad a las ciencias naturales.

1.5 Definicin en base a la frecuencia relativa

Probabilidad de eventosPara calcular la probabilidad de eventos es necesario que stos se comporten de una maner ms o menos estable. Precisamente, se echa mano de la regularidad estadstica, que es la propiedad de los fenmenos aleatorios, y que consiste en que al aumentar el nmero de repeticiones de un experimento en condiciones prcticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo.Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios:1. La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carcter de subjetividad no se considera con validez cientfica, aunque en la vida diaria es de las ms comnes que se utilizan al no apoyarse ms que en el sentido comn y los conocimientos previos, y no en resultados estadsticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadstica. Esta definicin sera la ms real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Adems, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aqu.) 3. La probabilidad clsica de un evento E, que denotaremos por P(E), se define como el nmero de eventos elementales que componen al evento E, entre el nmero de eventos elementales que componen el espacio muestral:

Es la definicin ms utilizada porque supone de antemano, y se necesita como requisito indispensable, que todos los eventos elementales tienen la misma probabilidad de ocurrir.

1.6 Definicin axiomatica de la probabilidadAxiomas de la probabilidadRecordemos primero que las frecuencias relativas de una distribucin tenan las siguientes propiedades:1. Las frecuencias relativas son mayores o iguales que cero. 2. La frecuencia relativa del espacio muestral es igual a la unidad. 3. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultneamente, entonces la frecuencia relativa de su unin es la suma de las frecuencias relativas de cada uno. Tomando en cuenta que la probabilidad de un evento, de acuerdo a la definicin ya expuesta, es la frecuencia relativa cuando se aumenta el tamao de la muestra, se tienen lo siguiente.Si E es un evento de un espacio muestral S y P(E) es la probabilidad de E, entonces se satisfacen los axiomas de la probabilidad:1. 0 P(E)1. 2. P(S) = 1. 3. Si E1, E2, ... , En son eventos mutuamente excluyentes, entonces

Con estos axiomas podremos tratar algunas de las propiedades de la probabilidad de eventos.

Para hacer una definicin rigurosa de la probabilidad, necesitamos precisar ciertas leyes o axiomas que deba cumplir una funcin de probabilidad. Intuitivamente estos axiomas deberan implicar, entre otras, las siguientes cuestiones, que nos parecen lgicas en trminos de lo que se puede esperar de una funcin de probabilidad: La probabilidad slo puede tomar valores comprendidos entre 0 y 1(no puede haber sucesos cuya probabilidad de ocurrir sea del ni del ; La probabilidad del suceso seguro es 1, es decir, el ; La probabilidad del suceso imposible debe ser 0. La probabilidad de la interseccin de dos sucesos debe ser menor o igual que la probabilidad de cada uno de los sucesos por separado, es decir,

La probabilidad de la unin de sucesos debe ser mayor que la de cada uno de los sucesos por separado:

Ms an, si los sucesos son disjuntos (incompatibles) debe ocurrir que

La probabilidad del suceso contrario de A, debe valer . Esto en realidad puede deducirse del siguiente razonamiento:

En las ltimas lneas hemos esbozado ciertas propiedades que debera cumplir una funcin que queramos llamar probabilidad. Hemos de tener en cuenta entonces que siguiendo esos puntos: 1. La funcin de probabilidad debe calcularse sobre subconjuntos de E. No es estrictamente necesario que sean todos, pero si es necesario que si se puede calcular sobre un conjunto, lo pueda ser tambin sobre su complementario, y que si se puede calcular sobre dos conjuntos A y B, que tambin se pueda calcular sobre su unin y su interseccin. Para ello introduciremos el concepto de -lgebra de sucesos, que ser una clase de subconjuntos de Esobre los que podamos aplicar las reglas de la probabilidad. 2. Entre las leyes que debe cumplir una funcin de probabilidad y que hemos escrito antes, hemos observado que algunas son redundantes, ya que se pueden deducir de las dems. Con la definicin axiomtica de la probabilidad pretendemos dar el menor conjunto posible de estas reglas, para que las dems se deduzcan como una simple consecuencia de ellas. Precisemos entonces los conceptos de -lgebra de sucesos y de probabilidad.

1.7 Diagramas de rbolTablas de contingencia y diagramas de rbol.En los problemas de probabilidad y en especial en los de probabilidad condicionada, resulta interesante y prctico organizar la informacin en una tabla de contingencia o en un diagrama de rbol.Las tablas de contingencia y los diagramas de rbol estn ntimamente relacionados, dado uno de ellos podemos construir el otro. Unas veces, los datos del problema permiten construir fcilmente uno de ellos y a partir de l podemos construir el otro, que nos ayudar en la resolucin del problema. Conversin de una tabla en diagrama de rbolLas tablas de contingencia estn referidas a dos caractersticas que presentan cada una dos o ms sucesos.A TOTAL

B P( A B ) P( B ) P( B )

P( A ) P( ) P( )

TOTAL P( A ) P( ) 1

En el caso de los sucesos A, , B y , expresados en frecuencias absolutas, relativas o probabilidades la tabla, adopta la forma adjunta.

Dicha tabla adopta la forma del diagrama de rbol del dibujo. En ste, a cada uno de los sucesos A y se les ha asociado los sucesos B y .

Sobre las ramas del diagrama de rbol se han anotado las probabilidades condicionadas correspondientes, deducidas de las relaciones anlogas a:

Conversin de un diagrama en tabla de contingenciaDe manera recproca, dado el diagrama de rbol podemos construir la tabla de contingencia equivalente si ms que utilizar la expresinP( BA ) = P( B/A ) P( A ),

para calcular las probabilidades de las intersecciones de sucesos que forman la tabla.

1.8 permutaciones y combinacionesAnlisis combinatorioEn ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situacin dada se convierte en algo difcil de lograr o, simplemente, tedioso. El anlisis combinatorio, o clculo combinatorio, permite enumerar tales casos o sucesos y as obtener la probabilidad de eventos ms complejos.En el caso de que existan ms de un suceso a observar, habra que contar el nmero de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el principio fundamental de conteo:Si un suceso se puede presentar de n1 formas, y otro se puede presentar de n2 formas, entonces el nmero de formas en que ambos sucesos pueden presentarse en ese orden es de n1n2.En otras palabras, basta multiplicar el nmero de formas en que se pueden presentar cada uno de los sucesos a observar.Este principio nos remite automticamente al factorial de un nmero natural, que se puede pensar como una funcin con dominio los nmeros naturales junto con el cero y codominio los nmeros naturales. El factorial de un nmero n, denotado n!, se define como:

Ahora, n es muy grande el proceso de clculo se vuelve tedioso y muy cargado, incluso para una computadora, por lo que se utiliza la aproximacin de Stirling a n!:

donde e2.71828..., que es la base de los logaritmos neperianos.En Excel existe la funcin FACT(n) que calcula el factorial de un nmero entero no negativo n. En el anlisis combinatorio se definen las permutaciones, con o sin repeticin, y las combinaciones.Permutaciones (u ordenaciones) con repeticinLas permutaciones son tambin conocidas como ordenaciones, y de hecho toman este nombre porque son ordenaciones de r objetos de n dados. En este curso las representaremos como ORnr nORr.Por ejemplo: Sea A={a,b,c,d}, cuntas "palabras" de dos letras se pueden obtener?Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En este caso r=2 y n=4.Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd. En total son 16.En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones con repeticin obtenidas son:ORnr = nORr = n r

Permutaciones (u ordenaciones) sin repeticinEn este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n dados atendiendo a la situacin de cada objeto en la ordenacin. Su representacin ser Pnr nPr.Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, cuntas ordenaciones sin repeticin se pueden obtener?Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total.

En general, si se toman r objetos de un total de n, la cantidad de permutaciones Pnr = nPr = El Excel cuenta con la funcin PERMUTACIONES(n,r) que realiza el clculo.

CombinacionesEs una seleccin de r objetos de n dados sin atender a la ordenacin de los mismos. Es decir, es la obtencin de subcojuntos, de r elementos cada uno, a partir de un conjunto inicial de n elementos. La denotaremos con Cnr, nCr .Por ejemplo: Si tomamos el mismo conjunto A={a,b,c,d}, cuntos subconjuntos de 2 elementos cada uno se pueden obtener?Hacindolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los subconjuntos.En general, si de n objetos dados se hacen combinaciones de r objetos cada una, el nmero de combinaciones obtenidas son:Cnr = nCr = o, que es lo mismo,Cnr = nCr = En Excel la funcin COMBINAT(n,r) calcula las combinaciones de n objetos tomando r de ellos.

1.9 Probabilidad condicional e independencia

Posibilidades y probabilidadesSe habla muy comnmente en sitios de apuestas, como en las autdromos o hipdromos, de que "las apuestas a tal o cual participante es de x a y", es decir, que las posibilidades de que gane es de x a y. Esta manera de expresarse se refiere al uso de razones.En trminos generales, la posibilidad de que ocurra un evento se determina mediante la razn de la probabilidad de que ocurra a la probabilidad de que no ocurra.Esto quiere decir que si la probabilidad de que un evento ocurra es p, entonces las posibilidades de que ocurra son x a y, es decir

Tales que x y y son enteros positivos.Por ejemplo: Si se tiran dos monedas normales (no trucadas), la probabilidad de que las dos monedas caigan cara es de . Esto quiere decir si alguien apuesta a que las dos monedas no caen simultneamente en cara, la posibilidad de ganar la apuesta es de

es decir, 3 a 1.Hemos de considerar que si es mayor la probabilidad de que no ocurra un evento, entonces se acostumbra mencionar las posibilidades en contra del evento.Por ejemplo: Si se tira un dado no trucado, sabemos que la probabilidad de obtener un cuatro es 1/6, es decir que la posibilidad de obtener un cuatro es de 1 a 6; pero se acostumbra decir que las posibilidades en contra, esto es, de no obtener un cuatro es de 6 a 1.Inversamente, en el caso de tener las posibilidades de un evento, entonces es fcil obtener su probabilidad, pues si la posibilidad de un evento es de x a y, entonces la probabilidad p de que ocurra tal evento es

Por ejemplo: En la Copa Mundial de Futbol Francia 1998 se deca que el equipo mexicano tena una posibilidad de 1 a 75 de llegar a ser el campen del torneo.Si se desea encontrar la probabilidad de que el equipo mexicano llegase a ser campen, entonces se tiene que

es la probabilidad de que ocurriese el evento.Esto tiene la ventaja de que permite, en combinacin con el tercer axioma de la probabilidad, medir la confiabilidad que tienen las opiniones de las personas sobre las posibilidades que le asignan a algunos eventos. Esto quiere decir que el clculo de las probabilidades de dos eventos mutuamente excluyentes a partir de las posibilidades otorgadas de manera subjetiva resulta como un criterio de consistencia.Por ejemplo: Un criminlogo piensa que las posibilidades de que en la prxima semana la cantidad de delitos en una ciudad aumente con respecto a la anterior es de 5 a 2, de que sea la misma cantidad de delitos es de 1 a 3 y las posibilidades de que aumente la cantidad o sea la misma es de 7 a 4.Si se desea saber si son consistentes las probabilidades correspondientes habra que hacer los clculos.Las probabilidades de aumente la cantidad de delitos, sea igual la cantidad de delitos, y de que aumente o sea igual la cantidad de delitos es, respectivamente, de

y dado que (como son eventos mutuamente excluyentes) no es lo mismo que 7/11, entonces los criterios del criminlogo pueden ser cuestionados. Propiedades de la probabilidad de eventos no elementalesCuando se tienen eventos elementales no existe mucho problema en el sentido del clculo de las probabilidades, pues basta con una contabilizacin o el uso directo del clculo combinatorio. Pero en el caso de eventos no elementales, que son los compuestos por ms de un evento elemental, el proceder de manera anloga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de clculo existente. Sin embargo, utilizando los axiomas de la probabilidad y las siguientes propiedades, se podrn expresar las probabilidades de estos eventos en trminos de los eventos elementales que lo componen, siempre y cuando se conozcan las probabilidades de stos.Veamos la probabilidad de una unin de eventos, la cual la podremos calcular de la siguiente manera:Propiedad 1. Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultneamente. Es decir,P(AB) = P(A) + P(B) - P(AB)

Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene:Propiedad 2. Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B. Es decirP(AB) = P(A) + P(B)

Otra propiedad que se deriva de las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E:Propiedad 3. Si E es un evento y ~E su complemento, entoncesP(~E) = 1 - P(E)

Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue:Propiedad 4. La probabilidad de que ocurra un evento A dado que ocurri el evento B (el evento A depende del evento B), denotado P(A|B), es:

Hay que notar que esta propiedad no es conmutativa, situacin que s ocurre con la probabilidad de unin o la interseccin de eventos, por lo que no hay que confundir P(A|B) y P(B|A).

Finalmente, el criterio para la independencia de eventos queda como sigue:Propiedad 5. Dos eventos A y B son independientes si y slo siP(A|B) = P(A) y P(B|A) = P(B)o, que es lo mismo:P(AB) = P(A) P(B)

1.10 Teorema de bayes

Teorema de Bayes Si los sucesos Ai son una particin y B un suceso tal que p(B) 0

Demostracin AplicacionesDiagnstico mdico (en general clasificaciones no biunvocas): El diagnstico consiste en establecer la enfermedad de un paciente, a partir de una serie de sntomas. Pero los sntomas y las enfermedades no estn ligados de un modo biunvoco.Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cncer de pulmn; E3: bronquitis obstructiva; etc. y Si a los sntomas y sndromes asociados con las mismas. S1: tos; S2: estado febril; S3: hemotisis; etc. La informacin accesible en los libros de patologa, o en un archivo de historias clnicas es del tipo.Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las dems enfermedades. En trminos de probabilidad condicionada, esta informacin es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los sntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una particin (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el sntoma) y se conocen sus prevalencias.

Ntese que un mismo conjunto de sntomas podra dar lugar a un diagnstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnsticas: Supngase una prueba diagnstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l.Para evaluar la prueba, (habr que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabticos diagnosticados por otro procedimiento (el patrn de oro o "gold standar") y a una serie de individuos no diabticos. Los resultados se pueden representar en una tabla de doble entrada Patrn de oro

NEE

Prueba-abr

+cds

tu

Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimacin de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimacin de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simtricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnsticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-).

Como E y NE son una particin, usando el Teorema de Bayes

y

Ntese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnstica que funciona muy bien en la clnica Mayo, puede ser intil en el Hospital Ramn y Cajal. Ejemplo 9:

una prueba diagnstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la poblacin donde se usa es del 7% cul es la probabilidad de que sea diabtico un individuo en el que la prueba d positiva? y de que no lo sea uno en el que d negativo?p(+|NE) = 0,04 p(-|NE) = 0,96 p(-|E) = 0,05 p(+|E) = 0,95 p(E) = 0,07 p(NE) = 0,93

y

Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), sern la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa. Teorema de Bayes.En el ao 1763, dos aos despus de la muerte de Thomas Bayes (1702-1761), se public una memoria en la que aparece, por vez primera, la determinacin de la probabilidad de las causas a partir de los efectos que han podido ser observados. El clculo de dichas probabilidades recibe el nombre de teorema de Bayes. Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales P(B/Ai). entonces la probabilidad P(Ai/B) viene dada por la expresin:

En los problemas relacionados con la probabilidad, y en particular con la probabilidad condicionada, as como con la probabilidad total y el teorema de Bayes, es aconsejable que, con la informacin del problema, construyas una tabla de contingencia o un diagrama de rbol. El teorema de Bayes parte de una situacin en la que es posible conocer las probabilidades de que ocurran una serie de sucesos Ai. A esta se aade un suceso B cuya ocurrencia proporciona cierta informacin, porque las probabilidades de ocurrencia de B son distintas segn el suceso Ai que haya ocurrido. Conociendo que ha ocurrido el suceso B, la frmula del teorema de Bayes nos indica como modifica esta informacin las probabilidades de los sucesos Ai. Ejemplo: Si seleccionamos una persona al azar, la probabilidad de que sea diabtica es 0,03. Obviamente la probabilidad de que no lo sea es 0,97.Si no disponemos de informacin adicional nada ms podemos decir, pero supongamos que al realizar un anlisis de sangre los niveles de glucosa son superiores a 1.000 mg/l, lo que ocurre en el 95% de los diabticos y slo en un 2% de las personas sanas. Cul ser ahora la probabilidad de que esa persona sea diabtica? La respuesta que nos d el teorema de bayes es que esa informacin adicional hace que la probabilidad sea ahora 0,595.Vemos as que la informacin proporcionada por el anlisis de sangre hace pasar, la probabilidad inicial de padecer diabetes de 0,03, a 0,595.Evidentemente si la prueba del anlisis de sangre hubiese sido negativa, esta informacin modificara las probabilidades en sentido contrario. En este caso la probabilidad de padecer diabetes se reducira a 0,0016.Es una consecuencia del teorema de las probabilidades totales.Sea el conjunto total formado por una particin (coleccin de sucesos con interseccin vaca dos a dos).

Ahora el inters se centrar en la obtencin de la probabilidad de cualquier suceso de la particin condicionada a un suceso A cualquiera.El resultado ser :

que es conocido como teorema o regla de Bayes.

Unidad II. Variables aleatorias y distribuciones2.1 variable aleatoria y funciones de distribucin

FUNCION DE DISTRIBUCION

Definicin: Dado un espacio de probabilidad oe , y una variable aleatoria X definida sobre l, la funcin de distribucin de X, que ser denotada por FX, est definida por

para cada nmero real a. Ejemplo: Sean las funciones X, Y, Z definidas sobre el campo de probabilidad asociado al experimento aleatorio que se considere: 1) Sea X el nmero de mujeres en una comisin conformada por tres personas, seleccionadas al azar de un grupo de 5 personas, entre las cuales hay dos mujeres. 2) Sea Y el nmero de caras obtenidas al tirar dos veces sucesivas una moneda. 3) Sea Z el nmero de una ficha que se seleccione al azar de un grupo de tres fichas numeradas 0,1, 2. Sean las variables X, Y, Z de acuerdo a la definicin de funcin de distribucin, que a) Si a < 0 no hay eventos elementales que por X se apliquen sobre nmeros negativos con lo cual es

b) Si 0 a < 1, entonces tenemos en [ X a ] todas las comisiones de tres personas entre las cuales haya cero mujeres, con probabilidad 1/10, sto es FX (a) = 1/10 para 0 a < 1 c) Si 1 a < 2, entonces tenemos que considerar todas las comisiones con una o ninguna mujer, las cuales se dan con probabilidad 7/10, es decir FX (a) = 7/10 para 1 a < 2 d) Siendo a un nmero real cualquiera puede, finalmente, satisfacer la desigualdad a 2 y entonces debemos considerar comisiones conformadas por cualquier nmero de mujeres en el experimento en cuestin, obtenindose FX (a) = 1 para a 2 Resumiendo los resultados obtenidos, tenemos que la funcin de distribucin de X est dada por

En forma similar tendremos para las variables aleatorias Y, Z

Las funciones de distribucin de nuestras variables aleatorias X, Y, Z, las determinan completamente pues describen su comportamiento, con relacin a sus valores, en trminos de probabilidad y, en este ejemplo comprobamos que a pesar de tener el mismo recorrido, el comportamiento de estas variables es diferente. Sin embargo, puede ocurrir que dos o ms variables aleatorias diferentes tengan no slo el mismo recorrido, sino tambin la misma funcin de distribucin. 2.2 Valor esperado y momentosValor esperado o esperanza matemtica Sea X una v.a. discreta. Se denomina esperanza matemtica de X o valor esperado, y se denota bien o bien , a la cantidad que se expresa como:

donde es el conjunto numerable de ndices de los valores que puede tomar la variable (por ejemplo para un nmero finito de valores de la v.a. o bien para una cantidad infinita numerable de los mismos. Si X es una v.a. continua, se define su esperanza a partir de la funcin de densidad como sigue:

Observacin Recordamos que si

y por tanto tiene sentido calcular su esperanza matemtica:

Por las analogas existente entre la definicin de media aritmtica y esperanza matemtica, las propiedades de linealidad de la primera se trasladan a la segunda, como es inmediato comprobar:

2.3 Distribuciones discretasPropiedades de la Funcin de Distribucin La funcin de distribucin de una variable aleatoria adems de estar bien definida, pues est definida en trminos de la funcin probabilidad la cual es una funcin definida axiomticamente, tiene las propiedades que se dan a travs de los siguientes teoremas. Teorema: La funcin de distribucin es no decreciente. Teorema: Para toda funcin de distribucin FX se cumple

Teorema: Toda funcin de distribucin es continua por la derecha.

Teorema: Toda funcin de distribucin es continua por la derecha. Ejemplo: Para la funcin h (x) definida por

se tiene a) h (x) toma valores sobre una recta con pendiente o toma valores sobre el eje x, o sobre una recta paralela al eje x, por lo que podemos afirmar que es una funcin no decreciente. b) y dado que para se tiene

c) lo que implica

d) En cada punto, interior a un intervalo de definicin, h(x) toma valores sobre una recta, es decir es una funcin lineal y, por lo tanto, es contnua. En los puntos "crticos" se tiene, considerando un nmero k > 0 que

de lo que podemos afirmar que h (x) no slo es continua por la derecha, sino que es continua en cada punto real. Como h (x) satisface las condiciones de una funcin de distribucin, ella es una funcin de distribucin y podra ser asignada como tal a cualquier variable aleatoria X cuyo recorrido sea el intervalo . Como consecuencia de su definicin y de sus propiedades, para la funcin de distribucin FX se satisfacen adems las propiedades establecidas en el siguiente teorema. Teorema: Dada una variable aleatoria X con funcin de distribucin FX, entonces a) para todo par de nmeros reales a < b. b) Para todo nmero real a es

donde

Ejemplo: Si consideramos la variable aleatoria X del 3.8, para la cual es

vemos que FX es continua en todo punto real que no pertenezca al conjunto {0, 1, 2}, por lo que ser para todo a real tal que Adems es

puesto que si > 0 entonces FX (- ) = 0. Por otro lado, si > 0 entonces es 1 - < 1, 2 - < 2, con lo cual se obtiene

Si lo que nos interesa es que la variable aleatoria X tome valores en un cierto intervalo, entonces se tiene, por ejemplo

2.4 Variables aleatorias y distribuciones continuasDistribucin de Probabilidad de una Variable Aleatoria Consideremos las variables aleatorias X y Y definidas de la manera siguiente X = Nmero de puntos obtenidos al tirar un dado correcto. Y = Distancia al origen de un punto elegido al azar sobre el segmento [0,1]. cuyas funciones de distribucin estn dadas por :

Observamos que mientras el recorrido de X est constituido por un conjunto finito, el recorrido de Y es un conjunto infinito no numerable y, que la funcin de distribucin de X tiene saltos, lo que no ocurre para la funcin de distribucin de Y. Luego, podemos afirmar que la naturaleza de estas dos variable aleatorias es diferente. Estas dos variables aleatorias constituyen ejemplos de dos de las categoras de variables aleatorias, las cuales se determinan, como veremos, tomando en cuenta su recorrido y/o su funcin de distribucin. De acuerdo a sto, las variables aleatorias se clasifican en Discretas, Absolutamente Continuas y Mixtas. Consideraremos en primer lugar las discretas. 2.5 Variables Aleatorias Discretas Definicin: Una variable aleatoria X se dice discreta si su recorrido es un conjunto contable (finito o infinito numerable) de nmeros reales. Esta definicin implica que los posibles valores de X, su recorrido RX, pueden ser listados como x1, x2,...., xn, ..... donde sin prdida de generalidad, podemos suponer una ordenacin como x1, < x2 < .... < xn < xn+1 < .... Adems, considerando los eventos de la forma [X = xn] se tiene que se cumple

y

donde la unin se extiende para todos los valores de n. En consecuencia se cumple

y para cualquier nmero real a

Por otro lado, por las propiedades de la funcin de distribucin se tiene en este caso

En conclusin, se tiene que si X es una variable aleatoria discreta con funcin de distribucin FX, existe otra funcin px a la cual se le denomina Funcin de Cuanta o Funcin de Densidad Discreta de X, definida por

para lo cual se cumplen las siguientes condiciones 1) R 2) 3) Las dos primeras condiciones deben ser satisfechas por cualquier funcin real valorada, cuyo dominio sea un conjunto contable de nmeros reales para ser una funcin de cuanta, mientras que la satisfaccin de las tres condiciones determina la funcin de cuanta de una variable aleatoria X especfica. El conjunto de pares de la forma (xn, px (xn)) recibe el nombre de Distribucin de Probabilidad de la Variable Aleatoria Discreta X, y contiene toda la informacin necesaria para estudiar a esta variable aleatoria. Ejemplo: Un fabricante de motores sabe que en un lote de 10 motores, hay 2 motores defectuosos. Cada motor le cuesta 7,500 nuevos soles y lo puede vender en 10,000 nuevos soles. Al ofrecer el lote a una tienda le dicen que lo sometern a una prueba que consistir en seleccionar, al azar, dos motores y probar su funcionamiento. Si no se obtienen motores defectuosos le compran el lote. En caso contrario, se lo rechazan. Si X es la ganancia neta que deja el lote al fabricante, se tendr que X = 10 (10,000 - 7,500) = 25,000 si se vende el lote, y X = 10 (0 - 7,500) = - 75,000 si le rechazan el lote luego X es variable aleatoria discreta con

y con dominio

donde d y significa motor defectuoso y motor no defectuoso, respectivamente. La funcin de cuanta de X est dada por

puesto que no vende si se encuentra por lo menos un motor defectuoso, que es el evento contrario de no encontrar defectuosos. Con los resultados obtenidos, la distribucin de probabilidad de X se presenta en la siguiente tabla. X- 75,00025,000

PX

La definicin de una variable aleatoria absolutamente continua, las propiedades de la funcin de distribucin de algunas propiedades del anlisis, llevan a los siguientes resultados: 1) fx es no negativa. Condicin necesaria para que FX sea una funcin no decreciente. 2) Resultado que deriva del hecho de que sea y de la definicin de la integral impropia. 3) FX (x) es continua en todo X real y si fx es continua en x0, entonces FX es derivable en x0 y se cumple

Resultado justificado por el Teorema Fundamental del Clculo Integral, que dice "si una funcin real valorada h es integrable en el sentido de Riemann sobre el intervalo [a, b], entonces la funcin

para todo x [a, b] es continua sobre [a, b] y si h es continua en x0 entonces H(x) es derivable en x0 y se cumple

4) P[x = a] = 0 para cualquier nmero real a. Como sabemos, en general, se cumple

y, como la continuidad de FX implica la igualdad de FX (a) y el lmite considerado en esta expresin, se tiene entonces que una variable aleatoria absolutamente continua toma cada uno de los valores reales, an los de su recorrido, con probabilidad cero. Teniendo en cuenta el axioma de aditividad de la funcin probabilidad, se sigue que la probabilidad asignada a un conjunto contable de puntos en RX es nula. 5) Si a y b son dos nmeros reales tales que a < b, entonces

independientemente de si se incluye o no a la igualdad en los extremos.Este resultado se sigue de la consideracin de la propiedad de FX que establece

y del resultado 4 anterior. Geomtricamente este resultado se interpreta de la siguiente manera: La probabilidad de que una variable aleatoria absolutamente continua tome valores en el intervalo de extremos a, b, abierto o cerrado, es el rea bajo la curva de fX comprendida entre las rectas x= a y x = b. Observaciones 1) La funcin fX no es en s una probabilidad, pero s es la densidad de probabilidad en cada punto y para un intervalo infinitesimal de amplitud dx se tiene

2) Los resultados 1 y 2 constituyen condicin necesaria y suficiente para que una funcin real valorada cualquiera sea una funcin de densidad de probabilidad. 3) Una variable aleatoria X es, entonces, absolutamente continua si su funcin de distribucin es continua y derivable con primera derivada continua en todo punto del eje real, salvo un conjunto a lo ms infinito numerable de puntos. Esta primera derivada es la funcin de densidad de probabilidad de X. 4) De la observacin anterior se sigue que la funcin de densidad de probabilidad fX puede ser discontinua en algunos puntos y, eventualmente, podra hacerse infinita en algn punto. Dado la validez del resultado 2, se tiene que: - Si RX es un intervalo de longitud infinita, fX tiende a cero cuando x crece y definidamente sobre RX. - Si fX (x0) es infinita, la integral

tiende a cero cuando a y b tienden independientemente a cero. Ejemplo: Dada la variable aleatoria X cuya funcin de distribucin est dada por

se quiere saber si X tiene una distribucin absolutamente continua. En primer lugar debemos estudiar la continuidad de FX, para lo cual bastar con estudiar los puntos donde FX cambia su expresin funcional, pues en los intervalos comprendidos entre dos de estos puntos la funcin es lineal y, por ende, continua en cada punto. As tenemos que

de donde podemos afirmar que FX tiene un punto de discontinuidad en a = - 2 y sto es suficiente para afirmar que X no es una variable aleatoria absolutamente continua. 2.6 Distribuciones especiales de probabilidad para una variable aleatoria continua: Distribucin uniforme, exponencial, normal y normal estandarVariables Aleatorias Mixtas Definicin: Una variable aleatoria X es mixta si su funcin de distribucin es de la forma

donde F1 es la funcin de distribucin de una variable aleatoria discreta y F2 es la funcin de distribucin de una variable aleatoria absolutamente continua yes un nmero comprendido entre 0 y 1. Si R1 es el recorrido para la variable aleatoria con F1 y R2 es el recorrido para la variable aleatoria correspondiente a F2, entonces se tiene RX = R1 R2, y como la probabilidad de cada uno de los puntos de R2 es nula, se tiene:

Como ilustraremos a continuacin, en el ejemplo tenemos un caso de variable mixta. Ejemplo: Para la variable aleatoria X cuya funcin de distribucin es

se cumple

para todo nmero real a, si se define

Como ya sabemos, la funcin de distribucin de una variable aleatoria cualquiera, contiene toda la informacin con respecto a la variable aleatoria y, por lo tanto, las variables aleatorias mixtas sern estudiadas en trminos de su funcin de distribucin. Sin embargo, es muy til expresar a sta, como una combinacin lineal convexa de una funcin de distribucin discreta y una funcin de distribucin absolutamente continua.

Unidad 3 Estadstica descriptiva y Teora de muestreo

3.1 Distribuciones de frecuencia, de frecuencia relativa y frecuencia acumulada

Distribucin de Frecuencias

Cuando la informacin que se tiene es un gran volumen, resulta muy conveniente ordenar y agrupar los datos para manejarlos de acuerdo a la distribucin de frecuencias la cual consiste en agrupar los datos en clases o categoras que estarn definidas por un lmite mnimo y uno mximo de variacin, mostrando en cada clase el nmero de elementos que contiene o sea la frecuencia.

Otra forma comn para estudiar la disposicin espacial de los individuos de una poblacin consiste en comparar la distribucin de frecuencias observadas en un muestreo basado en cuadrculas, con las frecuencias esperadas dada una distribucin terica (e.g. la de Poisson). Las frecuencias estn referidas al nmero de oportunidades en las cuales se obtiene un nmero determinado de individuos en una cuadrcula. Si en un estudio observamos los siguientes resultados:

4 5 4 6 7 1 5 2 2 4 4 3

donde cada nmero representa el nmero de individuos contados en una cuadrcula, tendremos que la frecuencia con la cual se obtiene 1 individuo es 1/12 (siendo n = 12 el total de cuadrculas), la frecuencia de 2 individuos es 2/12, la de 3 = 1/12, la de 4 = 4/12, la de 5 = 2/12, la de 6 = 1/12, la de 7 = 1/12, mientras que la de 8 individuos en adelante es 0/12. Una frecuencia es as una proporcin con la cual ocurre un determinado evento. El conjunto de estas proporciones permite grficamente formar una distribucin de frecuencias. La distribucin de las frecuencias obtenidas anteriormente se observa en la siguiente figura:

Para analizar si los individuos de la poblacin bajo estudio se distribuyen de acuerdo a un determinado patrn hipottico, se estima un valor conocido como la bondad del ajuste de la distribucin observada a la distribucin terica. La bondad de un ajuste est referida a cun prximas se encuentran las dos distribuciones a ser comparadas, entendiendo como proximidad las diferencias numricas existentes en cada uno de los eventos posibles (eje X de la figura anterior). Cuanto mayor sea la suma de estas diferencias, menor ser la bondad del ajuste. El estadstico de prueba ms corrientemente empleado para estimar la bondad de un ajuste es:

El cual se distribuye segn una 2 (chi- cuadrada), con (n - nmero de parmetros obtenidos de los datos) grados de libertad, con n = nmero de eventos (clases de frecuencia). Si este estadstico es mayor que el valor tabulado un nivel de significancia , se rechaza la hiptesis nula de que la distribucin observada es igual a la distribucin terica.

Cmo se utiliza este procedimiento para estimar la disposicin espacial de un conjunto de individuos? Partiendo del hecho de que tenemos un conjunto de cuentas de ocurrencias en n cuadrculas, el trabajo consiste en hallar las distribuciones tericas que mejor parezcan corresponder a nuestros datos. Luego, se estudia la bondad del ajuste de los valores predichos por tales distribuciones a los observados, y la que mejor se ajuste (aquella que resulte en un mnimo de diferencias no significativas) es la que mejor representa la disposicin espacial de la poblacin (Fig. 3).

Figura 3: Representacin grfica de la distribucin de frecuencias del ejemploal ser comparada con una distribucin de Poisson para verificar la bondad del ajuste.

El resultado de aplicar este procedimiento es la obtencin de un modelo que explica la disposicin espacial de los individuos de la poblacin. El mejor modelo, como hemos insistido, es aquel que representa la ubicacin exacta de cada individuo sobre el espacio (deja de ser un modelo para convertirse en un mapa). Sin embargo, la obtencin del mismo tiene inconvenientes metodolgicos importantes en la mayora de los casos. De esta manera, la bondad de ajuste consiste en explorar un universo de infinitas posibles distribuciones estadsticas para encontrar la que mejor se adapta a los resultados.

Cmo llevar a cabo esta bsqueda? En la aplicacin tradicional de las tcnicas para el estudio de la disposicin espacial, la bsqueda no es demasiado intensiva, y comprende generalmente slo dos distribuciones tericas: la Poisson y la binomial negativa. La primera, como hemos visto, representa un conjunto de frecuencias de eventos que ocurren al azar, mientras que la segunda es representativa de un patrn de disposicin espacial agregado. Las disposiciones uniformes son tan frecuentes en la literatura como en la naturaleza, habiendo recibido muy poca atencin. De esta manera, un procedimiento conveniente al ajustar distribuciones a datos consiste en: (1) probar si las observaciones se desvan significativamente de un patrn aleatorio, mediante cualquiera de las tcnicas vistas hasta el momento, y (2) en caso negativo, ajustar la distribucin de frecuencias observadas a una distribucin binomial negativa. Veamos, paso a paso:

1. Ajuste de datos a una distribucin de Poisson:

Consideremos los siguientes datos, tomados de Krebs (1989):

0;0;0;0;0;0;1;1;1;1;1;1;1;1;2;2;2;2;2;2;2;2;2;3;3;3;3;3;3;4;4;4;4;4;4;5;5;7;7;7;8;9;9;9;9

En el conjunto, n = 50, y la media muestral = 3,46. La siguiente tabla muestra las frecuencias observadas para cada evento. La divisin de cada frecuencia entre n resulta en las frecuencias relativas de cada uno de los eventos, sobre el total.

Nmero de individuos en una cuadrcula, xNmero de cuadrculas con x individuos

06

18

29

36

46

52

65

73

81

94

Aplicando la ecuacin de Poisson (ver pgina anterior), podemos calcular las frecuencias esperadas:

P0 = proporcin de cuadrculas con 0 individuos (equivalente a la probabilidad de que una cuadrcula tenga 0 individuos) = e-3,46(3,460/0!)=0,0314 P1 = proporcin de cuadrculas con 1 individuo = e-3,46(3,461/1!)=0,1087 P2 = e-3,46(3,462/2!)=0,1881 P3 = e-3,46(3,463/3!)=0,2170 P4 = e-3,46(3,464/4!)=0,1877 P5 = 0,1299 P6 = 0,0749 P7 = 0,0370 P8 = 0,0160 P9 = 0,0062

Para obtener las frecuencias esperadas segn la distribucin de Poisson, slo hace falta multiplicar cada proporcin por el nmero total de cuadrculas muestreadas, n=50. La siguiente tabla muestra los clculos de frecuencias observadas, esperadas y del estadstico 2para cada x.

xFrec. Obs.Frec. Esp.(Frec. Obs. - Frec. Esp.)2Frec. Esp.

061,5712,50

185,441,20

299,410,019

3610,852,18

469,391,22

526,503,12

653,750,42

731,850,72

810,800,050

940,3143,92

>900,1550,155

= 65,51

En este punto, cabe hacer mencin de dos consideraciones adicionales. En primer lugar, puede notarse que fue aadida una clase de frecuencia adicional, para el caso en el que el nmero de cuentas en cuadrculas es mayor que 9. Esto se debe a que las frecuencias esperadas deben sumar 1, en forma de proporciones, o 50, el nmero total de cuadrculas. La frecuencia esperada en este caso fue calculada restando las frecuencias restantes a la unidad, resultando en 0,0031. La otra consideracin es que suele recomendarse para la prueba chi-cuadrada que el nmero de cuentas en una clase no sea inferior a 3 (o a 5, segn el autor). Aunque en este espacio se han incluido las frecuencias tal y como fueron obtenidas para fines ilustrativos, es preferible en la prctica que las clases de frecuencia sean agrupadas con el fin de que se cumpla esta regla. Se han desarrollado pruebas ms potentes que la chi- cuadrada para resolver este problema, las cuales pueden ser consultadas por el lector en la literatura disponible.

El nmero de grados de libertad para esta prueba es =11-2=9, ya que slo se obtuvieron de los datos la media y el nmero de cuadrculas. El valor crtico de para estos grados de libertad y =0,05 es 16,92, y por lo tanto se rechaza la hiptesis nula de que la poblacin se dispone espacialmente segn una Poisson.

Dado que la varianza de los datos es 7,356 y la media 3,46, el cociente entre estas dos variables (2,13) indica que la poblacin presenta algn grado de agregacin. Por lo tanto pasamos a evaluar el ajuste de los datos a una distribucin binomial negativa.

2. Ajuste de datos a una distribucin binomial negativa:

La binomial negativa (Fig. 4) es la distribucin estadstica de uso ms generalizado para el modelaje de poblaciones agregadas, llegndose incluso en ocasiones a tratar a ambas distribuciones (espacial y estadstica) como sinnimos. Al igual que la de Poisson, la binomial negativa es una distribucin de frecuencias discretas, siendo su forma matemtica:

donde Px la probabilidad de observar una cuadrcula con x individuos, la media de la distribucin, k el exponente de la binomial negativa y la funcin Gamma.

Figura 4: Representacin grfica de la distribucin de frecuencias de unabinomial negativa con =10 y k=2,5 (n=100).

La binomial negativa est determinada por dos parmetros, k y p, relacionados a la media por cuanto =kp. El parmetro k suele ser visto como una medida de agregacin, considerndose que mientras menor su valor, mayor la agregacin. De esta manera, el enfoque tradicional plantea que ajustar una distribucin binomial a un patrn de disposicin espacial consiste en encontrar un valor de k que, dada una media muestral, permita modelar cualquier patrn de agregacin como una de las infinitas formas de la binomial negativa.

Para facilitar los clculos de frecuencias esperadas segn la binomial negativa, se tiene la siguiente serie de frmulas:

Para la estimacin de k, se emplean ciertas reglas que el lector puede consultar en la bibliografa recomendada. Los procedimientos varan segn el nmero de cuadrculas con ningn individuo y la media muestral, y en muchos casos estn basados en procedimientos iterativos por ensayo y error, partiendo de un k aproximado, obtenido a partir de la varianza de la distribucin: 2=+(2/k):

Para el ejemplo que venimos desarrollando, esta primera aproximacin de k es 3,07, la cual se transforma en 2,65 tras la aplicacin de uno de los procedimientos de ensayo y error disponibles. La utilizacin de este valor de k en las frmulas para el clculo de las frecuencias esperadas origina los resultados presentados en la tabla a continuacin:

xFrec. Obs.Frec. Esp.(Frec. Obs. - Frec. Esp.)2Frec. Esp.

065,470,051

188,200,0049

298,470,033

367,440,28

465,950,00042

524,481,37

653,230,97

732,260,24

811,540,19

941,048,42

>901,911,91

= 13,43

Los grados de libertad para la prueba chi-cuadrada son, al igual que en el caso anterior igual al nmero de clases de frecuencia utilizadas menos el nmero de parmetros estimados a partir de los datos. En este caso se estimaron tres parmetros, correspondientes a la media, el nmero de muestras y k. Por lo tanto, buscamos el valor crtico para la distribucin con 8 grados de libertad, para un valor de =0,05, el cual es 15,51. Concluimos que el patrn de disposicin espacial se distribuye segn una binomial negativa. Empleando la relacin convencional entre distribuciones, concluimos que el patrn de disposicin es agregado.

3.2 Medidas de tendencia central: media, mediana, moda, promedio (ponderado, mvil) media geomtrica, armnica, cuantiles (cuartiles, deciles y percentiles)Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuacin. En este sentido pueden examinarse varias caractersticas, siendo las ms comunes:

La tendencia central de los datos; La dispersin o variacin con respecto a este centro; Los datos que ocupan ciertas posiciones. La simetra de los datos. La forma en la que los datos se agrupan.

Figura: Medidas representativas de un conjunto de datos estadsticos

A lo largo de este captulo, y siguiendo este orden, iremos estudiando los estadsticos que nos van a orientar sobre cada uno de estos niveles de informacin: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fluctuacin alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones caractersticas de una distribucin de frecuencias as como su simetra y su forma. 1.4.1 MEDIA, MEDIA PONDERADALa media aritmtica de una variable estadstica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es Xnifi

x1n1f1

.........

xknkfk

la media es el valor que podemos escribir de las siguientes formas equivalentes:

Si los datos no estn ordenados en una tabla, entonces

La media tiene las siguientes caractersticas:Es el centro de gravedad de la distribucin y es nica para cada distribucin. Cuando aparecen valores extremos y poco significativos (demasiado grandes o demasiado pequeos), la media puede dejar de ser representativa. No tiene sentido en el caso de una variable cualitativa ni cuando existen datos agrupados con algn intervalo no acotado. Para variables agrupadas, los xi sern las marcas declase de cada intervalo. Adems, la media cumple las siguientes propiedades: Si se suma una constante a todos los valores, la media aumenta en dicha constante. Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada por dicha constante. Observacin Hemos supuesto implcitamente en la definicin de media que tratbamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritmtica obtenida a partir de las marcas de clase ci, diferir de la media obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que ser tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos. Proposicin La suma de las diferencias de la variable con respecto a la media es nula, es decir,

Demostracin Basta desarrollar la sumatoria para obtener

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x1, mediante el valor central , es compensado por los dems errores:

Si los errores se consideran con signo positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error alguna de las siguientes:

que son cantidades estrictamente positivas si algn . Ejemplo Obtener las desviaciones con respecto a la media en la siguiente distribucin y comprobar que su suma es cero. li-1 - lini

0 - 101

10 - 202

20 - 304

30 - 403

Solucin: li-1 - linixixi ni

0 - 10155-19-19

10 - 2021530-9-18

20 - 30425100+1+4

30 - 40335105+11+33

n=10

La media aritmtica es:

Como se puede comprobar sumando los elementos de la ltima columna,

Medias generalizadas En funcin del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aqu algunas de ellas aplicadas a unas observaciones x1, ..., xn: La media geomtrica , es la media de los logaritmos de los valores de la variable:

Luego

Si los datos estn agrupados en una tabla, entonces se tiene:

La media armnica , se define como el recproco de la media aritmtica de los recprocos, es decir,

Por tanto,

La media cuadrtica , es la raz cuadrada de la media aritmtica de los cuadrados:

MEDIANAConsideramos una variable discreta X cuyas observaciones en una tabla estadstica han sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de s al de las observaciones. Por tanto, si n es el nmero de observaciones, la mediana corresponder a la observacin [n/2]+1, donde representamos por la parte entera de un nmero. Figura: Clculo geomtrico de la mediana

En el caso de variables continuas, las clases vienen dadas por intervalos, y aqu la frmula de la mediana se complica un poco ms (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo estn el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolacin lineal (teorema de Thales).

Observacin La relacin Corresponde a definir para cada posible observacin, , su frecuencia relativa acumulada, F(x), por interpolacin lineal entre los valores F(lj-1) = Fj-1 y F(lj) = Fj de forma que

De este modo, Med es el punto donde . Esto equivale a decir que la mediana divide al histograma en dos partes de reas iguales a . Observacin Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimtricas. Es de clculo rpido y de interpretacin sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable nmero de hijos toma siempre valores enteros). Si una poblacin est formada por 2 subpoblaciones de medianas Med1 y Med2, slo se puede afirmar que la mediana, Med, de la poblacin est comprendida entre Med1 y Med2

El mayor defecto de la mediana es que tiene unas propiedades matemticas complicadas, lo que hace que sea muy difcil de utilizar en inferencia estadstica. Es funcin de los intervalos escogidos. Puede ser calculada aunque el intervalo inferior o el superior no tenga lmites. La suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o igual que cualquier otro valor. Este es el equivalente al teorema de Knig (proposicin 2.1) con respecto a la media, pero donde se considera como medida de dispersin a:

Ejemplo Sea X una variable discreta que ha presentado sobre una muestra las modalidades

Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media:

En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observacin extrema. Este no ha sido el caso para la mediana. Ejemplo Obtener la media aritmtica y la mediana en la distribucin adjunta. Determinar grficamente cul de los dos promedios es ms significativo. li-1 - lini

0 - 1060

10 - 2080

20 - 3030

30 - 10020

100 - 50010

Solucin: li-1 - liniaixixi niNi

0 - 10601053006060

10 - 208010151.20014080

20 - 3030102575017030

30 - 1002070651.3001902,9

100 - 500104003003.0002000,25

n=200

La media aritmtica es:

La primera frecuencia absoluta acumulada que supera el valor n/2=100 es Ni=140. Por ello el intervalo mediano es [10;20). As:

Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma de la distribucin, la mediana es ms representativa que la media. Figura: Para esta distribucin de frecuencias es ms representativo usar como estadstico de tendencia central la mediana que la media.

MODALa moda se suele definir como el valor ms frecuente. En el caso de una variable no agrupada, es el valor de la variable que ms se repite. En el caso de una variable agrupada por intervalos de igual amplitud se busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aproxima la moda por el valor obtenido al aplicar la frmula

donde: Li-1 es el lmite inferior del intervalo modal.

ni es la frecuencia absoluta del intervalo modal.

ni-1 es la frecuencia absoluta del intervalo anterior al intervalo modal.

ni+1 es la frecuencia absoluta del intervalo posterior al intervalo modal.

ci es la amplitud del intervalo.

La moda cumple quePuede ser que exista ms de una moda. En dicho caso, se dice que la distribucin es bimodal, trimodal, ..., segn el nmero de valores que presentan la mayor frecuencia absoluta. La moda es menos representativa que la media, a excepcin de las distribuciones con datos cualitativos. Si los intervalos no tienen la misma amplitud, se busca el intervalo de mayor densidad de frecuencia (que es el cociente entre la frecuencia absoluta y la amplitud del intervalo: ) y se calcula con la frmula anterior. Llamaremos moda a cualquier mximo relativo de la distribucin de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Figura: Clculo geomtrico de la moda

En el caso de variables continuas es ms correcto hablar de intervalos modales. Una vez que este intervalo, (li-1, li], se ha obtenido, se utiliza la siguiente frmula para calcular la moda, que est motivada en la figura 2.4:

Observacin De la moda destacamos las siguientes propiedades: Es muy fcil de calcular. Puede no ser nica. Es funcin de los intervalos elegidos a travs de su amplitud, nmero y lmites de los mismos. Aunque el primero o el ltimo de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada.

3.3 Medidas de dispersin: Rango o amplitud de variacin, desviacin media, varianza y desviacin estandar, momentos y courtosis.

Imagina que tenemos 3 conjuntos de personas y nos dicen que en todos los casos, la media del peso es 55. Significa esto que los tres conjuntos de datos son iguales o similares? Conseguimos los datos originales y nos encontramos con que las observaciones son las siguientes:Grupo 1:55 55 55 55 55 55 55

Grupo 2:47 51 54 55 56 59 63

Grupo 3:39 47 53 55 57 63 71

vemos que, aunque la media es la misma, los conjuntos de datos son muy diferentes. Fjate si hacemos el diagrama de tallo y hojas lo que obtenemos5

5

5

5

5

5

5

34567

9

6

5

4

713

34567

7

5

97131

34567

Entonces cmo podemos detectar esas diferencias entre los conjuntos de datos? Parece que las medidas de centralizacin no nos proporcionan informacin suficiente en muchas situaciones, as que debemos encontrar alguna otra cantidad que nos diga cmo de lejos estn los datos entre ellos y de la media, es decir, nos surje la necesidad de medir la dispersin de los datos. Lo primero que vemos es que en el primer caso todos los datos son iguales, en el segundo hay ms diferencia entre el mayor y el menor, y en el tercero ms an que en el segundo. Exactamente tenemos que55-55=0

63-47=16

71-39=32

A esta cantidad la llamamos rango de los datos. Sin embargo, aunque es muy fcil de calcular, no se usa demasiado, porque si hay un slo valor muy grande o muy pequeo, el rango vara mucho, as que no siempre es una medida til. Cmo podramos encontrar un nmero que nos d una aproximacin de la distancia de los datos a la media? Pues podemos calcular todas las diferencias (en valor absoluto) entre las observaciones y la media y luego calcular la media de esas diferencias. A esta cantidad la llamamos desviacin media. Calculemos la desviacin media del grupo 2 de datos, tenemos

Sin embargo, habitualmente se usa otra medida de la variabilidad, que responde a la media de los cuadrados de las desviaciones de los datos respecto a la media, as conseguimos que las desviaciones mayores influyan ms que las pequeas. Pero vamos a ver la definicin rigurosa de todos estos conceptos.RANGORango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo.VARIANZAVarianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamao de la muestra.

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.COEFICIENTE DE ASIMETRA DE PEARSONDiremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coincidan. Claramente las distribuciones de los ejemplos de los niveles de colinesterasa y del n de hijos no son por tanto, simtricas. Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas) descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es asimtrica a la izquierda. Existen varias medidas de la asimetra de una distribucin de frecuencias. Aqu estudiaremos dos de ellas. a. Coeficiente de Asimetra de Pearson Se define como:

siendo cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y negativo cuando existe asimetra a la izquierda.En el ejemplo del nmero de hijos Ap es igual a

indicando una ligera asimetra a la izquierda en la distribucin de frecuencias correspondiente. De la misma manera, para el ejemplo de los niveles de colinesterasa tambin se observa una ligera asimetra a la izquierda, al ser

De la definicin se observa que este coeficiente solo se podr utilizar cuando la distribucin sea unimodal. La otra medida de asimetra que veremos no presenta este inconveniente

3.4 Muestreo aleatorio: simple, sistemtico, estratificado, por conglomerados

Introduccin al muestreo.a. Concepto e importanciaEs la actividad por la cual se toman ciertas muestras de una poblacin de elementos de los cuales vamos a tomar ciertos criterios de decisin, el muestreo es importante porque a travs de l podemos hacer anlisis de situaciones de una empresa o de algn campo de la sociedad.b. Terminologa bsica para el muestreoLos nuevos trminos, los cuales son frecuentemente usados en inferencia estadstica son:Estadstico:Un estadstico es una medida usada para describir alguna caracterstica de una muestra , tal como una media aritmtica, una mediana o una desviacin estndar de una muestra.Parmetro:Una parmetro es una medida usada para describir alguna caracterstica de una poblacin, tal como una media aritmtica, una mediana o una desviacin estndar de una poblacin.Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso de estimacin en inferencia estadstica puede ser descrito como le proceso de estimar un parmetro a partir del estadstico correspondiente, tal como usar una media muestral ( un estadstico para estimar la media de la poblacin (un parmetro).Los smbolos usados para representar los estadsticos y los parmetros, en ste y los siguientes captulos, son resumidos en la tabla siguiente:Tabla 1Smbolos para estadsticos y parmetros correspondientesMedida Smbolo para el estadstico Smbolo para el parmetro(muestra) (Poblacin)Media X Desviacin estndar s Nmero de elementos n NProporcin p PDistribucin en el muestreo:Cuando el tamao de la muestra (n) es ms pequeo que el tamao de la poblacin (N), dos o ms muestras pueden ser extradas de la misma poblacin. Un cierto estadstico puede ser calculado para cada una de las muestras posibles extradas de la poblacin. Una distribucin del estadstico obtenida de las muestras es llamada la distribucin en el muestreo del estadstico.Por ejemplo, si la muestra es de tamao 2 y la poblacin de tamao 3 (elementos A, B, C), es posible extraer 3 muestras ( AB, BC Y AC) de la poblacin. Podemos calcular la media para cada muestra. Por lo tanto, tenemos 3 medias mustrales para las 3 muestras. Las 3 medias mustrales forman una distribucin. La distribucin de las medias es llamada la distribucin de las medias mustrales, o la distribucin en el muestreo de la media. De la misma manera, la distribucin de las proporciones (o porcentajes) obtenida de todas las muestras posibles del mismo tamao, extradas de una poblacin, es llamada la distribucin en el muestreo de la proporcin.

Error Estndar:La desviacin estndar de una distribucin, en el muestreo de un estadstico, es frecuentemente llamada el error estndar del estadstico. Por ejemplo, la desviacin estndar de las medias de todas la muestras posibles del mismo tamao, extradas de una poblacin, es llamada el error estndar de la media. De la misma manera, la desviacin estndar de las proporciones de todas las muestras posibles del mismo tamao, extradas de una poblacin, es llamada el error estndar de la proporcin. La diferencia entre los trminos "desviacin estndar" y "error de estndar" es que la primera se refiere a los valores originales, mientras que la ltima est relacionada con valores calculados. Un estadstico es un valor calculado, obtenido con los elementos incluidos en una muestra.

Error muestral o error de muestreoLa diferencia entre el resultado obtenido de una muestra (un estadstico) y el resultado el cual deberamos haber obtenido de la poblacin (el parmetro correspondiente) se llama el error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la poblacin, sino que se toma una muestra para estimar las caractersticas de la poblacin. El error muestral es medido por el error estadstico, en trminos de probabilidad, bajo la curva normal. El resultado de la media indica la precisin de la estimacin de la poblacin basada en el estudio de la muestra. Mientras ms pequeo el error muestras, mayor es la precisin de la estimacin. Deber hacerse notar que los errores cometidos en una encuesta por muestreo, tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados como errores mustrales. Los errores no mustrales pueden tambin ocurrir en una encuesta completa de la poblacin.Mtodos de seleccin de muestras.Una muestra debe ser representativa si va a ser usada para estimar las caractersticas de la poblacin. Los mtodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y la naturaleza de los elementos individuales de la poblacin. Por lo tanto, se requiere una gran volumen para incluir todos los tipos de mtodos de muestreo.Los mtodos de seleccin de muestras pueden ser clasificados de acuerdo a:1. El nmero de muestras tomadas de una poblacin dada para un estudio y 1. La manera usada en seleccionar los elementos incluidos en la muestra. Los mtodos de muestreo basados en los dos tipos de clasificaciones son expuestos en seguida. Mtodos de muestreo clasificados de acuerdo con el nmero de muestras tomadas de una poblacin.Bajo esta clasificacin, hay tres tipos comunes de mtodos de muestreo. Estos son, muestreo simple, doble y mltiple.Muestreo simple

Este tipo de muestreo toma solamente una muestra de una poblacin dada para el propsito de inferencia estadstica. Puesto que solamente una muestra es tomada, el tamao de muestra debe ser los suficientemente grande para extraer una conclusin. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.Muestreo doble

Bajo este tipo de muestreo, cuando el resultado dele estudio de la primera muestra no es decisivo, una segunda muestra es extrada de la misma poblacin. Las dos muestras son combinadas para analizar los resultados. Este mtodo permite a una persona principiar con una muestra relativamente pequea para ahorrar costos y tiempo. Si la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse.Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, ser requerir la segunda muestra. Un plan tpico de muestreo doble puede ser obtenido de la Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada por el Departamento de Defensa y tambin usado por muchas industrias privadas. Al probar la calidad de un lote consistente de 3,000 unidades manufacturadas, cuando el nmero de defectos encontrados en la primera muestra de 80 unidades es de 5 o menos, el lote es considerado bueno y es aceptado; si el nmero de defectos es 9 o ms, el lote es considerado pobre y es rechazado; si el nmero est entre 5 y 9, no puede llegarse a una decisin y una segunda muestra de 80 unidades es extrada del lote. Si el nmero de defectos en las dos muestras combinadas (incluyendo 80 + 80 = 160 unidades) es 12 o menos, el lote es aceptado si el nmero combinado es 13 o ms, el lote es rechazado.Muestreo mltiple

El procedimiento bajo este mtodo es similar al expuesto en el muestreo doble, excepto que el nmero de muestras sucesivas requerido para llegar a una decisin es ms de dos muestras.Mtodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una muestra.Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:a. Basados en el juicio de una persona.b. Seleccin aleatoria (al azar)

Muestreo de juicio

Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilstica, puesto que este mtodo est basado en los puntos de vista subjetivos de una persona y la teora de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.Muestreo Aleatorio

Una muestra se dice que es extrada al azar cuando la manera de seleccin es tal, que cada elemento de la poblacin tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es tambin llamada una muestra probabilstica son generalmente preferidas por los estadsticos porque la seleccin de las muestras es objet