distribución de probabilidad.modelos de probabilidad

50
1 Estadística aplicada a la Educación (LCE-PCE) Unidad 5: Distribución de Probabilidad

Upload: roberto-dacuna

Post on 16-Dec-2015

265 views

Category:

Documents


0 download

DESCRIPTION

estadística

TRANSCRIPT

  • *Estadstica aplicada a la Educacin (LCE-PCE)Unidad 5: Distribucin de Probabilidad

    Tema 5: Modelos probabilsticos

  • Definiciones y conceptos Variable aleatoria: Es aquella cuyos valores surgen asignando nmeros a los resultados de un experimento aleatorio. Como los valores que asumen las variables aleatorias surgen de cuantificar eventos, podemos asignar una probabilidad a cada valor de la variable aleatoria. Es decir, si se tiene una variable X, cuyos posibles valores X1 , X2 , ........... , Xn , a los cuales podemos asociarles una probabilidad p1 , p2 , .............. pn , decimos que ha quedado definida una variable aleatoria.

    Las variables aleatorias pueden ser discretas o continuas *

  • *Variable aleatoriaEl resultado de un experimento aleatorio puede ser descrito en ocasiones como una cantidad numrica.

    En estos casos aparece la nocin de variable aleatoriaFuncin que asigna a cada suceso un nmero.

    Las variables aleatorias pueden ser discretas o continuas (como en el primer tema del curso).

    En las siguientes transparencias vamos a recordar conceptos de temas anteriores, junto con su nueva designacin. Los nombres son nuevos. Los conceptos no.

  • Distribuciones discretas

    Las distribuciones discretas son aquellas en las que la variable puede tomar un nmero determinado de valores, provienen de espacios muestrales discretos cuya caracterstica principal es que surgen del hecho de contar. Se representan por el conjunto de nmeros enteros, los naturales y el cero, no admiten en la observacin valores de la variable con decimales. Por ejemplo: si se tira un dado puede salir un nmero de 1 al 6; en una ruleta el nmero puede tomar un valor del 1 al 32; una familia puede no tener hijos (0 hijos) o puede tener 1, 2, 3, ..10 hijos, nunca podran tener 1,5 hijos. Como los valores de probabilidad surgen de cuantificar todos los resultados posibles de un experimento aleatorio, la suma de las probabilidades debe se igual a uno:

    *

  • *Funcin de probabilidad (V. Discretas)Asigna a cada posible valor de una variable discreta su probabilidad.Recuerda los conceptos de frecuencia relativa y diagrama de barras.EjemploNmero de caras al lanzar 3 monedas.

  • Distribuciones continuas

    Las distribuciones continuas son aquellas que provienen de espacios muestrales continuos cuya caracterstica principal es que surgen del hecho de medir. Se representan por el conjunto de nmeros reales, admiten infinitos valores intermedios como puntos en un segmento de lnea. Por ejemplo: el peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (de 42 a menos de 45 kg, de 45 a menos de 48, etc.); la esperanza media de vida de una poblacin (72,5 aos, 75,13 aos, 72, 51234 aos). Al tener la variable infinitos valores, se puede calcular la probabilidad que valores particulares de la variable aleatoria ocurran dentro de ciertos rangos o intervalos considerando la funcin matemtica que se conoce con el nombre de funcin de densidad de probabilidad: f (x). *

  • *Funcin de densidad (V. Continuas)DefinicinEs una funcin no negativa de integral 1.Pinsalo como la generalizacin del histograma con frecuencias relativas para variables continuas.

    Para qu lo voy a usar?Nunca lo vas a usar directamente.Sus valores no representan probabilidades.

  • *Para qu sirve la f. densidad?Muchos procesos aleatorios vienen descritos por variables de forma que son conocidas las probabilidades en intervalos.

    La integral definida de la funcin de densidad en dichos intervalos coincide con la probabilidad de los mismos.

    Es decir, identificamos la probabilidad de un intervalo con el rea bajo la funcin de densidad.

  • *Funcin de distribucinEs la funcin que asocia a cada valor de una variable, la probabilidad acumulada de los valores inferiores o iguales.

    Pinsalo como la generalizacin de las frecuencias acumuladas. Diagrama integral.

    A los valores extremadamente bajos les corresponden valores de la funcin de distribucin cercanos a cero.

    A los valores extremadamente altos les corresponden valores de la funcin de distribucin cercanos a uno.

    Lo encontraremos en los artculos y aplicaciones en forma de p-valor, significacin,No le deis ms importancia a este comentario ahora. Ya os ir sonando conforme avancemos.

  • *Para qu sirve la f. distribucin?Contrastar lo anmalo de una observacin concreta.

    S que una persona de altura 210cm es anmala porque la funcin de distribucin en 210 es muy alta.S que una persona adulta que mida menos de 140cm es anmala porque la funcin de distribucin es muy baja para 140cm.

    S que una persona que mida 170cm no posee una altura nada extraa pues su funcin de distribucin es aproximadamente 0,5.

    En otro contexto (contrastes de hiptesis) podremos observar unos resultados experimentales y contrastar lo anmalos que son en conjunto con respecto a una hiptesis de terminada.

    Las distribuciones quedan definidas a travs de sus parmetros: esperanza matemtica, varianza y desvo estndar.

  • *Valor esperado y varianza de una v.a. XValor esperado o Esperanza Matemtica Se representa mediante E[X] Es el equivalente a la media

    VarianzaSe representa mediante VAR[X] o 2 Es el equivalente a la varianzaSe llama desviacin tpica a Para variables aleatorias discretas: Para variables aleatorias continuas:

  • *Algunos modelos de v.a.Hay v.a. que aparecen con frecuencia en las Ciencias de la Educacin.Experimentos dicotmicos.Bernoulli

    Contar xitos en experimentos dicotmicos repetidos:BinomialPoisson (sucesos raros)

    Y en otras muchas ocasionesDistribucin normal (gaussiana, campana,)

    El resto del tema est dedicado a estudiar estas distribuciones especiales.

  • *Distribucin de BernoulliTenemos un experimento de Bernoulli si al realizar un experimentos slo son posibles dos resultados:X=1 (xito, con probabilidad p)X=0 (fracaso, con probabilidad q=1-p)Verificndose que: p + q = 1

    Lanzar una moneda y que salga cara.p=1/2Elegir una persona de la poblacin y que est enfermo.p=1/1000 = prevalencia de la enfermedadAplicar un tratamiento a un enfermo y que ste se cure.p=95%, probabilidad de que el individuo se cure

    Como se aprecia, en experimentos donde el resultado es dicotmico, la variable queda perfectamente determinada conociendo el parmetro p.

  • *Ejemplo de distribucin de Bernoulli.Se ha observado estudiando 2000 accidentes de trfico con impacto frontal y cuyos conductores no tenan cinturn de seguridad, que 300 individuos quedaron con secuelas. Describa el experimento usando conceptos de v.a.

    Solucin.La noc. frecuentista de prob. nos permite aproximar la probabilidad de tener secuelas mediante 300/2000=0,15=15%

    X=tener secuelas tras accidente sin cinturn es variable de BernoulliX=1 tiene probabilidad p 0,15X=0 tiene probabilidad q 0,85

  • *Ejemplo de distribucin de Bernoulli.Se ha observado estudiando 2000 accidentes de trfico con impacto frontal y cuyos conductores s tenan cinturn de seguridad, que 10 individuos quedaron con secuelas. Describa el experimento usando conceptos de v.a.

    Solucin.La noc. frecuentista de prob. nos permite aproximar la probabilidad de quedar con secuelas por 10/2000=0,005=0,5%

    X=tener secuelas tras accidente usando cinturn es variable de BernoulliX=1 tiene probabilidad p 0,005X=0 tiene probabilidad q 0,995

  • *ObservacinEn los dos ejemplos anteriores hemos visto cmo enunciar los resultados de un experimento en forma de estimacin de parmetros en distribuciones de Bernoulli.Sin cinturn: p 15%Con cinturn: p 0,5%

    En realidad no sabemos en este punto si ambas cantidades son muy diferentes o aproximadamente iguales, pues en otros estudios sobre accidentes, las cantidades de individuos con secuelas hubieran sido con seguridad diferentes.

    Para decidir si entre ambas cantidades existen diferencias estadsticamente significativas necesitamos introducir conceptos de estadstica inferencial (extrapolar resultados de una muestra a toda la poblacin).

    Es muy pronto para resolver esta cuestin ahora. Esperemos a las pruebas de X2.

  • *Distribucin BinomialSi se repite un nmero fijo de veces, n, un experimento de Bernoulli con parmetro p, el nmero de xitos sigue una distribucin binomial de parmetros (n,p).Condiciones que debe cumplir son: El experimento consiste en n intentos repetidos. Los resultados de cada uno de los intentos pueden clasificarse como un xito o como un fracaso. La probabilidad de xito, representada por p, permanece constante para todos los intentos. Los intentos repetidos son independientes.

    La distribucin de probabilidad para este tipo de distribucin basada en experimentos de Bernoulli, donde estudiamos el comportamiento de la variable aleatoria binomial X, el nmero de xitos en n experimentos independientes, sigue el siguiente modelo:

  • *Distribucin binomialFuncin de probabilidad

    Problemas de clculo si n es grande y/o p cercano a 0 o 1.

    Media: =n p

    Varianza: 2 = n p q

  • Distribucin Binomial (ver ejemplo 2 en pdf pg 16)Ejemplo 1 En cierto sector de una empresa el 75% de los accidentes se deben a la falta de sealizacin adecuada Cul es la probabilidad de que dentro de los prximos 8 accidentes, exactamente 4 se deban a la falta de sealizacin?

    "k" es el nmero de xitos. En este ejemplo " k " igual a 4 (en cada xito decimos que la variable toma el valor 1: como son 4 xitos, entonces k = 4) "n" es el nmero de intentos. En el caso planteado n = 8

    "p" es la probabilidad de xito, es decir, que los accidentes de deban a la falta de sealizacin adecuada. Por lo tanto p = 0,75

    La probabilidad de que 4 de los prximos 8 accidentes se deban a la falta de sealizacin es del 8,652%.

    *

  • En una distribucin binomial, tenemos que:

    Aplicando la frmula de la esperanza matemtica para la distribucin binomial en el ejercicio que se est estudiando:

    Este resultado debe interpretarse como: Se espera que en los prximos 8 accidentes, 6 se deban a la falta de sealizacin Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.

    Tema 5: Modelos probabilsticos

  • Continuando con el ejemplo anterior si queremos conocer Cul es la probabilidad de que menos de 4 accidentes se deban a la razn antes indicada? En este caso nos pide P(x
  • *Distribucin de PoissonTambin se denomina de sucesos raros.Se obtiene como aproximacin de una distribucin binomial con la misma media, para n grande (n>30) y p pequeo (p
  • Cuando la variable aleatoria X representa el nmero de resultados durante un intervalo de tiempo dado o una regin especfica nos encontramos frente a experimentos de Poisson.

    Generalmente cuando en una distribucin binomial se realiza el experimento un nmero "n" muy elevado de veces y la probabilidad de xito "p" en cada ensayo es reducida, entonces se aplica el modelo de distribucin de Poisson.

    El proceso de Poisson tiene las siguientes caractersticas: El nmero de ocurrencias en dos intervalos de tiempo disjuntos son independientes. La probabilidad de exactamente una ocurrencia en un intervalo de tiempo muy pequeo es proporcional a la longitud del intervalo y no depende del intervalo en particular. La probabilidad de tener ms de una ocurrencia en un intervalo de tiempo particular muy pequeo es despreciable.

    *

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Ejemplos de variables de Poisson. Ver ej. en pdf pg. 22El nmero de individuos que ser atendido un da cualquiera en el servicio de urgencias del hospital clnico universitario.En Mlaga hay 500.000 habitantes (n grande)La probabilidad de que cualquier persona tenga un accidente es pequea, pero no nula. Supongamos que es 1/10.000Bin(n=500.000,p=1/10.000) Poisson(=np=50)

    Sospechamos que diferentes hospitales pueden tener servicios de traumatologa de diferente calidad (algunos presentan pocos, pero creemos que an demasiados, enfermos con secuelas tras la intervencin). Es dificil compararlos pues cada hospital atiende poblaciones de tamaos diferentes (ciudades, pueblos,)Tenemos en cada hospital n, n de pacientes atendidos o n individuos de la poblacin que cubre el hospital.Tenemos p pequeo calculado como frecuencia relativa de secuelas con respecto al total de pacientes que trata el hospital, o el tamao de la poblacin,Se puede modelar mediante Poisson(=np)

    Tema 5: Modelos probabilsticos

  • *Distribucin normal o de GaussAparece de manera natural:Errores de medida.Distancia de frenado. Altura, peso, propensin al crimenDistribuciones binomiales con n grande (n>30) y p ni pequeo (np>5) ni grande (nq>5).Est caracterizada por dos parmetros: La media, , y la desviacin tpica, . Su funcin de densidad es:

    A no asustarse la aplicacin en la prctica es de clculo sencillo, utilizando la tabla de la distribucin normal.

  • *Distribucin normal o de GaussLa teora de probabilidades se basa en el estudio de este tipo de distribuciones, es el modelo de distribucin ms utilizado en la prctica, ya que una multitud de fenmenos se comportan segn una distribucin normal. Esta distribucin de caracteriza porque los valores se distribuyen formando una campana de Gauss, en torno a un valor central que coincide con el valor medio de la distribucin

  • La distribucin normal viene definida por dos parmetros: X ~ N (, 2)

    : como ya lo expusimos es el valor medio de la distribucin y precisamente all es donde se sita el centro de la curva (de la campana de Gauss).

    2 : es la varianza, indica si los valores estn ms o menos alejados del valor central: si la varianza es baja los valores estn prximos a la media; si es alta, entonces los valores estn muy dispersos.

    Cuando la = 0 y = 1 la distribucin se denomina normal estndar, y su ventaja reside en tablas donde se recogemos la probabilidad acumulada para cada punto de la curva. Adems, toda distribucin normal se puede transformar en una normal estndar empleando una frmula de transformacinTema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.N(, ): Interpretacin geomtricaPodis interpretar la media como un factor de traslacin.

    Y la desviacin tpica como un factor de escala, grado de dispersin,

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.N(, ): Interpretacin probabilistaEntre la media y una desviacin tpica tenemos siempre la misma probabilidad: aprox. 68%

    Entre la media y dos desviaciones tpicas aprox. 95%

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Algunas caractersticasLa funcin de densidad es simtrica, mesocrtica y unimodal.Media, mediana y moda coinciden.

    Los puntos de inflexin de la fun. de densidad estn a distancia de .

    Si tomamos intervalos centrados en , y cuyos extremos estna distancia , tenemos probabilidad 68%a distancia 2 , tenemos probabilidad 95%a distancia 25 tenemos probabilidad 99%

    No es posible calcular la probabilidad de un intervalo simplemente usando la primitiva de la funcin de densidad, ya que no tiene primitiva expresable en trminos de funciones comunes.

    Todas las distribuciones normales N(, ), pueden ponerse mediante una traslacin , y un cambio de escala , como N(0,1). Esta distribucin especial se llama normal tipificada.Justifica la tcnica de tipificacin, cuando intentamos comparar individuos diferentes obtenidos de sendas poblaciones normales.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.TipificacinDada una variable de media y desviacin tpica , se denomina valor tipificado,z, de una observacin x, a la distancia (con signo) con respecto a la media, medido en desviaciones tpicas, es decir

    En el caso de variable X normal, la interpretacin es clara: Asigna a todo valor de N(, ), un valor de N(0,1) que deja exctamente la misma probabilidad por debajo.

    Nos permite as comparar entre dos valores de dos distribuciones normales diferentes, para saber cul de los dos es ms extremo.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Tabla N(0,1)Z es normal tipificada.

    Calcular P[Z

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Tabla N(0,1)Z es normal tipificada.

    Calcular P[Z

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Tabla N(0,1)Z es normal tipificada.

    Calcular P[-0,54

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Ejemplo: Clculo con probabilidades normales. Ver otros ej en pdf pag.35

    El colesterol en la poblacin tiene distribucin normal, con media 200 y desviacin 10.

    Qu porcentaje de indivduos tiene colesterol inferior a 210?

    Qu valor del colesterol slo es superado por el 10% de los individuos.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Todas las distribuciones normales son similares salvo traslacin y cambio de escala: Tipifiquemos.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.El valor del colesterol que slo supera el 10% de los individuos es el percentil 90. Calculemos el percentil 90 de la N(0,1) y deshacemos la tipificacin.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Ejemplo: TipificacinSe quiere dar una beca a uno de dos estudiantes de sistemas educativos diferentes. Se asignar al que tenga mejor expediente acadmico.El estudiante A tiene una calificacin de 8 en un sistema donde la calificacin de los alumnos se comporta como N(6,1).El estudiante B tiene una calificacin de 80 en un sistema donde la calificacin de los alumnos se comporta como N(70,10).SolucinNo podemos comparar directamente 8 puntos de A frente a los 80 de B, pero como ambas poblaciones se comportan de modo normal, podemos tipificar y observar las puntuaciones sobre una distribucin de referencia N(0,1)

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Como ZA>ZB, podemos decir que el porcentaje de compaeros del mismo sistema de estudios que ha superado en calificacin el estudiante A es mayor que el que ha superado B.Podramos pensar en principio que A es mejor candidato para la beca.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Por qu es importante la distribucin normal?Las propiedades que tiene la distribucin normal son interesantes, pero todava no hemos hablado de por qu es una distribucin especialmente importante.

    La razn es que aunque una v.a. no posea distribucin normal, ciertos estadsticos/estimadores calculados sobre muestras elegidas al azar s que poseen una distribucin normal.

    Es decir, tengan las distribucin que tengan nuestros datos, los objetos que resumen la informacin de una muestra, posiblemente tengan distribucin normal (o asociada).

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Aplic. de la normal: Estimacin en muestrasComo ilustracin mostramos una variable que presenta valores distribuidos de forma muy asimtrica. Claramente no normal.

    Saquemos muestras de diferentes tamaos, y usemos la media de cada muestra para estimar la media de la poblacin.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Aplic. de la normal: Estimacin en muestrasCada muestra ofrece un resultado diferente: La media muestral es variable aleatoria.

    Su distribucin es ms parecida a la normal que la original.

    Tambin est menos dispersa. A su dispersin (desv. tpica del estimador media muestral os gusta el nombre largo?) se le suele denominar error tpico.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Aplic. de la normal: Estimacin en muestrasAl aumentar el tamao, n, de la muestra:

    La normalidad de las estimaciones mejora

    El error tpico disminuye.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Aplic. de la normal: Estimacin en muestrasPuedo garantizar medias muestrales tan cercanas como quiera a la verdadera media, sin ms que tomar n bastante grande

    Se utiliza esta propiedad para dimensionar el tamao de una muestra antes de empezar una investigacin.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Resumen: Teorema del lmite centralDada una v.a. cualquiera, si extraemos muestras de tamao n, y calculamos los promedios muestrales, entonces:

    dichos promedios tienen distribucin aproximadamente normal;

    La media de los promedios muestrales es la misma que la de la variable original.

    La desviacin tpica de los promedios disminuye en un factor raz de n (error estndar).

    Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.

    Este teorema justifica la importancia de la distribucin normal.

    Sea lo que sea lo que midamos, cuando se promedie sobre una muestra grande (n>30) nos va a aparecer de manera natural la distribucin normal.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Distribuciones asociadas a la normalCuando queramos hacer inferencia estadstica hemos visto que la distribucin normal aparece de forma casi inevitable.

    Dependiendo del problema, podemos encontrar otras (asociadas):X2 (chi cuadrado)t- studentF-Snedecor

    Estas distribuciones resultan directamente de operar con distribuciones normales. Tpicamente aparecen como distribuciones de ciertos estadsticos.

    Veamos algunas propiedades que tienen (superficialmente). Para ms detalles consultad el manual.

    Sobre todo nos interesa saber qu valores de dichas distribuciones son atpicos.Significacin, p-valores,

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Chi cuadradoTiene un slo parmetro denominado grados de libertad.

    La funcin de densidad es asimtrica positiva. Slo tienen densidad los valores positivos.

    La funcin de densidad se hace ms simtrica incluso casi gausiana cuando aumenta el nmero de grados de libertad.

    Normalmente consideraremos anmalos aquellos valores de la variable de la cola de la derecha.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.T de studentTiene un parmetro denominado grados de libertad.

    Cuando aumentan los grados de libertad, ms se acerca a N(0,1).

    Es simtrica con respecto al cero.

    Se consideran valores anmalos los que se alejan de cero (positivos o negativos).

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.F de SnedecorTiene dos parmetros denominados grados de libertad.

    Slo toma valores positivos. Es asimtrica.

    Normalmente se consideran valores anmalos los de la cola de la derecha.

    Tema 5: Modelos probabilsticos

  • Tema 5: Modelos probabilsticos*Bioestadstica. U. Mlaga.Qu hemos visto?En v.a. hay conceptos equivalentes a los de temas anteriores Funcin de probabilidad Frec. Relativa.Funcin de densidad histogramaFuncin de distribucin diagr. Integral.Valor esperado media, Hay modelos de v.a. de especial importancia:BernoulliBinomialPoissonNormalPropiedades geomtricasTipificacinAparece tanto en problemas con variables cualitativas (dicotmicas, Bernoulli) como numricasDistribuciones asociadasT-studentX2F de Snedecor

    Tema 5: Modelos probabilsticos

    ******************************************