probabilidad-muestreo

13

Click here to load reader

Upload: abel-catalan

Post on 05-Nov-2015

216 views

Category:

Documents


0 download

DESCRIPTION

probabilidad

TRANSCRIPT

  • MODELOS DE PROBABILIDAD Y MUESTREOALEATORIOJulian de la Horra

    Departamento de Matematicas U.A.M.

    1 Introduccion

    La Estadstica Descriptiva nos ofrece una serie de herramientas muy utilespara resumir grafica y numericamente los datos que hemos obtenido sobre unacaracterstica o variable de interes, X, de una poblacion. Estos resumenesson muy interesantes, pero el objetivo de la Estadstica habitualmente vamas alla: pretende obtener conclusiones sobre la poblacion a partir de losdatos obtenidos en la muestra. La obtencion de conclusiones sera el objetivode la Inferencia Estadstica y para su desarrollo necesitaremos los modelos deprobabilidad. En particular, sera necesario modelizar las variables de interes,X, como variables aleatorias. En este captulo, presentaremos el concepto devariable aleatoria (discreta y continua), y los modelos de probabilidad masutilizados en la practica. Finalmente, introduciremos las caractersticas quedebe poseer una muestra aleatoria, para que podamos obtener conclusionesrazonadas sobre toda la poblacion.

    2 Variables aleatorias discretas

    Una variable aleatoria discreta es una modelizacion de una caracterstica Xde tipo discreto.

    Recordemos que una caracterstica X es de tipo discreto cuando puedetomar una serie de valores claramente separados x1, ..., xk. En una muestraconcreta de tamano n, cada uno de estos valores aparece n1, ..., nk veces(frecuencias absolutas). La frecuencia relativa de cada valor es fi = ni/n.

    Definicion.- Una variable aleatoria, X, decimos que es de tipo dis-creto cuando puede tomar los valores x1, ..., xk con probabilidades P (x1), ...,P (xk). Estas probabilidades reciben el nombre de funcion de masa ofuncion de probabilidad.

    Las probabilidades son la modelizacion en la poblacion de las frecuenciasrelativas. Igual que las frecuencias relativas, las probabilidades son numerosentre 0 y 1, y la suma de las probabilidades es 1.

    1

  • Ejemplo.- Consideremos la variable X=Resultado obtenido al lanzarun dado corriente con seis caras. Podemos enfrentarnos a esta variable dedos maneras diferentes:

    1. Datos muestrales. Lanzamos el dado n veces, y anotamos los resul-tados: obtenemos n1 veces el numero 1,...,n6 veces el numero 6. Lafrecuencia relativa con la que hemos obtenido el valor i es fi = ni/n. Silanzamos el dado muchas veces, seguramente las frecuencias relativasseran todas ellas bastante parecidas a 1/6, si el dado esta equilibrado.

    2. Modelo teorico. Consideramos la variable X=Resultado obtenidocomo una variable aleatoria discreta que puede tomar los valores 1,...,6,cada uno de ellos con probabilidad 1/6.

    Cuando trabajabamos con variables discretas en Estadstica Descriptiva,podamos calcular la media muestal y la varianza muestral. Si obtenamoslos valores x1, ..., xk, n1, ..., nk veces, respectivamente, tenamos:

    Media muestral = x =1

    n

    ki=1

    nixi =ki=1

    fixi

    Varianza muestral = vx =1

    n

    ki=1

    ni(xi x)2 =ki=1

    fi(xi x)2

    Las definiciones de media y varianza para una variable aleatoria discretasiguen la misma filosofa, sustituyendo frecuencias relativas por probabili-dades.

    Definiciones.- Consideramos una variable aleatoria discretaX que puedetomar los valores x1, ..., xk con probabilidades P (x1), ..., P (xk).

    La media o esperanza de X se define como:

    = E[X] =ki=1

    xiP (xi)

    La varianza de X se define como:

    2 = V (X) =ki=1

    (xi E[X])2P (xi) = ... =ki=1

    x2iP (xi) (E[X])2

    2

  • 3 Variables aleatorias continuas

    Una variable aleatoria continua es una modelizacion de una caracterstica Xde tipo continuo.

    Recordemos que una caracterstica X es de tipo continuo cuando puedetomar cualquier valor en un intervalo de la recta real. En una muestra conc-reta de tamano n, los valores obtenidos se pueden representar graficamente,en un diagrama de tallos y hojas o en un histograma, obteniendo as el perfilde los datos.

    Definicion.- Una variable aleatoria, X, decimos que es de tipo con-tinuo cuando puede tomar cualquier valor en un intervalo de la recta realcon una funcion de densidad f(x) que representa la idealizacion en lapoblacion del perfil obtenido a partir de los datos en el diagrama de tallos yhojas o en el histograma.

    Las propiedades basicas de cualquier funcion de densidad son las sigu-ientes:

    1. f(x) 0 (las frecuencias relativas tampoco podan ser negativas).2.< f(x)dx = 1 (las frecuencias relativas tambien sumaban uno).

    3. P (X I) = I f(x)dx (la funcion de densidad sirve para calcular laprobabilidad de que la variable aleatoria X tome valores en un intervaloI que nos interese).

    La media y la varianza de una variable aleatoria continua se definen comoen el caso discreto, sustituyendo las probabilidades por la funcion de densi-dad:

    Definiciones.- Consideramos una variable aleatoria continuaX con funcionde densidad f(x).

    La media o esperanza de X se define como:

    = E[X] = z) para z > 0.

    Ejemplo.- Consideramos la variable aleatoria Z con distribucion N0; 1).Tenemos:

    P (Z > 1, 42) = 0, 07780.P (Z > 3, 5) = 2, 33E 04 = 0, 000233.P (Z < 1, 36) = 1 P (Z > 1, 36) = 1 0, 08691 = 0, 91309.

    9

  • Ejemplo.- Consideramos la variable aleatoria X con distribucion N( =5; = 4). Tenemos:

    P (X > 7) = P(X 5

    4>

    7 54

    )= P (Z > 0, 50) = 0, 30854.

    P (1 < X < 7) = P(1 5

    4 150) P (Z > 050)= 1 006681 030854 = 062465.

    La distribucion exponencial es un modelo de probabilidad sencillo que seutiliza muy a menudo para modelizar tiempos de vida de seres vivos, tiemposde vida util de piezas,...

    Definicion.- El modelo exponencial de parametro ( > 0), querepresentaremos abreviadamente por Exp (), es el modelo de probabilidadcaracterizado por la funcion de densidad:

    f(x) =

    {ex para x > 00 en el resto

    Utilizando las definiciones y la integracion por partes, obtendramos:

    E[X] =1

    ; V (X) =

    1

    2

    5 Muestreo aleatorio y estadsticos

    El objetivo de la Inferencia Estadstica es obtener conclusiones sobrealguna caracterstica cuantitativa de una poblacion a partir de los datosobtenidos en una muestra. Para poder hacer esto de una forma objetiva ycientfica necesitamos modelizar, tanto la caracterstica que queremos estu-diar, como la muestra con los datos que nos suministraran la informacion.

    Veamos un par de ejemplos:

    Ejemplo 1.- Estamos interesados en estudiar la proporcion, p, de per-sonas en una poblacion que tienen el nivel de colesterol por encima de 200unidades. No se puede abordar el estudio en toda la poblacion porque elnumero total de individuos es muy grande.

    10

  • En primer lugar, modelizamos la variable aleatoria que nos va a resultarutil en este estudio:

    X =

    {1 (nivel superior a 200) con probabilidad p0 (nivel inferior a 200) con probabilidad 1 p

    } Bernoulli (p)

    Destaquemos que el modelo de probabilidad que utilizamos para X esconocido (conocemos su funcion de probabilidad), y solo nos falta por conocerel valor del parametro p.

    Este clase de modelizacion sera la que utilicemos siempre que queramosestudiar una probabilidad, una proporcion o un porcentaje.

    Para poder hacer afirmaciones objetivas y sensatas sobre el parametro p,necesitamos datos. Elegiremos n individuos independientes y represen-tativos de la poblacion, y anotaremos si su nivel de colesterol es superioro inferior a 200 unidades. Enseguida se precisara que significa indepen-dientes y representativos. Una muestra con estos requisitos recibira elnombre de muestra aleatoria.

    Ejemplo 2.- Estamos interesados en estudiar el nivel medio de colesterol,, de las personas de una poblacion. No se puede abordar el estudio en todala poblacion porque el numero total de individuos es muy grande.

    En primer lugar, modelizamos la variable aleatoria que nos va a resultarutil en este estudio. Por ejemplo:

    X= Nivel de colesterol N(;)Destaquemos que el modelo de probabilidad que utilizamos para X es

    conocido (conocemos su funcion de densidad), y solo nos falta por conocer elvalor de los parametros y . El parametro que nos interesa especialmenteen este caso es .

    Para poder hacer afirmaciones objetivas y sensatas sobre el parametro ,necesitamos datos. Elegiremos n individuos independientes y represen-tativos de la poblacion, y anotaremos su nivel de colesterol. Enseguida seprecisara que significa independientes y representativos. Una muestracon estos requisitos recibira el nombre de muestra aleatoria.

    Estos ejemplos, y otros similares, se pueden plantear de un modo general:

    Definicion (modelizacion de la caracterstica).- Consideraremosque la caracterstica X que se quiere estudiar en una poblacion esuna variable aleatoria (discreta o continua) que puede ser modelizadapor una funcion de probabilidad P(x) (en el caso discreto), o por una funcionde densidad f(x) (en el caso continuo), donde es el nombre generico que

    11

  • daremos al parametro (con una o varias componentes) que identifican el mod-elo de probabilidad con el que estamos trabajando.

    El modelo de probabilidad es conocido, pero nos falta por conocer el valordel parametro .

    Definicion (modelizacion de la muestra).- Una muestra aleatoria(o muestra aleatoria simple) de tamano n de una caracterstica X de unapoblacion modelizada con una funcion de masa P(x) (en el caso discreto) ocon una funcion de densidad f(x) (en el caso continuo) es un conjunto deobservaciones (X1, . . . , Xn) donde:

    1. Cada observacionXi es representativa de la poblacion de procedencia(los valores mas frecuentes en la poblacion apareceran con mas frecuen-cia en la muestra).

    Esto se formaliza diciendo que el modelo de probabilidad de cada obser-vacion Xi es el modelo de la caracterstica X que estamos estudiandoen la poblacion.

    2. Las observaciones X1, . . . , Xn son independientes. Intuitivamente,esto significa una de las dos siguientes cosas:

    (a) El muestreo se realiza con reemplazamiento.

    (b) El muestreo se realiza sin reemplazamiento, pero el tamano mues-tral es pequeno en comparacion con el tamano de la poblacion, demodo que, en la practica, es como si fuera con reemplazamiento.

    Formalmente, todo lo anterior se puede resumir de la siguiente forma:

    Funcion de probabilidad de la muestra (caso discreto):

    P(x1, ..., xn) = P(x1)...P(xn)

    Funcion de densidad de la muestra (caso continuo):

    f(x1, ..., xn) = f(x1)...f(xn)

    Finalmente, indiquemos que hay otros tipos de muestreo, aunque aquvamos a limitarnos al muestreo aleatorio.

    12

  • Definicion.- Un estadstico es una funcion T de la muestra aleatoria(X1, . . . , Xn), que utilizaremos como resumen de esa muestra.

    Algunos de los estadsticos mas utilizados en todo tipo de situaciones sonlos siguientes:

    Media muestral=X = 1n

    ni=1Xi

    Varianza muestral=VX =1n

    ni=1(Xi X)2 = 1n

    [ni=1X

    2i nX2

    ]Cuasi-varianza muestral=S2 = 1

    n1n

    i=1(XiX)2 = 1n1[n

    i=1X2i nX2

    ]Muchos de estos estadsticos ya aparecieron en la Estadstica Descriptiva

    como resumenes de los datos de una muestra. Solo hay una diferencia (detipo tecnico): un estadstico puede considerarse como una variable aleatoriay en consecuencia podemos hablar de su esperanza, de su varianza, etc.

    Veamos algunas propiedades importantes de estos estadsticos:

    Propiedades.- Sea (X1, . . . , Xn) una muestra aleatoria de una carac-terstica X en una poblacion, con esperanza y varianza 2. Entonces:

    1. E[X] =

    2. V (X) = 2

    n

    3. E[S2] = 2

    4. E[VX ] =n1n2

    La tecnicas empleadas en la Inferencia Estadstica se agrupan en tresgrandes bloques, dependiendo de la naturaleza del problema que intentemosresolver y del tipo de solucion que demos: estimacion puntual, intervalosde confianza y contraste de hipotesis. Estos tres grandes bloques seestudiaran en los proximos temas.

    13