universidad del cema prof. jos é p dapena métodos cuantitativos iii – variable ... ·...

28
Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos 1 III – VARIABLE ALEATORIA Y DISTRIBUCIÓN DE PROBABILIDAD 3.1 Variable aleatoria Es un concepto que le adjunta propiedades probabilísticas a los resultados cuantitativos de un experimento. Cuando un experimento es llevado a cabo, se mide una o más variables como resultado del experimento. Por ejemplo, cuando una persona es muestreada aleatoriamente a partir de un grupo de personas, podemos medir diversas variables (altura, peso, edad, sexo 0 o 1, etc.). Similarmente, si una muestra química es el resultado de un experimento, entonces, para esa muestra, podremos medir % de varios consituyentes, temperatura. Ph, etc.). El valor de esas variables de interés no va a ser constante de una muestra a la otra, denominandose el mismo variable aleatoria. De aquí que variable aleatoria es el concepto de medida que adquiere un valor numérico particular para cada muestra. Por ejemplo si muestreamos cinco personas y medimos sus alturas, entonces la variable altura es la variable aleatoria de interés, y los cinco valores con los que contamos son las cinco realizaciones de nuestra variable. Es muy importantes tener un concepto claro y definido del significado de variable aleatoria para poder comprender los conceptos de muestra en los proximos capitulos. 3.2 La Distribución de Probabilidad El tratamiento de distribución de probabilidad varía de acuerdo a su carácter de continua o discreta de nuestra variable aleatoria, no obstante los tratamientos tienen muchos puntos en comun. Hemos visto que la variable aleatoria toma diferentes valores numéricos como resultado de pruebas. El set o conjunto de todos los posibles valores que puede tomar la variable es

Upload: others

Post on 05-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

1

III – VARIABLE ALEATORIA Y DISTRIBUCIÓN DE PROBABILIDAD

3.1 Variable aleatoria

Es un concepto que le adjunta propiedades probabilísticas a los resultados cuantitativos de

un experimento.

Cuando un experimento es llevado a cabo, se mide una o más variables como resultado del

experimento. Por ejemplo, cuando una persona es muestreada aleatoriamente a partir de un

grupo de personas, podemos medir diversas variables (altura, peso, edad, sexo 0 o 1, etc.).

Similarmente, si una muestra química es el resultado de un experimento, entonces, para esa

muestra, podremos medir % de varios consituyentes, temperatura. Ph, etc.). El valor de esas

variables de interés no va a ser constante de una muestra a la otra, denominandose el mismo

variable aleatoria. De aquí que variable aleatoria es el concepto de medida que adquiere un

valor numérico particular para cada muestra. Por ejemplo si muestreamos cinco personas y

medimos sus alturas, entonces la variable altura es la variable aleatoria de interés, y los

cinco valores con los que contamos son las cinco realizaciones de nuestra variable. Es muy

importantes tener un concepto claro y definido del significado de variable aleatoria para

poder comprender los conceptos de muestra en los proximos capitulos.

3.2 La Distribución de Probabilidad

El tratamiento de distribución de probabilidad varía de acuerdo a su carácter de continua o

discreta de nuestra variable aleatoria, no obstante los tratamientos tienen muchos puntos en

comun.

Hemos visto que la variable aleatoria toma diferentes valores numéricos como resultado de

pruebas. El set o conjunto de todos los posibles valores que puede tomar la variable es

Page 2: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

2

denominado el ESPACIO MUESTRAL. A continuación presentamos algunos ejemplos de

variables aleatorias y sus espacios muestrales:

Experimento Variable aleatoria Espacio Muestral

Se tira un dado Valor de la cara superior 1,2,3,4,5,6.

Se tira una moneda 5 veces Cantidad de caras obtenidas 0,1,2,3,4,5.

Una persona es muestreada Altura De 1,3 m a 2,1m

Pero podemos ir in paso adelante al describir las propiedades de la variable aleatoria,

considerando que habrá valores que poseen muchas mayores chances de ocurrir en el

espacio muestral que otros. Podemos expresar las chances a traves de la distribución de

probabilidad.

Para cada punto del espacio muestral podemos asociar una probabilidad que representa las

chances que tiene la variable aleatoria de tomar ese valor en particular. El conjunto

completo de valores del espacio muestral con sus probabilidades asociadas (que deben

sumar 1) es llamado la DISTRIBUCIÓN DE PROBABILIDAD de la variable aleatoria, y

es representada frecuentemente graficando las probabilidades en el eje de ordenadas al

origen y los valores del espacio muestral en el eje de abcisas.

Ejemplo Tirada de un dado

Valores r 1 2 3 4 5 6

Probabilidades pr 1/6 1/6 1/6 1/6 1/6 1/6

Esta es conocida como la distribución uniforme (caso discreto) y puede ser representada

como

pr = 1/6 r = 1,......., 6

Page 3: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

3

Ejemplo 2 Numero de caras al lanzar una moneda cinco veces

Valores r 0 1 2 3 4 5

Probabilidades pr .03 .16 .31 .31 .16 .03

Estes es un ejemplo de la distribución binomial, representada por

pr= 5Cr * (0.5)5; r= 0,....,5

La distribución de probabilidad posee una interpretación natural a través de las frecuencias;

si el experimento es repetido un gran número de veces, entonces la probabilidad de

cualquier valor en particular de la variable aleatoria es igual al límite de su frecuencia

relativa, a medida que el experiemento se hace mas grande.

Existen muchas distribuciónes de probabilidad que describen las chances de eventos de la

vida real, y forman la base de la inferencia estadística y análisis de datos. La distribución

Binomial y la Poisson son discutidas en el presente capítulo, mientras que la Normal y

otras importantes distribuciónes muestrales son tratadas posteriormente.

3.3 La Distribución Binomial

La distribución binomial se aplica a una serie de pruebas conocidas como pruebas de

Bernoulli. Estas poseen las siguientes propiedades:-

1. Cada prueba tiene asociada dos posibles resultados, usualmente conocidos como

éxito o fracaso.

Page 4: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

4

2. Las pruebas son independientes unas de otras.

3. La probabilidad de éxito de cada prueba es una constante “p”.

Noten que, usando la interpretación de frecuencia relativa de probabilidades, p puede ser

considerada como el limite de la frecuencia relativa de éxitos a medida que el número de

pruebas se hace mas grande.

Sea q = 1 – p = probabilidad de fracaso.

Ejemplo de pruebas de Bernoulli: sexo de bebes nacidos, clasificación de ítems en

defectuosos o no, votos a favor de un candidato.

De hecho, muchas situaciones se tornan pruebas de Bernoulli si estamos interesados en

clasificar los resultados en una de dos formas (Ej. La altura de una persona si es mayor a

1.70m o no)

La FUNCION DE PROBABILIDAD general para la Distribución Binomial es

pr= nCr * (p)r * (q)n-r r= 0,....,n

donde n es el número de pruebas de Bernoulli y p es la probabilidad de exitopara cada

prueba.

pr es la probabilidad que el numero de exitos en n intentos sea igual a r.

Esta fórmula puede ser utilizada para calcular probabilidades para cualquier Distribución

Binomial. Alternativamente, existen tablas estadísticas, y funciones incorporadas en

softwares que permiten realizar el cálculo de probabilidades y probabilidades acumuladas.

Esta última representa la probabilidad que una variable sea menor o igual a un valor r. Se

Page 5: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

5

sigue que fácilmente se puede calcular la función de probabilidad a partir de la función de

distribución y viceversa, usando la relación:

Fr = po + p1 + .....pr

pr = Fr - Fr-1, donde Fr es conocida como la Función de Distribución.

Ejemplo

Un broker de seguros cree a partir de datos históricos que para un contacto efectuado, la

probabilidad de cerra una venta es .4. Se define la variable X que tome el valor 1 si la venta

se cierra y 0 de otra manera. Este es un ejemplo de una variable Bernoulli. El broker tiene

previsto realizar cinco contactos. La variable X es ahora la cantidad de éxitos que tiene el

vendedor, y la distribución de probabilidad es

xxx xx

xP −

−= 5)6(.)4(.

)!5(!

!5)(

078.)6(.)4(.!5!0

!5)0()0( 50 === xPéxitosP

259.)6(.)4(.!4!1

!5)1()1( 41 === xPéxitoP

346.)6(.)4(.!3!2

!5)2()2( 32 === xPéxitosP

230..)6(.)4(.!2!3

!5)3()3( 23 === xPéxitosP

077.)6(.)4(.!1!4

!5)4()4( 14 === xPéxitosP

010.)6(.)4(.!0!5

!5)5()5( 05 === xPéxitosP

Page 6: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

6

3.4 La Distribución de Poisson

La distribución de Poisson se aplica a puntos aleatorios en un medio continuo (como puede

ser tiempo, distancia, área, volúmen, etc.)

Estos puntos aleatorios poseen las siguientes propiedades:

1. Cada punto tiene las mismas chances de ocurrir que cualquier punto en el medio

considerado.

2. La posición tomada por cada punto es completamente independiente de la

ocurrencia o no de otros puntos.

La variable aleatoria r de interés en esta situación es el número de puntos en una unidad en

particular del medio objeto de analisis.

Es facil pensar en ejemplos de procesos Poisson: Roturas de maquinas en el tiempo,

particulas en una mezcla, plantas dispersas en una plantacion, etc.

La FUNCION DE PROBABILIDAD general para la distribución de Poisson es

pr= λλn * exp (-λλ)/ r! r= 0, 1, 2....

donde λ es el número promedio de puntos por unidad del medio.

λ es conocido como el parámetro de Poisson. Nótese que, en teoría, no existe un límite

superior para r.

Esta fórmula puede ser utilizada para calcular probabilidades para cualquier Distribución

Binomial. Alternativamente, existen tablas estadísticas, y funciones incorporadas en

Page 7: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

7

softwares que permiten realizar el cálculo de probabilidades pr y probabilidades

acumuladas Fr.

Ejemplo

La distribución de Poisson ha sido exitósamente utilizada en Teoría de Colas (waiting line o

queuing problemes). Clientes arriban a un mostrador de recepción a una tasa promedio de

dos cada 5 minutos. Estos procesos de arribos pueden ser representados por una

distribución Poisson. Sea X el número de arribos en un período de 5 minutos, entonces X

tiene una distribución con media λ = 2 y función de probabilidad

para x = 0, 1, 2....

3.5 La aproximacion de Poisson a la Binomial

Cuando el número de pruebas en una situación Binomial es muy grande, y el valor p es

extremo, se puede demostrar que la función de probabilidad Binomial puede ser

aproximada por la función de probabilidad de Poisson con λ= np (o nq si q es pequeño).

Como una regla “a dedo”, n tiene que ser mayor a 30 y p tan extremo tal que np (o nq) debe

ser menor que 10.

Ejemplo : una compañía de seguros tomará un gran numero de pólizas de seguros de vida

de personas de cierto grupo de edad, y la probabilidad que una póliza en particular resulte

en un reclamo durante el año es muy baja. La distribución del número de reclamos es

binomial con un gran n y pequeño p.

!

)2()(

2

x

exP

x

x

=

Page 8: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

8

3.6 La Media Poblacional

Ciertas propiedades importantes de las distribuciónes surgen si consideramos promedios

ponderados por probabilidades de variables aleatoria, y de funciones de variables aleatorias.

Consideremos por ejemplo, como podríamos determinar la media de una variable aleatoria.

Sería ilógico tomar el promedio simple de todos los valores que la variable aleatoria puede

adoptar, porque significaría que valores con pocas chances de ocurrir tendrían las mismas

probabilidades asociadas que valores con muchas chances de ocurrir. La función obvia para

usar es el PROMEDIO PONDERADO POR PROBABILIDADES de los valores del

espacio muestral.

De ahí que si x1, x2, ....., xN son los posibles valores de la variable aleatoria, con sus

probabilidades asociadas p1, p2, ....., pN, entonces el promedio de la variable aleatoria es

definido como

x1 *p1 + x2 * p2 + .....+ xN * pN,

Este promedio tiene asociados diversos nombres, los mas comunes: media poblacional,

media de la variable aleatoria, media de la distribución, valor esperado de la variable

aleatoria, expectativa de la variable aleatoria.

Es una medida de localización, en este caso de la distribución, y es generalmente denotada

por µ. Otra notación útil es

E(R ) = valor esperado de R.

Tal que E() es una forma corta de escribir “promedio ponderado por probabilidad de...”

Page 9: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

9

Si la variable R sigue una distribución Binomial con tamaño muestral n y probabilidad de

éxito p, entonces

E(R ) = 0 * qn + 1 * nqn-1p + ....+ n * pn, y puede ser demostrado que es igual a np

Si r sigue una distribución Poisson con media λ, entonces ;

E(R ) = 0*exp(-λ) + λ * exp (-λ)+ .... + r* {λr * exp (-λ)/r!} + ....., y puede ser demostrado

que es igual a λ

3.7 La Varianza Poblacional

El concepto de promedio ponderado por probabilidad puede ser extendido a funciones de la

variable aleatoria, eg si R toma los valores x1, x2, ....xN, con sus probabilidades asociadas

p1, p2, ....., pN, entonces podemos definir

E(1/R) = p1* 1/x1 + p2 * 1/x2 +.....pN * 1/xN,

E(R2) = p1* x12 + p2 * x2

2 +.....pN * xN2,

Un promedio muy importante asociado con la distribución es el valor esperado del

cuadrado de las desviaciones de la variable aleatoria con respecto a su media

ie. si µ = E(R ) entonces tendremos

E{(R- µµ)2} = p1* (x1 - µµ)2 + p2 * (x2 - µµ)2 +.....pN * (xN - µµ)2,

Page 10: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

10

Esto puede ser visto como una medida de dispersión de la distribución, y es conocido como

la VARIANZA de la variable aleatoria o como la VARIANZA POBLACIONAL.

La raíz cuadrada de esta medida es conocida como la desviación estándar, siendo

representada por σ tal que la varianza es σ2

Una expresion alternativa para la Varianza es

Tenemos que σσ2 = E{(R - µµ)2} = E(R2 – 2 * R* µµ + µµ2)

E(R2) – 2* µµ2 + µµ2 = E(R2) – µµ2

Esta es una expresión muy importante para la varianza, que en palabras puede ser

expresada como

“La varianza es igual a la media del cuadrado de la variable, menos el cuadrado de la

media”

o

“El valor esperado del cuadrado de la variable aleatoria es igual a la varianza mas el

cuadrado de la media”

Una interpretación útil de las propiedades de los parámetros poblacionales es pensar en

ellos como el equivalente en el límite de los correspondientes estadísticos muestrales.

Supongamos que muestreamos n valores de la variable aleatoria R, r1, r2, ....rn. Entonces a

medida que

n ∞∞,

Page 11: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

11

la media muestral se hace equivalente a µ y la varianza muestral se transforma en σ2.

Usando las definiciones previas, puede ser demostrado que :

la varianza de la distribución binomial es npq

la varianza de la distribución Poisson es igual a λλ

3.8 Distribuciones relacionadas a la Binomial

Existen tres importantes distribuciónes relacionadas a la Binomial, siendo las mismas:

La distribución Binomial negativa

Se aplica también con pruebas de Bernoulli, pero en este caso se especifica el número de

éxitos que se requieren (tal que r es constante) y la variable aleatoria pasa a ser N, el

número de pruebas necesario para obtener r éxitos. Por ejemplo, podemos lanzar una

moneda para obtener cinco caras, en este caso el número de lanzamientos de moneda sera la

variable aleatoria.

La funcion de probabilidad para esta distribución es

n-1Cr-1 * pr * qn-r, para n= r, r+1, r+2........

La media de esta distribuciónes r/p, mientras que su varianza es r*q/p2

Page 12: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

12

La Distribución Hipergeometrica

Se aplica tambien a la clasificación de ítems en 2 grupos, pero en este caso usamos

muestras sin reposición, aplicándose a muestras de una población pequeña o finita, y a

medida que cada muestra es tomada, la población disminuye de a 1. Por ejemplo,

supongamos que tenemos una urna con 8 bolillas rojas y 4 blancas. La probabilidad de

selecconar una bollila roja es 8/12. Seleccionamos una bolilla al azar, y es roja, y no la

depositamos nuevamente en la urna, la probabilidad que la siguiente bola sea roja es 7/11

ahora, en consecuencia las pruebas no son independientes, al verse afectada la probabilidad

del mismo evento en la segunda prueba por el resultado de la primera. En general, si

tenemos una poblacion de N elementos con R “exitos” y (N-R) “fracasos”, entonces la

probabilidad que una muestra aleatoria de n tenga r éxitos estará dada por la distribución de

probabilidad Hipergeometrica.

{RCr * N-RCn-r } / NCn

para a< r < b, donde a= max (0, n – N + R), y b = min(n, R)

la media de esta distribución es nR/N, mientras que la varianza es nr(N – r)(N-n)/N2 (N-1)

La Distribución Multinomial

Se aplica a la clasificación de items en k grupos y en este caso usamos muestreo con

reposición. También se aplica a una población infinita. Es una generalización obvia de la

Binomial desde 2 a muchas clasificaciones.

Page 13: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

13

Supongamos k grupos con probabilidades p1, p2, ....., pk, y permitamos que una muestra de

n items sea tomada. Entonces las variables aleatorias son R1, R2, Rk, representando la

cuenta de items que pertenece a cada clase.

Noten que R1 + R2 +............ Rk = n

Entonces la funcion de probabilidad para la distribución multinomial es la probabilidad que

R1 = r1 , R2 = r2... Rk = rk, que puede ser mostrada como

n! / {r1! * r2! ....* rk!} * p1 r1 * p2

r2 * pk rk

donde el rango de cada ri varia de o hasta n sujeto a r1 + r2 + ....+ rk = n

La media de ri es npi, y la varianza npiqi

Notese que las distribuciónes marginales de cada Ri es la binomial, y que la Binomial es un

caso especial donde k = 2.

Page 14: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

14

DISTRIBUCIÓN DE PROBABILIDAD CONTINUA

3.8 Introducción

En este capítulo trataremos con la teoría de distribuciónes para variables aleatorias

continuas, y particularmente dedicaremos bastante atención a una muy importante variable

aleatoria continua, llamada NORMAL, y veremos como encontrar probabilidades de

variables aleatorias que se encuentren en ciertos intervalos. Por variables aleatorias

continuas significamos variables que pueden tomar cualquier valor en un rango continuo,

en oposición a variables como la Binomial que solo puede tomar ciertos valores discretos

en un íntervalo, en ese caso los números entereos.

Muchas de las propiedades y fórmulas para variables continuas son similares a aquellas

para variables discretas que hemos visto en capítulos anteriores, pero una cosa debe ser

tenida especialmente en cuenta, que para variables continuas solamente intervalos son de

interés, y no puntos específicos. No consideraremos en ningún caso valores puntuales sino

intervalos.

3.9 La funcion de densidad probabilistica

Las propiedades estadísticas de una variable aleatoria continua X son descriptas por una

función f(x). Esto no representa probabilidad, sino que es la densidad de la probabilidad en

un punto x, mientras que probabilidad corresponde al area por debajo de la funcion f(x).

Entonces por ejemplo si queremos la probabilidad de X este entre los intervalos 3 y 5, está

dada por el área bajo la curva definida por f(x) en el intervalo 3 a 5.

Page 15: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

15

En esta forma, la función de densidad nos proporcionará las probabilidades asociadas con

cualquier intervalo de interés. Nótese que no hay nunca un interés en obtener la

probabilidad para un valor puntual de una variable aleatoria continua Con la anterior

interpretación en mente, las siguientes importantes propiedades de una variable aleatoria

continua deberían ser aparentes.

1. p(3<X<5) = area por debajo de f(x) en el intervalo (3,5)

2. El área total bajo la curva es igual a uno (1), representando la probabilidad que X

adopte cualquier valor.

3. La FUNCION DE DISTRIBUCIÓN, F(x) de X es la probabilidad que X sea

menor o igual que x, de manera que tenemos la relacion

y

f(x) = dF(x)/ dx

3 5 Probability

f(x)

X

∫=X

duufxF )()(

Page 16: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

16

Otras propiedades son análogas a las definidas para variables discretas:

4. La media de X = E(X)

Donde se integra en el rango total cubierto por X

5. La varianza de X =

y como antes, Var (X) = E(X2) - µ2

3.10 Ejemplos

La Distribución Uniforme

Supongamos que X sigue una distribución uniforme entre 0 y 10, de manera tal que es

igualmente probables que adopte cualquier valor en ese rango, y es imposible que adopte

un valor por fuera del mismo. Entonces la funcion de densidad esta dada por

f(x) = 0.1 0 < x <10

∫=X

dxxfxxE )(*)(

∫ −=−=X

dxxfxXEXVar )(*)(}){()( 22 µµ

Page 17: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

17

Nótese que la integral de la funcion en el rango es igual a 1.

En consecuencia, p (3<X <5) =

y p (X< 6)

Claramente, para el caso de la distribución uniforme no es necesario resolver la integral

para el cálculo de las probabilidades, sino que basta con calcular el área por debajo de los

rectángulos que surgen del gráfico de la función de densidad

La Funcion de Distribución

para 0< x < 10

la Media

la Varianza

2.)1(.5

3

=∫ dx

6.)1(.6

0

=∫ dx

10/)1(.)(0

xduxFX

== ∫

5)1(.)( === ∫ dxxXEµ

00012.)15exp()9exp())3exp(3(5

3

=−−−=−∫ dxx

Page 18: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

18

La Distribución Exponencial

Esta distribución surge a través de las teorías de confiabilidad y de colas. En este caso X es

una variable aleatoria positiva con función de densidad

f(x) = 3exp(-3x), x>0

entonces p(3<x<5),

la Función de Distribución

la Media

La Varianza

00012.)15exp()9exp())3exp(3(5

3

=−−−=−∫ dxx

)3exp(1)3exp(3)(0

xduuxFX

−−=−= ∫

3/1))3exp(3()( =−== ∫ dxxxXEµ

9/19/1))3exp(3()( 2222 =−−=−= ∫ dxxxXE µσ

Page 19: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

19

La Distribución Normal

Es la distribución más importantes en teoría estadística, y constituye la base y esencia para

el entendimiento de la misma. Es en algun sentido la distribución de origen de todas las

distribuciónes muestrales que veremos mas adelante. Provee de un método para adjuntar

probabilidades a intervalos de variables de interés. Por ejemplo, podemos hacer las

siguientes afirmaciones

(a) hay un 20% de probabilidad que una persona mida entre 1.50m y 1.65m

de altura

(b) hay una chance del 5% que una persona mida mas de 1.95m

Las dos alternativas son afirmaciones probabilisticas acreca de intervalos, y la distribución

normal es la “herramienta” que usamos para determinar dichas probabilidades.

Es importante a esta altura que dediquemos tiempo a esta distribución y nos familiaricemos

con sus propiedades formales y las razones de su relevancia para situaciones reales.

Las afirmaciones (a) y (b) de arriba son afirmaciones perfectamente estadísticas hechas en

términos de todos los días. Mas formalmente, podemos querer hacer afirmaciones en la

siguiente manera

Si una persona es muestreada al azar de una población, e Y representa su altura, entonces,

(a) prob(1.5<Y<1.65) = 0.20

(b) prob(1.95<Y) = 0.05

Page 20: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

20

Será conveniente utilizar este tipo de notación al desarrollar las propiedades formales de la

distribución normal.

El significado de la Distribución Normal

En orden de obtener un “feeling” de la distribución normal, nos permitamos considerar el

ejercicio de construir un Histograma de la altura de las personas. Supongamos que

empezamos con 100 personas y construimos un Histograma usando intervalos de clase, de

manera tal que el diagrama nos de una imagen de la distribución de datos. Será un diagrama

un poco desparejo, pero útil. Supongamos que incrementamos el numero de personas a 500,

y construimos el histograma usando nuevos intervalos de clase al contar con mayores datos.

El diagrama sera más suave que el anterior, con un pico en el centro, y con cierta simetría

en su forma. La distribución normal comienza a emerger! Supongamos que repetimos el

experimento con 5.000, 50.000 y mas personas, eventualmente obtendremos una curva

acampanada suave, perfectamente simétrica.

El punto central de simetría es denominado usualmente con la letra griega µ. Es tambien

conocido como la media de la distribución o la media de la población.

El diagrama obtenido representa la distribución de la población. Es una convención el

ajustar la escala vertical de manera tal que el área bajo la curva sea igual a 1, y puede ser

facilmente mostrado que dicha area representa probabilidades. La curva posee, en efecto,

una muy conocida forma matemática que puede ser computada para calcular áreas y en

consecuencia probabilidades. Para esta etapa, es importante el apreciar que una distribución

de probabilidad puede ser considerada como el límite acentuado de un histograma básico, a

medida que el tamaño de la muestra se agranda. Elegimos la variable altura de las personas,

Page 21: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

21

debido a que es bien conocido que la misma se distribuye normalmente. No ocurriría lo

mismo si hubiesemos escogido ingresos de las personas. La misma hubises seguido otro

tipo de distribución. De todas formas, muchas variables siguen una distribución normal.

La relevancia de la Distribución Normal

La distribución normal es relevante para metodos cuantitativos por muchas razones, entre

las que se encuentran:

(a) Surge en forma natural. Es bien conocido que poblaciones de variables que surgen

naturalmente siguen una distribución normal, peso de personas, animales, altura de

arboles, etc.

(b) Promedios. Anteriormente fué mencionado el punto que variables muestrales tienen

distribuciónes de probabilidad. Puede ser demostrado en froma teorica y practica,

que, con un adecuado tamaño de muestra, la distribución del promedio muestral

seguira una distribución normal, sin importar la distribución de la variable original.

Este es un muy importante dato, no obstante puede parecer un poco sorprendente al

inicio. L justificacion teorica es conocida como TEOREMA DEL LIMITE

CENTRAL, y ha sido descubierto y redescubierto muchas veces y en muchos

campos ademas del estadístico. Las consecuencias de este resultado es que un

número de métodos estadísticos que utilizamos tienen la propiedad de robustez en el

hecho que no importa la distribución de la muestra realizada, estamos justificados

de usar normalidad para estadísticos que son funciones lineales de los mismos. Por

tamaño “razonable” se entiende un número de 30 o mas, no obstante muestra de

menor tamaño pueden ser normales en algunos casos. Esto dependerá de la

distribución de las variables originales. Si las variables originales poseen una

distribución normal, entonces las medias muestrales seran normalmente

distribuidas. Si no, número razonable de tamaño muestral sera necesario para

justificar el uso de la distribución normal para la media muestral.

Page 22: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

22

(c) Error. La distribución normal es generalmente utilizada como la distribución de el

término de error en modelos estadísticos o cuantitativos standards tales como

regresiones, análisis de varianzas, series de tiempo, econometrias, etc. Este supuesto

puede y debe ser chequeado. En forma teórica pueder ser justificado hasta cierto

punto por el Teorem del Limite Central a partir de que errores pueden ser tomados

como el resultado de un efecto acumulativo de numerosos pequeños factores que no

son susceptibles de ser medidos.

Caracteristicas de la Distribución Normal.

Existe un gran número de distribuciones normales para acomodar un gran número de

variables que son normalmente distribuidas. No debemos esperar , por ejemplo, que la

variable altura de personas, tenga la misma distribución que peso de chanchos, y a pesar de

ello las dos variables siguen una distribución normal. Esto significa que las dos

distribuciónes tienen la misma forma matemática con la característica campana, pero estan

basadas en diferentes parámetros.

Dos parámetros caracterizan una distribución normal. Ellos son:

La media µµ

La desviacion estándar σσ

La media poblacional µ representa la media aritmética de toda la población, y esta

localizada en el punto central de la distribución. Es tambien el valor límite de la media

muestral a medida que el tamaño de la muestra se agranda.

Page 23: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

23

La desviacion estándar, σ, es un poco mas complicada. Representa la dispersión de la

distribución y es el valor límite de la desviación estándar muestral a medida que el tamaño

de la muestra se agranda.

Es tambien la raiz cuadrada positiva de la varianza poblacional.

Una interpretación simple y práctica de σ es que si uno toma un intervalo de 2σ por debajo

y arriba de la media µ (i.e. µ +/- 2σ), dicho intervalo contendra el 95% de la poblacion. Es

evidente entonces que para una población altamente concentrada σ sera pequeño mientras

que para una población dispersa σ tenderá a ser alta.

Una distribución normal en particular es definida en forma inequívoca entonces por una

afirmación como:

“La variable Y sigue una distribución normal con media X y varianza Z”, que por lo

general se abrevia de la siguiente manera:

Y ~ N (X, Z)

Notese que la media puede adoptar cualquier valor, pero que la varianza (y su desviación

estandar) deben ser positivas.

Otras propiedades dignas de mención son :

(a) la distribución es simetrica alrededor de µ

(b) µ es tambien el punto mas alto de la distribución (modo)

(c) la probabilidad total debajo de la curva es igual a 1.

Page 24: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

24

(d) No obstante en teoria la curva se extiende hasta infinito en ambas direcciones, la

probabilidad que un valor se encuentre a mas de 3σ desde el centro es

insignificante.

Propiedades matematicas

Ahora detallamos el formato matemático de la distribución normal. Es de destacar que no

es necesario saberse la fórmula de memoria desde que existen tablas con valores tabulados,

y softwares con funciones estadísticas especiales para determinar las probabilidades.

Para una variable aleatoria X distribuida como N{µ, σ), la forma funcional de la curva es

conocida como FUNCION DE DENSIDAD PROBABILISTICA e igual a:

f(x) = exp[-1/2{(x - µµ) /σσ}2] / σσ√√(2ππ), -∞ < x < +∞

Para la funcion estándar, esto deviene en

f(z) = exp[-1/2{z}2] / √√(2ππ), -∞ < z < +∞

Las areas por debajo de las curvas representan probabilidades y, para la forma general, el

área total bajo la curva para valores menores que x es la probabilidad que una variable

aleatoria normal sea menor que x; esta es la Función de Distribución Normal y es igual a la

integral de la funcion de densidad desde -∞ hasta x.

La funcion de densidad juega un rol similar a aquel de función de probabilidad para

variables aleatorias discretas; la media poblacional y la varianza son definidas como

Page 25: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

25

utilizando f(x) de acuerdo a su correspondiente forma, para la distribución normal estándar

los valores de estos parametros son 0 y 1 respectivamente.

Las tablas de la distribución Normal

Ahora discutiremos la determinación de probabilidades normales usando tablas estadisticas

estándar; esta tecnica es redundante desde que existen software que realizan los calculos en

forma inmediata, no obstante es necesario contar con un cabal conocimiento de cómo se

originan los resultados.

La tabla de estadisticas estándar proporciona probabilidades para una distribución normal

particular, conocida como la normal estándar. Es una distribución normal con media 0 y

varianza 1.

Z ~ N(0, 1)

Nos permitamos realizar afirmaciones probabilísticas sobre una variable que es conocida

por seguir una distribución normal estándar. Supongamos que queremos determinar las

siguientes probabilidades

∫== dxxxfxE )()(µ

∫ −=−=−==X

xEdxxfxXEXVar 22222 )()()(}){()( µµµσ

Page 26: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

26

(a) que Z es mayor que 2.4 i.e. p( z > 2.4)

(b) que Z yace entre –1.24 y 1.86 i.e. p( -1.24< z < 1.86)

Demostraremos el uso de las tablas normales a través de estos ejemplos. Existen una pocas

propiedades básicas de la distribución estándar normal que nos permiten determinar

probabilidades para cualquier intervalo de Z.

Estas son:

La distribución es simetrica alrededor de cero.

La probabilidad total (area) debajo de la curva es igual a 1

El área debajo de la curva representa probabilidad.

La tabla Normal esta dada por el Listado de tablas Estadisticas, y expresa la Función de

Distribución Normal, i.e. las probabilidades (areas) a la izquierda de los puntos dados.

Ahora con las propiedades detalladas se puede calcular facilmente los valores buscados.

La Distribución Normal General

Las tablas de distribución normal estandar pueden ser utilizadas para calcular

probabilidades de valores pertenecientes a cualquier distribución normal.

Supongamos que estamos interesados en unas variable X que se dustribuye normalmente

con media µ y varianza σ2, siendo ambos valores conocidos.

Entonces puede ser demostrado que si reducimos µ de X y lo dividimos por σ, la variable

resultante sigue una distribución normal estandar,

Page 27: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

27

i.e. . Z = (X - µ) /σ), o bien X = µ + Zσ.

En lo que sigue nos referiremos a esto como la estandarización de la variable, a los efectos

de encontrar valores de probabilidades.

Supongamos que X se distribuye en froma norma con media 5 y varianza 4,

i.e.

X ~ N(5,4), y queremos determinar p(5.8 < X < 7.0)

Ahora decir que X yace entre 5.8 y 7.0 es lo mismo que decir que (X – 5)/2 yace entre (5.8

– 5)/2 y (7.0 – 5)/2 (donde hemos realizado una standarizacion de la variable)

Entonces p(5.8<X<7.0) = p{(2.8-5)/2 < Z < (7 – 5)/2}, o sea

= p (0.4 < Z < 1)

y utilizando la tabla de norma estándar como lo hicimos anteriormente, tenemos que:

p(5.8 < X < 7.0) = 0.1859

Otros Aspectos de la Distribución Normal

Generalmente prestamos atención a funciones lineales (e.g. sumas) de variables distribuidas

normalmente. Los siguientes resultados básicos son útiles cuando tratamos con estas:

Page 28: Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos III – VARIABLE ... · 1999-08-31 · Universidad del CEMA Prof. Jos é P Dapena Métodos Cuantitativos 1 III –

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos

28

(a) Si X1 y X2 son variables aleatorias normales e independientes tal que

X1 ~ N (µµ1,σσ12), y X2 ~ N (µµ2,σσ2

2),

Entonces X1 + X2 se distribuira normalmente con media µ1 + µ2 y varianza σ12 + σ2

2,

Similarmente, X1 - X2 se distribuira normalmente con media µ1 - µ2 y varianza σ12 + σ2

2.

(b) Una combinacion lineal de una variable aleatoria normalmente distribuida seguira una

distribución normal:

X ~ N (µ,σ2), siendo a y b constantes, entonces

A + bX sigue una distribución normal con media a + bµ y varianza b2σ2

Aun cuando se presente un caso en que la distribución de origen no es normal, una

combinacion lineal puede resultar en una variable que sigue una distribución normal.

En algunos casos donde la distribución esta sesgada hacia la derecha y es difinitivamente

no normal, la transformación Y = ln X donde ln es el logartimo natural (en base e) resulta

en una variable Y que sigue una distribución normal (se dice entonces que X sigue una

distribución lognormal).