Download - Apontamentos de Teoria das Probabilidades - esalq.usp.br · Nota prévia Os presentes apontamentos têm por base as notas do curso de Teoria das Probabilidades que leccionámos

Carlos Tenreiro

Apontamentos de

Teoria das Probabilidades

Coimbra, 2002

Nota previa

Os presentes apontamentos tem por base as notas do curso de

Teoria das Probabilidades que leccionamos no segundo semestre dos

anos lectivos de 2000/01 e 2001/02, a alunos do Ramo Cientıfico,

especializacao em Matematica Pura, do terceiro ano da licenciatura

em Matematica da Universidade de Coimbra. Uma versao prelimi-

nar destes apontamentos foi utilizada como texto de apoio ao curso

no ultimo dos anos lectivos referidos.

Ao longo dos dez capıtulos que constituem este texto, desenvol-

vemos temas habituais num primeiro curso de Teoria das Probabi-

lidades, cujo principal objectivo e o estabelecimento dos teoremas

limite classicos: leis dos grandes numeros de Kolmogorov e teorema

do limite central de Lindeberg.

Estando os alunos ja familiarizados com topicos como o do pro-

longamento de medidas, da integracao relativamente a uma me-

dida, dos espacos Lp de Lebesgue, das medidas produto, da trans-

formacao de medidas, ou dos teoremas de Radon-Nikodym e da

decomposicao de Lebesgue, a abordagem as probabilidades feita

nesta disciplina, e fortemente influenciada por tal facto.

Ao fazermos referencia a um dos resultados anteriores, ou a ou-

tro qualquer resultado de Medida e Integracao que sabemos ser do

conhecimento do aluno, remetemos o leitor para os nossos Apon-

tamentos de Medida e Integracao (Coimbra, 2000) que neste texto

designaremos pelas iniciais AMI.

Carlos Tenreiro

Indice

I Distribuicoes de probabilidade 1

1 Espacos de probabilidade 3

1.1 Modelo matematico para uma experiencia aleatoria . . . . . . . . . . . . 3

1.2 Propriedades duma probabilidade . . . . . . . . . . . . . . . . . . . . . . 7

1.3 Modelacao de algumas experiencias aleatorias . . . . . . . . . . . . . . . 8

1.4 Algumas construcoes de espacos de probabilidade . . . . . . . . . . . . . 14

1.5 Produto de espacos de probabilidade . . . . . . . . . . . . . . . . . . . . 16

1.6 Probabilidade condicionada . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.7 Produto generalizado de probabilidades . . . . . . . . . . . . . . . . . . 22

1.8 Breve referencia a simulacao de experiencias aleatorias . . . . . . . . . . 24

1.9 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2 Variaveis aleatorias e distribuicoes de probabilidade 29

2.1 Variaveis aleatorias e suas leis de probabilidade . . . . . . . . . . . . . . 29

2.2 Classificacao das leis de probabilidade sobre Rd . . . . . . . . . . . . . . 34

2.3 Funcao de distribuicao duma variavel aleatoria real . . . . . . . . . . . . 36

2.4 Funcao de distribuicao dum vector aleatorio . . . . . . . . . . . . . . . . 41

2.5 Transformacao de vectores absolutamente contınuos . . . . . . . . . . . 43

2.6 Distribuicoes condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.7 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3 Independencia 49

3.1 Independencia de classes de acontecimentos aleatorios . . . . . . . . . . 49

3.2 Independencia de variaveis aleatorias . . . . . . . . . . . . . . . . . . . . 51

3.3 Soma de variaveis aleatorias independentes . . . . . . . . . . . . . . . . 54

3.4 Leis zero-um de Borel e de Kolmogorov . . . . . . . . . . . . . . . . . . 57

3.5 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

i

ii Apontamentos de Teoria das Probabilidades

4 Integracao de variaveis aleatorias 61

4.1 Esperanca matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.3 Covariancia e correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.4 Integracao de vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . 70

4.5 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

II Leis dos grandes numeros 73

5 Convergencias funcionais de variaveis aleatorias 75

5.1 Convergencia quase certa . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.2 Convergencia em probabilidade . . . . . . . . . . . . . . . . . . . . . . . 76

5.3 Convergencia em media de ordem p . . . . . . . . . . . . . . . . . . . . . 78

5.4 Convergencia funcional de vectores aleatorios . . . . . . . . . . . . . . . 81

5.5 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6 Leis dos grandes numeros e series de variaveis aleatorias independen-

tes 83

6.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2 Primeiras leis dos grandes numeros . . . . . . . . . . . . . . . . . . . . . 85

6.3 Leis fracas dos grandes numeros . . . . . . . . . . . . . . . . . . . . . . . 88

6.4 Leis fortes e series de variaveis independentes . . . . . . . . . . . . . . . 89

6.5 Lei forte dos grandes numeros de Kolmogorov . . . . . . . . . . . . . . . 92

6.5.1 Necessidade da condicao de integrabilidade . . . . . . . . . . . . 92

6.5.2 Suficiencia da condicao de integrabilidade . . . . . . . . . . . . . 93

6.6 O teorema das tres series . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.7 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

III Teorema do limite central 99

7 Funcao caracterıstica 101

7.1 Integracao de variaveis aleatorias complexas . . . . . . . . . . . . . . . . 101

7.2 Definicao e primeiras propriedades . . . . . . . . . . . . . . . . . . . . . 102

7.3 Derivadas e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

7.4 Injectividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7.5 Formulas de inversao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.6 Independencia e soma de vectores aleatorios . . . . . . . . . . . . . . . . 108

ATP, Coimbra 2002

Indice iii

7.7 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

8 Vectores aleatorios normais 111

8.1 Definicao e existencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

8.2 Funcao caracterıstica e independencia das margens . . . . . . . . . . . . 112

8.3 Continuidade absoluta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

8.4 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

9 Convergencia em distribuicao 117

9.1 Definicao e unicidade do limite . . . . . . . . . . . . . . . . . . . . . . . 117

9.2 Caracterizacoes e primeiras propriedades . . . . . . . . . . . . . . . . . . 118

9.3 Relacoes com os outros modos de convergencia . . . . . . . . . . . . . . 121

9.4 O teorema de Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

9.5 O teorema da continuidade de Levy–Bochner . . . . . . . . . . . . . . . 125

9.6 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

10 O teorema do limite central 129

10.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

10.2 O teorema do limite central classico . . . . . . . . . . . . . . . . . . . . 132

10.3 O teorema do limite central de Lindeberg . . . . . . . . . . . . . . . . . 134

10.4 O teorema do limite central multidimensional . . . . . . . . . . . . . . . 137

10.5 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

Tabela de valores da distribuicao normal standard 139

Bibliografia Geral 143

Indice Remissivo 144

ATP, Coimbra 2002

Parte I

Distribuicoes de probabilidade

1

Capıtulo 1

Espacos de probabilidade

Modelo matematico para uma experiencia aleatoria. Propriedades duma probabilidade.

Modelacao de algumas experiencias aleatorias. Algumas construcoes de espacos de pro-

babilidade. Produto infinito de espacos de probabilidade. Probabilidade condicionada.

Teorema de Bayes. Produto generalizado de probabilidades. Breve referencia a simula-

cao de experiencias aleatorias.

1.1 Modelo matematico para uma experiencia aleatoria

Em 1933 A.N. Kolmogorov1 estabelece as bases axiomaticas do calculo das proba-

bilidades. O modelo proposto por Kolmogorov permitiu associar o calculo das proba-

bilidades a teoria da medida e da integracao, possibilitando assim a utilizacao dos

resultados e tecnicas da analise no desenvolvimento da teoria das probabilidades.

Ao conjunto das realizacoes possıveis duma experiencia aleatoria Kolmogorov

comecou por associar um conjunto Ω, a que chamamos espaco dos resultados ou

espaco fundamental, em que cada elemento ω ∈ Ω caracteriza completamente uma

realizacao possıvel da experiencia aleatoria. Identificou os acontecimentos aleatorios

associados a experiencia com subconjuntos do espaco fundamental, associando a cada

acontecimento o conjunto dos pontos ω ∈ Ω que correspondem a resultados da ex-

periencia aleatoria favoraveis a realizacao desse acontecimento. Como casos extremos

temos o acontecimento impossıvel e o acontecimento certo representados natu-

ralmente pelos conjuntos ∅ e Ω, respectivamente. Os subconjuntos singulares de Ω

dizem-se acontecimentos elementares.

As operacoes usuais entre conjuntos, reuniao, interseccao, diferenca, etc, permitem

exprimir ou construir acontecimentos em funcao ou a partir de outros acontecimentos:

1Kolmogorov, A.N., Grundbegriffe der Wahrscheinlichkeitrechnung, 1933.

3

4 Apontamentos de Teoria das Probabilidades

A∪B ≡ acontecimento que se realiza quando pelo menos um dos acontecimentos A ou

B se realiza; A ∩ B ≡ acontecimento que se realiza quando A e B se realizam; Ac ≡acontecimento que se realiza quando A nao se realiza; A − B ≡ acontecimento que se

realiza quando A se realiza e B nao se realiza;⋃∞

n=1 An ≡ acontecimento que se realiza

quando pelo menos um dos acontecimentos An se realiza;⋂∞

n=1 An ≡ acontecimento

que se realiza quando todos os acontecimentos An se realizam; lim inf An ≡ aconteci-

mento que se realiza quando se realizam todos os acontecimentos An com excepcao

dum numero finito deles; lim sup An ≡ acontecimento que se realiza quando se realiza

um infinidade de acontecimentos An.

Finalmente, com a axiomatizacao do conceito de probabilidade, Kolmogorov estabe-

lece regras gerais a que deve satisfazer a atribuicao de probabilidade aos acontecimentos

duma experiencia aleatoria.

Concretizemos este procedimento, considerando a experiencia aleatoria que consiste

no lancamento de um dado equilibrado. Representando por “i” a ocorrencia da face

com “i” pontos, o espaco dos resultados e Ω = 1, 2, 3, 4, 5, 6. Os acontecimentos

aleatorios “saıda de numero par”, “saıda de numero inferior a 3”, etc., podem ser

identificados com os subconjuntos do espaco dos resultados 2, 4, 6, 1, 2, etc., respe-

ctivamente. Em resposta as perguntas “qual e a probabilidade de sair um numero par no

lancamento de um dado?” e “qual e a probabilidade de sair um numero multiplo de 3 no

lancamento de um dado?”, esperamos associar a cada um dos conjuntos 2, 4, 6 e 3, 6,um numero real que exprima a maior ou menor possibilidade de tais acontecimentos

ocorrerem. Uma forma natural de o fazer, sera associar a um acontecimento a proporcao

de vezes que esperamos que esse acontecimento ocorra em sucessivas repeticoes da

experiencia aleatoria. Sendo o dado equilibrado, e atendendo a que em sucessivos

lancamentos do mesmo esperamos que o acontecimento 2, 4, 6 ocorra tres vezes em

cada seis lancamentos e que o acontecimento 3, 6 ocorra duas vezes em cada seis

lancamentos, poderıamos ser levados a associar ao primeiro acontecimento o numero

3/6 e ao segundo o numero 2/6.

A definicao de probabilidade de Kolmogorov que a seguir apresentamos, e moti-

vada por consideracoes do tipo anterior relacionadas com o conceito frequencista de

probabilidade, isto e, com as propriedades da frequencia relativa de acontecimentos

aleatorios em sucessivas repeticoes duma experiencia aleatoria. Em particular, se por

P(A) denotarmos a probabilidade do acontecimento A, P(A) devera ser um numero

real do intervalo [0, 1], com P(Ω) = 1 e P(A ∪ B) = P(A) + P(B), se A e B sao

incompatıveis, isto e, se A ∩ B = ∅. Estamos agora ja muito perto de nocao de

probabilidade considerada por Kolmogorov. Alem da propriedade de aditividade sobre

P, Kolmogorov assume que P e σ-aditiva. O domınio natural de definicao duma tal

ATP, Coimbra 2002


aplicacao e assim uma σ-algebra. Recordemos que uma classe A de partes de Ω e

uma σ-algebra se contem o conjunto vazio, e e estavel para a complementacao e para a

reuniao numeravel. Uma σ-algebra contem claramente Ω, e e estavel para a interseccao

numeravel bem como para a interseccao e reuniao finitas.

Definicao 1.1.1 Uma probabilidade P sobre uma σ-algebra A de partes de Ω e uma

aplicacao de A em [0, 1] tal que:

a) P (Ω) = 1;

b) Para todo o An ∈ A, n = 1, 2, . . . disjuntos dois a dois

P( ∞⋃

n=1

An

)=

∞∑

n=1

P(An) (σ-aditividade).

Ao terno (Ω,A,P) chamamos espaco de probabilidade. Quando a uma ex-

periencia aleatoria associamos o espaco de probabilidade (Ω,A,P) dizemos tambem

que este espaco e um modelo probabilıstico para a experiencia aleatoria em causa.

Os elementos de A dizem-se acontecimentos aleatorios. Fazendo em b), A1 = Ω e

An = ∅, para n ≥ 2, obtemos P(Ω) = P(Ω) +∑∞

n=2 P(∅), o que implica P(∅) = 0. Por

outras palavras, uma probabilidade e uma medida definida num espaco mensuravel

(Ω,A) em que a medida de todo o espaco e igual a unidade (ver AMI, §2.1).A axiomatizacao da nocao de probabilidade, nao resolve o problema da atribuicao

de probabilidade aos acontecimentos de uma experiencia aleatoria particular. Apenas

fixa as regras gerais a que uma tal atribuicao deve satisfazer.

Nos exemplos que a seguir consideramos, a associacao dum modelo probabilıstico

as experiencias aleatorias que descrevemos pode ser feita de forma simples.

Exemplo 1.1.2 Retomando o exemplo do lancamento de um dado equilibrado, como

todos os elementos de Ω = 1, 2, 3, 4, 5, 6 tem a mesma possibilidade de ocorrer, sera

natural tomar P definida em A = P(Ω) por P(x) = 1/6, para x ∈ Ω. Duma forma

geral, se o espaco Ω dos resultados duma experiencia aleatoria e finito e todos os seus

elementos tem a mesma possibilidade de ocorrer, sera natural tomar

P(A) =♯A

♯Ω, para A ⊂ Ω,

isto e,

P(A) =numero de resultados favoraveis a A

numero de resultados possıveis,

que nao e mais do que a definicao classica de probabilidade.

ATP, Coimbra 2002


Exemplo 1.1.3 Suponhamos que extraımos ao acaso um ponto do intervalo real [a, b].

Neste caso Ω = [a, b]. Sendo o numero de resultados possıveis infinito, nao podemos

proceder como no exemplo anterior. No entanto, como intervalos com igual compri-

mento tem a mesma possibilidade de conter o ponto extraıdo, sera natural tomar para

probabilidade dum subintervalo ]c, d] de [a, b], o quociente entre o seu comprimento e

o comprimento de [a, b], isto e, P(]c, d]) = (d − c)/(b − a), para a ≤ c < d ≤ b. Mais

geralmente, se Q e uma regiao mensuravel de Rd com volume 0 < λ(Q) < +∞, onde λ e

a medida de Lebesgue em Rd, a extraccao ao acaso dum ponto de Q pode ser modelada

pela probabilidade

P(A) =λ(A)

λ(Q)=

volume de A

volume de Q, para A ∈ B(Q),

dita probabilidade geometrica.

Exercıcios

1. (Paradoxo dos dados2) No lancamento de tres dados equilibrados, 9 e 10 pontos podem

ser obtidos de seis maneiras diferentes: 1 2 6, 1 3 5, 1 4 4, 2 2 5, 2 3 4, 3 3 3, e 1 3 6, 1 4

5, 2 2 6, 2 3 5, 2 4 4, 3 3 4, respectivamente. Como pode este facto ser compatıvel com a

experiencia que leva jogadores de dados a considerarem que a soma 9 ocorre menos vezes

que a soma 10?

2. (Paradoxo do dia de aniversario) Se nao mais que 365 pessoas estao a assistir a um

espectaculo, e possıvel que todas elas tenham um dia de aniversario diferente. Com 366

pessoas e certo que pelo menos duas delas tem o mesmo dia de aniversario. Admitindo que

os nascimentos se distribuem uniformemente pelos 365 dias do ano, e que ha n (≤ 365)

pessoas a assistir ao espectaculo, calcule a probabilidade pn de pelo menos duas delas

terem o mesmo dia de aniversario. Verifique que p23 > 0.5 e que p56 > 0.99.

Suponha agora que tambem esta a assistir ao espectaculo. Qual e a probabilidade qn de

alguem com seu dia de aniversario estar tambem a assistir ao espectaculo? Verifique que

q23 < 0.059 e que q56 < 0.141.

3. Num segmento de recta de comprimento L dois pontos sao escolhidos ao acaso. Qual e a

probabilidade da distancia entre eles nao exceder x, com 0 ≤ x ≤ L?

4. Qual e a probabilidade das raızes da equacao quadratica x2 + 2Ax + B = 0 serem reais,

se (A, B) e um ponto escolhido ao acaso sobre o rectangulo [−R, R]× [−S, S]?

5. Suponhamos que extraımos ao acaso um ponto x do intervalo [0, 1], e que nao estamos

interessados em x mas no seu quadrado y. Se pretendemos calcular a probabilidade de y

pertencer ao subintervalo ]c, d] de [0, 1], conclua que devera tomar Ω = [0, 1] e P tal que

P(]c, d]) =√

d −√c, para 0 ≤ c ≤ d ≤ 1.

2Este problema foi colocado a Galileu Galilei, o que o levou a escrever Sopra le scoperte dei dadi

(Sobre uma descoberta acerca de dados) entre 1613 e 1623.

ATP, Coimbra 2002


1.2 Propriedades duma probabilidade

As propriedades seguintes sao consequencia do facto duma probabilidade ser uma

medida definida num espaco mensuravel (Ω,A) em que a medida de todo o espaco e

igual a unidade. A sua demonstracao e deixada ao cuidado do aluno.

Proposicao 1.2.1 (Aditividade finita) Se A1, . . . , An sao acontecimentos aleatorios

disjuntos dois a dois, entao P(⋃n

k=1 Ak) =∑n

k=1 P(Ak).

Proposicao 1.2.2 Para A,B ∈ A, temos:

a) P(Ac) = 1 − P(A);

b) Se A ⊂ B, entao P(B − A) = P(B) − P(A);

c) Se A ⊂ B, entao P(A) ≤ P(B) (monotonia);

d) P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Proposicao 1.2.3 (Subaditividade completa) Se An ∈ A, para n = 1, 2, . . ., entao

P(⋃∞

n=1 An) ≤ ∑∞n=1 P(An).

Proposicao 1.2.4 (Continuidade) Se An ∈ A, para n = 1, 2, . . ., e An → A entao

P(An)→P(A).

Dizemos que uma funcao de conjunto P definida numa classe B de partes de Ω,

e ascendentemente contınua (resp. descendentemente contınua) em A ∈ B,

se para toda a sucessao (An) em B com An ↑ A (resp. An ↓ A), se tem P(An) →P(A). P diz-se ascendentemente contınua (resp. descendentemente contınua) se for

ascendentemente contınua (resp. descendentemente contınua) em todo o A ∈ B.

Do resultado seguinte fica claro que quando exigimos que uma probabilidade seja

nao so aditiva mas tambem σ-aditiva, o que estamos a exigir a P e uma propriedade de

continuidade. Recordemos que uma semi-algebra C de partes dum conjunto Ω e um

semi-anel de partes de Ω que contem Ω, isto e, e uma classe nao-vazia de subconjuntos

de Ω que contem Ω, que e estavel para a interseccao finita, e o complementar de qualquer

elemento de C e reuniao finita disjunta de elementos de C (ver AMI, §1.2).

Teorema 1.2.5 Seja P uma funcao de conjunto nao-negativa e aditiva numa semi-

-algebra B de partes de Ω com P(Ω) = 1. As afirmacoes seguintes sao equivalentes:

i) P e σ-aditiva em B;

ii) P e ascendentemente contınua;

iii) P e ascendentemente contınua em Ω;

iv) P e descendentemente contınua;

v) P e descendentemente contınua em ∅.

ATP, Coimbra 2002


Exercıcios

1. (Formula de Daniel da Silva ou da Inclusao-Exclusao:) Se A1, . . . , An, para n ≥ 2,

sao acontecimentos, mostre que

P( n⋃

i=1

Ai

)=

n∑

i=1

P(Ai) −∑

1≤i<j≤n

P(Ai ∩ Aj)

+∑

1≤i<j<k≤n

P(Ai ∩ Aj ∩ Ak) + . . . + (−1)n+1P(A1 ∩ . . . ∩ An).

2. (Paradoxo das coincidencias3) Numa festa de natal os n funcionarios de uma empresa

decidem dar entre si presentes. Cada um tras um presente que e misturado com os outros

e distribuıdo ao acaso pelos funcionarios. Este procedimento e utilizado acreditando-se

que a probabilidade pn de alguem receber o seu proprio presente e pequena se o numero de

funcionarios e grande. Calcule pn e mostre que pn→1 − e−1. Verifique que pn ≈ 0.6321,

para n ≥ 7.

(Sugestao: Utilize a formula de Daniel da Silva aplicada aos acontecimentos Ai =“o

i-esimo funcionario recebe o seu presente”.)

3. (Desigualdades de Bonferroni) Se A1, . . . , An sao acontecimentos, mostre que:

(a) P( n⋃

i=1

Ai

)≥

n∑

i=1

P(Ai) −∑

1≤i<j≤n

P(Ai ∩ Aj).

(b) P( n⋃

i=1

Ai

)≤

n∑

i=1

P(Ai) −∑

1≤i<j≤n

P(Ai ∩ Aj) +∑

1≤i<j<k≤n

P(Ai ∩ Aj ∩ Ak).

4. Se (An) e uma sucessao de acontecimentos mostre que P(⋂∞

n=1 An) = 1 sse P(An) = 1,

para todo o n ∈ N.

1.3 Modelacao de algumas experiencias aleatorias

Dando continuidade ao paragrafo 1.1, apresentamos agora mais alguns exemplos de

modelacoes de experiencias aleatorias.

Exemplo 1.3.1 Consideremos n lancamentos sucessivos duma moeda equilibrada. Se

representarmos por 1 a saıda de “cara” e por 0 a saıda de “coroa”, o espaco dos

resultados e Ω = 0, 1n = (x1, . . . , xn) : xi = 0 ou 1. Tal como no Exemplo 1.1.2,

sendo a moeda equilibrada, todos os elementos de Ω tem a mesma possibilidade de

ocorrer. Poderemos assim tomar P definida em A = P(Ω) por

P((x1, . . . , xn)) = 1/2n, para (x1, . . . , xn) ∈ 0, 1n.

3Este problema e pela primeira vez considerado por Pierre Remond de Montmort em Essay d’Analyse

sur les Jeux de Hazard, 1708.

ATP, Coimbra 2002


Exemplo 1.3.2 Consideremos agora n lancamentos sucessivos duma moeda nao neces-

sariamente equilibrada, isto e, em cada lancamento a probabilidade de obtermos 1 (cara)

e p e a probabilidade de obtermos 0 (coroa) e 1 − p. Qual e o espaco de probabilidade

que devemos associar a esta experiencia aleatoria? O espaco dos resultados e, tal como

no exemplo anterior, Ω = 0, 1n. No entanto, os elementos de Ω nao tem agora,

para p 6= 1/2, a mesma possibilidade de ocorrer. Para determinarmos a probabilidade

que devemos associar a esta experiencia, tentemos reduzir-nos ao exemplo anterior

considerando uma experiencia auxiliar que consiste em n extraccoes sucessivas de uma

bola dum saco com ℓ bolas identicas em que ℓp estao numeradas com 1 e ℓ(1 − p)

sao numeradas com 0 (se p e racional e sempre possıvel determinar ℓ; por exemplo, se

p = 0.1 basta tomar ℓ = 10 e passamos a ter uma experiencia que consiste na repeticao

n vezes duma outra, esta com 10 resultados igualmente provaveis, em que um deles e

do tipo 1 e os restantes sao de tipo 0). A ocorrencia do acontecimento (x1, . . . , xn)com

∑ni=1 xi = k, corresponde na experiencia auxiliar a ocorrencia de um conjunto

de resultados elementares em numero de (ℓp)k(ℓ(1 − p))n−k. Sendo ℓn o numero total

de acontecimentos elementares, e sendo estes igualmente provaveis, entao P devera ser

dada por

P(x1, . . . , xn)) = (ℓp)k(ℓ(1 − p))n−k/ℓk = pk(1 − p)n−k,

isto e,

P(x1, . . . , xn)) = p∑n

i=1 xi(1 − p)n−∑n

i=1 xi ,

para (x1, . . . , xn) ∈ 0, 1n.

Exemplo 1.3.3 Consideremos n repeticoes, sempre nas mesmas condicoes, duma ex-

periencia aleatoria com k resultados possıveis 1, . . . , k, sendo p1, . . . , pk as respectivas

probabilidades de ocorrencia, onde∑k

i=1 pi = 1. Seguindo o raciocınio anterior o espaco

dos resultados e Ω = 1, . . . , kn e P devera ser dada por

P((x1, . . . , xn)) = p∑n

i=1 1I1(xi)

1 . . . p∑n

i=1 1Ik(xi)

k ,

para (x1, . . . , xn) ∈ 1, . . . , kn, onde 1IA representa a funcao indicatriz do conjunto A.

Nos exemplos que a seguir apresentamos nao e simples, sem mais, associar ou mesmo

garantir a existencia dum modelo probabilıstico para a experiencia aleatoria em causa.

Os dois primeiros casos sao classicos tendo sido considerados por Carl Friedrich Gauss4

e por Francis Galton5, respectivamente. Em ambos, a probabilidade P e definida pela

exibicao da sua densidade f , dita de probabilidade, relativamente a medida de

4Gauss, C.F., Theoria motus corporum celestium in sectionibus conicis solem ambientium, 1809.5Galton, F., Typical laws of heredity in man, 1877.

ATP, Coimbra 2002


Lebesgue, isto e, P = fλ (ver AMI, §7.1). O ultimo exemplo e ilustrativo duma

classe de modelos probabilısticos conhecidos por processos estocasticos. A teoria

dos processos estocasticos nao sera desenvolvida neste curso.

Exemplo 1.3.4 (Distribuicao dos erros de medida) Consideremos o erro x = y−µ cometido ao tomarmos o valor observado y como medida do verdadeiro valor µ, des-

conhecido. Por razoes que detalharemos no Capıtulo 9, a experiencia aleatoria que

consiste na observacao de y, pode ser descrita pela probabilidade definida, para a ≤ b,

por

P(]a, b]) =

∫

]a,b]

1√2πσ2

e−(x−µ)2/(2σ2)dλ(x),

onde o parametro σ > 0 pode ser interpretado como uma medida da precisao das

observacoes. Na Figura 1.1 apresentam-se os graficos da funcao integranda anterior

para varios valores de σ, a que chamamos densidade normal de parametros µ e

σ2.

-4 -2 2 4

0.2

0.4

0.6

0.8

σ = 0.5

σ = 1

σ = 2

µ µ µ+ µ+

Figura 1.1: Densidade normal univariada

Exemplo 1.3.5 (Densidade normal bivariada) Quando se estuda a relacao entre

as alturas dos filhos (y) e dos pais (x) convenientemente normalizadas, e habitual

descrever as observacoes realizadas (x, y), atraves da probabilidade definida, para a ≤ b

e c ≤ d, por

P(]a, b]×]c, d]) =

∫

]a,b]×]c,d]

1

2π√

1 − ρ2e−(x2−2ρxy+y2)/(2(1−ρ2))dλ(x)dλ(y),

onde o parametro ρ ∈ ]− 1, 1[ quantifica a associacao ou dependencia existente entre

as quantidades numericas em estudo. Nas Figuras 1.2 e 1.3, e para os valores ρ = 0

e ρ = 0.75, respectivamente, apresentam-se o grafico e as curvas de nıvel relativos a

funcao integranda anterior.

ATP, Coimbra 2002


-2

0

2

-2

0

2

0

0.05

0.1

0.15

-2

0

2

ρ = 0

-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

3

Figura 1.2: Densidade normal bivariada

Exemplo 1.3.6 Suponhamos que lancamos uma moeda equilibrada ate ocorrer “cara”.

Nesta situacao, sera natural tomarmos para conjunto dos resultados Ω = 0, 1∞ =

(x1, x2, . . .) : xi = 0 ou 1, isto e, o conjunto de todas as sucessoes de zeros e uns. Para

podermos responder a qualquer pergunta sobre esta experiencia, por exemplo, a de sa-

bermos qual e a probabilidade de nao ocorrer “cara” em nenhum dos lancamentos (ou

melhor, para que esta pergunta faca sentido), temos, tal como nos exemplos anteriores,

de garantir que lhe esta associado um espaco de probabilidade que a descreve. Admi-

tindo que P e uma tal probabilidade definida numa apropriada σ-algebra de partes de

Ω, e que Fn e um acontecimento que depende apenas dos n primeiros lancamentos, sera

ATP, Coimbra 2002


-2

0

2

-2

0

2

0

0.05

0.1

-2

0

2

ρ = 0.75

-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

3

Figura 1.2 (cont.): Densidade normal bivariada

natural que P satisfaca P(Fn) = Pn(Fn), onde Pn e a probabilidade em Ωn = 0, 1n de-

finida no Exemplo 1.3.1. A existencia duma tal probabilidade sera estabelecida no §1.5.Se Fn e o acontecimento Fn =“ocorre pela primeira vez cara no n-esimo lancamento”,

a probabilidade de nao ocorrer “cara” em nenhum dos lancamentos sera entao dada

pela probabilidade do acontecimento (⋃∞

n=1 Fn)c, isto e, por 1 − ∑∞n=1 P(Fn) = 1 −

∑∞n=1 Pn(Fn), sendo assim igual a zero a probabilidade nao ocorrer “cara” em nenhum

dos lancamentos.

Exemplo 1.3.7 (Processo de Poisson) Consideremos o numero de ocorrencias de

um determinado fenomeno aleatorio no intervalo de tempo ]0, t] para todo o t > 0.

ATP, Coimbra 2002


Pensemos, por exemplo, na chegada de chamadas a uma central telefonica, na chegada

de clientes a uma caixa de supermercado, na emissao de partıculas por uma substancia

radioactiva, etc. Se o fenomeno ocorre nos instantes t1, t2, t3, . . . com t1 < t2 < t3 < · · ·,o resultado da experiencia nao e mais do que uma funcao de ]0,+∞[ em N0, cujo grafico

e apresentado na Figura 1.3. O conjunto Ω dos resultados possıveis da experiencia pode

ser assim identificado com o conjunto das funcoes escalonadas de ]0,+∞[ em N0, nao-

-decrescentes e contınuas a direita.

6

-

1

2

3

numero deocorrencias

0 t1 t2 t3 tempo

b

r b

r b

r

Figura 1.3: Acontecimento elementar dum processo de Poisson

Admitamos que: H1) a probabilidade de se verificarem k ocorrencias num determinado

intervalo de tempo finito depende apenas da sua amplitude; H2) dados dois intervalos

de tempo finitos e disjuntos, a probabilidade de se verificarem k ocorrencias num deles

nao nos da qualquer informacao sobre a probabilidade de se verificarem j ocorrencias no

outro; H3) nao ha ocorrencias simultaneas. Poderıamos demonstrar que as hipoteses

anteriores determinam, numa apropriada σ-algebra de partes de Ω, uma famılias de

probabilidades indexada por um parametro real λ > 0 que pode ser interpretado como

o numero medio de chegadas num intervalo de tempo unitario.

Exercıcios

1. Vou lancar dois dados equilibrados n vezes consecutivas e aposto com outro jogador que

pelo menos um par de 6 ira sair. Para que o jogo me seja favoravel deverei lancar o dado

24 ou 25 vezes?

2. (Problema da divisao das apostas6) Dois jogadores jogam uma serie de partidas justas

ate que um deles obtenha 6 vitorias. Por motivos exteriores ao jogo, este e interrompido

quando um dos jogadores somava 5 vitorias e o outro 3 vitorias. Como devemos dividir

o montante apostado por ambos os jogadores?

6Este problema e o anterior foram colocados por Antoine Gombaud, chevalier de Mere, a Blaise

Pascal. O problema da divisao das apostas e resolvido por este e por Pierre de Fermat numa celebre

ATP, Coimbra 2002


3. Eu e outro jogador aceitamos lancar sucessivamente dois dados nas condicoes seguintes:

eu ganho se tirar 7 pontos, ele ganha se tirar 6 pontos e e ele que lanca em primeiro lugar.

Que probabilidade tenho eu de ganhar?

4. (Problema da ruına do jogador7) A e B tem cada um 12 moedas e jogam com tres

dados. Se saem 11 pontos, A da uma moeda a B, e se saem 14 pontos, B da uma moeda

a A. Ganha aquele que primeiro ficar com todas as moedas. Qual e a probabilidade de

A ganhar?

(Sugestao: Para m ∈ −12, . . . , 12, denote por pm a probabilidade de A ganhar quando

possui 12 + m moedas, e verifique que pm satisfaz uma relacao de recorrencia linear.)

5. Uma caixa contem b bolas brancas e p bolas pretas. Uma bola e extraıda ao acaso da

caixa, e sem ser nela reposta, uma segunda bola e extraıda ao acaso. Qual o espaco de

probabilidade que associa a experiencia descrita? Qual e a probabilidade: De ambas as

bolas serem brancas? Da primeira bola ser branca e da segunda ser preta? Da segunda

ser preta? Da segunda ser preta, sabendo que a primeira bola e branca?

1.4 Algumas construcoes de espacos de probabilidade

Recordamos neste paragrafo construcoes de espacos de probabilidade ja nossas co-

nhecidas da disciplina de Medida e Integracao. Alguns dos exemplos apresentados nos

paragrafos anteriores sao casos particulares das construcoes seguintes.

Exemplo 1.4.1 Se Ω = ωi : i ∈ I, com I finito ou numeravel, e pi, i ∈ I, sao

numeros reais nao-negativos com∑

i∈I pi = 1, entao

P(A) =∑

i:ωi∈A

pi, para A ∈ P(Ω),

e uma probabilidade em (Ω,P(Ω)). As probabilidades consideradas nos Exemplos 1.1.2,

1.3.1 e 1.3.2, sao casos particulares desta. No caso em que I = 1, 2, . . . , n e pi = 1/n,

para todo o i ∈ I, obtemos a definicao classica de probabilidade.

Exemplo 1.4.2 Se F : R→R e uma funcao nao-decrescente, contınua a direita com

F (x)→ 0 ou 1, se x→−∞ ou x→+∞, respectivamente, entao existe uma e uma so

probabilidade P sobre (R,B(R)) tal que

P(] −∞, x]) = F (x), para todo o x ∈ R.

troca de correspondencia no verao de 1654. A resolucao do problema por Pascal e publicada em Traite

du Triangle Arithmetique, 1665. Este problema era ja na altura classico, sendo referido por Luca

Paccioli em Summa de arithmetica, geometria, proportioni et proportionalita, 1494.7Este problema e o anterior sao dois dos problemas resolvidos por Christian Huygens em De ratioci-

niis in aleae ludo (Sobre a logica do jogo de dados), 1657. O problema da ruına do jogador foi colocado

por Pascal a Fermat, tendo chegado posteriormente ao conhecimento de Huygens.

ATP, Coimbra 2002


F diz-se funcao de distribuicao de P (ver AMI, §2.9). A probabilidade definida no

Exemplo 1.1.3 e um caso particular desta, em que F (x) = (x−a)/(b−a), se a ≤ x ≤ b,

F (x) = 0, se x < 0, e F (x) = 1, se x > b.

Exemplo 1.4.3 O exemplo anterior pode ser generalizado ao caso multidimensional.

Para x = (x1, . . . , xd) e y = (y1, . . . , yd) em Rd, escrevemos x ≤ y (resp. x < y) se

xi ≤ yi (resp. xi < yi) para todo o i = 1, . . . , d. Tal com em R, os conjuntos dos pontos

x tais que a < x ≤ b ou dos pontos x tais que x ≤ b, serao denotados por ]a, b] ou

]−∞, b], respectivamente. Dado um rectangulo semi-aberto a esquerda ]a, b], denotamos

por V o conjunto dos seus vertices, isto e, o conjunto dos pontos da forma (x1, . . . , xd)

com xi = ai ou xi = bi, para i = 1, . . . , d. Se x ∈ V , designamos por sgn(x) o sinal de

x, que e definido por sgn(x) = (−1)♯i:xi=ai. Dada uma funcao F : Rd→R, tal que: i)

F e nao-decrescente, isto e, F ]a, b] =∑

x∈V sgn(x)F (x) ≥ 0, se a < b; ii) F e contınua

a direita, isto e, limx→y, y≤x

F (x) = F (y), para todo o y ∈ Rd; iii) F (x) → 0 ou 1, se

mini=1,...,d xi→−∞ ou +∞, respectivamente; entao existe uma e uma so probabilidade

P sobre (Rd,B(Rd)) tal que

P(] −∞, x]) = F (x), para todo o x ∈ Rd.

F diz-se funcao de distribuicao de P. A demonstracao da existencia de P pode ser

encontrada em Billingsley, 1986, pg. 177–180. A unicidade e consequencia imediata do

lema da igualdade de medidas (cf. AMI, §2.6).

Exemplo 1.4.4 Se µ e uma medida em (Ω,A) e f e uma aplicacao B(R)-mensuravel

definida em (Ω,A), nao-negativa com∫

fdµ = 1, entao

P(A) =

∫

Afdµ, para A ∈ A,

e uma probabilidade. P diz-se probabilidade com densidade f relativamente a µ, e f

diz-se densidade de probabilidade de P relativamente a µ (ver AMI, §7.1).

Note que a construcao descrita no Exemplo 1.4.1 e um caso particular desta se

tomarmos f =∑

i∈I pi1Iωi e µ a medida contagem em Ω. Verifique que o mesmo

acontece com as construcoes consideradas nos Exemplos 1.1.3, 1.3.4 e 1.3.5. No caso

da extraccao ao acaso dum ponto do intervalo [a, b], P tem densidade f relativamente

a medida de Lebesgue em R, onde

f(x) =

1

b − a, se a ≤ x ≤ b

0, senao(1.4.5)

A densidade assim definida diz-se densidade uniforme sobre o intervalo [a, b].

ATP, Coimbra 2002


Exemplo 1.4.6 Se Q e uma probabilidade num espaco mensuravel (E,B), e f e uma

aplicacao mensuravel de (E,B) em (Ω,A), entao P definida por

P(A) = Q(f−1(A)), para A ∈ A,

e uma probabilidade, dita probabilidade imagem de Q por f (ver AMI, §7.1). Este

e, em particular, o caso da probabilidade definida no Exercıcio 1.1.5 (porque?).

Exemplo 1.4.7 Se Pi e uma probabilidade sobre (Ωi,Ai), para i = 1, . . . , d, po-

demos definir sobre o espaco produto (Ω,A) = (∏d

i=1 Ωi,⊗d

i=1 Ai) a probabilidade

P =⊗d

i=1 Pi, dita probabilidade produto das probabilidade P1, . . . ,Pd (ver AMI,

§§6.1, 6.2). Sabemos que P e a unica probabilidade sobre (Ω,A) que satisfaz

P(A1 × . . . × Ad) =d∏

i=1

Pi(Ai),

para todo o Ai ∈ Ai, i = 1, . . . , d. A probabilidade construıda no Exemplo 1.3.2 e um

caso particular desta bastando tomar, para i = 1, . . . , n, (Ωi,Ai) = (0, 1,P(0, 1))e Pi(1) = p = 1 − Pi(0). O mesmo acontece com a probabilidade definida no

Exemplo 1.3.5 quando ρ = 0.

1.5 Produto de espacos de probabilidade

No Exemplo 1.3.6, deixamos em aberto a questao da existencia de uma probabilidade

definida num produto infinito de espacos de probabilidade verificando propriedades

semelhantes as da probabilidade produto definida num produto finito de espacos de

probabilidade (cf. Exemplo 1.4.7). Respondemos neste paragrafo a essa questao.

No que se segue, (Ωt,At,Pt), t ∈ T , e uma qualquer famılia de espacos de proba-

bilidade, e vamos denotar por∏

t∈T Ωt, o produto cartesiano dos espacos anteriores,

isto e, o conjunto de todos os elementos da forma (ωt, t ∈ T ), onde ωt ∈ Ωt, para

t ∈ T . Quando T = 1, . . . , n ou T = N escrevemos habitualmente Ω1 × . . . × Ωn ou

Ω1 × Ω2 × . . ., respectivamente. Se Ωt = Ω, para todo o t ∈ T , usamos a notacao ΩT ,

Ωn ou Ω∞, respectivamente.

Sendo S ⊂ T , e πS a aplicacao projeccao de∏

t∈T Ωt em∏

t∈S Ωt definida por

πS(ωt, t ∈ T ) = (ωt, t ∈ S), todo o subconjunto de∏

t∈T Ωt da forma π−1S (A), com

A ⊂ ∏t∈S Ωt, diz-se cilindro de base A. Um tal cilindro diz-se de dimensao finita

se S e finito.

Definicao 1.5.1 Chamamos σ-algebra produto das σ-algebras At, t ∈ T , a σ-algebra⊗

t∈T At, gerada pelos cilindros de dimensao finita cujas bases sao rectangulos men-

ATP, Coimbra 2002


suraveis. Por outras palavras, se

S =π−1

S (A) : S ⊂ T, ♯S < ∞, A =∏

t∈S

At com At ∈ At, para t ∈ S

=∏

t∈S

At : At ∈ At e At = Ωt excepto para um numero finito de ındices

=⋃

S⊂T, ♯S<∞π−1

S

( ∏

t∈S

At

),

entao ⊗

t∈T

At = σ(S).

O espaco mensuravel (∏

t∈T Ωt,⊗

t∈T At) diz-se produto dos espacos mensuraveis

(Ωt,At), t ∈ T . Como anteriormente, denotamos a σ-algebra anterior por A1⊗

. . .⊗An

ou A1⊗A2

⊗. . ., quando T = 1, . . . , n ou T = N. Se At = A, para todo o t ∈ T ,

usaremos as notacoes AT , An ou A∞.

Proposicao 1.5.2 A σ-algebra produto⊗

t∈T At e a σ-algebra gerada pelas aplicacoes

projeccao πS :∏

t∈T Ωt→(∏

t∈S Ωt,⊗

t∈S At), com S ⊂ T finito.

Dem: Como σ(πS ;S ⊂ T, ♯S < ∞) = σ(∪S⊂T,♯S<∞π−1S (

⊗t∈SAt)), obtemos S ⊂

σ(πS ;S ⊂ T, ♯S < ∞), ou ainda,⊗

t∈SAt ⊂ σ(πS;S ⊂ T, ♯S < ∞). Para estabelecer

a inclusao contraria vamos mostrar que π−1S (

⊗t∈SAt) ⊂ ⊗

t∈SAt. Como⊗

t∈SAt ⊂σ(

∏t∈T At) e π−1

S (∏

t∈S At) ⊂ S, obtemos π−1S (

⊗t∈SAt) = π−1

S (σ(∏

t∈T At)) =

σ(π−1S (

∏t∈T At)) ⊂ σ(S) =

⊗t∈SAt.

Proposicao 1.5.3⊗

t∈T At e tambem gerada pelas aplicacoes πt :∏

t∈T Ωt→(Ωt,At),

com t ∈ T .

Dem: Para S ⊂ T finito e At ∈ At, para t ∈ S, temos π−1S (

∏t∈S At) = ∩t∈Sπ−1

t (At) ∈σ(πt; t ∈ T ). Assim, S ⊂ σ(πt; t ∈ T ), e tambem

⊗t∈S At ⊂ σ(πt; t ∈ T ). A inclusao

contraria e imediata pela proposicao anterior.

Proposicao 1.5.4 Uma aplicacao f = (ft, t ∈ T ) : (E,F) → (∏

t∈S Ωt,⊗

t∈S At) e

mensuravel sse ft : (E,F)→(Ωt,At) e mensuravel para todo o t ∈ T .

Dem: Sendo f mensuravel, a mensurabilidade de ft, para t ∈ T , e consequencia da

proposicao anterior, uma vez que ft = πt f . Reciprocamente, para A =∏

t∈T At, com

At ∈ At e At = Ωt, excepto para um conjunto finito S de ındices, temos f−1(A) =

x ∈ E : ft(x) ∈ At, t ∈ S = ∩t∈Sf−1t (At) ∈ F , pela mensurabilidade de cada uma

das aplicacoes ft.

ATP, Coimbra 2002


A proposicao anterior permite-nos concluir, em particular, que a σ-algebra gerada

por f , σ(f), nao e mais do que a σ-algebra gerada pela famılia de aplicacoes ft, t ∈ T ,

isto e, σ(f) = σ(ft, t ∈ T ).

O resultado seguinte estabelece a existencia duma probabilidade sobre⊗

t∈T At

que sobre os cilindros de dimensao finita cujas bases sejam rectangulos mensuraveis∏

t∈S At, coincide com a probabilidade produto⊗

t∈S Pt.

Teorema 1.5.5 Existe uma unica probabilidade P sobre (∏

t∈T Ωt,⊗

t∈T At) tal que

para todo o S ⊂ T finito, e A =∏

t∈S At, com At ∈ At para t ∈ S,

P(π−1S (A)) =

∏

t∈S

Pt(At) =(⊗

t∈S

Pt

)(A).

A probabilidade P denota-se por⊗

t∈T Pt e denomina-se probabilidade produto das

probabilidades Pt, t ∈ T . O espaco (∏

t∈T Ωt,⊗

t∈T At,⊗

t∈T Pt) diz-se produto

cartesiano dos espacos de probabilidade (Ωt,At,Pt), t ∈ T .

Dem: Seguindo a demonstracao apresentada em Monfort, 1980, pg. 105–108, limitamo-

-nos a dar conta das suas principais etapas. O primeiro passo da demonstracao consiste

em mostrar que S e uma semi-algebra de partes de Ω =∏

t∈T Ωt e que P definida pela

formula anterior e aı aditiva e satisfaz P(Ω) = 1. Usando o Teorema 1.2.5, estabelece-se

a seguir a σ-aditividade de P em S. Finalmente, utilizando o teorema do prolonga-

mento (ver AMI, §2.5), concluımos que existe um unico prolongamento σ-aditivo de P

a⊗

t∈T At, o que conclui a demonstracao.

Exercıcios

1. Suponha que lanca uma moeda um numero infinito de vezes sempre nas mesmas condicoes

e que em cada lancamento a probabilidade de obter “cara” e igual a p ∈ ]0, 1[. Calcule a

probabilidade:

(a) de nao ocorrer “cara” em nenhum dos lancamentos;

(b) de ocorrer “cara” um numero infinito de vezes;

(c) de obter uma infinidade de vezes uma sequencia particular e finita de “caras” e

“coroas”.

2. Uma moeda equilibrada e lancada ate ocorrer “cara” pela primeira vez, e suponhamos

que estamos interessados no numero de lancamentos efectuados.

(a) Que espaco de probabilidade associaria a esta experiencia?

(b) Sendo E o acontecimento “ocorrencia de “cara” pela primeira vez depois dum

numero par de “coroas”” e F o acontecimento “ocorrencia de “cara” pela primeira

vez depois dum numero ımpar de “coroas””, calcule a probabilidade de E e de F .

ATP, Coimbra 2002


1.6 Probabilidade condicionada

Retomemos o Exemplo 1.1.2 e suponhamos agora que lancamos o dado e que, apesar

de nao sabermos qual foi a face que ocorreu, sabemos que saiu face par, isto e, ocorreu o

acontecimento B = 2, 4, 6. Com esta nova informacao sobre a experiencia aleatoria,

o espaco de probabilidade inicialmente considerado nao e mais o espaco adequado a

descricao da mesma. Sera natural substituir a probabilidade P pela probabilidade PB

definida por PB(A) = ♯A ∩ B/♯B.

Duma forma geral, se (Ω,A,P) e o espaco de probabilidade associado a uma ex-

periencia aleatoria, e se sabemos que B ∈ A, com P(B) > 0, se realiza ou vai realizar,

a probabilidade dum acontecimento A ∈ A depende naturalmente “da sua relacao com

B”. Por exemplo, se A ⊃ B, A realizar-se-a, e se A ∩ B = ∅, A nao se realizara. Sera

assim natural medir a probabilidade de A se realizar por um numero proporcional a

P(A ∩ B), isto e, devemos associar a esta experiencia o novo espaco de probabilidade

(Ω,A,PB) onde

PB(A) =P(A ∩ B)

P(B), para A ∈ A.

Notemos que PB e efectivamente uma probabilidade sobre A.

Definicao 1.6.1 Para B ∈ A, com P(B) > 0, e A ∈ A, PB(A) diz-se probabilidade

condicionada de A sabendo B ou probabilidade condicionada de A dado B.

PB(A) denota-se tambem por P(A|B).

O conhecimento de P(B) e de PB(A) permitem calcular a probabilidade da inter-

seccao A∩B. O resultado seguinte generaliza tal facto a interseccao dum numero finito

de acontecimentos.

Teorema 1.6.2 (Formula da probabilidade composta) Se A1, . . . , An, com n ≥2, sao acontecimentos aleatorios com P(A1 ∩ . . . ∩ An−1) > 0, entao

P(A1 ∩ . . . ∩ An) = P(A1)P(A2|A1)P(A3|A1 ∩ A2) . . . P(An|A1 ∩ . . . ∩ An−1).

Dem: Para n = 2 o resultado e consequencia imediata da definicao de probabilidade

condicionada. Para n > 2, se A1, . . . , An sao acontecimentos aleatorios com P(A1 ∩. . .∩An−1) > 0, basta ter em conta que P(A1∩ . . .∩An) = P(A1∩ . . .∩An−1)P(An|A1∩. . . ∩ An−1).

Consideremos agora um acontecimento B cuja realizacao esta relacionada com a

dos acontecimentos de uma famılia finita A1, . . . , An de acontecimentos disjuntos dois

a dois, e admitamos que conhecemos as probabilidades P(B|Ai) de B na eventualidade

ATP, Coimbra 2002


do acontecimento Ai se realizar. O resultado seguinte mostra como efectuar o calculo

da probabilidade de B desde que conhecamos a probabilidade de cada um dos aconteci-

mentos Ai.

Teorema 1.6.3 (Formula da probabilidade total) Sejam A1, . . . , An acontecimen-

tos aleatorios dois a dois disjuntos de probabilidade positiva e B ∈ A tal que B ⊂A1 ∪ . . . ∪ An. Entao

P(B) =n∑

i=1

P(Ai)P(B|Ai).

A modelacao duma experiencia aleatoria consiste, como vimos ate agora, na fixacao

dum espaco de probabilidade que descreve completamente (ou acreditamos que des-

creve) a experiencia em causa. A realizacao dum acontecimento aleatorio particular,

nao tras qualquer informacao suplementar sobre futuras realizacoes da experiencia uma

vez que acreditamos que esta e completamente descrita pelo espaco de probabilidade

considerado. Outra perspectiva e no entanto possıvel. Se admitirmos que o espaco de

probabilidade considerado nao descreve completamente a experiencia em causa, mas que

a descreve apenas de uma forma aproximada, a realizacao dum acontecimento aleatorio

particular pode melhorar o conhecimento que temos sobre a experiencia aleatoria. Nesse

caso sera de todo o interesse saber como devemos calcular a probabilidade dum acon-

tecimento a luz desta nova informacao.

Retomando os comentarios que precederam o resultado anterior, significa isto que se

conhecermos as probabilidades P(·|Ai) para i = 1, . . . , n, e as probabilidades α1, . . . , αn

de cada um dos acontecimentos A1, . . . , An, respectivamente, sera natural considerar

numa primeira abordagem a modelacao da experiencia aleatoria o espaco de proba-

bilidade (Ω,A,Pα) onde, para C ∈ A, Pα e definida por Pα(C) =∑n

i=1 αiP(C|Ai)

(verifique que, para todo o i, Pα(·|Ai) = P(·|Ai) e Pα(Ai) = αi ). Se admitirmos

que a realizacao dum acontecimento B nos vai permitir conhecer melhor o fenomeno

aleatorio em estudo, e que as probabilidades P(·|Ai) nao sao alteradas com a observacao

de B, devemos entao, numa segunda etapa, substituir α1, . . . , αn por β1, . . . , βn, onde

βi = Pα(Ai|B), e considerar o novo espaco de probabilidade (Ω,A,Pβ) onde Pβ(C) =∑n

i=1 βiP(C|Ai), para C ∈ A. Os αi e os βi dizem-se probabilidades a priori e a

posteriori dos Ai, respectivamente.

O resultado seguinte permite concluir que cada βi, pode ser calculado a partir das

probabilidades a priori α1, . . . , αn e das probabilidades condicionais P(·|A1), . . . ,P(·|An).

Mais precisamente, βi = P(B|Ai)αi/∑n

j=1 αjP(B|Aj), para i = 1, . . . , n.

ATP, Coimbra 2002


Teorema 1.6.4 (Teorema de Bayes) Nas condicoes do teorema anterior, se P(B) >

0, entao, para i = 1, . . . , n,

P(Ai|B) =P(B|Ai)P(Ai)∑n

j=1 P(Aj)P(B|Aj).

Os dois resultados anteriores sao validos para uma infinidade numeravel de aconteci-

mentos A1, A2, . . . com probabilidades positivas. Em particular, se (Ai) e uma particao

de Ω, a condicao B ⊂ A1 ∪ A2 ∪ . . ., e sempre verificada.

Exercıcios

1. Demonstre os Teoremas 1.6.3 e 1.6.4.

2. Uma urna contem r bolas brancas e s bolas pretas. Uma bola e extraıda ao acaso da

urna, e e de seguida reposta na urna com mais t bolas da sua cor. Este processo e repetido

novamente. Qual e a probabilidade: Da segunda bola extraıda ser preta? Da primeira

bola ser branca sabendo que a segunda e branca?

3. Numa determinada especie animal, os especimes com genotipos PP e PC sao pretos e

os especimes com genotipos CC sao castanhos. Um animal de cor preta, que sabemos

resultar dum cruzamento PC × PC, e cruzado com um animal castanho, sendo os tres

descendentes deste cruzamento todos pretos.

(a) Quais as probabilidades do progenitor preto ter genotipos PP e PC, respectiva-

mente?

(b) Calcule as probabilidades anteriores, no caso do progenitor de cor preta resultar

dum cruzamento PP × PC.

(c) Poderao as probabilidades anteriores ser calculadas no caso de apenas sabermos que

o progenitor de cor preta resultou dum cruzamento PC × PC ou PP × PC?

4. (Paradoxo do teste para despiste duma doenca rara) Um teste ao sangue e uti-

lizado para despiste duma doenca rara: em 98.5% dos casos o teste da um resultado

positivo quando a doenca esta presente (sensibilidade do teste); em 97.5% dos casos o

teste da um resultado negativo quando a doenca nao esta presente (especificidade do

teste); 0.41% da populacao sofre dessa doenca.

(a) Qual a probabilidade do teste indicar que uma pessoa sofre da doenca, sem sabermos

nada acerca dessa pessoa?

(b) Qual a probabilidade de efectivamente estar doente uma pessoa cujo teste indica

que sofre dessa doenca?

(c) Calcule a probabilidade do teste fornecer um diagnostico correcto.

5. Um homem acusado num caso de paternidade possui uma caracterıstica genetica presente

em 2% dos adultos do sexo masculino. Esta caracterıstica so pode ser transmitida de

pai para filho e quando presente no progenitor e sempre transmitida para cada um dos

seus descendentes. Admitindo que a probabilidade p do homem ser o pai da crianca em

ATP, Coimbra 2002


causa e de 0.5, determine a probabilidade do homem ser pai da crianca sabendo que esta

possui a referida caracterıstica genetica. Calcule esta ultima probabilidade para p = 0.01

e p = 0.001.

6. Um saco contem duas moedas: uma normal com cara de um lado e coroa do outro, e

outra com cara dos dois lados. Uma moeda e tirada ao acaso do saco.

(a) Se pretendesse calcular a probabilidade de obter cara em dois lancamentos da mo-

eda, qual era o espaco de probabilidade que consideraria?

(b) A moeda tirada do saco e lancada n vezes, e os resultados obtidos sao todos cara.

Qual e a probabilidade da moeda que lancamos ser a que tem cara nos dois lados?

(c) Se pretendesse calcular a probabilidade de obter cara nos proximos dois lancamentos

da moeda, qual era o espaco de probabilidade que consideraria?

(Sugestao: Utilize o Teorema de Bayes.)

7. (Probabilidade das causas) Sobre uma mesa estao sete urnas em tudo identicas que

denotamos por U0, . . . , U7, contendo a urna Ui, i bolas pretas e 6 − i bolas brancas.

De uma das urnas escolhida ao acaso, sao feitas duas tiragens com reposicao, tendo-se

observado duas bolas brancas. Qual e a composicao mais provavel da urna escolhida?

1.7 Produto generalizado de probabilidades

Dados dois espacos de probabilidade (Ω1,A1,P1) e (Ω2,A2,P2), sabemos ja que

e possıvel definir no produto cartesiano (Ω1 × Ω2,A1 ⊗ A2) uma unica probabilidade

P1 ⊗ P2 que satisfaz (P1 ⊗ P2)(A1 × A2) = P1(A1)P2(A2), para todo o A1 ∈ A1 e

A2 ∈ A2. Grosso modo, e tendo em mente os Exemplos 1.3.1, 1.3.2 e 1.3.5 (com ρ = 0),

podemos dizer que um resultado particular (x, y) da experiencia aleatoria descrita pela

probabilidade P1 ⊗ P2 resulta da realizacao de duas experiencias aleatorias descritas

pelas probabilidades P1 e P2, respectivamente, em que a probabilidade de ocorrencia

de y como resultado da segunda experiencia nao depende da ocorrencia do resultado x

na primeira experiencia.

Tal situacao nao se verifica no Exemplo 1.3.5 quando ρ 6= 0. Na modelacao da

experiencia aleatoria aı descrita, em vez de optarmos por definir uma probabilidade P

no produto cartesiano dos espacos associados as alturas normalizadas dos pais e dos

filhos, poderiamos optar por decompor o problema em dois problemas mais simples,

comecando por modelar a experiencia aleatoria associada a observacao das alturas nor-

malizadas dos pais atraves duma probabilidade P1 com densidade normal de parametros

0 e 1 (por exemplo), isto e,

P1(A1) =

∫

A1

1√2π

e−x2/2dλ(x),

para A1 ∈ B(R), modelando a seguir a experiencia aleatoria associada a observacao das

alturas dos filhos correspondentes a um progenitor cuja altura normalizada e igual a x,

ATP, Coimbra 2002


-4 -2 2 4

0.1

0.2

0.3

0.4

0.5

0.6

x = −2 x = 0 x = 1

ρ = 0.75

Figura 1.4: Densidade da probabilidade de transicao no caso normal bivariado

por uma probabilidade P12(x, ·) com densidade normal cujos parametros dependem de

x. Tomando a densidade normal de parametros ρx e 1 − ρ2, obterıamos

P12(x,A2) =

∫

A2

1√2π(1 − ρ2)

e−(y−ρx)2/(2(1−ρ2))dλ(y),

para A2 ∈ B(R).

Colocado num contexto geral, o problema que naturalmente se levanta e saber se

e possıvel a partir duma probabilidade P1 definida sobre (Ω1,A1), e duma famılia de

probabilidades P12(x, ·) sobre (Ω2,A2) indexada por x ∈ Ω1, definir uma probabilidade

P sobre A1⊗A2 que preserve as interpretacoes anteriores atribuıdas a P1 e a P12, isto e,

P1(A1) devera ser a probabilidade P de A1×Ω2, e P12(x,A2) devera ser a probabilidade

condicional de Ω1 × A2 dado x × Ω2, sempre que este ultimo acontecimento tenha

probabilidade nao-nula.

O resultado seguinte estabelece a possibilidade de definir uma tal probabilidade

sobre A1 ⊗A2. Note que quando a famılia de probabilidades P12(x, ·), x ∈ Ω1, se reduz

a um unico elemento P2, a probabilidade P nao e mais do que P1 ⊗ P2.

Definicao 1.7.1 Chamamos probabilidade de transicao sobre Ω1 × A2, a uma

aplicacao P12 de Ω1×A2 em [0, 1] tal que para todo o x ∈ Ω1, P1

2(x, ·) e uma probabilidade

sobre (Ω2,A2), e para todo o A2 ∈ A2, P12(·, A2) e A1-mensuravel.

Teorema 1.7.2 Sejam (Ω1,A1,P1) um espaco de probabilidade, (Ω2,A2) um espaco

mensuravel e P12 uma probabilidade de transicao sobre Ω1 × A2. Entao, existe uma

unica probabilidade P sobre A1 ⊗A2 tal que

P(A1 × A2) =

∫

A1

P12(x,A2)dP1(x),

para todo o A1 ∈ A1 e A2 ∈ A2.

ATP, Coimbra 2002


Dem: A formula anterior define P sobre a semi-algebra A1 ×A2 de partes de Ω1 ×Ω2.

Alem disso, P(Ω1×Ω2) = 1 e P e σ-aditiva em A1×A2 (para estabelecer a σ-aditividade

de P adapte a demonstracao do Teorema 6.2.1 de AMI, sobre a existencia da medida

produto). Para concluir basta agora usar o teorema do prolongamento (cf. AMI, §2.6)que garante a existencia de um e um so prolongamento σ-aditivo de P a A1 ⊗A2.

Exercıcios

1. (Problema do concurso das portas) E-lhe proposto o seguinte jogo. Tem a sua frente

tres portas das quais uma contem um premio, estando as outras duas vazias. Comeca por

escolher um das portas. Sem lhe ser dada nenhuma informacao sobre o que contem a porta

que escolheu, uma das outras duas, a que nao tem o premio, e aberta. E-lhe agora pedido

para escolher entre as duas portas fechadas restantes. Qual o espaco de probabilidade

que devemos associar a esta experiencia? Calcule a probabilidade de ganhar o premio

considerando cada uma das seguintes estrategias:

(a) na segunda escolha mantem a porta inicialmente escolhida;

(b) na segunda escolha muda de porta;

(c) na segunda escolha escolhe ao acaso uma nova porta (entre as duas que ainda estao

fechadas).

2. Retome os Exercıcios 1.6.2 e 1.6.6. Identifique os modelos de probabilidade associados as

experiencias aleatorias aı descritas.

3. Mostre que a probabilidade definida no Exemplo 1.3.5 e um caso particular do produto

generalizado de probabilidades, podendo ser definida a partir duma probabilidade P1

sobre B(R) com densidade normal de parametros 0 e 1, e duma probabilidade de transicao

P12 sobre R × B(R), onde P1

2(x, ·) tem densidade normal de parametros ρx e 1 − ρ2 (ver

Figura 1.4).

1.8 Breve referencia a simulacao de experiencias aleatorias

Algumas das experiencias aleatorias descritas no §1.1 podem ser facilmente simu-

ladas com a ajuda dum computador. Na base de todo o processo esta a simulacao da

extraccao ao acaso de pontos do intervalo ]0, 1[ (ver Exemplo 1.1.3). E por ela que

comecamos.

Os algoritmos utilizados para esse fim passam pela obtencao duma sucessao x0, x1, x2,

. . . , xn, . . . de inteiros entre 1 e m−1, com m “grande”, que pareca comportar-se como se

da extraccao ao acaso de pontos do conjunto 1, . . . ,m−1 se tratasse. O metodo mais

usado para gerar uma tal sucessao, e o metodo de congruencia linear. Comecando

com uma “semente” x0, xn+1 e obtido de xn atraves da formula

xn+1 = axn + b (mod m),

ATP, Coimbra 2002


onde a e b sao constantes convenientemente escolhidas, de modo que se obtenha, por

um lado, uma sucessao com um perıodo grande, e, por outro lado, que a sucessao imite

a extraccao ao acaso de pontos de 1, . . . ,m−1. Para obter uma sucessao de numeros

em ]0, 1[ basta dividir cada xn por m. Os numeros assim obtidos dizem-se numeros

pseudo-aleatorios, ou mais simplesmente, numeros aleatorios.

Sendo a sucessao anterior completamente determinada pela semente x0, para obter

diferentes sucessoes, diferentes valores de x0 tem de ser escolhidos, ou pelo utilizador,

ou, de forma automatica, com base no relogio do computador. A partir da funcao

“random” do compilador de Pascal dum computador Compaq (Workstation Alpha

Unix) obtivemos os seguintes 50 numeros aleatorios (primeiras seis casas decimais):

0.750923, 0.514810, 0.989085, 0.676017, 0.582768, 0.992278, 0.900570, 0.276358,

0.154543, 0.896320, 0.631060, 0.799246, 0.093678, 0.344508, 0.520097, 0.426544,

0.189514, 0.070280, 0.458262, 0.145676, 0.270472, 0.428466, 0.193471, 0.095973,

0.438925, 0.171107, 0.073370, 0.986646, 0.940340, 0.777523, 0.356934, 0.691263,

0.292333, 0.346020, 0.367280, 0.875102, 0.338298, 0.267851, 0.151460, 0.492841,

0.164171, 0.782520, 0.292087, 0.257849, 0.127028, 0.812184, 0.684393, 0.316542,

0.882464, 0.142655.

Quando nada e dito em contrario o compilador atras referido usa o numero 7774755

como semente. Para uma semente (numero natural) escolhida pelo utilizador devera

utilizar a instrucao “seed(semente)”, e para uma semente baseada no relogio da maquina

use “seed(wallclock)”.

Utilizando o gerador de numeros aleatorios podemos tambem simular a experiencia

descrita no Exemplo 1.1.2. Se for r o numero aleatorio gerado, basta associar-lhe a

face do dado com o numero ⌊6r⌋+ 1, onde ⌊x⌋ denota a parte inteira de x. Por outras

palavras, ocorre a face i do dado se r pertence ao subintervalo [(i − 1)/6, i/6[ de [0, 1[.

A partir dos numeros aleatorios anteriores obtemos os resultados seguintes resultados

para o lancamento simulado dum dado equilibrado:

5, 4, 6, 5, 4, 6, 6, 2, 1, 6, 4, 5, 1, 3, 4, 3, 2, 1, 3, 1, 2, 3, 2, 1, 3,

2, 1, 6, 6, 5, 3, 5, 2, 3, 3, 6, 3, 2, 1, 3, 1, 5, 2, 2, 1, 5, 5, 2, 6, 1

De forma analoga, ainda a partir dos numeros aleatorios anteriores, obtemos os

resultados seguintes para o lancamento simulado duma moeda equilibrada:

1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0

As tecnicas que conjugam os metodos de simulacao anterior e a interpretacao fre-

quencista de probabilidade para efectuar calculos sao conhecidos na literatura como

ATP, Coimbra 2002


metodos de Monte Carlo. Alguns exemplos sao apresentados nos exercıcios seguin-

tes.

Exercıcios

1. Como poderia simular num computador a extraccao ao acaso dum ponto do quadrado

[0, 1]×[0, 1]? Utilizando a interpretacao frequencista de probabilidade (que justificaremos

mais a frente), como poderia calcular de forma aproximada a area do cırculo inscrito nesse

quadrado?

2. Simule as experiencias descritas nos Exercıcios 1.1.1 e 1.3.1 num computador, e ensaie

uma resposta as pergunta feitas nesses exercıcios apenas com base nessa simulacao.

3. Escreva um algoritmo para simular a extraccao ao acaso dum ponto do intervalo [a, b[,

para a e b quaisquer.

4. No casino de Monte Carlo a roda da roleta e dividida em 37 casas iguais, 18 vermelhas,

18 pretas e uma verde. Se um jogador aposta 1 euro na cor vermelha tem probabilidade

18/37 de ganhar e 19/37 de perder. Por simulacao, e para n = 200, 1000 e 2000, obtenha

aproximacoes para a probabilidade do ganho lıquido do jogador ao fim de n partidas ser

nao-negativo.

1.9 Bibliografia

Billingsley, P. (1986). Probability and Measure, Wiley.

James, B.R. (1981). Probabilidades: um curso de nıvel intermediario, IMPA.

Kallenberg, O. (1997). Foundations of Modern Probability, Springer.

Kolmogorov, A.N. (1950). Foundations of the Theory of Probability, Chelsea Publishing

Company (traducao do original Grundbegriffe der Wahrscheinlichkeitrechnung,

datado de 1933).

Monfort, A. (1980). Cours de Probabilites, Economica.

Resnick, S.I. (1999). A Probability Path, Birkhauser.

Sobre a historia das Probabilidades (e nao so)

Borel, E. (1950). Elements de la Theorie des Probabilites, Editions Albin Michel.

Hald, A. (1990). A History of Probability and Statistics and their applications before

1750, Wiley.

Hald, A. (1998). A History of Mathematical Statistics from 1759 to 1930, Wiley.

ATP, Coimbra 2002


Sobre numeros aleatorios e simulacao de experiencias aleatorias

Grycko, E., Pohl, C., Steinert, F. (1998). Experimental Stochastics, Springer.

Knuth, D.E. (1981). The Art of Computer Programming, vol. II, Addison-Wesley.

Tompson, J.R. (2000). Simulation: a Modeler’s Approach, Wiley.

ATP, Coimbra 2002

Capıtulo 2

Variaveis aleatorias e

distribuicoes de probabilidade

Variaveis aleatorias e suas distribuicoes de probabilidade. Classificacao das distri-

buicoes de probabilidade sobre Rd. Funcao de distribuicao duma variavel aleatoria real

e dum vector aleatorio. Transformacao de vectores aleatorios absolutamente contınuos.

Distribuicoes condicionais.

2.1 Variaveis aleatorias e suas leis de probabilidade

Observado um resultado particular duma experiencia aleatoria, estamos por vezes

interessados nao no resultado em si mesmo, mas numa funcao desse resultado. Pense

no que acontece quando joga ao Monopolio e lanca os dados: interessa-lhe a soma dos

pontos obtidos e nao os pontos ocorridos em cada um dos dados. Por outras palavras,

sendo (Ω,A,P) um modelo probabilıstico para a experiencia aleatoria em causa, e

observado um ponto ω ∈ Ω, interessamo-nos por uma funcao de ω. Surge assim de

forma natural a nocao de variavel aleatoria.

Definicao 2.1.1 Chamamos variavel aleatoria em (E,B), onde E e um conjunto

nao-vazio munido duma σ-algebra B de partes de E, a toda a aplicacao mensuravel X

com valores em (E,B) definida num espaco de probabilidade (Ω,A,P).

Uma variavel aleatoria (v.a.) X diz-se variavel aleatoria real (v.a.r.) se E =

R, vector aleatorio (ve.a.) se E = Rd para algum numero natural d, sucessao

aleatoria se E = R∞, e processo estocastico ou funcao aleatoria se E = RT com

T um conjunto infinito de ındice. De acordo com a Proposicao 1.5.4, se Xt, t ∈ T ,

e uma famılia qualquer de variaveis aleatorias reais definidas num mesmo espaco de

probabilidade, entao X = (Xt, t ∈ T ) e uma variavel aleatoria em (RT ,B(R)T ).

29


Definicao 2.1.2 Se X e uma variavel aleatoria definida em (Ω,A,P) com valores em

(E,B), chamamos lei de probabilidade ou distribuicao de probabilidade de X, a

medida imagem de P por X. Denotando por PX uma tal medida, temos PX = PX−1,

isto e,

PX(B) = P(X−1(B)) = P(ω ∈ Ω : X(ω) ∈ B), para B ∈ B.

Por simplicidade de escrita, escreveremos P(X ∈ B) em vez de P(ω ∈ Ω : X(ω) ∈B). PX e claramente uma probabilidade sobre (E,B). Se X e Y sao variaveis aleatorias

com valores num mesmo espaco mensuravel (mas nao necessariamente definidos num

mesmo espaco de probabilidade), escrevemos X ∼ Y sempre que X e Y tenham a

mesma distribuicao, isto e, sempre que PX = PY . Se X e Y estao definidas num mesmo

espaco de probabilidade e X = Y P-quase certamente (q.c.), isto e, P(X = Y ) = 1,

entao X ∼ Y . O recıproco nao e verdadeiro (ver Exercıcio 2.1.7).

Notemos que a σ-algebra X−1(B), que nao e mais do que a σ-algebra gerada por

X, σ(X) (cf. AMI §3.6), contem toda a “informacao” sobre X necessaria ao calculo da

sua distribuicao de probabilidade. Quando afirmamos que uma variavel aleatoria tem

distribuicao µ sobre (E,B), estamos a dizer que existe um espaco de probabilidade de

base (Ω,A,P) e uma variavel aleatoria X nele definida tal que PX = µ. Normalmente

apenas (E,B, µ) tem interesse e nenhum relevo e assumido pelo espaco de base (ver

Exercıcio 2.1.1).

Exemplo 2.1.3 Consideremos um espaco de probabilidade (Ω,A,P) e seja A ∈ A,

com P(A) = p. A funcao X = 1IA, e uma v.a. com valores em (0, 1, P(0, 1)).Claramente σ(X) = σ(A) = ∅, A,Ac,Ω e a lei de probabilidade PX de X e dada por

PX(B) = 0 se B = ∅, PX(B) = p se B = 1, PX(B) = 1− p se B = 0 e PX(B) = 1

se B = 0, 1. Qualquer variavel aleatoria com esta distribuicao sera representada por

B(p). Assim, indicamos X ∼ B(p) e dizemos que X e uma variavel de Bernoulli de

parametro p. Dizemos tambem que X tem (ou segue) uma lei (ou distribuicao) de

Bernoulli de parametro p.

Proposicao 2.1.4 Se X e uma variavel aleatoria em (E,B) e g : (E,B) → (F, C) e

uma aplicacao mensuravel, a distribuicao PX de X e g determinam a distribuicao de

g(X). Mais precisamente, Pg(X) e a medida imagem de PX por g:

Pg(X) = PX g−1.

Dem: Para C ∈ C, Pg(X)(C) = P(X−1(g−1(C))) = PX(g−1(C)) = (PX g−1)(C).

Se X1, . . . ,Xn sao variaveis aleatorias definidas num mesmo espaco de probabilidade

com valores em (E1,B1), . . . (En,Bn), respectivamente, sabemos que X = (X1, . . . ,Xn)

ATP, Coimbra 2002


e uma variavel aleatoria com valores em (∏n

i=1 Ei,⊗n

i=1 Bi). O resultado anterior per-

mite concluir que conhecendo a distribuicao PX de X conhecemos tambem as dis-

tribuicoes PXj ditas distribuicoes marginais de X, uma vez que Xj = πj X

com πj : (∏n

i=1 Ei,⊗n

i=1 Bi)→ (Ej ,Bj) a projeccao πj(x1, . . . , xn) = xj. As variaveis

aleatorias Xj dizem-se margens de X.

O conhecimento das distribuicoes marginais de X nao permite, duma forma ge-

ral, caracterizar a distribuicao de X. Com efeito, os vectores (X1,X2) e (Y1, Y2)

com valores em (0, 12,P(0, 12)) e distribuicoes distintas definidas, para (i, j) ∈0, 12, por P(X1,X2)((i, j)) = 1/8, se i = j, P(X1,X2)((i, j)) = 3/8, se i 6= j, e

P(Y1,Y2)((i, j)) = 1/4, para todo o (i, j), tem por distribuicoes marginais variaveis de

Bernoulli de parametro 1/2.

A seguir apresentamos alguns exemplos importantes de variaveis aleatorias que estao

relacionadas com os espacos de probabilidade considerados no Capıtulo 1.

Exemplo 2.1.5 Considere um modelo probabilıstico (Ω,A,P) que descreva a repeticao

n vezes duma experiencia sempre nas mesmas condicoes. Cada experiencia tem dois

resultados possıveis que vamos designar por “sucesso” e “insucesso”, sendo p ∈ [0, 1] a

probabilidade de sucesso em cada experiencia. Se X e a v.a. que nos da o numero de

sucessos obtidos nas n repeticoes da experiencia, entao PX e uma probabilidade sobre

(0, 1, . . . , n,P(0, 1, . . . , n)), com

PX(k) =(n

k

)pk(1 − p)n−k, para k = 0, 1, . . . , n.

Dizemos que X segue uma distribuicao binomial de parametros n e p, e indicamos

X ∼ B(n, p).

20 40 60 80 100

0.02

0.04

0.06

0.08

0.1

0.12

p = 0.1

p = 0.5 p = 0.8

Figura 2.1: Distribuicao binomial (n = 100)

ATP, Coimbra 2002


(Obs: A distribuicao binomial e um modelo para problemas de amostragem com re-

posicao, como no caso dum problema controlo de qualidade em que um lote de pecas

e aceite se uma amostra escolhida ao acaso do lote nao contiver “muitas” pecas defei-

tuosas.)

Exemplo 2.1.6 Seja (Ω,A,P) o modelo probabilıstico que descreve n repeticoes, sem-

pre nas mesmas condicoes, duma experiencia aleatoria com k resultados possıveis

1, . . . , k, sendo p1, . . . , pk as respectivas probabilidades, onde∑k

i=1 pi = 1 (ver Exemplo

1.3.3). Para i = 1, . . . , k, denotemos por Xi o numero de ocorrencias do resultado i nas

n repeticoes da experiencia. X = (X1, . . . ,Xk) e um vector aleatorio em 0, 1, . . . , nk,

e, para (x1, . . . , xk) ∈ 0, 1, . . . , nk, temos

PX((x1, . . . , xk)) =n!

x1! . . . xk!px11 . . . pxk

k .

Dizemos neste caso que X e um ve.a. multinomial de parametros n ∈ N e (p1, . . . , pk),

e indicamos X ∼ M(n, p1, . . . , pk).

Exemplo 2.1.7 Se X e uma v.a. com valores no intervalo [a, b] (a < b), cuja distri-

buicao de probabilidade tem densidade, relativamente a medida de Lebesgue em R,

dada por (1.4.5), dizemos que X e uma v.a. uniforme sobre o intervalo [a, b] e

escrevemos X ∼ U([a, b]) (ver Exemplo 1.1.3).

Exemplo 2.1.8 Se X e uma v.a. real cuja densidade de probabilidade e normal de

parametros µ e σ2 (cf. Exemplo 1.3.4), dizemos que X e uma v.a. normal de parame-

tros µ e σ2 e escrevemos X ∼ N(µ, σ2). Se µ = 0 e σ2 = 1, X diz-se normal

standard, ou, por razoes que veremos mais a frente, normal centrada e reduzida.

(Obs: A distribuicao normal e a mais usada das distribuicoes de probabilidade, des-

crevendo, por exemplo, o efeito global aditivo de um numero elevado de pequenos efeitos

independentes, como e o caso dos erros de instrumentacao. A justificacao teorica para

o papel de relevo que esta distribuicao assume na modelacao deste tipo de fenomenos

aleatorios, e o denominado teorema do limite central que estudaremos no Capıtulo 9.)

Exemplo 2.1.9 Se (X,Y ) e um ve.a. em R2 com densidade de probabilidade dada por

f(x, y) =1

2πσ1σ2

√1 − ρ2

exp

(− 1

2(1 − ρ2)

((x − m1)

2

σ21

−2ρ(x − m1)(y − m2)

σ1σ2+

(y − m2)2

σ22

)),

para (x, y) ∈ R2, dizemos que (X,Y ) e um ve.a. normal de parametros m1,m2 ∈ R,

σ1, σ2 > 0 e −1 < ρ < 1 (ver Exemplo 1.3.5).

ATP, Coimbra 2002


Exercıcios

1. Se X e uma v.a. com valores em (E,B), sabemos que a sua lei de probabilidade e uma

probabilidade sobre (E,B). Mostre agora que se Q e uma probabilidade sobre (E,B),

existe uma v.a. X com valores em (E,B) definida num apropriado espaco de probabilidade

(Ω,A, P) tal que PX = Q.

2. Sejam Pn, n ∈ N, medidas de probabilidade sobre (E,B) e P definida em (Ω,A) =

(E∞,B∞) por P = ⊗∞n=1Pn. Considere a sucessao (Xn) definida, para ω = (ω1, ω2, . . .)

∈ Ω, por Xn(ω) = ωn (projeccao), e mostre que PXn = Pn, para todo o n ∈ N.

3. Sejam T um qualquer conjunto de ındices e X = (Xt, t ∈ T ) e Y = (Yt, t ∈ T ) variaveis

aleatorias com valores em (⊗t∈T Et,⊗t∈TBt). Mostre que X ∼ Y sse (Xt1 , . . . , Xtn) ∼(Yt1 , . . . , Ytn), para todo o n ∈ N e t1, . . . , tn ∈ T .

4. Determine a lei de probabilidade da variavel aleatoria que nos da a soma dos pontos

obtidos no lancamento de dois dados equilibrados.

5. Se X e uma v.a. binomial de parametros n e p, mostre que n − X e uma v.a. binomial

de parametros n e 1 − p.

6. Retome o Exercıcio 1.8.4 e denote por Sn o ganho lıquido do jogador ao fim de n partidas.

Apresente uma formula para o calculo de P(Sn ≥ 0). Utilize-a quando n = 200, 1000 e

2000. Compare os resultados com os obtidos por simulacao.

7. Sejam X e Y variaveis aleatorias definidas em (Ω,A, P) = ([0, 1],B([0, 1]), λ) por

X(ω) = ω e Y (ω) = 1 − ω.

Mostre que X ∼ Y e no entanto P(X = Y ) = 0.

8. Considere um modelo probabilıstico (Ω,A, P) que descreva a repeticao duma experiencia

sempre nas mesmas condicoes. Cada experiencia tem dois resultados possıveis que vamos

designar por “sucesso” e “insucesso”, sendo p ∈ [0, 1] a probabilidade de sucesso em cada

experiencia. Seja X a v.a. que nos da o numero de lancamentos efectuados para obtermos

o primeiro sucesso. Mostre que X tem uma distribuicao geometrica de parametro

p ∈ [0, 1], isto e,

PX(k) = (1 − p)k−1p, para k ∈ N.

9. No contexto do exercıcio anterior seja X a v.a. que nos da o numero de insucessos observa-

dos antes de obtermos o r-esimo sucesso. Mostre que X tem uma distribuicao binomial

negativa, dita tambem distribuicao de Pascal, e escrevemos X ∼ BN(r, p), isto e,

PX(k) = (k+r−1r−1 )pr(1 − p)k, para k ∈ N0.

10. Para cada n ∈ N, seja Xn uma v.a. binomial de parametros n ∈ N e pn ∈ ]0, 1[, onde

npn→λ > 0, e X uma v.a. de Poisson de parametro λ, isto e, PX e uma probabilidade

sobre (N0,P(N0)) definida por

PX(n) = e−λ λn

n!, para n ∈ N0.

ATP, Coimbra 2002


(a) Para todo o k ∈ N, mostre que

PXn(k)PXn(k − 1) →

λ

k.

(b) (Convergencia da binomial para a Poisson) Para todo o k ∈ N0, conclua que

PXn(k)→PX(k),o que justifica a designacao de lei dos acontecimentos raros que e atribuıda a dis-

tribuicao de Poisson.

(Obs: A distribuicao de Poisson e usada em problemas de filas de espera para descre-

ver o numero de chegadas de clientes a um posto de atendimento num determinado

intervalo de tempo, ou, mais geralmente, para representar a realizacao de aconte-

cimentos independentes que ocorrem com frequencia constante. E tambem usada

para descrever o numero de defeitos em pecas semelhantes de um dado material.)

2.2 Classificacao das leis de probabilidade sobre Rd

No paragrafo anterior vimos exemplos de leis de probabilidade discretas, como as

dos Exemplos 2.1.3, 2.1.5 e 2.1.6, e de leis de probabilidade absolutamente contınuas,

como as dos Exemplos 2.1.7, 2.1.8 e 2.1.9. Recordemos que uma medida ν sobre B(Rd)

se diz: absolutamente contınua relativamente a medida de Lebesgue, e escrevemos

ν ≪ λ, se para todo o A ∈ B(Rd) com λ(A) = 0, entao ν(A) = 0; discreta, se existe S

quando muito numeravel tal que ν(Sc) = 0; difusa, se ν(x) = 0, para todo o x ∈ Rd;

alheia relativamente a medida de Lebesgue, e escrevemos ν ⊥ λ, se existe A ∈ B(Rd)

tal que ν(A) = λ(Ac) = 0; singular, se e difusa e alheia relativamente a medida de

Lebesgue.

O teorema da decomposicao de Lebesgue ja nosso conhecido da disciplina de Me-

dida e Integracao, e que enunciamos de seguida para medidas finitas, permitir-nos-a

classificar de forma simples as leis de probabilidade sobre Rd (ver AMI, §8.6).

Teorema da decomposicao de Lebesgue: Se ν e uma medida finita em (Rd,B(Rd)),

entao ν = ν0 + ν1 onde ν0 e ν1 sao medidas em Rd tais que ν0 ⊥ λ e ν1 ≪ λ. A

decomposicao anterior de ν, a que chamamos decomposicao de Lebesgue de ν em

relacao a λ, e unica.

Teorema 2.2.1 Seja X um vector aleatorio em (Rd,B(Rd)). Entao existem medidas

νac, νd e νs sobre B(Rd) tais que

PX = νac + νd + νs,

onde νac ≪ λ, νd e discreta e νs e singular. A decomposicao anterior e unica. A νac,

νd e νs, chamamos parte absolutamente contınua, discreta e singular de PX ,

respectivamente.

ATP, Coimbra 2002


Dem: Pelo teorema da decomposicao de Lebesgue, PX = ν0 + ν1, onde ν0 ⊥ λ e

ν1 ≪ λ. Denotando por S, o conjunto dos pontos x para os quais ν0(x) 6= 0, um

tal conjunto e quando muito numeravel (porque?). Tomando agora, para A ∈ B(Rd),

ν2(A) = ν0(A ∩ S) e ν3(A) = ν0(A ∩ Sc), obtemos ν0 = ν2 + ν3, com ν2 discreta

e ν3 singular. Atendendo a unicidade da decomposicao PX = ν0 + ν1, basta, para

concluir, mostrar a unicidade da decomposicao ν0 = ν2 + ν3. Suponhamos entao que

ν0 = ν ′2 + ν ′

3, com ν ′2 discreta e ν ′

3 singular. Sendo S′ quando muito numeravel tal que

ν ′2((S

′)c) = 0, e ν3 e ν ′3 difusas, temos ν2(A) = ν2(A∩(S∪S′)) =

∑x∈A∩(S∪S′) ν2(x) =

∑x∈A∩(S∪S′) ν ′

2(x) = ν ′2(A ∩ (S ∪ S′)) = ν ′

2(A), para A ∈ B(Rd). Finalmente, sendo

ν2 finita, ν3 = ν0 − ν2 = ν0 − ν ′2 = ν ′

3.

Definicao 2.2.2 Se X e uma variavel aleatoria em (Rd,B(Rd)) e νac, νd e νs as partes

absolutamente contınua, discreta e singular de PX , respectivamente, dizemos que X (ou

a sua lei de probabilidade) e absolutamente contınua se νd = νs = 0, discreta se

νac = νs = 0, e singular se νac = νd = 0.

Atendendo ao teorema de Radon-Nikodym (ver AMI, §8.4), sabemos que νac ad-

mite a representacao νac(A) =∫A fdλ, A ∈ B(Rd), para alguma funcao f mensuravel

de (Rd,B(Rd)) em (R,B(R)), nao-negativa e integravel. A funcao f , que e unica a

menos dum conjunto de medida de Lebesgue nula, chamamos derivada de Radon-

Nikodym de νac relativamente a λ. Assim, X e absolutamente contınua sse PX(A) =∫A fdλ, para todo o A ∈ B(Rd), para alguma funcao f mensuravel, nao-negativa com∫fdλ = 1. Neste caso f diz-se densidade de probabilidade de X (ou de PX).

Tendo em conta a definicao de medida discreta, podemos dizer que X e discreta

sse existe um subconjunto S de Rd, quando muito numeravel, tal que PX(S) = 1. Ao

mais pequeno conjunto S (no sentido da inclusao) com estas propriedades chamamos

suporte de X (ou de PX) e denotamo-lo por SX . Claramente, SX = x ∈ Rd :

PX(x) > 0. A funcao g : Rd → R definida por g(x) = PX(x)1ISX(x), diz-se

funcao de probabilidade de X. Notemos que g e a derivada de Radon-Nikodym de

PX relativamente a medida contagem definida em Rd.

Como veremos de seguida, subvectores de vectores absolutamente contınuos sao

absolutamente contınuos e subvectores de vectores discretos sao ainda discretos.

Teorema 2.2.3 Se (X1, . . . ,Xd) e um vector aleatorio absolutamente contınuo de den-

sidade f , entao, para todo o i1, . . . , im ⊂ 1, . . . , d, (Xi1 , . . . ,Xim) e absolutamente

contınuo de densidade

g(xi1 , . . . , xim) =

∫

Rd−m

f(x1, . . . , xd)dλd−m,

onde λd−m representa a medida de Lebesgue em Rd−m.

ATP, Coimbra 2002


Dem: Para B ∈ B(Rm), temos P(Xi1,...,Xim )(B) = P((X1, . . . ,Xd) ∈ π−1

i1,...,im(B)) =∫π−1i1,...,im

(B) f(x1, . . . , xd)dλd =∫

1IB(xi1 , . . . , xim)f(x1, . . . , xd)dλd =∫

Rm 1IB(xi1 , . . . ,

xim)∫

Rd−m f(x1, . . . , xd)dλd−mdλm =∫B g(xi1 , . . . , xim)dλm.

Teorema 2.2.4 Se (X1, . . . ,Xd) e um vector aleatorio discreto com suporte S e funcao

de probabilidade g, entao, para todo o i1, . . . , im ⊂ 1, . . . , n, (Xi1 , . . . ,Xim) e dis-

creto com suporte πi1,...,im(S) e funcao de probabilidade

h(xi1 , . . . , xim) =

∫

Rd−m

g(x1, . . . , xd)dµd−m

=∑

(x1,...,xd)∈π−1i1,...,im

((xi1,...,xim ))

g(x1, . . . , xd),

onde µd−m representa a medida contagem em Rd−m.

Exercıcios

1. Seja (X, Y ) o ve.a. definido no Exemplo 2.1.9. Mostre que X ∼ N(m1, σ21).

2. Se X ∼ M(n, p1, . . . , pk), mostre que Xi ∼ B(n, pi), para i = 1, . . . , k.

3. Considere os vectores aleatorios (X, Y ) de densidade

f(x, y) =1

2πe−(x2+y2)/2,

e (U, V ) de densidade

g(x, y) =1

πe−(x2+y2)/21I(]−∞, 0]×]−∞, 0])∪ ([0, +∞[×[0, +∞[)(x, y),

para (x, y) ∈ R2. Mostre que X ∼ U e Y ∼ V , e, no entanto, (X, Y ) 6∼ (U, V ).

2.3 Funcao de distribuicao duma variavel aleatoria real

Apresentamos neste paragrafo um instrumento importante no estudo da distribuicao

de probabilidade duma variavel aleatoria real X definida num espaco de probabilidade

(Ω,A,P).

Definicao 2.3.1 Chamamos funcao de distribuicao de X, e denotamo-la por FX ,

a funcao de distribuicao de PX , isto e,

FX(x) = PX(] −∞, x]) = P(X ≤ x), x ∈ R.

ATP, Coimbra 2002


Proposicao 2.3.2 FX satisfaz as seguintes propriedades:

a) FX e nao-decrescente e contınua a direita.

b) FX(x)→0 ou 1, se x→−∞ ou x→+∞, respectivamente.

c) PX(a) = FX(a) − FX(a−), PX(]a, b]) = FX(b) − FX(a), PX([a, b]) = FX(b) −FX(a−), PX(]a, b[) = FX(b−) − FX(a) e PX([a, b[) = FX(b−) − FX(a−), para todo o

−∞ < a < b < +∞.

d) FX e contınua em x ∈ R sse PX(x) = 0.

e) O conjunto dos pontos de descontinuidade de FX e quando muito numeravel.

f) FX caracteriza PX (isto e, FX = FY sse X ∼ Y )

Dem: Demonstraremos apenas a alınea f). A demonstracao das restantes alıneas fica

ao cuidado do aluno. Se X ∼ Y entao PX = PY e consequentemente FX = FY .

Reciprocamente, se FX = FY para a, b ∈ R, temos PX(]a, b]) = FX(b) − FX(a) =

FY (b) − FY (a) = PY (]a, b]), ou ainda, PX = PY pelo lema da igualdade de medidas

(ver AMI, §2.6).

Notemos que, atendendo a alınea d), X e difusa sse FX e contınua em R. Alem

disso, das alıneas d) e e), e da decomposicao de Lebesgue, concluımos que a parte

discreta de PX tem por suporte o conjunto dos pontos de descontinuidade de FX .

O resultado seguinte da-nos duas caracterizacoes da continuidade absoluta duma

variavel aleatoria real em termos da sua funcao de distribuicao. A sua demonstracao

fica como exercıcio.

Teorema 2.3.3 Se X e uma variavel aleatoria real, sao equivalentes as seguintes pro-

posicoes:

i) X e absolutamente contınua.

ii) FX(x) =∫]−∞,x] fdλ, para alguma funcao nao-negativa e mensuravel f , com∫

fdλ = 1.

O resultado anterior e o teorema da diferenciacao de Lebesgue que a seguir enun-

ciamos (ver Rudin, 1974, pg. 176, e AMI, §9.3), permitem-nos, no caso de X ser abso-

lutamente contınua, garantir a diferenciabilidade quase em todo o ponto de FX , bem

como relacionar F ′X com a densidade de probabilidade de X.

Teorema da diferenciacao de Lebesgue: Se F (x) =∫]−∞,x] f dλ, para x ∈ R, onde

f : R →R e B(R)-mensuravel e integravel, entao F possui derivada em quase todo o

ponto de R e F ′ = f , λ-q.t.p.

Teorema 2.3.4 Se X e uma variavel aleatoria real absolutamente contınua de densi-

dade f , entao FX possui derivada em λ-quase todo o ponto de R e F ′X = f , λ-q.t.p.

ATP, Coimbra 2002


Mesmo no caso em que X nao e necessariamente uma v.a. absolutamente contınua,

e possıvel obter o resultado seguinte (ver Rudin, 1974, pg. 176).

Teorema 2.3.5 Se X e uma variavel aleatoria real entao FX possui derivada em λ-

quase todo o ponto de R e F ′X = fac, λ-q.t.p., onde fac e a derivada de Radon-Nikodym

da parte absolutamente contınua de PX .

Terminamos este paragrafo estabelecendo duas condicoes suficientes para a conti-

nuidade absoluta duma variavel aleatoria em termos da sua funcao de distribuicao.

Teorema 2.3.6 Se X e uma variavel aleatoria real e FX satisfaz pelo menos uma das

condicoes a)∫

F ′Xdλ = 1 ou b) FX e continuamente diferenciavel em R, entao X e

absolutamente contınua.

Dem: a) Atendendo aos Teoremas 2.2.1 e 2.3.5, podemos escrever PX = F ′Xλ+νd +νs.

Se F ′X e tal que

∫F ′

Xdλ = 1, obtemos entao PX(R) = 1+νd(R)+νs(R), ou ainda, νd =

νs = 0, isto e, X e absolutamente contınua. b) Pelo teorema fundamental do calculo,∫]a,b] F

′Xdλ =

∫]a,b] F

′X(t)dt (integral de Riemann) = FX(b) − FX(a) = PX(]a, b]), para

todo o a < b em R. Como F ′X e nao-negativa concluımos que F ′

X e λ-integravel e que∫

F ′Xdλ = 1.

Exercıcios

1. Sejam a ∈ R e X uma v.a. constantemente igual a a (dizemos que X e degenerada).

Mostre que PX = δa, isto e, a lei de probabilidade de X e a medida de Dirac no ponto

a, e determine a funcao de distribuicao FX de X .

2. Seja X uma v.a. uniforme discreta sobre o conjunto 1, 2, . . . , n, isto e, X toma valores

no conjunto 1, 2, . . . , n e

PX(j) = 1/n, para j = 1, . . . , n.

Determine a funcao de distribuicao de X .

3. Sejam U uma v.a.r. centrada e reduzida, isto e, U ∼ N(0, 1), e X definida por X =

σU + µ, com µ ∈ R e σ > 0 fixos. Mostre que X ∼ N(µ, σ2).

4. Sejam X uma v.a. uniforme sobre o intervalo [a, b], e Y a v.a.r. definida em ([0, 1],B([0, 1]), λ)

por Y (ω) = (1 − ω)a + ωb.

(a) Determine a funcao de distribuicao de X .

(b) Mostre que Y ∼ X .

5. Denotemos por X a v.a. que descreve a “extraccao ao acaso dum ponto do intervalo

[0, 1]”. Determine a funcao de distribuicao de X2 e conclua que X2 e absolutamente

contınua. Descrevera X2 a extraccao ao acaso dum ponto do intervalo [0, 1]?

ATP, Coimbra 2002


6. Sendo X uma v.a. normal de parametros 0 e 1, mostre que X2 admite por densidade de

probabilidade

f(x) =

1√2π

x−1/2 e−x/2, se x ≥ 0

0, se x < 0.

7. Considere a v.a. X de ([0, 1],B([0, 1), λ) em (R,B(R)), definida por X(ω) = ω, se 0 ≤ω < 1/2, X(ω) = 1/2, se 1/2 ≤ ω ≤ 3/4, e X(ω) = 2ω, se 3/4 < ω ≤ 1. Determine

a funcao de distribuicao de X e identifique as partes absolutamente contınua, discreta e

singular de PX .

8. Dizemos que uma v.a.r. X tem uma distribuicao exponencial de parametro λ > 0, e

escrevemos X ∼ E(λ), se admite uma densidade de probabilidade da forma

f(x) =

λe−λx, se x > 0

0, se x ≤ 0.

1 2 3 4

0.2

0.4

0.6

0.8

1

1.2

1.4

λ = 1.5

λ = 1

λ = 0.5

Figura 2.2: Distribuicao exponencial

(a) Determine a funcao de distribuicao FX .

(b) Mostre que se U ∼ U([0, 1[), entao, para λ > 0, X ∼ − 1λ ln(1 − U).

(Obs: A distribuicao exponencial e usada como modelo para o tempo de funcionamento

duma componente ou sistema, quando assumimos que o numero de falhas por unidade de

tempo e constante, ou para descrever o tempo que medeia entre chegadas consecutivas

de clientes a um posto de atendimento, quando assumimos que o numero de chegadas

por unidade de tempo e constante.)

9. (Representacao de Skorokhod duma v.a.r.) Sejam X uma v.a.r. com funcao de

distribuicao F e

F←(x) = infs ∈ R : F (s) ≥ x,para x ∈]0, 1[ (F← diz-se inversa generalizada de F ou funcao quantil de F ).

(a) Mostre que:

i. F←(x) ≤ u sse x ≤ F (u), para u ∈ R; ii. Se U ∼ U(]0, 1[), entao F←(U) ∼ X .

ATP, Coimbra 2002


(b) Se X esta definida num espaco de probabilidade (E,F , Q), mostre que existe uma

v.a. real Y definida em (]0, 1[,B(]0, 1[), λ) tal que X ∼ Y .

(c) Sendo F contınua, mostre que:

i. F (F←(x)) = x; ii. F (X) ∼ U([0, 1]).

10. Se X e uma v.a.r. com funcao de distribuicao F contınua em R e estritamente crescente

quando 0 < F (x) < 1, sabemos do exercıcio anterior que F−1(U) ∼ X , quando U ∼U(]0, 1[). Atendendo a que pode simular uma v.a. uniforme sobre o intervalo ]0, 1[ (ver

§1.8), implemente a simulacao das variaveis aleatorias reais seguintes cuja densidade de

probabilidade se indica (ver Figuras 2.3-2.6):

(a) Cauchy de parametros α e β:

f(x) = (βπ(1 + (x − α)2/β2))−1, x ∈ R (α ∈ R, β > 0);

(b) Laplace de parametros α e β:

f(x) = βe−β|x−α|/2, x ∈ R (α ∈ R, β > 0);

-4 -2 2 4

0.1

0.2

0.3

0.4

β = 1.5

β = 1

β = 0.75

α α α+ α+

Figura 2.3: Distribuicao de Cauchy

-4 -2 2 4

0.1

0.2

0.3

0.4

0.5

0.6

0.7

β = 1.5

β = 1

β = 0.75

α α α+ α+

Figura 2.4: Distribuicao de Laplace

ATP, Coimbra 2002


(c) Logıstica de parametros α e β:

f(x) = e−(x−α)/β(1 + e−(x−α)/β)−2/β, x ∈ R (α ∈ R, β > 0);

(d) Weibull de parametros α e β:

f(x) = αββxβ−1e−(αx)β

, x ≥ 0 (α, β > 0).

-6 -4 -2 2 4 6

0.05

0.1

0.15

0.2

0.25

0.3

β = 1.5

β = 1

β = 0.75

α α α α+ α+ α+

Figura 2.5: Distribuicao logıstica

0.5 1 1.5 2 2.5 3

0.2

0.4

0.6

0.8

1

1.2

β = 3

β = 1.5

β = 1

Figura 2.6: Distribuicao de Weibull (α = 1)

2.4 Funcao de distribuicao dum vector aleatorio

Neste paragrafo generalizamos a nocao de funcao de distribuicao ao caso multivari-

ado. A notacao que a seguir utilizamos foi introduzida no Exemplo 1.4.3.

Definicao 2.4.1 Chamamos funcao de distribuicao do vector aleatorio X = (X1, . . . ,

Xd), e denotamo-la por FX , a funcao de distribuicao de PX , isto e,

FX(x) = PX(] −∞, x]) = P(X ≤ x), x ∈ Rd.

ATP, Coimbra 2002


Proposicao 2.4.2 FX goza das seguintes propriedades:

a) FX e contınua a direita e nao-decrescente coordenada a coordenada;

b) FX(x)→0 ou 1, se mini=1,...,d xi→−∞ ou +∞, respectivamente;

c) Para a ≤ b, PX(]a, b]) =∑

x∈V sgn(x)FX(x), onde V e o conjunto dos vertices

de ]a, b];

d) FX caracteriza PX .

Dem: As alıneas a) e b) obtem-se como no caso real. A alınea c) e consequencia da

decomposicao ]a, b] =]−∞, b]−⋃di=1]−∞, (b1, . . . , bi−1, ai, bi+1, . . . , bd)] e da Formula

de Daniel da Silva. A alınea d) obtem-se de c) e do lema da igualdade de medidas.

Sendo FX contınua a direita e nao-decrescente coordenada a coordenada, a con-

tinuidade de F num ponto e equivalente a continuidade a esquerda nesse ponto. No

resultado seguinte estabelecemos uma condicao necessaria e suficiente para que um

ponto de Rd seja ponto de continuidade de FX .

Teorema 2.4.3 Sejam X um vector aleatorio em Rn, x ∈ Rd, fixo, e fr(] −∞, x]) a

fronteira de ] −∞, x]. Entao FX e contınua em x sse PX(fr(] −∞, x])) = 0.

Dem: Sendo (ǫn) uma sucessao em Rd com 0 ≤ ǫn ↓ 0, temos, para x ∈ Rd, ]−∞, x]−]−∞, x − ǫn] ↓ fr(] −∞, x], e assim PX(fr(] −∞, x])) = FX(x) − lim FX(x − ǫn), o que

permite concluir.

No caso real, a continuidade de FX em R e condicao necessaria e suficiente para que

X seja difusa. Como podemos concluir do resultado anterior, no caso multidimensional

a continuidade de FX em Rd apesar de suficiente nao e condicao necessaria para que

X seja difuso.

Aplicacoes sucessivas do teorema da diferenciacao de Lebesgue, permitem gene-

ralizar o Teorema 2.3.4 ao caso multidimensional.

Teorema 2.4.4 Se X e um vector aleatorio em Rd absolutamente contınuo de funcao

de distribuicao FX , entao∂dFX

∂x1 . . . ∂xdexiste em λ-quase todo o ponto de Rd e e uma

versao da densidade de probabilidade de X.

Terminamos este paragrafo, notando que conhecida a funcao de distribuicao dum

vector X, podemos facilmente obter a funcao de distribuicao dum seu subvector.

Teorema 2.4.5 Se FX e a funcao de distribuicao de (X1, . . . ,Xd), entao para

i1, . . . , im ⊂ 1, . . . , d, a funcao de distribuicao de (Xi1 , . . . ,Xim) e dada por

F(Xi1,...,Xim )(xi1 , . . . , xim) = lim FX(x1, . . . , xd),

ATP, Coimbra 2002


onde o limite anterior e tomado quando xj → +∞, para todo o j ∈ 1, . . . , d \i1, . . . , im.

Exercıcios

1. Se U ∼ N(0, 1), mostre que o ve.a. (U, 0) em R2 e difuso e estude a sua funcao de

distribuicao quanto a continuidade.

2. Se (X, Y ) e um ve.a. em R2 com funcao de distribuicao F , mostre que ∂2F∂x∂y esta definida

em quase todo o ponto de R2 e e nao-negativa. Alem disso, mostre que se F e de classe

C2 entao (X, Y ) e absolutamente contınuo.

2.5 Transformacao de vectores absolutamente contınuos

Suponhamos que X e Y sao vectores aleatorios em Rd tais que Y = g(X) com

g : U →V , bijectiva entre os abertos U e V , e g e g−1 de classe C1. Mostramos neste

paragrafo que Y e absolutamente contınuo se X o for, e determinamos a densidade de

probabilidade de Y em funcao da de X. Um tal resultado e uma consequencia imediata

do teorema da mudanca de variavel no integral de Lebesgue que recordamos de seguida

(ver AMI, §§7.3, 7.4).

Teorema da mudanca de variavel: Nas condicoes anteriores, seja f : U → R

B(U)-mensuravel. Se f e nao-negativa, entao

∫

Vfdλ =

∫

V(f g−1)(x)|det(Jg−1(x))|dλ(x),

onde Jg−1(x) representa a matriz jacobiana de g−1 no ponto x. Alem disso, para f qual-

quer, a λ-integrabilidade de f e equivalente a λ-integrabilidade de (fg−1)(·)|det(Jg−1(·))|,e nesse caso vale a igualdade anterior.

Teorema 2.5.1 Nas condicoes anteriores, se X e absolutamente contınuo com densi-

dade f , entao Y e absolutamente contınuo e uma versao da sua densidade de probabi-

lidade e dada por

h(x) =

(f g−1)(x)|det(Jg−1(x))|, se x ∈ V

0 se x /∈ V.

Dem: Para B ∈ B(V ), temos PY (B) = P(g(X) ∈ B) = P(X ∈ g−1(B)) =∫g−1(B) fdλ =∫

U f1Ig−1(B)dλ =∫V (f1Ig−1(B) g−1)(x)|det(Jg−1(x))|dλ(x) =

∫V (f g−1)(x)1IB(x)

|det(Jg−1(x))|dλ(x) =∫B(f g−1)(x)|det(Jg−1(x))|dλ(x).

ATP, Coimbra 2002


Uma aplicacao interessante do resultado anterior surge na determinacao da densi-

dade de probabilidade da soma de duas variaveis aleatorias X e Y com valores em Rd,

quando o vector (X,Y ) tem por densidade (x, y) → f(x)g(y), com f e g densidades

de probabilidade em Rd. Pelo teorema anterior, o vector (X + Y, Y ) tem por densi-

dade (u, v)→ f(u − v)g(v), e pelo Teorema 2.2.3 a densidade h de X + Y e dada por

h(u) =∫

f(u − v)g(v)dλ(v), a que chamamos convolucao das densidades f e g, e

que denotamos por f ⋆ g. Voltaremos a este assunto no Capıtulo 4.

Exercıcios

1. Retome o Exercıcio 2.3.5. Use o Teorema da transformacao de variaveis aleatorias abso-

lutamente contınuas para determinar a densidade de probabilidade de X2.

2. Sejam (X, Y ) o ve.a. definido no Exercıcio 2.2.3, e Z = X + Y . Mostre que Z ∼ N(0, 2).

3. Seja (X, Y ) um ponto escolhido ao acaso no quadrado [0, 1] × [0, 1]. Determine a distri-

buicao de Z = X + Y , dita distribuicao triangular sobre o intervalo [0, 2].

4. Se (X, Y ) e um ve.a. com valores em (R2,B(R2)) e densidade f , mostre que as v.a.

Z1 = XY e Z2 = X/Y sao absolutamente contınuas com densidades

g1(z) =

∫f(u, z/u)/|u| dλ(u), para z ∈ R,

e

g2(z) =

∫f(zv, v)|v| dλ(v), para z ∈ R,

respectivamente. Se (X, Y ) e o ve.a. definido no Exercıcio 2.2.3, conclua que Z2 possui

uma distribuicao de Cauchy de parametros 0 e 1.

5. Sejam (X, Y ) o ve.a. definido no Exercıcio 2.2.3 e Z = X2 + Y 2.

(a) Mostre que, para A ∈ B(R),

P(Z ∈ A) =

∫ ∫1IA(x2 + y2)

1

2πe−(x2+y2)/2dλ(x)dλ(y).

(b) Conclua que Z segue uma lei exponencial de parametro 1/2.

6. (Metodo de Box-Muller para simulacao de variaveis normais1) Seja (U, V ) um

ve.a. com distribuicao uniforme sobre o rectangulo [0, 1[×[0, 1[.

(a) Determine a densidade de probabilidade do vector (R, Θ) = (√−2 ln(1 − U), 2πV )

e conclua que Θ possui uma distribuicao uniforme sobre o intervalo [0, 2π[ e que R

possui uma distribuicao de Rayleigh, isto e, R tem por densidade

fR(r) = re−r2/21I[0,+∞[(r).

(b) Mostre que X = R cosΘ possui uma distribuicao normal standard.

1Box, G.E.P., Muller, M.E., Ann. Math. Stat., 29, 610–611, 1958.

ATP, Coimbra 2002


2.6 Distribuicoes condicionais

Dada uma probabilidade P1 sobre (Rn,B(Rn)) e uma probabilidade de transicao Q

sobre Rn×B(Rm), sabemos do §1.7 que existe um vector aleatorio (X,Y ) definido num

espaco de probabilidade (Ω,A,P) tal que PX = P1 e

P(X,Y )(A × B) =

∫

AQ(x,B)dPX(x), (2.6.1)

para todo o A × B ∈ B(Rn) × B(Rm).

O problema que agora consideramos pode ser visto como o inverso do anterior.

Dado um vector aleatorio (X,Y ) definido num espaco de probabilidade (Ω,A,P) e

com valores em (Rn × Rm,B(Rn) ⊗ B(Rm)), sera possıvel escrever a sua distribuicao

de probabilidade na forma (2.6.1) para alguma probabilidade de transicao Q sobre

Rn × B(Rm)? A resposta a esta questao e afirmativa mas a sua justificacao completa

ultrapassa largamente os objectivos deste curso2. Vamos contentar-nos com algumas

respostas parciais.

Admitamos em primeiro lugar que X e discreto. Tomando, para B ∈ B(Rm),

Q(x,B) =

P(Y ∈ B|X = x), se P(X = x) > 0

ν(B), se P(X = x) = 0,

onde ν e uma probabilidade fixa sobre B(Rm), concluımos que Q e uma probabilidade

de transicao sobre Rn × B(Rm) e, para A × B ∈ B(Rn) × B(Rm),

∫

AQ(x,B)dPX(x)

=∑

x∈A:P(X=x)>0

P(Y ∈ B|X = x)P(X = x)

=∑

x∈A:P(X=x)>0

P(X = x, Y ∈ B)

= P(X,Y )(A × B).

O mesmo acontece quando (X,Y ) e um vector absolutamente contınuo com densi-

dade f , bastando definir

Q(x,B) =

∫

B

f(x, y)

fX(x)dλ(y), se fX(x) > 0

ν(B), se fX(x) = 0,

2No caso das variaveis X e Y tomarem valores em espacos gerais, o resultado pode nao ser verdadeiro

(ver Hennequin e Tortrat, 1965, pg. 236–238).

ATP, Coimbra 2002


onde fX(x) =∫

f(x, y)dλ(y) e ν e uma probabilidade fixa sobre B(Rm). Com efeito,

∫

AQ(x,B)dPX(x)

=

∫

A

∫

B

f(x, y)

fX(x)dλ(y)fX(x) dλ(x)

=

∫

A×Bf(x, y) dλ(y)dλ(x)

= P(X,Y )(A × B),

para A × B ∈ B(Rn) × B(Rm). A aplicacao y→fY (y|X = x) = f(x,y)fX(x) , que nao e mais

do que uma versao de derivada de Radon-Nikodym de Q(x, ·) relativamente a λ, diz-se

densidade condicional de Y dado X = x. A densidade de (X,Y ) pode ser assim

obtida a partir de fX e de fY (·|X = ·) pela formula f(x, y) = fX(x)fY (y|X = x).

Definicao 2.6.2 Sejam X e Y sao vectores aleatorios definidos num espaco de proba-

bilidade (Ω,A,P) com valores em (Rn,B(Rn)) e (Rm,B(Rn)), respectivamente. Toda a

probabilidade de transicao Q sobre Rn × B(Rm) satisfazendo

∫

AQ(x,B)dPX(x) = P(X,Y )(A × B),

para todo o A × B ∈ B(Rn) × B(Rm), e dita lei ou distribuicao condicional de Y

dado X, e e denotada por PY (·|X = ·). A PY (·|X = x) chamamos lei ou distri-

buicao condicional de Y dado X = x.

Observemos que no caso particular em que X e discreto, e tal como a notacao

sugere, PY (·|X = x), para x ∈ Rn com P(X = x) > 0, e efectivamente a distribuicao

de probabilidade de Y quando Y e considerada definida no espaco de probabilidade

(Ω,A,P(·|X = x)).

Notemos tambem que se PY,1(·|X = ·) e PY,2(·|X = ·) sao distribuicoes condicionais

de Y dado X, entao PY,1(·|X = x) = PY,2(·|X = x), para PX-quase todo o ponto x de

Rn.

Exercıcios

1. Sejam X uma v.a. com valores em Rn e Y = g(X) com g : R

n → Rm uma aplicacao

mensuravel. Determine PY (·|X = ·).

2. Seja (X, Y ) um ve.a. em R2 com X ∼ N(0, 1) e cuja distribuicao condicional de Y dado

X = x tem uma distribuicao N(x, 1). Prove que Y ∼ N(0, 2).

ATP, Coimbra 2002


3. Um ponto X e escolhido ao acaso do intervalo [a, b] e a seguir um ponto Y e escolhido

ao acaso do intervalo [X, b]. Mostre que a densidade de probabilidade de Y e dada, para

y ∈ R, por

fY (y) =1

b − aln

(b − a

b − y

)1I[a,b[(y).

4. Um animal poe um certo numero X de ovos segundo uma distribuicao de Poisson de

parametro λ. Cada um desses ovos, independentemente dos outros, da origem a um

novo animal com probabilidade p. Denotando por Y o numero de crias de cada ninhada,

determine a distribuicao de Y .

(Sugestao: Comece por determinar a distribuicao condicional de Y dado X = n.)

2.7 Bibliografia

Hennequin, P.L., Tortrat, A. (1965). Theorie des Probabilites et Quelques Applications,

Masson.

Jacod, J., Protter, P. (2000). Probability Essentials, Springer.


Rudin, W. (1974). Real and Complex Analysis, McGraw-Hill.

ATP, Coimbra 2002

Capıtulo 3

Independencia

Independencia de acontecimentos aleatorios, de classes e de variaveis aleatorias. Cara-

cterizacoes da independencia duma famılia de variaveis aleatorias. Distribuicao da

soma de variaveis aleatorias independentes. Leis zero-um de Borel e de Kolmogorov.

3.1 Independencia de classes de acontecimentos aleatorios

Introduzimos neste capıtulo uma das mais importantes nocoes que abordamos neste

curso. Trata-se da nocao de independencia cujas implicacoes serao exploradas neste e

nos proximos capıtulos.

Se A e B sao acontecimentos aleatorios dum espaco de probabilidade (Ω,A,P),

com P(B) > 0, a probabilidade condicionada P(A|B) pode ser interpretada como a

probabilidade do acontecimento A quando sabemos que o acontecimento B se realizou.

O facto de sabermos que B se realizou, pode, ou nao, alterar a probabilidade P(A)

do acontecimento A, isto e, pode, ou nao, verificar-se a igualdade P(A|B) = P(A), ou

ainda, P(A ∩ B) = P(A)P(B). Tal facto motiva a definicao seguinte.

Definicao 3.1.1 Os acontecimentos aleatorios At, t ∈ T , onde T denota um qualquer

conjunto de ındices, dizem-se independentes, se para qualquer conjunto finito de

ındices distintos t1, . . . , tn ∈ T , P (⋂n

k=1 Atk) =∏n

k=1 P(Atk).

Notemos que os acontecimentos duma famılia podem ser dois a dois independentes

sem serem (colectivamente) independentes. Para ilustrar tal situacao, considere, por

exemplo, Ω = 0, 12, A = P(Ω) e P tal que P((i, j)) = 1/4, para (i, j) ∈ Ω, e os

acontecimentos A = (0, 0), (0, 1), B = (0, 0), (1, 0) e C = (0, 0), (1, 1).A nocao de independencia de acontecimentos aleatorios pode, de forma natural, ser

extendida a uma famılia arbitraria de classes.

49


Definicao 3.1.2 Dizemos que as subclasse nao-vazias Ct, t ∈ T , de A sao indepen-

dentes, quando, para qualquer conjunto finito de ındices distintos t1, . . . , tn ∈ T , e de

acontecimentos At1 ∈ Ct1 , . . . , Atn ∈ Ctn , os acontecimentos Atk , k = 1, . . . , n, forem

independentes.

No resultado seguinte lancamos mao das nocoes de π-sistema e de d-sistema. Re-

cordemos que um π-sistema e uma classe de partes de Ω que e estavel para a interseccao

finita, enquanto que um d-sistema, ou sistema de Dynkin, contem Ω e e estavel para a

complementacao e para a reuniao numeravel disjunta (ver AMI, §1.2).

Teorema 3.1.3 Sejam Ct, t ∈ T , subclasses nao-vazias de A, tais que:

a) Ct e um π-sistema, para todo o t ∈ T ;

b) Ct, t ∈ T , sao independentes.

Entao as σ-algebras σ(Ct), t ∈ T , sao independentes.

Dem: Para t1, . . . , tn ∈ T , distintos, e At1 , . . . , Atn fixos em Ct1 , . . . , Ctn , respectiva-

mente, consideremos a classe L = A ∈ A : P(AAt2 . . . Atn) = P(A)P(At1) . . . P(Atn).L e um d-sistema e, sendo Ct1 , . . . , Ctn independentes, Ct1 ⊂ L. Consequentemente,

d(Ct1) ⊂ L. Sendo Ct1 um π-sistema, d(Ct1) = σ(Ct1) (cf. AMI, Teorema 1.3.3), o que

prova que σ(Ct1), Ct2 , . . . , Ctn sao independentes. Repetindo o raciocınio para as clas-

ses Ct2 , . . . , Ctn , σ(Ct1) concluımos que σ(Ct2), Ct3 , . . . , Ctn , σ(Ct1) sao independentes, e

finalmente que σ(Ct1), σ(Ct2), . . . , σ(Ctn) sao independentes.

Corolario 3.1.4 Os acontecimentos At, t ∈ T , sao independentes sse as σ-algebras

σ(At), t ∈ T , o forem.

Teorema 3.1.5 Sejam Bt, t ∈ T , sub-σ-algebras de A independentes e P uma particao

de T . Entao as σ-algebras BS = σ(Bt, t ∈ S), S ∈ P, sao ainda independentes.

Dem: Para S ∈ P, seja CS = ⋂α∈K : Bα ∈ Bα,K ⊂ S,K finito. Vamos pro-

var que CS, S ∈ P, e uma famılia de π-sistemas independentes com σ(CS) = BS , o

que permite concluir pelo teorema anterior. 1) CS e claramente um π-sistema. 2) Se-

jam agora S1, . . . , Sk ∈ P distintos (logo disjuntos) e Ai ∈ CSi , i = 1, . . . , k. Entao

Ai =⋂

αi∈KiBi

αi, com Bi

αi∈ Bαi e Ki ⊂ Si finito. Uma vez que P(

⋂ki=1 Ai) =

P(⋂k

i=1

⋂αi∈Ki

Biαi

) =∏k

i=1

∏αi∈Ki

P(Biαi

) =∏k

i=1 P(Ai), concluımos que CS , S ∈ P,

e uma famılia de π-sistemas independentes. 3) Claramente CS ⊂ BS , e tambem

σ(CS) ⊂ BS. Por outro lado, Bα ⊂ CS, para α ∈ S, e tambem⋃

α∈S Bα ⊂ CS . Assim,

BS = σ(Bα, α ∈ S) = σ(⋃

α∈S Bα) ⊂ σ(CS).

Exercıcios

1. Utilizando a definicao, mostre que se A e B sao acontecimentos aleatorios independentes,

tambem o sao os pares de acontecimentos A e Bc, Ac e B, e Ac e Bc.

ATP, Coimbra 2002

3 Independencia 51

2. Mostre que A1, . . . , An sao acontecimentos independentes sse para todo o j ∈ 1, . . . , ne I ⊂ 1, . . . , n − j com P(

⋂i∈I Ai) > 0, entao P(Aj |

⋂i∈I Ai) = P(Aj).

3. Se An, n ≥ 1, sao acontecimentos independentes, mostre que P(⋂∞

n=1 An) =∏∞

n=1 P(An).

4. Sejam (Ω,A) o produto dos espacos mensuraveis (Ωn,An), n ∈ N, e P uma probabilidade

sobre A. Para n ∈ N e An ∈ An, considere os acontecimentos

Bn = Ω1 × . . . × Ωn−1 × An × Ωn+1 × . . .

e as probabilidades Pn definidas em (Ωn,An) por Pn(An) = P(Bn). Mostre que os

acontecimentos Bn, n ≥ 1, sao independentes sse P = ⊗∞n=1Pn.

5. Se An, n ≥ 1, sao acontecimentos independentes, mostre que ∪ni=1Ai e ∪∞i=n+1Ai sao

independentes, com n ∈ N fixo.

6. Para s > 1, fixo, sejam ζ(s) =∑∞

n=11

ns , e X uma variavel aleatoria com valores em N

tal que P(X = n) = 1ζ(s)

1ns , para n ∈ N.

(a) Para p ∈ N, considere o conjunto Ep = X e divisıvel por p, e mostre que P(Ep) =

1/ps.

(b) Mostre que os conjuntos Ep, com p primo, sao independentes.

(c) Estabeleca a formula de Euler: 1ζ(s) =

∏p primo

(1 − 1

ps

).

3.2 Independencia de variaveis aleatorias

As variaveis aleatorias que consideramos neste paragrafo estao definidos sobre um

mesmo espaco de probabilidade (Ω,A,P), podendo, no entanto, tomar valores em

espacos mensuraveis diversos. No que se segue, T e um qualquer conjunto de ındices.

Definicao 3.2.1 Dizemos que Xt, t ∈ T , e uma famılia de variaveis aleatorias

independentes se σ(Xt), t ∈ T , forem σ-algebras independentes.

Uma caracterizacao da independencia duma qualquer famılia Xt, t ∈ T , de variaveis

aleatorias em termos da distribuicao da variavel aleatoria (Xt, t ∈ T ), e apresentada no

resultado seguinte. Fica assim clara a relacao estreita entre as nocoes de independencia

da famılia Xt, t ∈ T , de variaveis aleatorias e a forma produto para a distribuicao de

probabilidade da variavel aleatoria (Xt, t ∈ T ).

Teorema 3.2.2 As variaveis aleatorias Xt, t ∈ T , onde cada Xt toma valores em

(Et,Bt), sao independentes sse P(Xt,t∈T ) =⊗

t∈T PXt .

Dem: Comecemos por notar que como a σ-algebra⊗

t∈T Bt e gerada pelos conjuntos do

tipo π−1S (

∏t∈S Bt), com Bt ∈ Bt, t ∈ T , e S ⊂ T finito, a igualdade de medidas expressa

no enunciado e equivalente a igualdade P(Xt,t∈S) =⊗

t∈S PXt , para todo o subconjunto

ATP, Coimbra 2002


finito S de T . Suponhamos entao que Xt, t ∈ T , sao variaveis aleatorias independentes,

e para S ⊂ T finito, consideremos Bt ∈ Bt, para t ∈ S. Como P(Xt,t∈S)(∏

t∈T Bt) =

P(⋂

t∈SXt ∈ Bt) =∏

t∈S P(Xt ∈ Bt) =⊗

t∈S PXt(∏

t∈T Bt), concluımos que

P(Xt,t∈T ) =⊗

t∈T PXt . Reciprocamente, sejam S ⊂ T finito, e At ∈ σ(Xt), para t ∈ S.

Por definicao de σ-algebra gerada por Xt, At = X−1t (Bt), com Bt ∈ Bt. Assim,

P(⋂

t∈S At) = P((Xt, t ∈ S) ∈ ∏t∈S Bt) = P(Xt,t∈S)(

∏t∈S Bt) =

⊗t∈S PXt(

∏t∈S Bt) =

∏t∈S PXt(Bt) =

∏t∈S P(At), ou seja, Xt, t ∈ T , sao independentes.

Nos dois resultados seguintes apresentamos caracterizacoes da independencia das

margens dum vector aleatorio em termos da sua funcao de distribuicao e, no caso

deste ser absolutamente contınuos, da sua densidade de probabilidade. Um resultado

do mesmo tipo, mas em termos da sua funcao de probabilidade, vale para vectores

aleatorios discretos.

Teorema 3.2.3 Seja (X1, . . . ,Xn) um vector aleatorio em Rn com funcao de distri-

buicao F(X1,...,Xn). As variaveis aleatorias reais X1, . . . ,Xn sao independentes sse

F(X1,...,Xn) =

n∏

i=1

FXi ,

onde FXi denota a funcao de distribuicao da variavel aleatoria Xi. Alem disso, se

F(X1,...,Xn) =∏n

i=1 Gi, onde cada Gi e uma distribuicao de probabilidade em R, entao

Gi = FXi , para i = 1, . . . , n, e as variaveis aleatorias X1, . . . ,Xn sao independentes.

Dem: 1) Se X1, . . . ,Xn sao independentes, P(X1,...,Xn) =⊗n

i=1 PXi , o que implica que

F(X1,...,Xn)(x1, . . . , xn) = P(X1,...,Xn)(∏n

i=1] − ∞, xi]) =⊗n

i=1 PXi(∏n

i=1] − ∞, xi]) =∏n

i=1 PXi(] − ∞, xi]) =∏n

i=1 FXi(xi), para (x1, . . . , xn) ∈ Rn. Reciprocamente, se

F(X1,...,Xn) =∏n

i=1 FXi , entao P(X1,...,Xn) e⊗n

i=1 PXi coincidem sobre o π-sistema dos

borelianos da forma∏n

i=1]−∞, xi], que gera B(Rn). Pelo lema da igualdade de medida,

P(X1,...,Xn) e⊗n

i=1 PXi coincidem sobre B(Rn) (cf. AMI, §2.6), o que atendendo ao teo-

rema anterior e equivalente a independencia das variaveis X1, . . . ,Xn. 2) Suponhamos

agora que F(X1,...,Xn) =∏n

i=1 Gi, onde cada Gi e uma distribuicao de probabilidade em

R. Assim, para i = 1, . . . , n, e xi ∈ R, FXi(xi) = limxj→+∞

j 6=i

F(X1,...,Xn)(x1, . . . , xn) =

limxj→+∞

j 6=i

∏nk=1 Gk(xk) = Gi(xi). Alem disso, F(X1,...,Xn) =

∏ni=1 Fi, o que pela primeira

parte da demonstracao e equivalente a independencia de X1, . . . ,Xn.

Teorema 3.2.4 Seja (X1, . . . ,Xn) um vector aleatorio em Rn com densidade de proba-

bilidade f(X1,...,Xn). As variaveis aleatorias reais X1, . . . ,Xn sao independentes sse

f(X1,...,Xn) =n∏

i=1

fXi ,

ATP, Coimbra 2002

3 Independencia 53

onde fXi denota a densidade de probabilidade da variavel aleatoria Xi. Alem disso,

se f(X1,...,Xn) =∏n

i=1 gi, onde cada gi e uma densidade de probabilidade em R, entao

gi = fXi, para i = 1, . . . , n, e as variaveis aleatorias X1, . . . ,Xn sao independentes.

Dem: 1) Se X1, . . . ,Xn sao independentes, o teorema de Fubini (ver AMI, §6.4) per-

mite concluir que P(X1,...,Xn) = (∏n

i=1 fXi)λn, ou ainda, f(X1,...,Xn) =∏n

i=1 fXi . Re-

ciprocamente, e ainda pelo teorema de Fubini, se f(X1,...,Xn) =∏n

i=1 fXi , concluımos

que P(X1,...,Xn) =⊗n

i=1 PXi , isto e, X1, . . . ,Xn sao independentes. 2) Se f(X1,...,Xn) =∏n

i=1 gi, onde cada gi e uma densidade de probabilidade em R, entao, para i = 1, . . . , n

e xi ∈ R, fXi(xi) =∫

Rn−1

∏nj=1 gj(xj)dλn−1 = g(xi)

∏nj=1j 6=i

∫g(xj)dλ = g(xi). Assim,

f(X1,...,Xn) =∏n

i=1 fXi , o que pela primeira parte da demonstracao e equivalente a

independencia das variaveis X1, . . . ,Xn.

Terminamos este paragrafo com uma caracterizacao da independencia de dois vec-

tores aleatorios em termos de distribuicoes condicionais.

Teorema 3.2.5 Sejam X e Y sao vectores aleatorios com valores em (Rn,B(Rn)) e

(Rm,B(Rm)), respectivamente. X e Y sao independentes sse PY (·|X = x) e inde-

pendente de x, para PX-quase todo o ponto x. Neste caso PY (·|X = x) = PY , para

PX -quase todo o ponto x.

Dem: Basta ter em conta que, para A ∈ B(Rn) e B ∈ B(Rm), P(X,Y )(A × B) =∫A PY (B|X = x) dPX(x) e PX(A)PY (B) =

∫A PY (B) dPX(x).

Exercıcios

1. Dada uma famılia de acontecimentos aleatorios At, t ∈ T , mostre que 1IAt , t ∈ T , sao

independentes sse os acontecimentos At, t ∈ T , o forem.

2. Se Xt : (Ω,A, P) → (Et,Bt), com t ∈ T , sao variaveis aleatorias independentes, e ft :

(Et,Bt) → (Ft, Ct), sao aplicacoes mensuraveis, mostre que ft Xt, t ∈ T , sao tambem

variaveis aleatorias independentes.

3. Sejam X1, . . . , Xn sao v.a. reais independentes, e m < n natural. Mostre que:

(a) Os vectores aleatorios (X1, . . . , Xm) e (Xm+1, . . . , Xn), sao independentes;

(b)∑m

i=1 Xi e∑n

i=m+1 Xi sao v.a. independentes.

4. (Construcao de v.a. independentes) Mostre que as variaveis aleatorias (Xn) definidas

no Exercıcio 2.1.2 sao independentes.

5. Dadas variaveis aleatorias Xi : (Ωi,Ai, Pi)→(Ei,Bi), para i = 1, . . . , n, mostre que existe

um espaco de probabilidade (Ω,A, P) e variaveis aleatorias independentes Yi : (Ω,A, P)→(Ei,Bi), i = 1, . . . , n, tais que Yi ∼ Xi para todo o i.

ATP, Coimbra 2002


6. Dada uma sucessao (Xn) de v.a.r. identicamente distribuıdas, mostre que existem v.a.r.

Y1, Y2, . . . , Z1, Z2, . . ., definidas num mesmo espaco de probabilidade que satisfazem: a)

Xn ∼ Yn ∼ Zn, para todo o n ∈ N; b) Y1, Y2, . . . , Z1, Z2, . . . sao independentes.

7. Mostre que o resultado expresso no exercıcio anterior continua valido para uma qualquer

sucessao (Xn) de v.a.r. nao necessariamente identicamente distribuıdas.

8. (Metodo de Box-Muller para simulacao de variaveis normais, II) Sejam R e Θ as

variaveis aleatorias definidas no Exercıcio 2.5.6. Mostre que X = R cosΘ e Y = R sin Θ,

sao variaveis independentes com distribuicoes normal standard.

3.3 Soma de variaveis aleatorias independentes

Se X e Y sao variaveis aleatorias com valores em Rd, absolutamente contınuas e

independentes, isto e, se (X,Y ) e um vector com densidade (x, y)→fX(x)fY (y), vimos

no §2.5 que a soma X + Y e uma variavel absolutamente contınua cuja densidade e a

convolucao das densidades fX e fY , isto e,

fX+Y (x) = (fX ⋆ fY )(x) =

∫fX(x − y)fY (y)dλ(y).

No caso discreto e tambem possıvel obter uma formula do tipo anterior. Com efeito,

se X e Y sao variaveis discretas e independentes com funcoes de probabilidade gX e

gY , temos, para x ∈ Rd,

gX+Y (x) =∑

y∈Rd

P(X + Y = x, Y = y)

=∑

y∈Rd

P(X = x − y, Y = y)

=∑

y∈Rd

gX(x − y)gY (y)

=: (gX ⋆ gY )(x),

a que chamamos convolucao das funcoes de probabilidade gX e gY .

Se denotarmos agora por Sn = X1 + . . . + Xn, a soma de n variaveis aleatorias

independentes e identicamente distribuıdas, com densidade ou funcao de probabilidade

comum f , a densidade ou funcao de distribuicao fSn de Sn pode ser obtida por inducao

a partir de fSn−1 e de f , pois Sn = Sn−1 + Xn, e Sn−1 e Xn sao independentes.

Nos casos seguintes e simples obter a distribuicao de Sn pelo metodo anterior.

Exemplo 3.3.1 Se X1, . . . ,Xn sao v.a. independentes com Xi ∼ N(0, 1), entao

fSn(x) =1√2nπ

e−x2/(2n), para x ∈ R.

ATP, Coimbra 2002

3 Independencia 55

-10 -5 5 10

0.05

0.1

0.15

0.2

0.25

n = 2

n = 4

n = 8

n = 20

Figura 4.1: Distribuicao da soma de n v.a. i.i.d. N(0, 1)

Exemplo 3.3.2 Se X1, . . . ,Xn sao v.a. independentes com Xi ∼ B(p), entao

fSn(x) =

(nx

)px (1 − p)n−x, se x ∈ 0, 1, . . . , n

0, caso contrario.

10 20 30 40 50 60 70 80

0.025

0.05

0.075

0.1

0.125

0.15

0.175

n = 20

n = 40

n = 80

n = 120

Figura 4.2: Distribuicao da soma de n v.a. i.i.d. B(1/3)

Exemplo 3.3.3 Se X1, . . . ,Xn sao v.a. independentes com Xi ∼ E(λ), temos

fSn(x) =

λe−λx (λx)n−1

(n−1)! , se x ≥ 0

0, se x < 0.

ATP, Coimbra 2002


10 20 30 40

0.05

0.1

0.15

0.2

n = 5

n = 10

n = 15

n = 20

n = 25

Figura 4.3: Distribuicao da soma de n v.a. i.i.d. E(1)

No primeiro exemplo Sn ∼ N(0, n), enquanto que no segundo Sn ∼ B(n, p), o que

seria de esperar atendendo a definicao de distribuicao binomial. No ultimo exemplo,

dizemos que Sn possui uma distribuicao de Erlang de parametros n e λ.

Exercıcios

1. Estabeleca os resultados enunciados nos exemplos anteriores.

2. Se X1, . . . , Xn sao v.a. independentes com distribuicoes geometricas de parametro p,

mostre que Sn = X1 + . . . + Xn verifica Sn ∼ Y + n, onde Y ∼ BN(n, p) (ver Exercıcio

2.1.9).

3. Sejam X e Y independentes, e Z = X + Y . Determine a densidade de Z quando:

(a) X ∼ E(µ) e Y ∼ E(λ);

(b) X ∼ N(m1, σ21) e Y ∼ N(m2, σ

22).

4. Dizemos que uma v.a.r. X tem uma distribuicao do qui-quadrado com n graus de

liberdade (n ∈ N), e escrevemos X ∼ χ2n, se admite uma densidade de probabilidade da

forma

f(x) =

1

Γ(n/2)2n/2 xn/2−1e−x/2, se x ≥ 0

0, se x < 0,

onde Γ(α) =∫∞0 xα−1e−xdx, para α > 0, e a funcao Gamma. Mostre que se X1, X2, . . . , Xn

sao v.a. normais standard independentes, entao X21 + X2

2 + . . . + X2n ∼ χ2

n.

(Sugestao: Tenha em conta o Exercıcio 2.3.6 e a igualdade∫ 1

0xp−1(1−x)q−1dx = Γ(p)Γ(q)

Γ(p+q) ,

valida para p, q > 0.)

5. Sejam X1, . . . , Xn v.a.r. independentes e Y1, . . . , Yn v.a.r. independentes, com Xi ∼ Yi

para i = 1, . . . , n. Mostre que∑n

j=1 Xj ∼ ∑nj=1 Yj . Verifique que a hipotese de inde-

pendencia e essencial para a validade do resultado.

ATP, Coimbra 2002

3 Independencia 57

3.4 Leis zero-um de Borel e de Kolmogorov

Atendendo ao teorema de Borel-Cantelli ja nosso conhecido da disciplina de Medida

e Integracao, sabemos que, sob certas condicoes sobre a sucessao de acontecimentos

(An), o acontecimento An i.o. = lim sup An, isto e, o acontecimento que se realiza

quando se realiza uma infinidade de acontecimentos An, tem probabilidade zero. Mais

precisamente:

Teorema 3.4.1 (de Borel–Cantelli1) Se os acontecimentos aleatorios An, n ≥ 1,

satisfazem∑∞

n=1 P(An) < +∞, entao P(An i.o.) = 0.

No caso dos acontecimentos (An) serem independentes este resultado pode ser pre-

cisado. Mostramos de seguida que a probabilidade do acontecimento An i.o. so pode

tomar dois valores possıveis: zero ou um.

Teorema 3.4.2 (Lei zero-um de Borel2) Se os acontecimentos aleatorios An, n ≥1, sao independentes entao

P(An i.o.) =

0 sse

∑∞n=1 P(An) < +∞

1 sse∑∞

n=1 P(An) = +∞.

Dem: Pelo teorema de Borel-Cantelli, basta mostrar que∑∞

n=1 P(An) = +∞ implica

P(An i.o.) = 1. Tal e equivalente a provar que P(⋃∞

k=n Ak) = 1, para todo o n ∈ N.

Atendendo a independencia dos acontecimentos Ack, k ∈ N, e a desigualdade 1 − x ≤

exp(−x), valida para todo o x ∈ [0, 1], obtemos P(⋂∞

k=n Ack) = lim P(

⋂mk=n Ac

k) =

lim∏m

k=n P(Ack) = lim

∏mk=n(1 − P(Ak)) ≤ lim

∏mk=n exp(−∑m

k=n P(Ak)) = exp(−∑∞

k=n P(Ak)) = 0.

Como veremos de seguida, a propriedade exibida pelo acontecimento An i.o. da sua

probabilidade so poder tomar dois valores, zero ou um, e partilhada por uma classe mais

vasta de acontecimentos aleatorios. Um tal resultado e conhecido como lei zero-um de

Kolmogorov.

Definicao 3.4.3 Uma σ-algebra B ⊂ A, diz-se P-trivial se P(A) = 0 ou P(A) = 1,

para todo o A ∈ B.

Claramente ∅,Ω e P-trivial para toda a probabilidade P.

Lema 3.4.4 Uma sub-σ-algebra B de A e P-trivial sse e independente de si propria.

1Cantelli, F.P., Rend. Accad. Naz. Lincei., 26, 295–302, 1917.2Borel, E, Rend. Circ. Mat. Palermo, 27, 247–271, 1909.

ATP, Coimbra 2002


Dem: Se B e independente de si propria, entao para todo o A ∈ B, P(A) = P(A∩A) =

P(A)P(A), ou seja, P(A) = 0 ou P(A) = 1. Reciprocamente, se B e P-trivial e A e B sao

elementos de B com P(A) = 0 ou P(B) = 0, entao P(A ∩ B) ≤ min(P(A),P(B)) = 0.

Se P(A) = P(B) = 1, sabemos que P(A ∩ B) = 1, para toda a probabilidade P. Em

ambos os casos, P(A ∩ B) = P(A)P(B).

Teorema 3.4.5 (Lei zero-um de Kolmogorov3) Sejam B1,B2, . . . sub-σ-algebras in-

dependentes de A, e B∞ a σ-algebra assintotica associada a sucessao (Bn), isto e,

B∞ =∞⋂

n=1

σ(Bk, k ≥ n).

Entao B∞ e P-trivial.

Dem: Consideremos n ≥ 2, e denotemos por Bn a σ-algebra σ(Bk, k ≥ n). Pelo

Teorema 3.1.5, as σ-algebras B1,B2, . . . ,Bn−1,Bn sao independentes, e por maioria

de razao, sao ainda independentes as σ-algebras B1,B2, . . . ,Bn−1,B∞ pois B∞ ⊂ Bn.

Sendo n qualquer, isto significa que B1,B2, . . . ,B∞ sao independentes, sendo, pelo

Teorema 3.1.5, tambem independentes as σ-algebras σ(Bk, k ≥ 1) e B∞. Finalmente,

como B∞ ⊂ σ(Bk, k ≥ 1), concluımos que B∞ e independente de si propria, ou seja,

que B∞ e P-trivial.

Teorema 3.4.6 Seja B uma sub-σ-algebra P-trivial de A. Uma variavel aleatoria X

B-mensuravel com valores em (R,B(R)) e degenerada, isto e, X e P-q.c. constante.

Dem: Seja X B-mensuravel com valores em R. Como X−1(] −∞, x]) = X ≤ x ∈ B,

entao P(X ≤ x) = 0 ou 1, para todo o x ∈ R. Seja c = supx ∈ R : P(X ≤ x) = 0.Se c = −∞ entao P(X ≤ x) = 1, para todo o x ∈ R, e assim P(X = −∞) =

lim P(X ≤ −n) = 1. Se c = +∞, entao P(X ≤ x) = 0, para todo o x ∈ R, e assim

P(X = +∞) = 1 − lim P(X ≤ n) = 1. Se c ∈ R, concluımos que P(X ≤ x) = 0, para

todo o x < c e P(X ≤ x) = 1, para todo o x > c. Consequentemente, P(X = c) =

P(X ≤ c) − P(X < c) = lim P(X ≤ c + 1/n) − lim P(X ≤ c − 1/n) = 1 − 0 = 1.

Se X1,X2, . . . e uma sucessao de variaveis aleatorias reais independentes, e

Sn = X1 + . . . + Xn,

estudaremos mais a frente o comportamento assintotico das sucessoes

Sn e Sn/n.

3Kolmogorov, A.N., Grundbegriffe der Wahrscheinlichkeitrechnung, Berlin, 1933.

ATP, Coimbra 2002

3 Independencia 59

De acordo com o resultado seguinte, estas sucessoes ou convergem ou divergem quase

certamente, isto e, o conjunto dos pontos w ∈ Ω onde convergem ou tem probabilidade

zero ou ou tem probabilidade um. Alem disso, sendo Sn/n convergente, a variavel

aleatoria limite e quase certamente degenerada. Mais precisamente:

Corolario 3.4.7 Nas condicoes anteriores, se (an) e uma sucessao de numeros reais

com an→+∞, entao:

a) Sn e Sn/an convergem ou divergem quase certamente;

b) lim supSn/an e lim inf Sn/an, sao quase certamente constantes.

Exercıcios

1. Se An, n ≥ 1, sao acontecimentos independentes e An → A, mostre que P(A) = 0 ou

P(A) = 1.

2. Sejam Xn, n ≥ 1, variaveis de Bernoulli, com

P(Xn = 1) = pn = 1 − P(Xn = 0), para n ∈ N.

(a) Mostre que limXn = 0 = (lim supAn)c, onde An = X−1n (1) para n ∈ N.

(b) Conclua que P(limXn = 0) = 1 se∑∞

n=1 pn < +∞.

(c) Se Xn, n ≥ 1 sao independentes, mostre que P(limXn = 0) = 1 sse∑∞

n=1 pn < +∞.

3.5 Bibliografia




Williams, D. (1991). Probability with Martingales, Cambridge University Press.

ATP, Coimbra 2002

Capıtulo 4

Integracao de variaveis aleatorias

Esperanca matematica duma variavel aleatoria real e suas principais propriedades. Mo-

mentos duma variavel aleatoria real. Parametros de dispersao e de forma. Desigual-

dade de Markov e suas consequencias. Covariancia e correlacao. Integracao de vectores

aleatorios.

4.1 Esperanca matematica

Introduzimos neste paragrafo o primeiro dos parametros de resumo da distribuicao

de probabilidade duma variavel aleatoria real X de que falaremos neste capıtulo. Para

motivar a definicao que dele apresentaremos, suponhamos, em primeiro lugar, que X

e uma variavel discreta que toma os valores x1, . . . , xn com probabilidades p1, . . . , pn,

onde p1 + . . . + pn = 1. Pretendendo resumir a distribuicao de probabilidade de X

atraves dum parametro que descreva o centro duma tal distribuicao, e natural recor-

rer a analogia deste problema com o da definicao do centro de massa dum sistema

discreto de pontos materiais com massas pi em xi. Somos assim levados a definir um

tal parametro por∑n

i=1 xipi. No caso de X ser absolutamente contınua com densi-

dade de probabilidade f , vale o mesmo tipo de analogia, sendo natural definir um

tal parametro de resumo por∫

xf(x)dx, isto e, como o centro de massa dum sistema

contınuo de pontos materiais com densidade de massa f(x) em x.

Lancando mao da nocao de integral duma funcao real relativamente a uma medida

(ver AMI, §§4.1–4.3), as duas formulas anteriores podem ser escritas de forma unificada

como o integral da funcao identidade relativamente a PX ,

∫x dPX(x),

onde (Ω,A,P) e o espaco de probabilidade onde admitimos que X esta definida, ou

ainda, pelo teorema da mudanca de variavel (ver AMI, §7.2), como o integral de X

61


relativamente a medida de probabilidade P,

∫XdP.

No contexto das probabilidades o integral anterior e denominado e denotado duma

forma especial.

Definicao 4.1.1 Chamamos esperanca matematica (tambem dita valor medio,

valor esperado ou media) da variavel aleatoria real X, que denotamos por E(X), ao

integral

E(X) =

∫XdP,

sempre que este integral exista.

Pelas razoes ja avancadas, dizemos que a esperanca matematica, como parametro

de resumo da distribuicao de probabilidade duma variavel aleatoria, e um parametro

de localizacao.

Recordemos, que se X e uma variavel aleatoria com valores em ([0,+∞],B([0,+∞])),

sabemos que o integral de X relativamente a medida de probabilidade P e um elemento

de [0,+∞]. Se X toma valores em (R,B(R)), X admite a decomposicao X = X+−X−,

onde X+ = X ∨ 0 e X− = X ∧ 0, sao ditas parte positiva e parte negativa de X,

respectivamente. Tal decomposicao permite generalizar a nocao de integral a X atraves

da formula ∫XdP =

∫X+dP −

∫X−dP,

sempre que∫

X+dP < +∞ ou∫

X−dP < +∞. Se alem disso∫

XdP < ∞, dizemos

que X e P-integravel, ou simplesmente que X e integravel.

Claramente, a esperanca matematica existe quando e so quando uma das variaveis

X+ ou X− for integravel, e existe e e finita quando e so quando X for integravel.

Mostramos a seguir que a esperanca matematica duma funcao mensuravel de X

depende unicamente dessa funcao e da distribuicao de probabilidade de X. Em par-

ticular, a esperanca matematica duma variavel aleatoria real depende apenas da sua

distribuicao de probabilidade.

Teorema 4.1.2 Se X e uma variavel aleatoria com valores em (E,B) e g e uma

aplicacao mensuravel de (E,B) em (R,B(R)), entao E(g(X)) existe sse∫

g dPX existe

e nesse caso

E(g(X)) =

∫g(x) dPX (x).

ATP, Coimbra 2002


Dem: Se g e nao-negativa, pelo teorema da mudanca de variavel (ver AMI, §7.2) ob-

temos E(g(X)) =∫

g(X)dP =∫

g XdP =∫

gd(PX−1) =∫

gdPX . Sendo g qualquer,

basta considerar a decomposicao g = g+ − g− e ter em conta que (g X)+ = g+(X)

e (g X)− = g−(X). (Apresente uma demonstracao alternativa usando a Proposicao

2.1.4.)

No caso de X ser uma variavel aleatoria em Rd discreta ou absolutamente contınua

(mais precisamente se PX nao tem parte singular), o resultado anterior permite obter

formulas para o calculo de E(g(X)). Assim, se X e discreta com PX =∑∞

i=1 piδxi ,

onde pi = P(X = xi), entao

E(g(X)) =∞∑

i=1

pi

∫g(x)dδxi (x) =

∞∑

i=1

pig(xi).

Se X e absolutamente contınua com densidade f , entao

E(g(X)) =

∫g(x)dPX (x) =

∫g(x)f(x)dλ(x).

As propriedades que a seguir enunciamos sao consequencia imediata das proprieda-

des do integral.

Teorema 4.1.3 Sejam X e Y variaveis aleatorias reais definidas num mesmo espaco

de probabilidade.

a) X e integravel sse |X| e integravel, e nesse caso |E(X)| ≤ E(|X|).b) Se X e Y sao integraveis, e α, β ∈ R, entao αX+βY e integravel e E(αX+βY ) =

αE(X) + βE(Y ).

c) Se |X| ≤ Y , com Y integravel entao X e integravel.

d) Se |X| ≤ M , q.c., com M > 0, entao X e integravel. Alem disso, se X = a,

q.c., com a ∈ R, entao E(X) = a.

O resultado seguinte permite simplificar o calculo da esperanca matematica, no caso

das variaveis aleatorias integraveis e simetricas.

Teorema 4.1.4 Se X e integravel e simetrica relativamente a a ∈ R, isto e, se X−a ∼−(X − a), entao E(X) = a.

Dem: Atendendo a que a esperanca matematica duma variavel aleatoria real depende

apenas da sua distribuicao de probabilidade, concluımos que E(X −a) = E(−(X −a)),

ou ainda, E(X) = a.

Se X e discreta com funcao de probabilidade simetrica relativamente a a, ou abso-

lutamente contınua com densidade de probabilidade simetrica relativamente a a, entao

X e claramente simetrica relativamente a a.

ATP, Coimbra 2002


Notemos que a hipotese de integrabilidade e essencial para a validade do resul-

tado anterior. Por exemplo, se X e uma variavel aleatoria de Cauchy com densidade

f(x) = (π(1 + x2))−1, para x ∈ R, X e simetrica relativamente a origem e no entanto

X nao possui esperanca matematica. Com efeito,∫

(x∧ 0)dPX(x) =∫

(x∨ 0)dPX(x) =∫[0,+∞[

xπ(1+x2)

dλ(x) = 2π lim

∫ n0

2x1+x2 dλ(x) = 2

π lim∫ n0

2x1+x2 dx (integral de Riemann) =

2π lim ln(1 + n2) = +∞.

Apresentamos agora alguns exemplos de calculo da esperanca matematica.

Exemplos 4.1.5 1. Se X e uma variavel de Bernoulli de parametro p, entao E(X) =

0 × (1 − p) + 1 × p = p.

2. Se X e uma variavel de Poisson de parametro λ, temos E(X) =∑∞

n=0 ne−λ

λn/n! = e−λλ∑∞

n=0 λn/n! = λ.

3. Se X e uma v.a. normal de parametros m e σ2, entao E(X) = m. Para jus-

tificarmos esta afirmacao, e tendo em conta que X ∼ σU + m, com U ∼ N(0, 1),

basta mostrar que E(U) = 0, ou ainda, atendendo a simetria de U relativamente a

origem, que U e integravel. Tal e verdade, pois tomando M > 0 tal que x ≤ ex,

para x ≥ M , obtemos E(|U |) =∫

R|u|fU (u)dλ(u) = 2√

2π

∫[0,+∞[ ue−u2/2dλ(u) ≤ M +

2√2π

∫[M,+∞[ e

−u2/2+udλ(u) = M + 2e1/2√2π

∫[M,+∞[ e

−(u−1)2/2dλ(u) ≤ M + e1/2 < +∞.

Exercıcios

1. Suponhamos que lancamos sucessivamente uma moeda equilibrada e seja X o numero de

lancamentos efectuados ate ocorrer a primeira cara. Determine a distribuicao de X , bem

como o numero medio de lancamentos necessarios para obter a primeira cara.

2. Para cada uma das seguintes v.a. calcule a respectiva esperanca matematica:

(a) Binomial de parametro n e p.

(b) Geometrica de parametro p.

(c) Exponencial de parametro λ.

(d) Uniforme sobre o intervalo [a, b].

3. Deduza uma formula que lhe permita calcular a esperanca matematica duma variavel

aleatoria Y , a partir das densidades fY (·|X = ·) e fX , e aplique-a ao calculo da esperanca

matematica da v.a. Y definida no Exercıcio 2.6.3.

4. No casino de Monte Carlo a roda da roleta possui 37 divisoes iguais, numeradas de 0

a 36, podendo um jogador apostar um euro num dos numeros com excepcao do 0. Ele

recebe 36 euros se a bola para nesse numero, obtendo assim ganho lıquido de 35 euros, e

perde o que apostou caso contrario. Qual e o seu ganho (lıquido) medio? Um jogo que

decorre em varias partidas identicas diz-se justo (no sentido classico), se o nosso ganho

lıquido medio for nulo, ou de forma equivalente, se o valor que pagamos para jogar cada

uma das partidas (aposta), for igual ao nosso de ganho ilıquido medio. Caso contrario,

ATP, Coimbra 2002


dizemos que o jogo nos e favoravel ou desfavoravel, consoante o nosso ganho lıquido

medio for positivo ou negativo, respectivamente. Para que valor da aposta e o jogo da

roleta justo?

5. (Paradoxo de Sao Petersburgo1) Pedro joga contra Paulo, e pagara a este uma

quantia que depende do resultado duma serie de lancamentos duma moeda equilibrada:

se ocorre “coroa” nos n−1 primeiros lancamentos e “cara” no n-esimo lancamento, Paulo

recebe 2n euros. Por sua vez, Paulo pagara inicialmente uma quantia Q a Pedro. Devera

o Paulo aceitar pagar 15 euros por partida para jogar? Verifique que independentemente

do valor Q pago pelo Paulo, o seu ganho medio lıquido por partida e superior a Q. Sera

possıvel determinar Q de modo que o jogo seja justo? Simule este jogo num computador

e ensaie uma resposta a pergunta anterior com base unicamente nessa simulacao.

4.2 Momentos

Da disciplina de Medida e Integracao conhecemos os espacos vectoriais Lp(Ω,A,P),

com 0 < p < +∞, das variaveis aleatorias reais X de potencia p integravel, isto e, tais

que E|X|p < +∞ (cf. AMI, §5.2). Identificando variaveis aleatorias que coincidem a

menos dum conjunto de probabilidade P nula, obtemos os espacos Lp(Ω,A,P), que sao

espacos de Banach para a norma ||X||p = E1/p|X|p se p ≥ 1, e sao espacos metricos

com distancia d(X,Y ) = ||X − Y ||pp, para 0 < p < 1. Para 0 < p < q < +∞ sabemos

tambem que Lq ⊂ Lp.

A par da esperanca matematica que estudamos no paragrafo anterior e que definimos

para toda a variavel aleatoria de L1, definimos neste paragrafo outros parametros de

resumo da distribuicao de probabilidade duma variavel aleatoria que tem um papel

importante no seu estudo.

Definicao 4.2.1 Sejam p ∈ N e X ∈ Lp. Chamamos momento de ordem p de X

a E(Xp), e momento centrado de ordem p de X a µp = E(X − E(X))p.

Atendendo a desigualdade de Holder (cf. AMI, §5.3), para p ≤ q, e valida a desi-

gualdade µ1/pp ≤ µ

1/qq .

Como parametros de resumo da distribuicao de probabilidade duma variavel aleato-

ria, particular interesse tem para nos o momento de primeira ordem, ja estudado no

paragrafo anterior, e o momento centrado de segunda ordem. Este ultimo, por razoes

que decorrem da sua definicao e um parametro de dispersao (em torno da media) da

distribuicao de probabilidade duma variavel aleatoria.

1Este jogo conceptual foi pela primeira vez estudado por Nicolaus Bernoulli, que o discute com

Montmort numa troca de correspondencia entre 1713 e 1716. O jogo torna-se conhecido atraves dum

artigo de Daniel Bernoulli, primo de Nicolaus, publicado na revista da Academia Imperial de Ciencias

de Sao Petersburgo em 1738.

ATP, Coimbra 2002


Definicao 4.2.2 Se X ∈ L2, chamamos variancia de X, que denotamos por Var(X),

ao seu momento centrado de segunda ordem, Var(X) = E(X − E(X))2. A σ(X) =√Var(X), chamamos desvio-padrao de X.

As demonstracoes das propriedades da variancia expressas nas proposicoes seguintes

sao deixadas ao cuidado do aluno.

Proposicao 4.2.3 Se X ∈ L2, entao Var(X) = 0 sse X e quase certamente constante.

Proposicao 4.2.4 Se X ∈ L2 e a, b ∈ R, entao:

a) Var(X) = E(X2) − E2(X);

b) Var(aX + b) = a2Var(X).

As formulas anteriores sao de grande utilidade no calculo da variancia. Para as

variaveis aleatorias consideradas nos Exemplos 4.1.5, efectuamos agora o calculo da

sua variancia.

Exemplos 4.2.5 1. Se X e uma variavel de Bernoulli de parametro p, entao E(X2) =

0 × (1 − p) + 1 × p = p, e portanto Var(X) = p − p2 = p(1 − p).

2. Se X e uma variavel de Poisson de parametro λ, comecemos por efectuar o

calculo de E(X(X −1)) =∑∞

n=0 n(n−1)e−λ λn/n! = λ2e−λ∑∞

n=2 λn−2/(n−2)! = λ2.

Assim, Var(X) = λ.

3. Se X ∼ N(m,σ2), sabemos que X ∼ σU + m, com U ∼ N(0, 1), e portanto

Var(X) = Var(σU + m) = σ2Var(U) = σ2E(U2), pois E(U) = 0. Finalmente, inte-

grando por partes, obtemos E(U2) =∫

x2 1√2π

e−x2/2dλ(x) =∫

1√2π

e−x2/2dλ(x) = 1,

donde Var(X) = σ2 (ver Figura 1.1). Em particular concluımos que a variavel normal

de parametros 0 e 1 tem media zero e variancia unitaria. Toda a variavel aleatoria com

esta propriedade diz-se centrada e reduzida.

Terminamos este paragrafo fazendo referencia a outros dois parametros de resumo

da distribuicao de probabilidade duma variavel aleatoria que nos dao indicacao sobre

a forma da distribuicao de X. Sao por isso ditos parametros de forma.

Definicao 4.2.6 Se X ∈ L3 chamamos coeficiente de assimetria de X a β1 =

µ3/µ3/22 . Se X ∈ L4 chamamos coeficiente de achatamento de X a β2 = µ4/µ

22.

Notemos que se X ∈ L3 e simetrica relativamente a a ∈ R, entao β1 = 0. Se

β1 > 0 dizemos que X tem assimetria positiva, e se β1 < 0 dizemos que X tem

assimetria negativa. O coeficiente de achatamento que traduz “o peso nas caudas”

ATP, Coimbra 2002


da distribuicao de X e habitualmente comparado com o da distribuicao normal para a

qual β2 = 3.

-4 -2 2 4

0.1

0.2

0.3

0.4

0.5

-4 -2 2 4

0.05

0.1

0.15

0.2

0.25

0.3

-4 -2 2 4

0.1

0.2

0.3

0.4

-4 -2 2 4

0.1

0.2

0.3

0.4

0.5

0.6

0.7 µ2 ≈ 0.65

µ3 ≈ 0.76

µ4 ≈ 2.53

β1 ≈ 1.47

β2 ≈ 6.06

N(0, 1) µ2 = 1

µ3 = 0

µ4 = 3

β1 = 0

β2 = 3

µ2 ≈ 1.44

µ3 = 0

µ4 ≈ 4.26

β1 = 0

β2 ≈ 2.04

µ2 ≈ 1.04

µ3 ≈ −1.06

µ4 ≈ 4.33

β1 ≈ −1

β2 ≈ 4

Figura 3.1

Exercıcios

1. Se X e uma variavel de quadrado integravel com media m e variancia σ2 > 0, mostre

que U = (X − m)/σ e uma v.a. centrada e reduzida.

2. Para cada uma das seguintes v.a. calcule a variancia respectiva:

(a) Geometrica de parametro p.

(b) Uniforme sobre o intervalo [a, b].


3. Seja Y a v.a. definida no Exercıcio 2.6.2. Sem explicitar a distribuicao de Y , calcule E(Y )

e Var(Y ).

4. Se X e uma v.a.r. de quadrado integravel, mostre que E(X) e a v.a. constante que melhor

aproxima X no sentido de L2, isto e,

∀ a ∈ R, E(X − E(X))2 ≤ E(X − a)2.

5. Se X ∼ N(m, σ2), mostre que X ∈ Lp para todo o p ≥ 1.

6. Seja X uma v.a.r. absolutamente contınua com densidade de probabilidade

f(x) =

1√2π σ x

exp

(− (lnx − m)2

2σ2

), se x > 0

0 , se x ≤ 0,

onde m ∈ R e σ > 0. Dizemos neste caso que X segue uma distribuicao log-normal de

parametros m e σ, e escrevemos X ∼ LN(m, σ).

ATP, Coimbra 2002


(a) Para c > 0 e α > 0, mostre que cXα ∼ LN(ln c + αm, ασ).

(b) Prove que E(X) = exp(m + σ2/2).

(c) Utilizando as alıneas anteriores, calcule os momentos de ordem k, k ∈ N, e a

variancia de X .

7. (a) (Desigualdade de Bienayme-Tchebychev2) Mostre que se X e uma variavel

aleatoria real integravel, entao para todo o α > 0,

P(|X − E(X)| ≥ α) ≤ Var(X)

α2.

(Sugestao: Comece por verificar que 1I|X−E(X)|≥α ≤ (X − E(X))2/α2.)

(b) Mostre que a desigualdade anterior e optima no sentido em que para qualquer α > 0,

existe uma variavel aleatoria X que verifica a igualdade.

(c) Conclua que para qualquer variavel aleatoria de quadrado integravel, a probabi-

lidade do seu desvio relativamente a media ser superior ou igual a k vezes o seu

desvio-padrao, nao e superior a 1/k2 (se k = 3 obtemos 1/k2 = 0.111 . . ., e para

k = 5 obtemos 1/k2 = 0.04).

4.3 Covariancia e correlacao

Se (X,Y ) e um vector aleatorio em R2, os parametros de resumo das distribuicoes de

X e de Y que estudamos no paragrafo anterior, sao tambem parametros de resumo da

distribuicao de (X,Y ). Contrariamente a tais parametros que incidem unicamente so-

bre as distribuicoes marginais do vector, vamos neste paragrafo estudar um parametro

de resumo da distribuicao de (X,Y ) que, como veremos, nos da uma medida da de-

pendencia linear (afim) entre as variaveis X e Y .

Para tal vamos lancar mao das propriedades particulares do espaco de Banach

L2(Ω,A,P). Este espaco vectorial, e um espaco com produto interno definido por

〈X,Y 〉 = E(XY ). Como ||X||2 =√

〈X,X〉, dizemos que L2 e um espaco de Hil-

bert. Sabemos tambem que em L2 e valida a propriedade seguinte conhecida como

desigualdade de Cauchy-Schwarz:

Teorema 4.3.1 Se X,Y ∈ L2 entao |E(XY )| ≤√

E(X2)√

E(Y 2). Alem disso, tem-

se a igualdade sse X e Y sao linearmente dependentes.

Sempre que X e Y nao sejam constantes, a quantidade E(XY )/√

E(X2)√

E(Y 2) ∈[−1, 1] surge assim como uma medida natural da dependencia linear entre X e Y . Se

pretendemos avaliar nao so a dependencia linear mas tambem a dependencia afim, o

coeficiente anterior deixa de ser indicado para o efeito.

2Bienayme, I.-J., C. R. Acad. Sci. Paris, 37, 309–324, 1853.2Tchebychev, P.L., J. Math. Pures et Appl., Ser. 2, 12, 177–184, 1867.

ATP, Coimbra 2002


Definicao 4.3.2 Se X,Y ∈ L2, chamamos covariancia de (X,Y ) ao numero real

Cov(X,Y ) = E((X − E(X))(Y − E(Y ))).

Se alem disso X e Y sao de variancia nao-nula, chamamos coeficiente de correlacao

de (X,Y ) ao numero do intervalo [−1, 1] dado por

ρ(X,Y ) =Cov(X,Y )

σ(X)σ(Y ).

Notemos que se X,Y ∈ L2, entao Cov(X,Y ) = E(XY ) − E(X)E(Y ) e Var(X) =

Cov(X,X). Alem disso, Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X,Y ). O calculo

anterior da variancia da soma simplifica-se se X −E(X) e Y −E(Y ) sao ortogonais (no

sentido do produto interno de L2), uma vez que neste caso Cov(X,Y ) = 0. Dizemos

entao que X e Y sao nao-correlacionadas. Neste caso Var(X + Y ) = Var(X) +

Var(Y ). A generalizacao das duas igualdades anteriores a soma dum numero finito

de variaveis X1, . . . ,Xn ∈ L2, e simples, obtendo-se Var(∑n

i=1 Xi) =∑n

i=1 Var(Xi) +

2∑

1≤i<j≤n Cov(Xi,Xj), e tambem, Var(∑n

i=1 Xi) =∑n

i=1 Var(Xi), se as variaveis sao

duas a duas nao-correlacionadas.

Do resultado seguinte concluımos que duas variaveis reais independentes sao, em

particular, nao-correlacionadas. Reparemos ainda que a integrabilidade do produto de

duas variaveis independentes e consequencia da integrabilidade de cada um dos factores.

Teorema 4.3.3 Se X e Y sao variaveis aleatorias reais integraveis e independentes,

entao XY e integravel e E(XY ) = E(X)E(Y ).

Dem: Sejam entao X e Y variaveis aleatorias reais integraveis e comecemos por mos-

trar que XY e ainda integravel. Com efeito, pelo teorema de Fubini, E(|XY |) =∫|xy| dP(X,Y ) =

∫|xy| dPX ⊗ PY =

∫|x||y| dPXdPY =

∫|x| dPX

∫|y| dPY < +∞.

Utilizando os mesmos argumentos obtemos E(XY ) = E(X)E(Y ).

Terminamos este paragrafo estabelecendo um resultado que reforca a interpretacao

do coeficiente de correlacao entre duas variaveis aleatorias, como uma medida da de-

pendencia afim entre essas variaveis.

Teorema 4.3.4 Se X,Y ∈ L2 sao de variancia nao-nula, entao:

a) ρ(aX + c, bY + c) = ρ(X,Y ), para a, b > 0 e c ∈ R;

b) ρ(X,aX + b) = a/|a|, para a 6= 0 e b ∈ R;

c) ρ(X,Y ) = ±1 sse existem a, b, c ∈ R, com ab 6= 0, tais que

aX + bY + c = 0, P-q.c.

ATP, Coimbra 2002


Dem: As duas primeiras alıneas obtem-se directamente da definicao de ρ. Para estabe-

lecer c), consideremos a variavel aleatoria Z = Y/σ(Y ) − Xρ(X,Y )/σ(X) que satisfaz

σ2(Z) = 1 − ρ2(X,Y ). Basta agora usar a alınea b) e a Proposicao 4.2.3.

Exercıcios

1. Mostre que a covariancia e uma funcao bilinear, isto e, se X1, . . . , Xn, Y1, . . . , Ym sao

variaveis de quadrado integravel e a1, . . . , an, b1, . . . , bm numeros reais, entao

Cov( n∑

i=1

aiXi,

m∑

j=1

bjYj

)=

n∑

i=1

m∑

j=1

aibjCov(Xi, Yj).

2. Mostre que se X1, . . . , Xn sao variaveis aleatorias reais integraveis e independentes, entao∏ni=1 Xi e integravel e E

(∏ni=1 Xi

)=

∏ni=1 E(Xi).

3. Verifique que o coeficiente de correlacao pode ser igual a 0 para variaveis nao necessa-

riamente independentes. Para tal considere X em L3 simetrica relativamente a origem e

Y = X2.

4.4 Integracao de vectores aleatorios

As nocoes de integracao de variaveis aleatorias que ate agora estudamos, podem

ser extendidas de forma natural ao caso dos vectores aleatorios. No que se segue,

denotaremos por || · || a norma euclideana de Rd.

Definicao 4.4.1 Um vector aleatorio X = (X1, . . . ,Xd) com valores em (Rd,B(Rd))

diz-se integravel se E||X|| < +∞. Nesse caso, chamamos esperanca matematica

de X ao vector de Rd dado por

E(X) = (E(X1), . . . ,E(Xd)).

Claramente, a nocao de integrabilidade nao depende da norma considerada ser a

euclideana. Alem disso, X e integravel sse ||X|| e integravel, ou ainda, sse cada uma

das variaveis aleatorias Xi, i = 1, . . . , d, e integravel.

Para 0 < p < +∞, podemos definir o espaco vectorial real dos vectores aleatorios

X com valores em Rd de potencia p integravel, isto e, tais que E||X||p < +∞. Um

tal conjunto e denotado por Lp(Ω,A,P, Rd), ou simplesmente por Lp. Claramente, a

aplicacao X→E(X), de L1 em Rd, e uma aplicacao linear.

A par da esperanca matematica, a nocao que a seguir introduzimos e um dos

parametros de resumo duma distribuicao de probabilidade mais utilizados no caso mul-

tidimensional. E a generalizacao natural a este contexto, da nocao real de variancia.

ATP, Coimbra 2002


Definicao 4.4.2 Se X ∈ L2, chamamos matriz de covariancia de X = (X1, . . . ,Xd)

(dita tambem matriz de dispersao ou de variancia-covariancia) a matriz

CX = [Cov(Xi,Xj)]1≤i,j≤d.

A matriz de covariancia e simetrica e semi-definida positiva, pois Var(∑d

i=1 λiXi) =

λT CXλ, para todo o λ ∈ Rd.

Da alınea c) do Teorema 4.3.4 sabemos que a matriz de covariancia C(X,Y ) dum

vector aleatorio em R2 nos da informacao sobre o tipo de distribuicao de (X,Y ). Mais

precisamente, sabemos que se C(X,Y ) possui caracterıstica 1 entao a distribuicao de

(X,Y ) esta concentrada numa recta, nao sendo, por isso, absolutamente contınua.

Generalizamos a seguir este resultado ao caso dum vector aleatorio em Rd:

Teorema 4.4.3 Sejam X um ve.a. em Rd de quadrado integravel e CX a sua matriz

de covariancia. Se car(CX) = r, entao a distribuicao de X esta concentrada num

subespaco afim de Rd de dimensao r.

Exercıcios

1. Seja U = (X, Y ) o ve.a. definido no Exemplo 2.1.9. Calcule E(U) e CU .

2. Sejam A uma matriz real de tipo n × m e b um vector em Rn. Se X e um ve.a. em Rm

de quadrado integravel, mostre que a esperanca matematica e a matriz de covariancia de

X e AX + b se encontram relacionadas da seguinte forma:

E(AX + b) = AE(X) + b e CAX+b = ACXAT .

3. Demonstre o Teorema 4.4.3. Conclua que no caso em que car(CX) = d, X pode ser ou

nao absolutamente contınuo.

4.5 Bibliografia


Masson.



ATP, Coimbra 2002

Parte II

Leis dos grandes numeros

73

Capıtulo 5

Convergencias funcionais de

variaveis aleatorias

Convergencia quase certa, em probabilidade e em media de ordem p duma sucessao de

variaveis aleatorias. Relacoes entre os diversos modos de convergencia. Principais pro-

priedades e caracterizacoes. Teorema da convergencia dominada em Lp. Convergencias

funcionais de vectores aleatorios.

5.1 Convergencia quase certa

Neste capıtulo X,X1, X2, . . . representam variaveis aleatorias reais definidas sobre

um mesmo espaco de probabilidade (Ω,A,P).

Definicao 5.1.1 Dizemos que (Xn) converge para X quase certamente, e escre-

vemos Xnqc−→ X, se

P(ω ∈ Ω : lim Xn(ω) = X(ω)) = 1.

Dizer que a sucessao (Xn) converge para X quase certamente e assim dizer que a

menos dum conjunto com probabilidade nula, a sucessao (Xn) converge pontualmente

para X. Por outras palavras, existe N ∈ A, com P(N) = 0, tal que limXn(ω) = X(ω),

para todo o ω ∈ N c.

Das propriedades dos conjuntos de probabilidade nula, verificamos assim que as

propriedades da convergencia quase certa duma sucessao de variaveis aleatorias sao

essencialmente iguais as da convergencia pontual. Uma das excepcoes e o da nao unici-

dade do limite quase certo. No entanto, mesmo esta propriedade pode ser recuperada

atraves da identificacao de variaveis aleatorias que coincidem a menos dum conjunto

de probabilidade nula, isto e, identificando variaveis quase certamente iguais.

75


Proposicao 5.1.2 Se Xnqc−→ X e Xn

qc−→ Y , entao X = Y q.c..

No resultado seguinte apresentamos uma caracterizacao da convergencia quase certa

bastante util quando pretendemos estabelecer a existencia do limite quase certo.

Teorema 5.1.3 Seja (Xn) uma sucessao de variaveis aleatorias reais. As condicoes

seguintes sao equivalentes:

(i) Xnqc−→ X, para alguma variavel aleatoria real X;

(ii) (Xn) e de Cauchy quase certamente, isto e,

supn,m≥k

|Xn − Xm| qc−→ 0, k→+∞.

Dem: A implicacao (i) ⇒ (ii) e obvia. Estabelecamos a implicacao recıproca. Sendo

(Xn) de Cauchy quase certamente, concluımos que existe N ∈ A com P(N) = 0 tal

que para todo o w ∈ N c a sucessao (Xn(ω)) e de Cauchy em R. Definindo X(ω) =

lim Xn(ω), para ω ∈ N c e X(ω) = 0, para ω ∈ N , temos claramente Xnqc−→ X.

Exercıcios

1. Sendo f uma funcao contınua real de variavel real, prove que se Xnqc−→ X , entao

f(Xn) qc−→ f(X).

2. Mostre que as seguintes condicoes sao equivalentes:

(i) Xnqc−→ X ;

(ii) ∀ ǫ > 0 P(⋂∞

k=1

⋃∞n=k|Xn − X | ≥ ǫ

)= 0;

(iii) ∀ ǫ > 0 P(⋃∞

n=k|Xn − X | ≥ ǫ)→0, k→+∞.

3. Diz-se que uma sucessao (Xn) de v.a.r. converge quase completamente para uma v.a.r.

X quando∑∞

n=1 P(|Xn − X | ≥ ǫ) < +∞, para todo o ǫ > 0.

(a) Prove que a convergencia quase completa implica a convergencia quase certa.

(b) Mostre que se as variaveis (Xn) sao independentes, as convergencias quase certa e

quase completa sao equivalentes.

(Sugestao: Use a lei zero-um de Borel.)

5.2 Convergencia em probabilidade

Definicao 5.2.1 Dizemos que (Xn) converge para X em probabilidade, e escre-

vemos Xnp−→ X, se

∀ ǫ > 0 P(ω ∈ Ω : |Xn(ω) − X(ω)| ≥ ǫ)→0.

ATP, Coimbra 2002


Tal como para a convergencia quase certa, se X e Y sao limite em probabilidade

duma sucessao de variaveis aleatorias entao X e Y coincidem a menos dum conjunto

com probabilidade nula.

Comecemos por relacionar este modo de convergencia com a convergencia quase

certa introduzida no paragrafo anterior.

Teorema 5.2.2 Se Xnqc−→ X, entao Xn

p−→ X.

Dem: Tendo em conta a inclusao ω : lim Xn(ω) = X(ω) ⊂ ⋃n∈N

⋂k≥nx : |Xk(ω) −

X(ω)| < ǫ, valida para todo o ǫ > 0, obtemos, por hipotese, P(⋃

n∈N

⋂k≥nω :

|Xk(ω)−X(ω)| < ǫ) = 1, ou ainda, lim P(⋂

k≥nx : |Xk(ω)−X(ω)| < ǫ) = 1. Assim

lim P(ω : |Xn(ω) − X(ω)| < ǫ) = 1, o que permite concluir.

Apresentamos a seguir duas caracterizacoes importantes da convergencia em proba-

bilidade. A segunda delas permite utilizar no estudo da convergencia em probabilidade

resultados da convergencia quase certa.

Teorema 5.2.3 Seja (Xn) uma sucessao de variaveis aleatorias reais. As condicoes

seguintes sao equivalentes:

(i) Xnp−→ X, para alguma variavel aleatoria real X;

(ii) (Xn) e de Cauchy em probabilidade, isto e,

∀ ǫ > 0 supn,m≥k

P(|Xn − Xm| ≥ ǫ)→0, k→+∞.

Dem: A implicacao (i) ⇒ (ii) e consequencia imediata da inclusao |Xn −Xm| ≥ ǫ ⊂|Xn−X| ≥ ǫ/2∪|Xm−X| ≥ ǫ/2. Para estabelecer a implicacao recıproca, comece-

mos por mostrar que sendo (Xn) de Cauchy em probabilidade existe uma subsucessao

(Xnk) que e de Cauchy quase certamente. Com efeito, sendo (Xn) de Cauchy em proba-

bilidade, existe uma subsucessao (nk) de (n) tal que P(|Xnk+1−Xnk

| ≥ 2−k) < 2−k,

para todo o k ∈ N. Pelo teorema de Borel-Cantelli concluımos que P(N) = 0, onde

N = lim sup|Xnk+1− Xnk

| ≥ 2−k. Dado ω ∈ N c, existe assim ℓ ∈ N tal que

|Xnk+1(ω) − Xnk

(ω)| < 2−k, para todo o k ≥ ℓ. Tomando agora r > s ≥ ℓ obtemos

|Xnr (ω)−Xns(ω)| ≤ ∑r−1j=s |Xnj+1(ω)−Xnj (ω)| < 2−ℓ+1, o que prova que (Xnk

) que e

de Cauchy quase certamente. Finalmente, sendo X a variavel aleatoria real que satisfaz

Xnk

qc−→ X, cuja existencia e assegurada pelo Teorema 5.1.3, e usando uma vez mais o

facto de (Xn) ser de Cauchy em probabilidade, concluımos que Xnp−→ X.

Teorema 5.2.4 Xnp−→ X sse toda a subsucessao de (Xn) possui uma subsucessao que

converge quase certamente para X.

ATP, Coimbra 2002


Dem: Se Xnp−→ X, como toda a subsucessao de (Xn) converge em probabilidade para

X, basta provar que existe uma subsucessao de (Xn) que converge quase certamente

para X. Tal facto e uma consequencia de (Xn) ser de Cauchy em probabilidade e

do teorema anterior. Reciprocamente, suponhamos que toda a subsucessao de (Xn)

possui uma subsucessao que converge quase certamente para X. Dado ǫ > 0, qualquer,

pretendemos provar que a sucessao xn = P(|Xn−X| ≥ ǫ), converge para zero. Para tal

basta provar que toda a sua subsucessao admite uma subsucessao que converge para

zero. Seja entao (xn′) uma qualquer subsucessao de (xn). Por hipotese, a subsucessao

(Xn′) de (Xn) admite uma subsucessao (Xn′′) que converge quase certamente, e por

maioria de razao em probabilidade, para X. Assim, P(|Xn′′ − X| ≥ ǫ) → 0, ou seja,

xn′′ → 0.

Terminamos este paragrafo com uma caracterizacao da convergencia quase certa

que nos sera muito util no proximo capıtulo.

Teorema 5.2.5 (Xn) converge quase certamente sse supj≥1 |Xn+j − Xn| p−→ 0.

Dem: Consequencia do Teorema 5.1.3 e do Exercıcio 5.2.4.

Exercıcios

1. Se Xnp−→ X e Xn

p−→ Y , entao X = Y q.c..

2. Considere a sucessao (Xn) definida em ([0, 1[,B([0, 1[), λ) por Xn = 1I[ k2m , k+1

2m [, se n =

2m + k com m = 0, 1, 2, . . . e k ∈ 0, 1, . . . , 2m − 1. Mostre que Xn converge em proba-

bilidade para a v.a. nula, mas nao quase certamente.

3. Sendo f uma funcao real de variavel real contınua, prove que se Xnp−→ X , entao

f(Xn) p−→ f(X).

(Sugestao: Use o Teorema 5.2.4.)

4. Seja (Xn) uma sucessao monotona de v.a. reais. Mostre que Xnp−→ X sse Xn

qc−→ X .

5.3 Convergencia em media de ordem p

Definicao 5.3.1 Se X1,X2, . . ., sao variaveis aleatorias em Lp, com 0 < p < +∞,

dizemos que (Xn) converge para a variavel aleatoria X em media de ordem p,

e escrevemos XnLp−→ X, se

||Xn − X||pp = E|Xn − X|p→0.

A convergencia em media de ordem 2 diz-se tambem convergencia em media qua-

dratica sendo denotada por mq−→.

ATP, Coimbra 2002


Reparemos que a variavel aleatoria limite X esta necessariamente em Lp pois |X|p ≤2p(|Xn−X|p + |Xn|p). O que referimos para os modos de convergencia anteriores sobre

a unicidade do limite, vale tambem para o limite em media de ordem p.

A desigualdade de Tchebychev-Markov que estabelecemos a seguir generaliza a de-

sigualdade de Bienayme-Tchebychev estabelecida no Exercıcio 4.2.7, permitindo-nos

mostrar que a convergencia em probabilidade e implicada pela convergencia em media

de ordem p.

Teorema 5.3.2 (desigualdade de Tchebychev-Markov1) Se X e uma variavel

aleatoria real e p > 0, entao para todo o α > 0,

P(|X| ≥ α) ≤ E|X|pαp

.

Dem: Como, para α > 0, 1I|X|≥α ≤ |X|p/αp, obtemos P(|X| ≥ α) = E(1IX≥α) ≤E|X|p/αp.

Teorema 5.3.3 Para 0 < p < +∞, se XnLp−→ X entao Xn

p−→ X.

Para diferentes valores de p, os diferentes modos de convergencia em media de ordem

p estao relacionados como se descreve a seguir.

Teorema 5.3.4 Para 1 ≤ p < q < +∞, se XnLq−→ X, entao Xn

Lp−→ X.

Dem: Consequencia da desigualdade ||X||p ≤ ||X||q que obtemos directamente da desi-

gualdade de Holder (cf. AMI, §5.3).

A convergencia em media de ordem p nao e em geral consequencia das convergencias

quase certa ou em probabilidade. Tal ocorre, no entanto, sob certas condicoes sobre a

sucessao de variaveis aleatorias como as que explicitamos no resultado seguinte.

Teorema 5.3.5 (da convergencia dominada em Lp) Se

a) Xnqc−→ X ou Xn

p−→ X;

b) |Xn| ≤ Y, P-q.c., para todo o n, com Y ∈ Lp para algum 0 < p < +∞;

entao X ∈ Lp e XnLp−→ X.

Dem: Bastara considerar o caso em que Xnp−→ X. Provemos em primeiro lugar que

|X| ≤ Y , quase certamente. Para δ > 0 temos, P(|X| > Y + δ) ≤ P(|X| > |Xn| + δ) ≤P(|Xn−X| > δ) → 0, quando n→+∞. Sendo δ > 0 qualquer, concluımos que P(|X| ≤

1Markov, A.A., Ischislenie Veroiatnostei, 1913. Este e o livro de Markov sobre Calculo de Probabi-

lidades.

ATP, Coimbra 2002


Y ) = 1. Tomemos agora ǫ > 0, qualquer. Uma vez que E(Y p) < +∞, existe M > 0

tal que E(Y p1I2Y >M) < ǫ. Assim, E|Xn −X|p = E(|Xn −X|p1I|Xn−X|≤ǫ)+ E(|Xn −X|p1Iǫ<|Xn−X|≤M) + E(|Xn − X|p1I|Xn−X|>M) < ǫp + MpP(|Xn − X| > ǫ) + 2pǫ, o

que permite concluir uma vez que P(|Xn − X| > ǫ) → 0.

Notemos, em particular, que sob as condicoes do teorema anterior com p = 1, vale

a convergencia das esperancas matematicas respectivas, isto e, E(Xn) → E(X). Este

resultado e o ja nosso conhecido teorema da convergencia dominada de Lebesgue

(cf. AMI, §4.4).Terminamos com uma caracterizacao da convergencia em media de ordem p analoga

as que ja obtivemos para a convergencia quase certa e para a convergencia em proba-

bilidade.

Teorema 5.3.6 Seja (Xn) uma sucessao de variaveis aleatorias em Lp, para algum

0 < p < +∞. As condicoes seguintes sao equivalentes:

(i) XnLp−→ X, para alguma variavel aleatoria real X;

(ii) (Xn) e de Cauchy em Lp, isto e,

supn,m≥k

||Xn − Xm||p→0, k→+∞.

Dem: A implicacao (i) ⇒ (ii) e consequencia de || · ||pp, para 0 < p < 1, e || · ||p, para

1 ≤ p < +∞, verificarem a desigualdade triangular (cf. §4.2). Sendo agora (Xn)

de Cauchy em Lp, da desigualdade de Tchebychev-Markov concluımos que (Xn) e de

Cauchy em probabilidade. Pelo Teorema 5.2.3 existe um subsucessao (Xnk) de (Xn) tal

que Xnk

qc−→ X, para alguma variavel aleatoria real X. Pelo lema de Fatou (cf. AMI,

§4.4) temos entao E|Xn − X|p ≤ lim inf E|Xn − Xnk|p, o que permite concluir usando

uma vez mais o facto de (Xn) ser de Cauchy em Lp.

Exercıcios

1. Conclua a desigualdade de Tchebychev-Markov e optima no sentido em que para qualquer

α > 0, existe uma variavel aleatoria X que verifica a igualdade.

2. Considere a sucessao (Xn) definida no Exercıcio 5.2.2. Mostre que Xn converge em media

de ordem p mas nao quase certamente.

3. Considere a sucessao (Xn) definida em ([0, 1],B([0, 1]), λ) por Xn = n1I[0, 1n ]. Mostre que

Xn converge quase certamente para a funcao nula, mas nao em media de ordem p.

4. Seja (Xn) uma sucessao de v.a. em Lp com XnLp−→ X . Mostre que ||Xn||p→||X ||p.

5. Seja (Xn) uma sucessao de v.a.r. de quadrado integravel. Mostre que E(Xn) → µ e

Var(Xn)→0 sse Xnmq−→ µ.

ATP, Coimbra 2002


6. Seja (Xn) uma sucessao de v.a. nao-correlacionadas com P(Xn = 1) = P(Xn = −1) =

1/2. Mostre que∑n

j=1 Xj/n mq−→ 0.

7. Se E|X |p < +∞, para algum p > 0, mostre que lim np P(|X | ≥ n) = 0.

(Sugestao: Use o teorema da convergencia dominada.)

8. Sejam (Xn) v.a.r. independentes de quadrado integravel com media zero e∑∞

n=1 E(X2n) <

∞. Mostre que∑∞

k=1 Xk converge em media quadratica e quase certamente2 (isto e,

Sn =∑n

k=1 Xk converge em media quadratica e quase certamente para alguma v.a.r. S).

5.4 Convergencia funcional de vectores aleatorios

Para terminar este capıtulo, notemos que as nocoes de convergencia consideradas

para sucessoes de variaveis aleatorias reais podem ser extendidas sem dificuldade ao

caso de sucessoes de vectores aleatorios definidos num mesmo espaco de probabilidade.

No que se segue, denotaremos por ||·|| a norma euclideana de Rd. No entanto, a definicao

seguinte nao depende da norma considerada em Rd.

Definicao 5.4.1 Se (Xn) e (X) sao vectores aleatorios definidos num mesmo espaco

de probabilidade, dizemos que (Xn) converge para X P-quase certamente (resp.

em probabilidade ou em media de ordem p) e escrevemos Xnqc−→ X (resp. p−→,

Lp−→), se ||Xn − X|| qc−→ 0 (resp. p−→, Lp

−→).

Atendendo a que a convergencia duma sucessao de vectores aleatorios segundo qual-

quer um dos modos anteriores e equivalente a convergencia das respectivas margens,

versoes vectoriais dos resultados apresentados nos paragrafos anteriores podem assim,

sem excepcao, ser obtidos.

5.5 Bibliografia



Lukacs, E. (1975). Stochastic Convergence, Academic Press.


2Khintchine, A., Kolmogorov, A.N., Mat. Sb., 32, 668–676, 1925.

ATP, Coimbra 2002

Capıtulo 6

Leis dos grandes numeros e series

de variaveis aleatorias

independentes

Leis dos grandes numeros para variaveis de quadrado integravel. Leis fracas de Kol-

mogorov e de Khintchine. Leis fortes e series de variaveis aleatorias. Lei forte de

Kolmogorov. O teorema das tres series.

6.1 Generalidades

Sendo (Ω0,A0,P0) um modelo probabilıstico para uma determinada experiencia

aleatoria E , e A ∈ A0 um acontecimento aleatorio, o conceito frequencista de proba-

bilidade a que fizemos alusao no §1.1, estabelece que a probabilidade P0(A) do acon-

tecimento A e o limite, num sentido a precisar, da frequencia relativa de ocorrencia

do acontecimento A em sucessivas repeticoes, sempre nas mesmas condicoes, da ex-

periencia aleatoria em causa.

Dito por outras palavras, para o modelo probabilıstico (Ω,A,P) com

Ω =

∞⊗

n=1

Ω0, A =

∞⊗

n=1

A0 e P =

∞⊗

n=1

P0,

que descreve a repeticao, sempre nas mesmas condicoes, da experiencia E , e sendo

Sn =∑n

k=1 Xk, onde Xk e a variavel aleatoria definida em (Ω,A,P) que toma valor

1 ou 0, consoante, A ocorra ou nao na k-esima repeticao da experiencia, o numero de

ocorrencias de A nas primeiras n repeticoes de E , o conceito frequencista de probabili-

dade pode ser traduzido pela convergencia

Sn

n→P0(A),

83


segundo um modo de convergencia estocastica a precisar.

Duma forma geral, sendo (Xn) uma sucessao de variaveis aleatorias reais definidas

num mesmo espaco de probabilidade, um resultado que estabelece a convergencia

Sn

n− µn

M−→ Y

para alguma sucessao (µn) de numeros reais e para alguma variavel aleatoria Y , ondeM−→ representa um dos modos de convergencia em probabilidade, quase certa, ou em

media de ordem p, e conhecido como lei dos grandes numeros. Quando a con-

vergencia envolvida e a convergencia em probabilidade, o resultado e dito lei fraca dos

grandes numeros. Quando a convergencia e a convergencia quase certa, o resultado e

dito lei forte dos grandes numeros. Se a convergencia utilizada for a convergencia

em media de ordem p, dizemos que temos uma lei dos grandes numeros em media

de ordem p.

Com excepcao do proximo paragrafo em que estabelecemos leis dos grandes numeros

para sucessoes de variaveis aleatorias nao necessariamente independentes, admitiremos

ao longo deste capıtulo que as variaveis (Xn) sao independentes mas nao necessari-

amente identicamente distribuıdas. Neste contexto, e tendo em mente a lei zero-um

de Kolmogorov, sabemos que a existir o limite de Sn/n segundo um dos modos de

convergencia anteriores, a variavel limite e necessariamente degenerada (ver Exercıcio

6.1.2).

Definicao 6.1.1 Dizemos que a sucessao (Xn) obedece a uma lei dos grandes

numeros para o modo de convergencia M se

Sn

n− µn

M−→ 0,

para alguma sucessao (µn) de numeros reais.

Por simplicidade, sempre que (Xn) obedeca a uma lei dos grandes numeros deno-

taremos por (µn) uma das sucessoes que satisfaz a definicao anterior.

Exercıcios

1. Mostre que (Xn) obedece a uma lei dos grandes numeros para o modo de convergencia

M sse existe uma sucessao (νn) de numeros reais tal que 1n

∑ni=1(Xi − νi)

M−→ 0.

2. Mostre que se a sucessao (Xn) de variaveis aleatorias independentes verifica Sn/n −µn

M−→ Y , para alguma sucessao de numeros reais (µn) e alguma v.a.r. Y , entao Y e

quase certamente constante.

ATP, Coimbra 2002

6 Leis dos grandes numeros e series de v.a. independentes 85

3. Seja (Xn) uma sucessao de v.a.r. com |Xn| ≤ M , para todo o n ∈ N. Mostre que se (Xn)

obedece a uma lei fraca dos grandes numeros entao µn − 1n

∑ni=1 E(Xi)→0.

4. Considere a sucessao (Xn) satisfazendo P(Xn = n2) = 1/n2 e P(Xn = −n2/(n2 − 1)) =

1 − 1/n2.

(a) Mostre que E(Xn) = 0 e∑∞

n=1 P(Xn = n2) < ∞.

(b) Use o Lema de Borel-Cantelli para mostrar que Sn/n qc−→ −1.

(c) Conclua que o resultado estabelecido no exercıcio anterior nao e valido para esta

sucessao.

5. Sejam (Xn) e (Yn) sucessoes de v.a.r. independentes (nao necessariamente definidas num

mesmo espaco de probabilidade) com Xn ∼ Yn. Mostre que se (Xn) obedece a uma lei

dos grandes numeros para o modo de convergencia M, o mesmo acontece com (Yn).

6.2 Primeiras leis dos grandes numeros

Neste paragrafo obtemos leis dos grandes numeros usando tecnicas baseadas no

calculo de momentos de ordem superior ou igual a segunda. Em paragrafos posteriores,

e a custa de tecnicas de demonstracao mais elaboradas, mostraremos que no caso das

sucessoes de variaveis aleatorias independentes tais leis podem ser obtidas para variaveis

nao necessariamente de quadrado integravel.

No resultado seguinte estabelecemos uma condicao necessaria e suficiente para a

validade duma lei dos grandes numeros em media quadratica duma qualquer sucessao

(Xn) de variaveis de quadrado integravel.

Teorema 6.2.1 1 Seja (Xn) uma sucessao de variaveis aleatorias reais de quadrado

integravel. (Xn) obedece a uma lei dos grandes numeros em media quadratica sse

Var(Sn)/n2→0. Neste caso µn − 1n

∑ni=1 E(Xi)→0.

Dem: Se Var(Sn)/n2→0 entao Sn/n− µnmq−→ 0, com µn = E(Sn/n), o que estabelece

a suficiencia da condicao anterior para a validade duma lei dos grandes numeros em

media quadratica. A condicao e tambem necessaria pois Var(Sn/n) ≤ E(Sn/n − µn)2

(cf. Exercıcio 4.2.4).

Atendendo ao Teorema 5.3.3, e sob as condicoes do teorema anterior, a condicao

Var(Sn)/n2 → 0 e tambem suficiente para a validade duma lei fraca dos grandes

numeros. No entanto, notemos que esta pode ser obtida via desigualdade de Bie-

nayme-Tchebychev, pois para ǫ > 0,

P(|Sn/n − E(Sn/n)| ≥ ǫ) = P(|Sn − E(Sn)| ≥ nǫ)

≤ 1

n2ǫ2Var(Sn).

1Markov, A.A., Izv. Mat. Fiz. Ob. pri Kazanskom Univ., Ser. 2, 15, 135, 1906.

ATP, Coimbra 2002


No caso particular em que (Xn) e uma sucessao de variaveis aleatorias reais de

quadrado integravel com E(Xk) = µ, para todo o k ∈ N, a condicao Var(Sn)/n2 → 0

e necessaria e suficiente para que Sn/n mq−→ µ. Alem disso, se as variaveis da su-

cessao sao duas a duas nao-correlacionadas, a condicao Var(Sn)/n2 → 0 reduz-se a∑n

k=1 Var(Xk)/n2→0. Estas condicoes sao, em particular, satisfeitas por uma sucessao

de variaveis independentes e identicamente distribuıdas de quadrado integravel.

Terminamos este paragrafo mostrando que sob condicoes mais restritivas que as ate

aqui consideradas, sao tambem validas leis fortes dos grandes numeros. Comecaremos

por admitir que as variaveis (Xn) sao independentes e que possuem momentos de quarta

ordem uniformemente limitados.

Teorema 6.2.2 Se (Xn) e uma sucessao de variaveis aleatorias reais independentes

com supk∈N E(X4k ) < +∞, entao (Xn) obedece a uma lei forte dos grandes numeros

com µn − 1n

∑ni=1 E(Xi)→0.

Dem: Basta demonstrar o resultado para E(Xn) = 0, para todo o n ∈ N. Pela in-

dependencia das variaveis (Xn) e da desigualdade de Holder temos E(S4n) ≤ n(3n −

2) supk∈N E(X4k). Usando agora a desigualdade de Tchebychev-Markov obtemos

∑∞n=1 P(|Sn/n| ≥ ǫ) ≤ E(S4

n)/(ǫ4n4) < +∞, o que, pelo Exercıcio 5.1.3, permite

concluir.

No resultado seguinte, utilizando uma tecnica de demonstracao conhecida por meto-

do das subsucessoes, estabelecemos uma lei forte dos grandes sob condicoes menos

restritivas que as anteriores. Admitiremos que as variaveis (Xn) sao duas a duas nao-

-correlacionadas e que possuem momentos de segunda ordem uniformemente limitados.

Teorema 6.2.3 Seja (Xn) uma sucessao de variaveis aleatorias reais de quadrado in-

tegravel duas a duas nao-correlacionadas com supk∈N E(X2k) < +∞. Entao (Xn) obe-

dece a uma lei forte dos grandes numeros com µn − 1n

∑ni=1 E(Xi)→0.

Dem: Sem perda de generalidade suponhamos que E(Xn) = 0, para todo o n ∈ N.

Denotando Yn = Sn/n, comecaremos por estabelecer o resultado para a subsucessao

de (Ynn) de (Yn), Numa segunda fase extendemo-lo a toda a sucessao. temos E(Y 2n ) =

E(S2n)/n2 =

∑nk=1 E(X2

k)/n2 ≤ γ/n, onde γ = supk∈N E(X2k). Assim,

∑∞n=1 E(Y 2

n2) ≤∑∞

n=1 γ/n2 < +∞, ou ainda, E(∑∞

n=1 Y 2n2) < +∞, e consequentemente

∑∞n=1 Y 2

n2 <

+∞, quase certamente. Concluımos assim que lim Yn2 = 0, q.c.. Para demonstrar que

lim Yn = 0, q.c., consideremos, para n ∈ N, p(n) ∈ N tal que p(n)2 < n ≤ (p(n) + 1)2.

Assim, E(Yn − p(n)2

n Yp(n)2)2 = E( 1

n

∑nk=p(n)2+1 Xk) ≤ (n − p(n)2)γ/n2 ≤ (2p(n) +

1)γ/n2 ≤ (2√

n+1)γ/n2 ≤ 3γ/n3/2, e tal como atras E(∑∞

n=1(Yn−p(n)2

n Yp(n)2)2) < +∞,

ATP, Coimbra 2002


o que implica que lim(Yn− p(n)2

n Yp(n)2) = 0, q.c. Como lim Yp(n)2 = 0, q.c. e p(n)2/n ≤ 1,

concluımos finalmente que lim Yn = 0, q.c.

No caso particular em que (Xn) e uma sucessao de variaveis aleatorias reais de qua-

drado integravel duas a duas nao-correlacionadas com E(Xk) = µ, para todo o k ∈ N,

concluımos que a condicao supk∈N E(X2k) < +∞ e suficiente para que Sn/n qc−→ µ.

Estas condicoes sao, em particular, satisfeitas por uma sucessao de variaveis indepen-

dentes e identicamente distribuıdas de quadrado integravel.

Exercıcios

1. Estabeleca leis fracas e fortes dos grandes numeros para cada uma das seguintes sucessoes

de variaveis aleatorias:

(a) (Xn) e uma sucessao de variaveis de Bernoulli de parametro p duas a duas nao-

correlacionadas.2

(b) (Xn) e uma sucessao de v.a.r. duas a duas nao-correlacionadas com Xn uma variavel

de Bernoulli de parametro pn.3

(c) (Xn) e uma sucessao de v.a.r. de quadrado integravel, duas a duas nao-correlacionadas

com Var(Xn) ≤ γ.4

2. Seja (Xn) uma sucessao de v.a.r. com |Xn| ≤ M , para todo o n ∈ N. Mostre que

a condicao Var(Sn)/n2 → 0 e necessaria para a validade duma lei fraca dos grandes

numeros.

3. Sejam (Xn) uma qualquer sucessao de v.a.r. e p ≥ 1. Mostre que:

(a) Xnqc−→ 0 ⇒ Sn/n qc−→ 0;

(b) XnLp−→ 0 ⇒ Sn/n Lp

−→ 0.

(c) Verifique que Xnp−→ 0 ; Sn/n p−→ 0, considerando (Xn) com P(Xn = 2n) = 1/n

e P(Xn = 0) = 1 − 1/n.

4. (Velocidade de convergencia em probabilidade) Sejam (Xn) uma sucessao de v.a.r.

i.i.d. de quadrado integravel e µ = E(X1).

(a) Mostre que bn(Sn/n−µ) p−→ 0 (resp. mq−→), para toda a sucessao (bn) satisfazendo

bn/n1/2→0.

(b) Tomando Xn ∼ N(0, 1), conclua que o resultado anterior nao e, em geral, valido

para bn = n1/2.

2Lei fraca de Bernoulli, J., Ars Conjectandi, Basel, 1713.2Lei forte de Borel, E., Rend. Circ. Mat. Palermo, 27, 247–271, 1909.3Lei fraca de Poisson, S.D., Recherches sur la Probabilite des Judgements, Paris, 1837.4Lei fraca de Tchebychev, P.L., J. Math. Pures et Appl., Ser. 2, 12, 177–184, 1867 (reproduzido em

Oeuvres de P.L. Tchebychev, Vol. 1, 28, 687–694).

ATP, Coimbra 2002


6.3 Leis fracas dos grandes numeros

Neste paragrafo discutimos a convergencia em probabilidade de Sn/n sob condicoes

parcialmente mais fracas que as consideradas no paragrafo anterior. Em particular,

verificaremos que e possıvel obter leis fracas dos grandes numeros sob condicoes menos

restritivas sobre os momentos das variaveis em questao. No que se segue limitar-nos-

-emos a estabelecer condicoes suficientes para a validade duma lei fraca dos grandes

numeros. No caso de existirem condicoes necessarias e suficientes indica-las-emos.

Teorema 6.3.1 (Lei fraca de Kolmogorov5) Seja (Xn) uma sucessao de variaveis

aleatorias reais independentes satisfazendo as condicoes seguintes para alguma sucessao

(an) de numeros reais:

a)∑n

k=1 P(|Xk − ak| > n)→0;

b) 1n2

∑nk=1 E((Xk − ak)

21I|Xk−ak |≤n)→0.

Entao, (Xn) obedece a uma lei fraca dos grandes numeros com µn = 1n

∑nk=1E((Xk−

ak)1I|Xk−ak|≤n) − ak.

Dem: Basta considerar o caso ak = 0, para todo o k. Para k e n naturais, consideremos

as variaveis aleatorias X ′n,k = Xk1I|Xk|≤n e S′

n =∑n

k=1 X ′n,k. Para ǫ > 0, temos por a),

P(|S′n −Sn| ≥ ǫ) ≤ ∑n

k=1 P(X ′n,k 6= Xk) =

∑nk=1 P(|Xk| > n) → 0. Como Sn/n−µn =

(Sn − S′n)/n + (S′

n − E(S′n))/n, basta agora mostrar que (S′

n − E(S′n))/n p−→ 0. Tal

facto e consequencia de b) pois para ǫ > 0, P(|S′n −E(S′

n)|/n ≥ ǫ) ≤ Var(S′n)/(ǫ2n2) =

ǫ−2n−2∑n

j=1 E(X2j 1I|Xj |≤n) → 0.

Kolmogorov mostra ainda que as condicoes anteriores alem de suficientes sao tambem

necessarias para a validade duma lei fraca dos grandes numeros quando a sucessao (an)

e substituıda por uma sucessao (mn) de medianas de (Xn), isto e, mn e um numero

real para o qual P(Xn < mn) ≤ 1/2 e P(Xn ≤ mn) ≥ 1/2.

Teorema 6.3.2 6 Seja (Xn) e uma sucessao de variaveis aleatorias reais independentes

e identicamente distribuıdas. (Xn) obedece a uma lei fraca dos grandes numeros sse

nP(|X1| > n) → 0. Neste caso podemos tomar µn = E(X11I|X1|≤n).

Dem: Para estabelecer a suficiencia da condicao nP(|X1| > n) → 0, vamos mostrar que

se verifica a condicao b) do teorema anterior para an = 0. Com efeito E(X211I|X1|≤n) ≤∑n

k=1 k2P(k − 1 < |X1| ≤ k) ≤ 2∑n

i=1 iP(i − 1 < |X1| ≤ n) ≤ 2∑n

i=1 iP(|X1| > i− 1),

o que permite concluir. Reciprocamente, se (Xn) obedece a uma lei fraca dos grandes

5Kolmogorov, A.N., Math. Ann., 99, 309–319, 1928.6Kolmogorov, A.N., Math. Ann., 102, 484–488, 1929.

ATP, Coimbra 2002


numeros sabemos da observacao anterior que nP(|X1 − m| > n)→ 0, onde m e uma

mediana de X1. Sendo esta condicao equivalente a nP(|X1| > n) → 0, fica concluıda a

demonstracao.

Notemos que as condicoes impostas no resultado anterior, nao implicam a inte-

grabilidade das variaveis aleatorias (Xn) (ver Exercıcio 6.3.2). No caso destas serem

integraveis vale o resultado seguinte.

Teorema 6.3.3 (Lei fraca de Khintchine7) Se (Xn) e uma sucessao de variaveis

aleatorias reais independentes, identicamente distribuıdas e integraveis, entao Sn/n p−→µ, onde µ = E(X1).

Dem: Sendo X1 integravel, as hipoteses do Teorema 6.3.2 sao trivialmente verificadas

(ver Exercıcio 5.3.7).

Exercıcios

1. Seja (Xn) uma sucessao de v.a.r. independentes com∑n

k=1 E|Xk|1+δ/n1+δ → 0, para

algum 0 < δ ≤ 1. Mostre que (Xn) obedece a uma lei fraca dos grandes numeros com

µn =∑n

k=1 E(Xk)/n.

2. Seja (Xn) uma sucessao de v.a.r. i.i.d. com P(X1 = k) = P(X1 = −k) = ck2 ln k , para

k = 2, 3, . . ., onde c = 12

(∑∞k=2

1k2 ln k

)−1.

(a) Verifique que nP(|X1| > n)→0 e E|X1| = +∞.

(b) Mostre que Sn/n p−→ 0.

3. Sendo X uma variavel aleatoria real, mostre que:

(a) Para p > 0 vale a igualdade E|X |p =∫]0,+∞[

p yp−1P(|X | > y)dλ(y).

(Sugestao: Utilize o teorema de Fubini.)

(b) A condicao n P(|X | > n)→0 implica que E|X |p < +∞, para todo o 0 < p < 1.

4. Se (Xn) e uma sucessao de v.a.r. i.i.d. com distribuicoes de Cauchy de parametros 0 e 1,

mostre que (Xn) nao obedece a uma lei fraca dos grandes numeros.

6.4 Leis fortes e series de variaveis independentes

Contrariamente ao caso da lei fraca dos grandes numeros, nao e conhecida uma

condicao necessaria e suficiente para a validade duma lei forte dos grandes numeros

para variaveis independentes mas nao necessariamente identicamente distribuıdas.

7Khintchine, A., C. R. Acad. Sci. Paris, 188, 477–479, 1929.

ATP, Coimbra 2002


No paragrafo 6.2 estabelecemos uma primeira lei forte para sucessoes de variaveis

aleatorias duas a duas nao-correlacionadas com momentos de segunda ordem uniforme-

mente limitados. Neste paragrafo vamos obter uma lei forte para sucessoes de variaveis

aleatorias independentes sob condicoes menos restritivas que as consideradas no Teo-

rema 6.2.2. Para tal vamos utilizar a relacao entre a convergencia quase certa da media

empırica Sn/n e a convergencia da serie∑∞

k=1 Xk/k que estabelecemos no resultado

seguinte.

Lema 6.4.1 (de Kronecker) Se (xn) e uma sucessao de numeros reais tal que∑∞

k=1 xk/k converge, entao∑n

k=1 xk/n→0.

Dem: Dado ǫ > 0, existe por hipotese n0 ∈ N tal que para n ≥ n0, |rn| < ǫ, onde

rn =∑∞

k=n+1 xk/k. Assim, como∑n

k=1 xk =∑n

k=1(rk−1 − rk)k =∑n−1

k=1 rk + r0 − nrn,

obtemos para n ≥ n0, |∑n

k=1 xk/n| ≤∑n0−1

k=1 |rk|/n + |r0|/n + |rn| +∑n

k=n0|rk|/n <

ǫ(3 + (n − n0 + 1)/n) < 4ǫ.

O resultado que a seguir estabelecemos permite obter condicoes suficientes para a

convergencia quase certa duma serie de variaveis aleatorias independentes e, por maioria

de razao, via lema de Kronecker, condicoes suficientes para uma lei forte dos grandes

numeros. Para tal necessitamos duma generalizacao da desigualdade

P(|Sn| ≥ ǫ

)≤ 1

ǫ2

n∑

k=1

E(X2k),

que podemos obter como aplicacao directa da desigualdade Bienayme-Tchebychev (ver

Exercıcio 4.2.7).

Lema 6.4.2 (Desigualdade maximal de Kolmogorov8) Sejam X1, . . . ,Xn sao va-

riaveis aleatorias reais independentes com media zero e Sk = X1 + . . . + Xk, para

k = 1, . . . , n. Entao, para todo o ǫ > 0,

P(

max1≤k≤n

|Sk| ≥ ǫ)≤ 1

ǫ2

n∑

k=1

E(X2k).

Dem: Para ǫ > 0, definamos os acontecimentos disjuntos E1 = |S1| ≥ ǫ e Ek =

|S1| < ǫ, . . . , |Sk−1| < ǫ, |Sk| ≥ ǫ, para 2 ≤ k ≤ n, que satisfazem⋃n

k=1 Ek =

max1≤k≤n |Sk| ≥ ǫ. Pela desigualdade de Markov temos P(Ek) ≤ ǫ−2E(Sk1IEk)2.

Usando agora a independencia entre Sk1IEke Sn−Sk, podemos ainda escrever E(S2

k1IEk)

≤ E(S2k1IEk

+ (Sn − Sk)21IEk

) = E(S2k1IEk

+ 2Sk(Sn − Sk)1IEk+ (Sn − Sk)

21IEk) =

E(Sn1IEk)2. Finalmente, P(max1≤k≤n |Sk| ≥ ǫ) =

∑nk=1 P(Ek) ≤ ∑n

k=1 ǫ−2E(Sn1IEk)2

≤ ǫ−2E(S2n).

8Kolmogorov, A.N., Math. Ann., 99, p. 309–319, 1928.

ATP, Coimbra 2002


Teorema 6.4.3 (Criterio de Kolmogorov) Sejam (Xn) variaveis aleatorias reais

independentes de quadrado integravel com E(Xn) = 0, para todo o n ∈ N. Se a serie∑∞

n=1 Var(Xn) e convergente, entao a serie∑∞

n=1 Xn converge quase certamente.

Dem: Atendendo ao Teorema 5.2.5, para mostrar que Sn =∑n

k=1 Xk converge quase

certamente basta mostrar que supj≥1 |Sn+j − Sn| p−→ 0. Pela desigualdade maximal

de Kolmogorov e para ǫ > 0, qualquer, podemos obter P(supj≥1 |Sn+j − Sn| ≥ ǫ) =

limN→+∞ P(max1≤j≤N |Sn+j − Sn| ≥ ǫ) ≤ limN→+∞ P(max1≤j≤N |∑n+jk=n+1 Xk| ≥ ǫ) ≤

∑∞k=n+1 Var(Xk)/ǫ

2, o que permite concluir.

Como aplicacao directa do criterio anterior obtemos um primeiro conjunto de condi-

coes suficientes para a convergencia duma serie de variaveis aleatorias independentes

de quadrado integravel.

Teorema 6.4.4 Sejam (Xn) variaveis aleatorias reais independentes de quadrado in-

tegravel. Se as series∑∞

n=1 E(Xn) e∑∞

n=1 Var(Xn) sao convergentes entao a serie∑∞

n=1 Xn converge quase certamente.

Uma segunda consequencia do criterio de Kolmogorov e uma lei forte geral para

variaveis independentes de quadrado integravel mas nao necessariamente identicamente

distribuıdas, sob condicoes menos restritivas que as do Teorema 6.2.3.

Teorema 6.4.5 9 Sejam (Xn) variaveis aleatorias reais independentes de quadrado in-

tegravel. Se a serie∑∞

k=1 Var(Xk)/k2 e convergente, entao Sn/n − µnqc−→ 0, onde

µn = 1n

∑nk=1 E(Xk).

Dem: Como por hipotese∑∞

k=1 Var(Xk/k) < +∞, pelo criterio de Kolmogorov con-

cluımos que∑∞

k=1(Xk − E(Xk))/k converge quase certamente. Do Lema 6.4.1 deduzi-

mos o pretendido.

Exercıcios

1. Seja (Xn) uma sucessao de v.a.r. satisfazendo P(Xn = n2) = P(Xn = −n2) = 1/(2n2)

e P(Xn = 0) = 1 − 1/n2. Conclua que a condicao estabelecida no Teorema 6.4.5 nao e

necessaria para a validade duma lei forte dos grandes numeros.

2. Sejam (Xn) e (Yn) sucessoes de v.a.r. independentes (nao necessariamente definidas

num mesmo espaco de probabilidade) com Xn ∼ Yn. Mostre que∑

Xn converge quase

certamente sse∑

Yn converge quase certamente.

3. (Velocidade de convergencia quase certa) Sejam (Xn) uma sucessao de v.a.r. i.i.d.

de quadrado integravel e µ = E(X1).

9Kolmogorov, A.N., C. R. Acad. Sci. Paris, 191, 910–912, 1930.

ATP, Coimbra 2002


(a) Mostre que se∑

a2n/n2 < ∞ para alguma sucessao de numeros reais (an) entao

an(Sn/n − µ) qc−→ 0.

(b) Conclua que n1/2(lnn)−1/2−ǫ(Sn/n− µ) qc−→ 0, para todo o ǫ > 0.

6.5 Lei forte dos grandes numeros de Kolmogorov

Mostramos neste paragrafo que se (Xn) e uma sucessao de variaveis aleatorias reais

e independentes e identicamente distribuıdos, a condicao E|X1| < +∞ e necessaria e

suficiente para que Sn/n convirja quase certamente para um valor real µ, ou de forma

equivalente, para que (Xn) obedeca a uma lei forte dos grandes numeros com µn = µ.

Trata-se da lei forte dos grandes numeros de Kolmogorov.

6.5.1 Necessidade da condicao de integrabilidade

A necessidade da condicao de integrabilidade para a validade duma lei forte dos

grandes numeros cuja variavel limite nao e constantemente infinita, e estabelecida a

custa dos resultados seguintes.

Lema 6.5.1 Se Y e uma variavel aleatoria real entao∞∑

n=1

P(|Y | > n) ≤ E|Y | ≤ 1 +∞∑

n=1

P(|Y | > n).

Dem: Pelo Exercıcio 6.3.3 temos E|Y | =∫[0,+∞[ P(|Y | > y)dy =

∑∞n=0

∫[n,n+1[ P(|Y | >

y)dy, o que permite concluir.

Lema 6.5.2 Sejam (Xn) variaveis aleatorias reais independentes e identicamente dis-

tribuıdas. As condicoes seguintes sao equivalentes:

i) E|X1| < +∞;

ii) lim Xn/n = 0, q.c.;

iii) ∀ǫ > 0∑∞

n=1 P(|X1| > ǫn) < +∞.

Dem: Para ǫ > 0, tomando Y = X1/ǫ no lema anterior obtemos a equivalencia entre

as condicoes i) e iii). A equivalencia entre as condicoes ii) e iii) e uma consequencia

imediata da equivalencia entre as convergencias quase certa e quase completa para zero

da sucessao (Xn/n) (ver Exercıcio 5.1.3).

Teorema 6.5.3 Sejam (Xn) variaveis aleatorias reais independentes e identicamente

distribuıdas e µ ∈ R tais que Sn/n qc−→ µ. Entao E|X1| < +∞.

Dem: Como por hipotese, Xn/n = (Sn − Sn−1)/nqc−→ 0, o resultado e consequencia

do Lema 6.5.2.

ATP, Coimbra 2002


6.5.2 Suficiencia da condicao de integrabilidade

Estamos agora em condicoes de estabelecer o principal resultado deste capıtulo.

Teorema 6.5.4 (Lei forte de Kolmogorov10) Seja (Xn) uma sucessao de variaveis

aleatorias reais independentes e identicamente distribuıdas. Entao, existe µ ∈ R tal que

Sn/n qc−→ µ sse E|X1| < +∞. Nesse caso µ = E(X1).

Dem: Atendendo ao Teorema 6.5.3 basta mostrar que Sn/n qc−→ E(X1), quando

E|X1| < +∞. Sem perda de generalidade vamos admitir que E(X1) = 0. Conside-

remos as variaveis X ′n = Xn1I|Xn|≤n, para n ≥ 1. Pelo Lema 6.3.1,

∑∞n=1 P(Xn 6=

X ′n) =

∑∞n=1 P(|Xn| > n) < +∞, e assim, pelo teorema de Borel-Cantelli, P(Xn 6=

X ′n i.o.) = 1. Concluımos assim que existe N ∈ A com P(N) = 0 tal que para todo

o ω ∈ N c as sucessoes (Xn(ω)) e (X ′n(ω)) coincidem para n suficientemente grande.

Bastara assim provar que S′n/n qc−→ 0, onde S′

n =∑n

k=1 X ′n. Para tal vamos lancar

mao do Teorema 6.4.5, mostrando que a serie∑∞

k=1 Var(X ′k)/k

2 e convergente. Ora∑∞

k=1 Var(X ′k)/k

2 ≤ ∑∞k=1 E(X2

11I|X1|≤k)/k2 =

∑∞k=1

∑kj=1 E(X2

1 1Ij−1<|X1|≤j)/k2

=∑∞

j=1

∑∞k=j E(X2

11Ij−1<|X1|≤j)/k2, onde

∑∞k=1

1k2 ≤ 2,

∑∞k=j

1k2 ≤ 1

j−1 , para

j ≥ 2, e E(X211Ij−1<|X1|≤j) ≤ jE(|X1|1Ij−1<|X1|≤j). Assim,

∑∞k=1 Var(X ′

k)/k2 ≤

2E(|X1|1I|X1|≤1) +∑∞

j=2j

j−1 E(|X1|1Ij−1<|X1|≤j) ≤ 2∑∞

j=1 E(|X1|1Ij−1<|X1|≤j) =

2E|X1| < +∞.

Exercıcios

1. Sejam (Xn) v.a.r. i.i.d. em Lp. Mostre que 1n

∑ni=1 Xp

iqc−→ E(Xp

1 ).

2. Denotemos por Xn = 1n

∑ni=1 Xi e σ2

n = 1n−1

∑ni=1(Xi − Xn)2, a media empırica e

variancia empırica, das v.a.r. X1, . . . , Xn. Mostre que se (Xn) sao variaveis i.i.d. de

quadrado integravel com variancia σ2, entao E(σ2n) = σ2 e σ2

nqc−→ σ2.

3. Retome os Exercıcios 1.8.4 e 2.1.6. Conclua que Snqc−→ −∞.

4. (Integracao pelo metodo de Monte Carlo, I) Sejam (Un) uma sucessao de v.a.

i.i.d. uniformemente distribuıdas sobre o intervalo [0, 1], e f uma funcao real mensuravel

definida em [0, 1] tal que∫[0,1] |f |dλ < +∞. Mostre que 1

n

∑ni=1 f(Ui)

qc−→∫[0,1] fdλ.

5. (Integracao pelo metodo de Monte Carlo, II) Sejam U1, V1, U2, V2, . . . v.a. i.i.d.

uniformemente distribuıdas sobre o intervalo [0, 1], e f : [0, 1] → [0, 1] uma funcao men-

suravel. Para n ∈ N, defina Zn = 1If(Un)>Vn, e mostre que 1n

∑ni=1 Zi

qc−→∫[0,1]

fdλ.

6. (Velocidade de convergencia quase certa11) Sejam (Xn) uma sucessao de v.a.r. i.i.d.

e p ∈]1, 2[. Mostre que n1−1/p(Sn/n− µ) qc−→ 0 para algum µ ∈ R sse E|X |p < ∞. Neste

caso µ = E(X1).

10Kolmogorov, A.N., Grundbegriffe der Wahrscheinlichkeitrechnung, Berlin, 1933.11Marcinkiewicz, J., Zygmund, A., Fund. Math., 29, 60–90, 1937.

ATP, Coimbra 2002


(Sugestao: Retome as demonstracoes dos Teoremas 6.5.3 e 6.5.4, mostrando no primeiro

caso que Xn/n1/p qc−→ 0 e no segundo que S′n/n1/p qc−→ 0, onde S′n =∑n

k=1Xk1I|Xk|≤k1/p.)

6.6 O teorema das tres series

No Teorema 6.4.4 obtivemos condicoes suficientes para a convergencia quase certa

duma serie de variaveis aleatorias independentes. De seguida aprofundamos este as-

sunto comecando por mostrar que no caso das variaveis aleatorias serem limitadas as

condicoes anteriores sao tambem necessarias. Para tal lancamos mao da desigualdade

seguinte devida a Kolmogorov.

Lema 6.6.1 Sejam X1, . . . ,Xn variaveis aleatorias reais independentes com media

zero, Sk = X1 + . . . + Xk, e suponhamos que existe γ > 0 tal que |Xk| ≤ γ q.c.,

para k = 1, . . . , n. Entao, para todo o ǫ > 0,

P(

max1≤k≤n

|Sk| ≥ ǫ)≥ 1 − (ǫ + γ)2∑n

k=1 E(X2k)

.

Dem: Sejam Ek, para 1 ≤ k ≤ n, os acontecimentos definidos na demonstracao da

desigualdade maximal de Kolmogorov, e Dk, para 0 ≤ k ≤ n, os acontecimentos

D0 = Ω e Dk = |S1| < ǫ, . . . , |Sk−1| < ǫ, |Sk| < ǫ, para 1 ≤ k ≤ n. Claramente

max1≤k≤n |Sk| ≥ ǫ =∑n

k=1 Ek = Dcn. Para k ≥ 1, Dk e Ek sao disjuntos e Dk +Ek =

Dk−1, o que permite escrever Sk−11IDk−1+ Xk1IDk−1

= Sk1IDk−1= Sk1IDk

+ Sk1IEk,

onde S0 = 0. Usando a independencia entre Sk−11IDk−1e Xk e entre 1IDk−1

e Xk

temos E(S2k−11IDk−1

) + E(X2k)P(Dk−1) = E(S2

k1IDk) + E(S2

k1IEk). Alem disso, como

P(Dk−1) ≥ P(Dn) e |Sk1IEk−1| ≤ (ǫ + γ)1IEk

, obtemos E(S2k−11IDk−1

) + E(X2k)P(Dn) ≤

E(S2k1IDk

)+(ǫ+γ)2P(Ek). Finalmente, somando todas as inequacoes anteriores obtemos∑n

k=1 E(X2k)P(Dn) ≤ E(S2

n1IDn)+ (ǫ + γ)2P(Dcn) ≤ (ǫ + γ)2, o que permite concluir.

Estabelecemos em primeiro lugar a recıproca do criterio de Kolmogorov para varia-

veis uniformemente limitadas.

Teorema 6.6.2 Sejam (Xn) variaveis aleatorias reais independentes tais que supk∈N

|Xk| ≤ γ q.c., para alguma constante γ > 0, e E(Xk) = 0 para todo o k ∈ N. Entao∑∞

n=1 Xn converge quase certamente sse a serie∑∞

n=1 Var(Xn) e convergente.

Dem: Tendo em conta o Teorema 6.4.3, basta mostrar que∑∞

n=1 Var(Xn) e conver-

gente quando∑∞

n=1 Xn converge quase certamente. Neste caso, para todo o ǫ > 0

P(supj≥1 |Sn+j−Sn| ≥ ǫ) → 0 (cf. Teorema 5.2.5). Ora, pelo Lema 6.6.1, P(supj≥1 |Sn+j

−Sn| ≥ ǫ) = limN→+∞ P(max1≤j≤N |Sn+j −Sn| ≥ ǫ) ≥ 1− (ǫ+2γ)2/∑∞

k=n+1 Var(Xk),

obtendo-se uma contradicao se∑∞

n=1 Var(Xn) = +∞.

ATP, Coimbra 2002


Passemos agora ao estudo da serie nao centrada no caso das variaveis da sucessao

serem uniformemente limitadas.

Teorema 6.6.3 Sejam (Xn) variaveis aleatorias reais independentes tais que supk∈N

|Xk| ≤ γ q.c., para alguma constante γ > 0. Entao a serie∑∞

n=1 Xn converge quase

certamente sse as series∑∞

n=1 E(Xn) e∑∞

n=1 Var(Xn) sao convergentes.

Dem: Pelo Teorema 6.4.3 basta mostrar que a convergencia quase certa da serie∑

Xn

implica a convergencia das series∑

E(Xn) e∑

Var(Xn). Sabemos do Exercıcio 3.2.6

que existem variaveis aleatorias reais independentes Y1, Z1, Y2, Z2, . . . definidas num

mesmo espaco de probabilidade com Xn ∼ Yn ∼ Zn, para todo o n ∈ N. Alem

disso, se∑

Xn e quase certamente convergente, tambem o sao as series∑

Yn e∑

Zn

(cf. Exercıcio 6.6.2). Consideremos agora as variaveis Un = Yn − Zn, para n ∈ N

(notemos que Un ∼ −Un, pelo que esta tecnica e conhecida por simetrizacao). Tais

variaveis sao independentes, com E(Un) = 0, |Un| ≤ 2γ, q.c. e alem disso∑

Un e quase

certamente convergente. Pelo Teorema 6.6.2 concluımos que∑

Var(Un) < +∞, ou

ainda∑

Var(Xn) < +∞, uma vez que Var(Un) = Var(Yn) + Var(Zn) = 2Var(Xn).

Novamente pelo Teorema 6.6.2,∑

(Xn − E(Xn)) converge quase certamente, o que

implica a convergencia da serie∑

E(Xn), pois E(Xn) = Xn − (Xn − E(Xn)), para

n ∈ N.

Finalmente, no caso geral das variaveis nao serem uniformemente limitadas e valido

o seguinte resultado.

Teorema 6.6.4 (das tres series12) Se (Xn) e uma sucessao de variaveis aleatorias

reais independentes entao∑∞

n=1 Xn converge quase certamente sse para algum c > 0

as tres series seguintes sao convergentes:

a)∞∑

n=1

P(|Xn| > c); b)∞∑

n=1

E(Xn1I|Xn|≤c); c)∞∑

n=1

Var(Xn1I|Xn|≤c).

Dem: Comecamos por notar que a convergencia da serie a) e, pela lei zero-um de Borel,

equivalente a condicao P(|Xn| > c i.o.) = 0, ou ainda a P(Xn 6= Xn1I|Xn|≤c i.o.) = 0.

Assim, a menos dum conjunto de pontos ω com probabilidade nula as sucessoes (Xn(ω))

e (Xn(ω)1I|Xn|≤c(ω)) coincidem para n suficientemente grande, o que implica que a

convergencia quase certa de∑

Xn e equivalente a convergencia quase certa da serie∑

Xn1I|Xn|≤c. Por outro lado, a convergencia das series b) e c) e, pelo Teorema

6.6.3, equivalente a convergencia quase certa de∑

Xn1I|Xn|≤c. Concluımos assim

que a convergencia das series a), b) e c) implica a convergencia quase certa de∑

Xn.

12Kolmogorov, A.N., Math. Ann., 99, p. 309–319, 1928.

ATP, Coimbra 2002


Reciprocamente, se∑

Xn converge quase certamente, entao como |Xn| > c i.o. ⊂lim sup Xn 6= 0, para c > 0 qualquer, concluımos que P(|Xn| > c i.o.) = 0, o que,

como ja referimos e equivalente a convergencia da serie a). Repetindo o raciocınio ante-

rior, concluımos que a convergencia quase certa de∑

Xn e equivalente a convergencia

quase certa da serie∑

Xn1I|Xn|≤c, o que, por sua vez, e equivalente as convergencia

das series b) e c).

Terminamos este paragrafo mostrando que as condicoes necessarias e suficientes

anteriores para a convergencia quase certa da serie∑∞

n=1 Xn, sao tambem necessarias

e suficientes para a sua convergencia em probabilidade.

Lema 6.6.5 (Desigualdade de Levy) Sejam X1, . . . ,Xn variaveis aleatorias reais e

independentes, Sk = X1 + . . . + Xk, para k = 1, . . . , n, e ǫ, δ > 0. Se

max1≤i≤n

P(|Xi + . . . + Xn| ≥ ǫ/2) ≤ δ,

entao

P(

max1≤k≤n

|Sk| ≥ ǫ)≤ δ

1 − δ.

Dem: Sejam Ek, k ≥ 1, os conjuntos definidos na demonstracao da desigualdade

maximal de Kolmogorov. Pela independencia dos acontecimentos Ek e |Sn −Sk| ≥ ǫ/2

temos P(max1≤k≤n |Sk| ≥ ǫ, |Sn| ≤ ǫ/2) =∑n

k=1 P(Ek, |Sn| ≤ ǫ/2) ≤ ∑nk=1 P(Ek, |Sn−

Sk| ≤ ǫ/2) =∑n

k=1 P(Ek)P(|Sn −Sk| ≤ ǫ/2) ≤ δP(max1≤k≤n |Sk| ≥ ǫ). Por outro lado,

P(max1≤k≤n |Sk| ≥ ǫ, |Sn| > ǫ/2) ≤ P(|Sn| > ǫ/2) ≤ δ, o que permite concluir.

Teorema 6.6.6 (de Levy13) Se (Xn) e uma sucessao de variaveis aleatorias reais e

independentes entao Sn =∑n

k=1 Xk converge quase certamente sse converge em proba-

bilidade.

Dem: Consequencia imediata do Teorema 5.2.5 e da desigualdade de Levy.

Exercıcios

1. Recorde a natureza das series∑

1/n e∑

(−1)n/n. Considere uma sucessao (Xn) de v.a.r.

i.i.d. com P (Xn = −1) = P (Xn = 1) = 1/2. Estude a convergencia da serie∑

Xn/n.

2. Sendo (Xn) uma qualquer sucessao de v.a.r., mostre que se∑∞

n=1 E(|Xn|) < ∞, entao∑∞n=1 Xn converge quase certamente.

3. Sejam . . . , Y1, Y0, Y−1, . . . uma sucessao de v.a.r. i.i.d. com E(Yn) = 0 e α0, α1, . . . uma

sucessao de numeros reais com∑ |αn| < ∞.

(a) Para n ∈ N, mostre que∑∞

j=0 αjYn−j converge quase certamente.

(b) Definindo Xn =∑∞

j=0 αjYn−j , para n ∈ N, mostre que Xn = αXn−1 + Yn.

13Levy, P., Theorie de l’Addition des Variables Aleatoires, Paris, 1937.

ATP, Coimbra 2002


6.7 Bibliografia

Chow, Y.S., Teicher, H. (1997). Probability Theory: Independence, Interchangeability,

Martingales, Springer.

Chung, K.L. (1974). A Course in Probability Theory, Academic Press.

Durrett, R. (1996). Probability: Theory and Examples, Duxbury Press.



Company.

Loeve, M. (1977). Probability Theory I, Springer.


Revesz, P. (1968). The Laws of Large Numbers, Academic Press.

ATP, Coimbra 2002

Parte III

Teorema do limite central

99

Capıtulo 7

Funcao caracterıstica

Integracao de variaveis aleatorias complexas. Funcao caracterıstica dum vector aleatorio.

Derivadas e momentos. Injectividade. Formulas de inversao. Aplicacoes a caracteri-

zacao da independencia e ao estudo da distribuicao da soma de vectores aleatorios.

7.1 Integracao de variaveis aleatorias complexas

Como bem sabemos, o conjunto dos numeros complexos pode ser identificado com

o conjunto R2 dos pontos do plano, associando-se a cada complexo z = x + i y o par

ordenado (x, y). A x chamamos parte real de z, e escrevemos x = Re(z) e a y parte

imaginaria de z que denotamos por y = Im(z). Considerando em R2 a norma euclide-

ana e em C a norma do modulo (|z| =√

x2 + y2), concluımos facilmente que os abertos

de cada um dos conjuntos podem ser tambem identificados, o mesmo acontecendo re-

lativamente as σ-algebras de Borel B(C) e B(R2).

Toda a funcao complexa Z definida num conjunto Ω pode escrever-se na forma

Z = Re(Z) + i Im(Z), onde Re(Z) e Im(Z) sao funcoes reais definidas, para ω ∈ Ω,

por Re(Z)(ω) = Re(Z(ω)) e Im(Z)(ω) = Im(Z(ω)). As observacoes preliminares ante-

riores implicam que uma funcao Z definida num espaco de probabilidade (Ω,A,P) com

valores em (C,B(C)) e uma variavel aleatoria sse a funcao de (Ω,A,P) em (R2,B(R2))

definida por (Re(Z), Im(Z)) e tambem uma variavel aleatoria, ou ainda, sse Re(Z)

e Im(Z) sao variaveis aleatorias reais. Neste caso dizemos que Z e uma variavel

aleatoria complexa.

Tendo em conta o que atras foi dito, a definicao de esperanca matematica duma

variavel aleatoria complexa surge agora de forma natural.

Definicao 7.1.1 Uma variavel aleatoria complexa Z diz-se integravel se Re(Z) e

Im(Z) o forem, e nesse caso, a sua esperanca matematica e dada por

E(Z) = E(Re(Z)) + iE(Im(Z)).

101


Teorema 7.1.2 a) O conjunto das variaveis aleatorias complexas integraveis e um

espaco vectorial complexo (com a soma e produto escalar definidos da forma habitual).

b) A aplicacao Z→E(Z) desse espaco em C e linear.

Dem: Basta ter em conta que o conjunto das variaveis aleatorias reais integraveis e um

espaco vectorial real e a linearidade da esperanca matematica para variaveis aleatorias

reais.

Teorema 7.1.3 Uma variavel aleatoria complexa Z e integravel sse |Z| o for, e nesse

caso |E(Z)| ≤ E(|Z|).

Dem: A primeira afirmacao resulta das desigualdades |Re(Z)| ≤ |Z|, |Im(Z)| ≤ |Z|e |Z| ≤ |Re(Z)| + |Im(Z)|. A desigualdade |E(Z)| ≤ E(|Z|) e valida se E(Z) =

0. Se E(Z) 6= 0, seja w = E(Z)/|E(Z)|. Entao |E(Z)| = w−1E(Z) = E(w−1Z) =

E(Re(w−1Z)) (pois |E(Z)| e real) ≤ E(|w−1Z|) = E(|Z|).

Antes de terminarmos este curto paragrafo sobre a integracao de variaveis aleatorias

complexas, observemos que outros resultados que enunciamos relativos a esperanca

matematica de variaveis aleatorias reais, sao tambem validos para variaveis aleatorias

complexas. Tais resultados podem ser estabelecidos a partir dos correspondentes re-

sultados para variaveis aleatorias reais, considerando separadamente as partes reais e

imaginarias das variaveis aleatorias intervenientes.

7.2 Definicao e primeiras propriedades

A nocao de funcao caracterıstica que introduzimos a seguir e, como veremos ao

longo deste capıtulo, um instrumento essencial no estudo da distribuicao dum vector

aleatorio. Para x = (x1, . . . , xd) e y = (y1, . . . , yd) em Rd, denotaremos por 〈x, y〉 o

produto interno usual em Rd, isto e, 〈x, y〉 =∑d

j=1 xjyj.

Definicao 7.2.1 Chamamos funcao caracterıstica dum vector aleatorio X em Rd

(ou funcao caracterıstica de PX), a funcao de Rd em C definida por

φX(t) = E(e i 〈t,X〉), para t ∈ Rd.

Notemos que como |e i 〈t,X〉| = 1, a esperanca matematica anterior esta bem definida.

Teorema 7.2.2 Se φX e a funcao caracterıstica dum vector aleatorio X entao:

a) φX(0) = 1;

b) |φX(t)| ≤ 1, para todo o t ∈ Rd;

c) φ−X(t) = φX(t), para todo o t ∈ Rd;

d) φX e uma funcao contınua.

ATP, Coimbra 2002


Dem: As alıneas a), b) e c) sao consequencia imediata da definicao de funcao carac-

terıstica. A continuidade de φX resulta da continuidade sob o sinal de integral.

Atendendo a alınea c) anterior, a funcao caracterıstica duma variavel aleatoria

simetrica relativamente a origem e uma funcao real. Neste caso φX(t) = E(cos(〈t,X〉)),para t ∈ Rd.

O calculo da funcao caracterıstica duma variavel aleatoria pode revelar-se um tra-

balho arduo. Tal e o caso do segundo dos exemplos seguintes.

Exemplos 7.2.3 1. Se X e uma v.a. de Bernoulli de parametro p, entao φX(t) =

e i t.1p + e i t.0(1 − p) = 1 − p(1 − e i t), para t ∈ R.

2. Se X e uma v.a. normal centrada e reduzida, entao φX(t) = e−t2/2, para t ∈R. Com efeito, como φX(t) = E(cos(tX)) = 1√

2π

∫cos(tx)e−x2/2 dλ(x) e φ′

X(t) =−1√2π

∫x sin(tx)e−x2/2 dλ(x) = −tφX(t), obtemos a equacao diferencial φ′

X(t)/φX (t) =

−t, que possui como solucao φX(t) = ece−t2/2, ou ainda, φX(t) = e−t2/2, uma vez que

φX(0) = 1.

As funcoes caracterısticas de subvectores dum vector X podem ser obtidas facil-

mente a partir de φX . Faceis de obter sao tambem as funcoes caracterısticas de trans-

formacoes afins dum vector X.

Teorema 7.2.4 Se X = (X1,X2) e um vector aleatorio em Rp+q, entao

φX1(t1) = φX(t1, 0) e φX2(t2) = φX(0, t2),

para todo o t1 ∈ Rp e t2 ∈ Rq.

Teorema 7.2.5 Sejam X um vector aleatorio sobre Rp+q, A uma matriz real de tipo

p × q e b ∈ Rp. Entao φAX+b(t) = e i 〈t,b〉φX(AT t), para t ∈ Rp.

Como aplicacao deste ultimo resultado, podemos obter a funcao caracterıstica duma

variavel Y ∼ N(m,σ2), pois Y ∼ σX + m, com X ∼ N(0, 1), e assim

φY (t) = e i tmφX(σt) = e i tme−σ2t2/2, t ∈ R.

Exercıcios

1. Demonstre os Teoremas 7.2.4 e 7.2.5.

2. Para as seguintes v.a. calcule a sua funcao caracterıstica:

(a) Variavel constantemente igual a m;

ATP, Coimbra 2002


(b) Binomial de parametros n e p;

(c) Poisson de parametro λ;

(d) Exponencial de parametro λ;

(e) Uniforme sobre o intervalo [−a, a].

3. Seja (X, Y ) o vector aleatorio com densidade

f(x, y) =1

2π√

1 − ρ2e−(x2−2ρxy+y2)/(2(1−ρ2)),

onde ρ ∈ ]− 1, 1[ (ver Exemplo 1.3.5). Calcule φ(X,Y ) e φY .

(Sugestao: Use o Exercıcio 1.7.3.)

4. Mostre que sao equivalentes as seguintes proposicoes: i) P(X ∈ Z) = 1; ii) φX e periodica

de perıodo 2π; iii) φX(2π) = 1.

5. Prove que se PX e difusa, entao φX(t) < 1, para todo o t ∈ R \ 0.

7.3 Derivadas e momentos

Uma aplicacao importante das funcoes caracterısticas e agora abordada. Trata-se

do calculo dos momentos dum vector aleatorio.

Teorema 7.3.1 Se X e um vector aleatorio sobre Rd com E||X||m < +∞, para algum

m ∈ N, entao φX possui derivadas parciais de ordem m e, para t ∈ Rd,

∂mφX

∂tj1 . . . ∂tjm

(t) = i mE(Xj1 . . . Xjme i 〈t,X〉).

Dem: Comecemos por estabelecer o resultado para m = 1. Sendo ei o i-esimo vector

da base canonica de Rd, temos, para t ∈ Rd e h ∈ R, (φX(t + hej1) − φX(t))/h =

E(e i 〈t,X〉(e i hXj1 −1)/h), onde |e i 〈t,X〉(e i hXj1 −1)/h| ≤ |(e i hXj1 −1)/h| ≤ |Xj1| ≤ ||X||,uma vez que |e i x − 1| ≤ |x|, para todo o x ∈ R. Como e i 〈t,X〉(e i hXj1 − 1)/h →e i 〈t,X〉 iXj1 e X e integravel, do teorema da convergencia dominada concluımos que∂φX∂tj

(t) = iE(Xj1ei 〈t,X〉). Suponhamos agora que o resultado e verdadeiro para o

natural k e provemos que ainda valido para k + 1. Para t ∈ Rd e h ∈ R, temos

( ∂kφX∂tj1 ...∂tjk

(t+hejk+1)− ∂kφX

∂tj1 ...∂tjk(t))/h = i kE(Xj1 . . . Xjk

e i 〈t,X〉(e i hXjk+1 −1)/h). Uma

nova aplicacao do teorema da convergencia dominada permite concluir.

Tendo em conta o resultado sobre a derivacao sob o sinal de integral, concluımos,

do resultado anterior, que as derivadas parciais de ordem m de φX sao contınuas.

No caso das variaveis aleatorias reais obtemos o corolario seguinte:

ATP, Coimbra 2002


Corolario 7.3.2 Se X e uma variavel aleatoria real com E|X|m < +∞, para algum

m ∈ N, entao

φ(k)X (0) = i kE(Xk), para k = 1, . . . ,m.

A nao existencia da derivada de ordem k de φX na origem, implica assim a nao

integrabilidade de Xk. Ainda no contexto real, e possıvel provar que a existencia da

derivada de ordem m de φX na origem, implica a existencia do momento de ordem m

de X quando m e par, e do momento de ordem m − 1 de X quando m e ımpar (ver

Metivier, 1972, pg. 157 e seguintes).

Exercıcios

1. Utilize o Corolario 7.3.2 para calcular a media e variancia das seguintes variaveis:

(a) Binomial de parametros n e p;

(b) Poisson de parametro λ;


2. Se X ∼ N(0, 1), mostre que E(X2n−1) = 0 e E(X2n) = (2n)!/(2nn!), para todo o n ∈ N.

3. Retome o Exercıcio 7.2.3 e calcule C(X,Y ).

7.4 Injectividade

Neste paragrafo mostraremos que a funcao caracterıstica dum vector aleatorio cara-

cteriza a sua distribuicao de probabilidade. Fa-lo-emos a partir dos dois resultados

auxiliares seguintes, onde por Nσ denotaremos um vector aleatorio sobre Rd de densi-

dade

gσ(u) =1

(√

2πσ2 )de−||u||2/(2σ2) =

d∏

j=1

1√2πσ2

e−u2j/(2σ2), (7.4.1)

para u = (u1, . . . , ud), onde || · || denota a norma euclideana em Rd. Atendendo a forma

da sua densidade, Nσ e um vector aleatorio com margens independentes que seguem

distribuicoes normais de media zero e variancia σ2. Comecemos por determinar a funcao

caracterıstica deste vector.

Lema 7.4.2 Para t ∈ Rd,

φNσ(t) = e−σ2||t||2/2.

Dem: Atendendo a forma produto (7.4.1) da densidade de Nσ podemos dizer que Nσ ∼(N1σ , . . . , Ndσ), onde, para i = 1, . . . , d, Niσ e uma variavel aleatoria normal de media

zero e variancia σ2, e alem disso, tais variaveis sao independentes. Assim, para t ∈

ATP, Coimbra 2002


Rd, φNσ(t) = E(e i 〈t,Nσ〉) = E(e i∑d

j=1 tjNjσ) = E(∏d

j=1 e i tjNjσ) =∏d

j=1 E(e i tjNjσ) =∏d

j=1 φNjσ(tj) =∏d

j=1 e−σ2t2j/2 = e−σ2||t||2/2.

Lema 7.4.3 Se X e um vector aleatorio em Rd e h e uma funcao limitada e contınua

de Rd em R, entao

E(h(X)) =1

(2π)dlimσ→0

∫h(x)

∫φX(u)e− i 〈u,x〉−σ2||u||2/2dλ(u)dλ(x).

Dem: Comecemos por notar que E(h(X)) = limσ→0

∫h(x)

∫gσ(x − y) dPX(y)dλ(x).

Com efeito, pelo teorema da mudanca de variavel e pelo teorema da convergencia domi-

nada, temos∫

h(x)∫

gσ(x−y) dPX(y)dλ(x) =∫ ∫

h(x)σ−dg1(σ−1(x−y)) dPX (y)dλ(x)

=∫ ∫

h(y+uσ)g1(u) d(PX⊗λ)(y, u) →∫ ∫

h(y)g(u) d(PX⊗λ)(y, u) =∫

h(y) dPX (y) =

E(h(X)). Para concluir vamos agora mostrar que∫

gσ(x−y) dPX(y) = (2π)−d∫

φX(u)

e− i 〈x,u〉−σ2||u||2/2dλ(u). Para tal, notemos que as funcoes gσ e φNσ estao relacionadas

pela igualdade gσ(x) = φN1/σ(−x)/(σ

√2π)d, para x ∈ Rd, o que permite escrever∫

gσ(x−y) dPX(y) =∫

φN1/σ(y−x)/(σ

√2π)d dPX(y) = (σ

√2π)−d

∫ ∫e i 〈y−x,u〉g1/σ(u)

dλ(u) dPX (y) = (2π)−d∫

e− i 〈x,u〉−σ2||u||2/2∫

e i 〈y,u〉 dPX(y) dλ(u) = (2π)−d∫

φX(u)

e− i 〈x,u〉−σ2||u||2/2 dλ(u).

Teorema 7.4.4 Se X e Y sao vectores aleatorios em Rd (nao necessariamente defini-

dos sobre o mesmo espaco de probabilidade), entao φX = φY sse X ∼ Y .

Dem: Provaremos que o conhecimento de φX implica o conhecimento de PX(A) para

todo o A ∈ B(Rd), ou equivalentemente, para todo o rectangulo A semi-aberto a es-

querda. Conhecendo φX , sabemos pelo lema anterior que conhecemos E(h(X)) para

toda a funcao limitada e contınua em Rd. Dado agora um rectangulo A semi-aberto a

esquerda, sabemos que existe uma sucessao (hn) de funcoes contınuas e limitadas com

0 ≤ hn ≤ 1 e hn → 1IA, o que, pelo teorema da convergencia dominada, implica que

E(hn(X)) → E(1IA(X)) = PX(A).

Exercıcios

1. Sendo X um vector aleatorio em Rd, mostre que φX e uma funcao real sse X e simetrico

relativamente a origem (i.e. X ∼ −X).

2. Sendo X e Y vectores aleatorios em Rd, mostre que X ∼ Y sse 〈a, X〉 = 〈a, Y 〉, para

todo o a ∈ Rd.

ATP, Coimbra 2002


7.5 Formulas de inversao

Dos resultados anteriores, sabemos que para A ∈ B(Rd) e sendo (hn) uma sucessao

de funcoes contınuas e uniformemente limitadas com hn → 1IA, vale a igualdade

PX(A) = limn→+∞

limσ→0

1

(2π)d

∫hn(x)

∫φX(u)e− i 〈u,x〉−σ2||u||2/2dλ(u)dλ(x).

Esta igualdade da-nos uma primeira formula de inversao da funcao caracterıstica de X,

permitindo explicitar PX em funcao de φX .

Apesar de existirem outras formulas de inversao mais expeditas que a anterior em

termos de calculo efectivo, limitar-nos-emos, no que se segue, a apresentar uma formula

de inversao da funcao caracterıstica no caso desta ser integravel a Lebesgue.

Teorema 7.5.1 Seja X um vector aleatorio em Rd. Se φX e integravel a Lebesgue,

entao X e absolutamente contınuo e admite uma densidade de probabilidade contınua

e limitada dada, para x ∈ Rd, por

g(x) =1

(2π)d

∫φX(u)e− i 〈u,x〉dλ(u).

Dem: Comecemos por notar que sendo φX integravel, a funcao g dada pela formula

anterior e limitada e contınua. Alem disso, g e real pois g = g. Tendo em conta o Lema

7.4.3 e o teorema da convergencia dominada, E(h(X)) = 1(2π)d

∫h(x)

∫φX(u)e− i 〈u,x〉

dλ(u)dλ(x) =∫

h(x)g(x) dλ(x), para todo a funcao h contınua e limitada em Rd de

suporte compacto. Dado agora um rectangulo A semi-aberto a esquerda, existe uma

sucessao de funcoes (hn) contınuas de suporte compacto com hn → 1IA e 0 ≤ hn ≤1IE , onde E e um rectangulo fechado que contem A (esta majoracao e essencial para

podermos aplicar o teorema da convergencia dominada, uma vez que nao provamos

ainda que g e λ-integravel). Pelo teorema da convergencia dominada, obtemos PX(A) =

E(1IA(X)) = lim E(hn(X)) = lim∫

hn(x)g(x) dλ(x) =∫A g(x) dλ(x), o que permite

concluir que PX = g λ, como pretendıamos (a integrabilidade e nao-negatividade de g

e consequencia desta igualdade).

Exercıcios

1. Se X e uma v.a. de Cauchy de parametros 0 e 1, mostre que φX(t) = e−|t|, para t ∈ R.

Conclua que E|X | = +∞.

2. Se X e tal que P(X ∈ Z) = 1, mostre que, para todo o n ∈ Z,

P(X = n) =1

2π

∫ 2π

0

e− i tnφX(t) dλ(t).

ATP, Coimbra 2002


7.6 Independencia e soma de vectores aleatorios

Iniciamos este paragrafo apresentando uma caracterizacao da independencia das

margens dum vector aleatorio em termos da sua funcao caracterıstica.

Teorema 7.6.1 Seja X = (X1,X2) um vector aleatorio sobre Rp+q. X1,X2 sao inde-

pendentes sse

φX(t1, t2) = φX1(t1)φX2(t2),

para todo o t1 ∈ Rp e t2 ∈ Rq.

Dem: Procedendo como na demonstracao do Lema 7.4.2, concluımos facilmente que a

independencia dos vectores X1 e X2 implica a forma produto anterior para a funcao

caracterıstica de X. Reciprocamente, sejam Y1 e Y2 vectores independentes definidos

num espaco de probabilidade (Ω′,A′,P′) com Yi ∼ Xi, para i = 1, 2, e Y = (Y1, Y2).

Pela primeira parte da demonstracao e por hipotese, φY (t1, t2) = φY1(t1)φY2(t2) =

φX1(t1)φX2(t2) = φX(t1, t2), para todo o t1 ∈ Rp e t2 ∈ Rq. Assim, X ∼ Y , ou

ainda, PX = P′Y = P′

Y1⊗ P′

Y2= PX1 ⊗ PX2, o que permite concluir que X1 e X2 sao

independentes.

O resultado seguinte, tem um papel importante no estudo da distribuicao duma

soma de vectores aleatorios independentes. A sua demonstracao e deixada ao cuidado

do aluno.

Teorema 7.6.2 Sejam X1, . . . ,Xn vectores aleatorios com valores em Rd definidos

num mesmo espaco de probabilidade. Se X1, . . . ,Xn sao independentes , entao

φ∑nj=1 Xj

(t) =

n∏

j=1

φXj (t),

para todo o t ∈ Rd.

Usando este resultado, concluımos facilmente que qualquer combinacao linear nao-

-nula de variaveis aleatorias normais independentes X1, . . . ,Xn, com Xj ∼ N(mj , σ2j ),

e ainda uma variavel aleatoria normal, uma vez que, para t ∈ R, e a1, . . . , an ∈ R,

φ∑nj=1 ajXj

(t) = e i t∑n

j=1 ajmje−∑n

j=1 σ2j a2

j t2/2,

que nao e mais do que a funcao caracterıstica duma variavel aleatoria normal de media∑n

j=1 ajmj e variancia∑n

j=1 σ2j a

2j , sempre que pelo menos um dos aj seja diferente de

zero.

Exercıcios

1. Verifique que o recıproco do Teorema 7.6.2 e falso, considerando X1 = . . . = Xn = X ,

com X uma variavel de Cauchy de parametros 0 e 1.

ATP, Coimbra 2002


2. Use o Teorema 7.6.2 para calcular a funcao caracterıstica duma v.a. binomial de parametros

n e p.

3. Se X1, . . . , Xn sao v.a. independentes com distribuicoes de Poisson de parametros λ1, . . . , λn,

mostre que∑n

j=1 Xj e ainda uma v.a. de Poisson de parametro∑n

j=1 λj .

4. Dizemos que uma v.a. real X tem uma distribuicao Gama de parametros α > 0 e

β > 0, e escrevemos X ∼ Gama(α, β), se admite uma densidade de probabilidade da

forma

f(x) =

βα

Γ(α) xα−1e−xβ, se x ≥ 0

0, se x < 0,

onde Γ e a funcao Gama (ver Exercıcio 3.3.4).

(a) Sabendo que uma v.a. X com uma distribuicao Gama de parametros α > 0 e β > 0,

tem por funcao caracterıstica

φX(t) =βα

(β − i t)α,

mostre que se X1, . . . , Xn sao v.a.r. i.i.d. com Xj ∼ Gama(αj , β), entao∑n

j=1 Xj ∼Gama(

∑nj=1 αj , β).

(b) Verifique que as distribuicoes exponencial e do qui-quadrado sao casos particula-

res da distribuicao Gama. Mais precisamente χ2n = Gama(n/2, 1/2) e E(λ) =

Gama(1, λ).

7.7 Bibliografia



Lukacs, E. (1964). Fonctions Caracteristiques, Dunod, Paris.

Metivier, M. (1972). Notions Fondamentales de la Theorie des Probabilites, Dunod.

ATP, Coimbra 2002

Capıtulo 8

Vectores aleatorios normais

Definicao de vector aleatorio normal. Funcao caracterıstica e independencia das mar-

gens. Continuidade absoluta.

8.1 Definicao e existencia

Como sabemos, uma variavel aleatoria real diz-se normal centrada e reduzida,

se e absolutamente contınua relativamente a medida de Lebesgue sobre R e admite uma

versao da densidade de probabilidade da forma

f(x) =1√2π

exp(−x2

2

), x ∈ R.

A nocao de variavel aleatoria normal que a seguir introduzimos, e, como veremos,

mais geral do que a que consideramos nos capıtulos anteriores.

Definicao 8.1.1 Dizemos que uma variavel aleatoria real X e normal, se

X ∼ σU + m,

para algum σ,m ∈ R, onde U e uma variavel aleatoria normal centrada e reduzida.

Claramente E(X) = m e Var(X) = σ2. Se σ 6= 0, a nocao de variavel normal agora

introduzida e precisamente a nocao anteriormente considerada, uma vez que neste caso

X possui uma densidade de probabilidade dada por

f(x) =1√

2πσ2exp

(−(x − m)2

2σ2

), x ∈ R.

Se σ = 0, X e degenerada. Estamos assim a incluir na famılia das variavel aleatoria

normais as variaveis degeneradas. Tal como atras, indicaremos X ∼ N(m,σ2), e facil-

mente se deduz que a funcao caracterıstica de X e dada por

φX(t) = exp( i tm) exp(−t2σ2/2), t ∈ R.

111


Definicao 8.1.2 Um vector aleatorio X em Rd diz-se normal, ou que possui uma

distribuicao normal, se 〈a,X〉 =∑d

i=1 aiXi e uma variavel aleatoria normal, para

todo o a ∈ Rd.

Por outras palavras, um vector aleatorio diz-se normal se qualquer combinacao

linear das suas margens for uma variavel aleatoria normal. Se X1, . . . ,Xd sao variaveis

aleatorias normais independentes e nao-degeneradas, sabemos do capıtulo anterior que

qualquer combinacao linear delas ainda uma variavel aleatoria normal. Nesse caso

(X1, . . . ,Xd) e um vector aleatorio normal. Como podemos concluir do Exercıcio 3

seguinte, um vector aleatorio com margens normais nao e necessariamente normal.

Exercıcios

1. Mostre que as margens dum vector aleatorio normal sao normais.

2. Mostre que o vector Nσ com densidade de probabilidade dada por (7.4.1) e normal.

3. Considere o vector aleatorio (U, V ) definido no Exercıcio 2.2.3. Prove que U + V nao e

uma v.a. normal, apesar de U e V o serem.

4. Sejam X um vector aleatorio normal em Rp, A uma matriz real de tipo d× p, e m ∈ Rd.

Prove que AX + m e um vector aleatorio normal em Rd.

8.2 Funcao caracterıstica e independencia das margens

Se X e um vector aleatorio de quadrado integravel com margens independentes,

sabemos ja que a sua matriz de covariancia CX e diagonal. Mostramos a seguir que no

caso dos vectores aleatorios normais, a condicao recıproca e tambem verdadeira.

Comecemos por determinar a funcao caracterıstica dum vector aleatorio normal.

Teorema 8.2.1 Se X e um vector aleatorio normal em Rd, a sua funcao caracterıstica

e dada por

φX(t) = exp( i 〈t,E(X)〉) exp(−〈t,CX t〉/2), t ∈ Rd.

Dem: Sendo X normal, 〈t,X〉 e uma variavel normal para t ∈ Rd. Assim, φX(t) =

φ〈t,X〉(1) = exp( i E(〈t,X〉)) exp(−Var(〈t,X〉)/2). Para concluir basta agora notar que

E(〈t,X〉) = 〈t,E(X)〉 e Var(〈t,X〉) = 〈t,CX t〉.

Concluımos do resultado anterior que, analogamente ao caso real, a distribuicao

dum vector aleatorio normal e caracterizada pela sua esperanca matematica e pela sua

matriz de covariancia. A notacao X ∼ N(m,Σ), indica assim que X e um vector

aleatorio normal de media m e matriz de covariancia Σ.

ATP, Coimbra 2002


Estamos agora em condicoes de estabelecer a caracterizacao ja anunciada da inde-

pendencia das margens dum vector aleatorio normal.

Teorema 8.2.2 Se X = (X1, . . . ,Xd) e um vector aleatorio normal em Rd, entao

X1, . . . ,Xd sao variaveis aleatorias reais independentes sse Cov(Xi,Xj) = 0 para todo

o i 6= j.

Dem: Sendo X1, . . . ,Xd variaveis independentes, sabemos ja que sao duas a duas

nao correlacionadas. Reciprocamente, se Cov(Xi,Xj) = 0, para i 6= j, entao φX(t) =

exp( i∑d

j=1 E(Xj)tj) exp(−∑dj=1 t2jVar(Xj)/2) =

∏dj=1 exp( i E(Xj)tj) exp(−t2jVar(Xj)

/2) =∏d

j=1 φXj(tj), para t ∈ Rd. O Teorema 7.6.1 permite agora concluir.

Exercıcios

1. Seja (X, Y ) um ve.a. absolutamente contınuo de densidade

f(x, y) =1

2π

((√

2 e−x2/2 − e−x2

)e−y2

+ (√

2 e−y2/2 − e−y2

)e−x2),

para (x, y) ∈ R2. Prove que:

(a) X e Y sao v.a. normais;

(b) Cov(X, Y ) = 0;

(c) X e Y nao sao v.a. independentes.

2. Utilizando o Teorema 8.2.1:

(a) resolva o Exercıcio 8.1.4;

(b) mostre que (X1, . . . , Xd) e normal quando X1, . . . , Xd sao v.a.r. normais e indepen-

dentes.

8.3 Continuidade absoluta

Neste paragrafo apresentamos uma caracterizacao da continuidade absoluta dum

vector aleatorio normal em termos da sua matriz de covariancia.

Lema 8.3.1 Sejam X um vector aleatorio normal sobre Rd nao-degenerado com media

m e matriz de covariancia Σ, e k = car(Σ). Entao existe uma matriz A de tipo d × k

com AAT = Σ, tal que X ∼ AY + m, onde Y ∼ N(0, Ik).

Dem: Sendo Σ a matriz de covariancia de X, Σ e simetrica e semi-definida positiva.

Existe entao uma matriz ortogonal P (P T = P−1) que diagonaliza Σ, isto e, P T ΣP =

D, com D = diag(λ1, . . . , λd), onde λi > 0, para i = 1, . . . , k, e λi = 0, para i =

k + 1, . . . , d, sao os valores proprios de Σ. Tomando agora

ATP, Coimbra 2002


A = P

√λ1 0

. . .

0√

λk

0 0 0

, (8.3.2)

temos Σ = AAT , com A uma matriz de tipo d× k. Alem disso, se Y ∼ N(0, Ik), e facil

verificar que X ∼ AY + m.

Teorema 8.3.3 Seja X um vector aleatorio normal sobre Rd com matriz de covariancia

CX . Entao:

a) Se car(CX) = 0, X e degenerado.

b) Se 0 < car(CX) < d, X e singular e PX esta concentrada num subespaco afim

de dimensao k.

c) Se car(CX) = d, X e absolutamente contınuo e tem por versao da densidade de

probabilidade

fX(x) =1√

(2π)d det(CX)exp

(−1

2〈x − E(X),C−1

X (x − E(X))〉), x ∈ R

d.

Dem: a) Se car(CX) = 0, temos Var(Xi) = 0, para todo o i = 1, . . . , d, e portanto

todas variaveis Xi sao degeneradas. b) Se 0 < car(CX) = k < d, pelo lema anterior

existe A de tipo d × k dada por (8.3.2), tal que X ∼ AY + E(X), onde Y ∼ N(0, Ik).

Para S = Ay + E(X) : y ∈ Rk, temos PX(S) = PAY +E(X)(S) = PY (Rk) = 1

e λd(S) = 0. X esta assim concentrada no subespaco afim S de dimensao k e e

alheia relativamente a medida de Lebesgue sobre Rd. Alem disso, PX e difusa pois,

para x = Ay + E(X) ∈ S, PX(x) = P(AY = Ay) = P(Y = y) = 0. X e as-

sim um vector difuso. c) Pelo Lema 8.3.1, existe A invertıvel de tipo d × d tal que

AAT = CX e X ∼ AY + E(X), com Y ∼ N(0, Id). Utilizando agora a formula

de transformacao de vectores aleatorios absolutamente contınuos, obtemos fX(x) =

fY (A−1(x−E(X)))|det(A−1)| = |det(A)|−1(2π)−d/2 exp(−(A−1(x−E(X)))T (A−1(x−E(X)))/2) = ((2π)d det(CX))−1/2 exp(−〈x − E(X),C−1

X (x − E(X))〉/2).

Exercıcios

1. O vector (X, Y ) segue uma distribuicao normal sobre R2 de densidade

f(x, y) = k exp(−(x2 − xy + y2/2)/2), (x, y) ∈ R2.

(a) Determine k e o coeficiente de correlacao de (X, Y ).

(b) Sejam U e V as v.a.r. definidas, para a ∈ R, por U = 3X + aY e V = aX − Y.

Determine a de modo que U e V sejam independentes e nesse caso calcule E(UV )2.

ATP, Coimbra 2002


2. Mostre que o vector (X, Y ) definido no Exemplo 2.1.9 e um vector aleatorio normal.

3. Sejam X1, . . . , Xn v.a.r. independentes com distribuicao normal de media 0 e variancia

σ2 > 0, e Y o vector aleatorio sobre Rn definido por Y = AX, com X = (X1, . . . , Xn)T

e A uma matriz ortogonal de ordem n (note que A possui por linhas (resp. colunas)

vectores ortonormados). Sejam ainda Xn e σ2n as media e variancia empıricas das variaveis

X1, . . . , Xn (ver Exercıcio 6.5.2).

(a) Mostre que Y ∼ X .

(b) Se a primeira linha de A e igual a (1/√

n, . . . , 1/√

n), mostre que∑n

k=2 Y 2k =∑n

i=1(Xi − Xn)2.

(c) Conclua que:

i. Xn e σ2n sao variaveis independentes;

ii.(n − 1) σ2

n

σ2 ∼ χ2n−1.

8.4 Bibliografia




ATP, Coimbra 2002

Capıtulo 9

Convergencia em distribuicao

Convergencia em distribuicao de vectores aleatorios. Algumas caracterizacoes. Relacoes

com os outros modos de convergencia. Os teoremas da seleccao de Helly, de Prohorov.

e da continuidade de Levy–Bochner. O teorema de Cramer–Wold.

9.1 Definicao e unicidade do limite

A nocao de convergencia duma sucessao (Xn) de vectores aleatorios para um vector

aleatorio X que estudamos neste capıtulo e de natureza distinta das convergencias

funcionais consideradas no Capıtulo 5. Para tais modos de convergencia interessam os

valores particulares que tomam os vectores Xn e X em pontos do conjunto onde estao

definidos. Para a nocao de convergencia que a seguir introduzimos, interessam apenas

as probabilidades com que esses vectores tomam tais valores.

Se X e uma variavel aleatoria em Rd, denotaremos por FX a sua funcao de distri-

buicao e por C(FX) o conjunto dos pontos de continuidade de FX . Salvo indicacao em

contrario, ao longo deste capıtulo (Xn) e X sao vectores aleatorios em Rd. Como ja

sabemos, e com excepcao do caso real, o conjunto dos pontos de descontinuidade de

FX pode ser nao-numeravel. No entanto, tal como no caso real, C(FX) e denso em Rd,

uma vez que∏d

i=1 C(FXi) ⊂ C(FX), onde X = (X1, . . . ,Xd).

Definicao 9.1.1 Dizemos que uma sucessao (Xn) de vectores aleatorios, nao necessa-

riamente definidos num mesmo espaco de probabilidade, converge em distribuicao

(ou em lei) para X, e escrevemos Xnd−→ X, se

lim FXn(x) = FX(x), ∀ x ∈ C(FX).

Notemos que seria desapropriado impor que a condicao anterior fosse verificada para

todo o ponto de Rd como ilustra o exemplo da sucessao Xn = 1/n que, segundo um

117


qualquer modo de convergencia aceitavel, devera convergir para X = 0. Reparemos que

FXn(x) converge para FX(x), para todo o x ∈ R, com excepcao do ponto x = 0, unico

ponto de descontinuidade de FX . No caso da sucessao Xn = −1/n, FXn(x) converge

para FX(x), para todo o x ∈ R.

O exemplo da sucessao Xn = (−1)nX, onde X ∼ N(0, 1), e ilustrativo da diferenca

entre a nocao de convergencia agora introduzida e as anteriormente estudadas, uma vez

que Xn ∼ X, e no entanto Xn nao converge em probabilidade para X.

Terminamos este paragrafo estabelecendo a unicidade do limite em distribuicao no

sentido seguinte:

Proposicao 9.1.2 Se Xnd−→ X e Xn

d−→ Y , entao X ∼ Y .

Dem: Por hipotese FX(x) = FY (x), para todo o x ∈ C(FX)∩C(FY ). Atendendo agora

a que C(FX)∩C(FY ) e denso em Rd (porque?) e que FX e FY sao contınuas a direita,

concluımos que FX = FY , ou seja, X ∼ Y .

Exercıcios

1. Se X = (X1, . . . , Xd) e ve.a. em Rd, mostre que∏d

i=1 C(FXi ) ⊂ C(FX).

(Sugestao: Tenha em conta o Teorema 2.4.3.)

2. Sejam (Xn) e X v.a. definidas por Xn = αn e X = α, onde (αn) e α, sao numeros reais.

Mostre que Xnd−→ X sse αn→α.

3. Sejam (Xn) uma sucessao de v.a. independentes com distribuicao exponencial de parame-

tro 1 e Mn =∨n

i=1 Xi, para n ∈ N. Mostre que Mn − lnn d−→ Y, onde P(Y ≤ x) =

exp(−e−x), para x ∈ R.

4. Sejam (Xn) e X ve.a. em Rd com densidades de probabilidade (fn) e f , respectivamente,

tais que: a) |fn| ≤ |g|, λ-q.c., para alguma funcao integravel g; b) lim fn = f , λ-q.c..

Mostre que Xnd−→ X.

9.2 Caracterizacoes e primeiras propriedades

Estabelecemos neste paragrafo caracterizacoes importantes e algumas propriedades

da convergencia em distribuicao. Qualquer uma destas caracterizacoes pode ser usa-

da para definir convergencia em distribuicao para variaveis aleatorias com valores em

espacos metricos gerais nos quais a nocao de funcao de distribuicao se revela desprovida

de sentido.

Teorema 9.2.1 As proposicoes seguintes sao equivalentes:

i) Xnd−→ X;

ATP, Coimbra 2002


ii) E(f(Xn))→E(f(X)), para toda a funcao f contınua e limitada de Rd em R.

iii) E(f(Xn))→E(f(X)), para toda a funcao f uniformemente contınua e limitada

de Rd em R.

iv) PXn(A)→PX (A), para todo o A ∈ B(Rd), com PX(fr(A)) = 0.

Dem: As implicacoes ii) ⇒ iii) e iv) ⇒ i), sao claramente verdadeiras. Para estabelecer

iii) ⇒ iv), consideremos A ∈ B(Rd), com PX(fr(A)) = 0, e consideremos a funcao

uniformemente contınua

ϕ(t) =

1, se t ≤ 0

1 − t, se 0 < t < 1

0, se t ≥ 1.

Para p ∈ N, tomemos as funcoes fp(y) = ϕ(p d(y,A)) e gp(y) = ϕ(1 − p d(y,Ac)),

definidas para y ∈ Rd, onde d(y,A) denota a distancia de y a A. Para p ∈ N, te-

mos E(gp(Xn)) ≤ E(1IA(Xn)) ≤ E(fp(Xn)), para n ∈ N, e por hipotese E(gp(X)) ≤lim inf PXn(A) ≤ lim inf PXn(A) ≤ E(fp(X)), uma vez que gp e fp sao uniforme-

mente contınuas. Pelo teorema da convergencia dominada, gp → 1Iint(A) e fp → 1IA,

o que implica PX(int(A)) ≤ lim inf PXn(A) ≤ lim inf PXn(A) ≤ PX(A), ou ainda,

PX(A) ≤ lim inf PXn(A) ≤ lim inf PXn(A) ≤ PX(A), uma vez que PX(fr(A)) = 0. Fi-

nalmente, e no caso d = 1, vamos estabelecer a implicacao i) ⇒ ii). Sejam a, b ∈ C(FX)

tais que PX(]a, b]) > 1 − ǫ, com ǫ > 0 fixo a partida. Por hipotese, e para n ≥ n1,

temos PXn(]a, b]) = FXn(b)−FXn(a) = (FXn(b)−FX(b))+(FX (b)−FX(a))+(FX (a)−FXn(a)) > 1 − 2ǫ, ou ainda, P(Xn /∈ ]a, b]) < 2ǫ. Seja agora f uma funcao contınua e

limitada em R. Sendo f uniformemente contınua em [a, b] existe um conjunto finito de

pontos a = a0 < a1 < . . . < ak = b tal que |f(x)−f(aj)| < ǫ, para x ∈ [aj−1, aj [, onde os

aj podem ser tomados em C(FX). A funcao escalonada g =∑k

j=1 f(aj)1I]aj−1,aj ] satisfaz

|f(x) − g(x)| < ǫ, para todo o x ∈ ]a, b]. Assim, |E(f(Xn)) − E(g(Xn))| ≤ E(|f(Xn) −g(Xn)|1IXn∈]a,b]) + E(|f(Xn) − g(Xn)|1IXn /∈]a,b]) ≤ ǫ + supx∈R |f(x)|P(Xn /∈]a, b]) <

ǫ(1 + 2 supx∈R |f(x)|). De forma analoga, |E(f(X)) − E(g(X))| < ǫ(1 + supx∈R |f(x)|).Tendo agora em conta a definicao de g, E(g(Xn)) =

∑kj=1 f(aj)(FXn(aj)−FXn(aj−1)),

obtendo-se uma expressao analoga para E(g(X)). Existe entao n2 ∈ N, tal que

|E(g(Xn)) − E(g(X))| < ǫ, para n ≥ n2. Finalmente, para n ≥ max(n1, n2), obte-

mos |E(f(Xn)) − E(f(X))| < 3ǫ(1 + supx∈R |f(x)|).

Tal como para os outros modos de convergencia estudados, a convergencia em dis-

tribuicao e preservada por transformacoes contınuas.

Teorema 9.2.2 Se Xnd−→ X entao g(Xn) d−→ g(X), para toda a funcao contınua de

Rd em Rk.

ATP, Coimbra 2002


Dem: Sendo f : Rk → R contınua e limitada, temos por hipotese E((f g)(Xn)) →E((f g)(X)), ou ainda E(f(g(Xn))) → E(f(g((X))). Tendo em conta teorema anterior

concluımos que g(Xn) d−→ g(X).

No caso dos vectores aleatorios (Xn) e X serem absolutamente contınuos, se as den-

sidades de probabilidade de fXn de Xn sao uniformemente limitadas por uma funcao

integravel, a convergencia λ-quase em todo o ponto de fXn para fX , implica a con-

vergencia em distribuicao de Xn para X (ver Exercıcio 9.1.4). Como se mostra a seguir,

esta convergencia em distribuicao pode ser obtida sob condicoes menos restritivas.

Teorema 9.2.3 (de Scheffe1) Sejam (Xn) e X sao vectores aleatorios absolutamente

contınuos em Rd com densidades (fXn) e fX , respectivamente. Se fXn →fX , λ-q.t.p.,

entao Xnd−→ X.

Dem: Para x ∈ Rd, temos |FXn(x) − FX(x)| ≤∫]−∞,x] |fn(t) − f(t)|dλ(t) ≤

∫|fn(t) −

f(t)|dλ(t). Ora∫|fn−f |dλ =

∫(f −fn)+dλ+

∫(f −fn)−dλ, e como 0 =

∫(f−fn)dλ =∫

(f−fn)+dλ−∫

(f−fn)−dλ, concluımos que∫|fn−f |dλ = 2

∫(f−fn)+dλ. O resultado

e agora consequencia do teorema da convergencia dominada, pois (f − fn)+ ≤ f e

(f − fn)+ → 0, λ.q.c.

Exercıcios

1. Retome a demonstracao, feita no caso real, da implicacao i) ⇒ ii) do Teorema 9.2.1.

Adapte-a ao caso multidimensional.

2. Sejam Xn, para n ∈ N, uma v.a. uniforme sobre o conjunto i/n : i = 1, . . . , n. Mostre

que Xnd−→ U([0, 1]).

3. Se (Xn) e uma sucessao de v.a.r. com Xn ∼ N(mn, σ2n), onde mn → m e σn → σ > 0,

mostre que Xnd−→ N(m, σ2).

4. Para n ∈ N, seja Xn uma v.a. uniformemente distribuıda sobre o intervalo [an, bn], onde

an→a e bn→b, com a ≤ b. Mostre que Xnd−→ U([a, b]).

5. Se (Xn) e X sao v.a. que tomam valores em N0, mostre que Xnd−→ X sse P(Xn = j)→

P(X = j), para todo o j ∈ N0.

6. (Convergencia da binomial para a Poisson) Sejam Xn ∼ B(n, pn) com npn →λ ∈]0, +∞[, e X v.a. de Poisson de parametro λ. Mostre que Xn

d−→ X .

(Sugestao: Use o Exercıcio 2.1.10.)

7. Verifique que o recıproco do teorema de Scheffe nao e verdadeiro, mostrando que a su-

cessao (Xn) de v.a.r. absolutamente contınuas com densidades fXn(x) = (1− cos(2nπx))

1I[0,1](x), satisfaz Xnd−→ U([0, 1]), e no entanto fXn nao converge λ-q.t.p. para 1I[0,1].

1Scheffe, H., Ann. Math. Statist., 28, 434–458, 1947.

ATP, Coimbra 2002


8. (Teorema de Scheffe para variaveis discretas) Sejam (Xn) e X v.a. que tomam

valores num conjunto finito ou numeravel S. Mostre que se P(Xn = j) → P(X = j),

para todo o j ∈ S, entao Xnd−→ X . Verifique que a recıproca nao e em geral verdadeira

considerando Xn = 1/n e X = 0.

9.3 Relacoes com os outros modos de convergencia

Com decorre da propria definicao, quando falamos em convergencia em distribuicao

de Xn para X os vectores aleatorios X,X1,X2, . . . nao necessitam de estar definidos

num mesmo espaco de probabilidade. No entanto, quando tal acontece a convergencia

em distribuicao pode ser relacionada com os outros tipos de convergencia ja estudados.

Teorema 9.3.1 Se Xnp−→ X, entao Xn

d−→ X.

Dem: Consequencia da caracterizacao ii) dada no Teorema 9.2.1 e do teorema da

convergencia dominada.

Recordemos que a convergencia em probabilidade e a mais fraca das convergencias

funcionais estudadas. Assim qualquer das convergencias qc−→ ou Lp−→, implica a con-

vergencia em distribuicao.

No caso particular da variavel limite ser degenerada, mostramos a seguir que a

convergencia em distribuicao e equivalente a convergencia em probabilidade.

Teorema 9.3.2 Se Xnd−→ a, com a ∈ Rd, entao Xn

p−→ a.

Dem: Comecemos por estabelecer o resultado para d = 1. Neste caso, se X = a,

FX = 1I[a,+∞[, e assim lim FXn(x) = 0, se x < a, e lim FXn(x) = 1, se x > a. Dado ǫ > 0,

temos P(|Xn −a| < ǫ) = P(a− ǫ < Xn < a+ ǫ) ≥ FXn(a+ ǫ/2)−FXn(a− ǫ) → 1. Para

d > 1, basta ter em conta que se Xnd−→ a, entao πi(Xn) d−→ πi(a), para i = 1, . . . , d, e

pela primeira parte da demonstracao obtemos πi(Xn) p−→ πi(a), para i = 1, . . . , d, ou

equivalentemente, Xnp−→ a.

9.4 O teorema de Prohorov

O objectivo principal deste paragrafo e a obtencao do teorema de Prohorov sobre

a caracterizacao da compacidade sequencial duma sucessao de vectores aleatorios. Por

outras palavras, pretendemos caracterizar as sucessoes de vectores aleatorios para as

quais toda a sua subsucessao possui uma subsucessao convergente em distribuicao.

A importancia dum resultado deste tipo sera clara quando, no proximo paragrafo,

caracterizarmos a convergencia em distribuicao duma sucessao de vectores aleatorios

ATP, Coimbra 2002


a partir das respectivas funcoes caracterısticas. No entanto, e para ja, o resultado se-

guinte, cuja demonstracao deixamos ao cuidado do aluno, indica-nos que a compacidade

sequencial duma sucessao de vectores aleatorios e uma propriedade necessaria, mas nao

suficiente, para a sua convergencia em distribuicao. Ele e consequencia do seguinte

facto sobre sucessoes de numeros reais: uma sucessao (xn) converge para x ∈ R sse

toda a subsucessao de (xn) admite uma subsucessao que converge para x.

Teorema 9.4.1 Sejam (Xn) e X vectores aleatorios em Rd. Xnd−→ X sse toda a

subsucessao de (Xn) admite uma subsucessao que converge em distribuicao para X.

O teorema de Prohorov estabelece que as sucessoes de vectores aleatorios cujas

subsucessoes admitem uma subsucessao convergente, sao precisamente as sucessoes li-

mitadas em probabilidade no sentido da definicao seguinte.

Definicao 9.4.2 Uma sucessao (Xn) de vectores aleatorios em Rd diz-se limitada em

probabilidade se para todo o ǫ > 0, existe M > 0 tal que

PXn(] − M,M ]) = FXn ] − M,M ] > 1 − ǫ, ∀n ∈ N.

Notemos mais uma vez a analogia com o caso das sucessoes de numeros reais:

uma sucessao (xn) e limitada sse toda a sua subsucessao admite uma subsucessao

convergente. Reparemos tambem que impor que uma sucessao de vectores aleatorios

seja limitada em probabilidade quando estudamos a sua convergencia em distribuicao

nao e demasiadamente restritivo, uma vez que (Xn) e limitada em probabilidade sempre

que Xnd−→ X, para algum vector aleatorio X. No entanto, o facto de (Xn) ser limitada

em probabilidade nao implica so por si a convergencia em distribuicao da sucessao para

algum vector aleatorio. Um exemplo disso e o da sucessao Xn = X, se n e par, e

Xn = Y , se n e ımpar, com X 6∼ Y .

O teorema da seleccao de Helly que estabelecemos a seguir e de importancia fun-

damental na demonstracao do teorema de Prohorov. A notacao que usamos sobre a

funcao de distribuicao dum vector aleatorio foi introduzida no Exemplo 1.4.3.

Lema 9.4.3 Sejam D1, . . . ,Dd subconjuntos numeraveis e densos em R e (Xn) uma

sucessao de vectores aleatorios tais que lim FXn(y) existe para todo o y ∈ ∏di=1 Di.

Entao existe uma funcao F∞ nao-decrescente, contınua a direita, com 0 ≤ F∞ ≤ 1, tal

que lim FXn(x) = F∞(x), para todo o x ∈ C(F∞).

Dem: Para x ∈ D =∏d

i=1 Di, definamos F∞(x) = lim FXn(x). Claramente, 0 ≤F∞(x) ≤ 1, para todo o x ∈ D. Para x ∈ Rd\D, definamos F∞(x) = infy>x,y∈D F∞(y).

ATP, Coimbra 2002


Como F∞(y) : y > x, y ∈ D e limitado em R, o ınfimo anterior e um elemento do

intervalo [0, 1]. Assim, 0 ≤ F∞ ≤ 1, e F∞(x1) ≤ F∞(x2), se x1 ≤ x2. i) Verifiquemos

que F∞ e contınua a direita em todo o ponto x ∈ Rd. Dado ǫ > 0, tomemos x′ > x com

x′ ∈ D tal que F∞(x) + ǫ ≥ F∞(x′). Dado agora y ∈ ]x, x′] temos F∞(y) ≤ F∞(x′),

e portanto F∞(x) + ǫ ≥ F∞(y) ≥ infy>x F∞(y). Fazendo tender ǫ para zero, obte-

mos F∞ ≥ infy>x F∞(y), ou ainda, F∞ = infy>x F∞(y). ii) Verifiquemos que F∞ e

nao-decrescente. Se a, b ∈ D sao tais que a < b, e sendo V o conjunto dos vertices

de ]a, b], temos 0 ≤ FXn ]a, b] =∑

x∈V sgn(x)FXn(x) → ∑x∈V sgn(x)F∞(x) = F∞]a, b].

Dados agora a, b ∈ Rd com a < b, tomemos an ≥ a e bn ≥ b, com an, bn ∈ D,

an → a e bn → b. Denotando por Vn o conjunto dos vertices de ]an, bn], temos

0 ≤ F∞]an, bn] =∑

xn∈Vnsgn(xn)F∞(xn) → ∑

xn∈V sgn(x)F∞(x) = F∞]a, b]. iii) Veri-

fiquemos finalmente que lim FXn(x) = F∞(x), para todo o x ∈ C(F∞). Sejam entao x ∈C(F∞) e (ai) e (bi) em D tais que ai ↑ x e bi ↓ x. Assim, FXn(ai) ≤ FXn(x) ≤ FXn(bi)

e F∞(ai) = lim inf FXn(ai) ≤ lim inf FXn(x) ≤ lim sup FXn(x) ≤ lim sup FXn(bi) =

F∞(bi). Tomando agora limite em i quando i tende para +∞ e tendo em conta que

x ∈ C(F∞), obtemos F∞(x) ≤ lim inf FXn(x) ≤ lim sup FXn(x) ≤ F∞(x), o que prova

o pretendido.

Teorema 9.4.4 (da seleccao de Helly2) Se (Xn) e uma sucessao de vectores aleato-

rios em Rd, entao existem uma subsucessao (Xnk) de (Xn) e uma funcao F∞ : Rd→R

contınua a direita, nao-decrescente com 0 ≤ F∞ ≤ 1, tais que

lim FXnk(x) = F∞(x), ∀x ∈ C(F∞).

Dem: Tendo em conta o Teorema 9.4.3, e sendo D = Qd = ai : i ∈ N, basta mos-

trar que existe uma subsucessao (Xnk) para a qual existe o limite lim FXnk

(ai), para

todo o i ∈ N. Sendo (FXn(a1)) limitada, comecemos por tomar uma sua subsucessao

(FXn(1,k)(a1)) convergente. De forma analoga seja (FXn(2,k)

(a2)) uma subsucessao con-

vergente da sucessao limitada (FXn(1,k)(a2)). As sucessoes (FXn(2,k)

(a1)) e (FXn(2,k)(a2))

sao ambas convergentes. Repetindo este processo, determinamos (FXn(i,k)(ai)) conver-

gente tal que as sucessoes (FXn(i,k)(a1)),...,(FXn(i,k)

(ai−1)) sao convergentes. Tomemos

entao a sucessao diagonal (FXn(k,k)). Para cada i ∈ N, (FXn(k,k)

(ai)) e convergente, pois

FXn(k,k)(ai) : k ≥ i ⊂ FXn(i,k)

(ai) : k ≥ i, e (FXn(i,k)(ai)) e convergente. Basta

entao tomar nk = n(k, k).

Sendo a funcao F∞, cuja existencia e estabelecida no resultado anterior, nao-

decrescente e contınua a direita, e possıvel associar-lhe uma e uma so medida µ∞

2Helly, E., Sitzungsber. Nat. Kais. Akad. Wiss., 121, 265–297, 1912.

ATP, Coimbra 2002


sobre (Rd,B(Rd)) tal que

µ∞(]a, b]) = F∞]a, b] =∑

x∈V

sgn(x)F∞(x),

para todo o a, b ∈ Rd, onde V e o conjunto dos vertices de ]a, b] (cf. Billingsley, 1986, pg.

177–180). Sempre que µ∞(Rd) = 1, µ∞ e uma probabilidade, e nesse caso Xnd−→ X,

onde X e um qualquer vector aleatorio que tenha µ∞ como distribuicao de probabili-

dade. Caso contrario, temos µ∞(Rd) < 1 nao existindo por isso o limite em distribuicao

da sucessao (Xn) (ver Exercıcio 9.4.6). Dizemos neste caso que ocorre uma “perda de

probabilidade no infinito”. Um exemplo simples de tal situacao e o da sucessao Xn = n.

Teorema 9.4.5 (de Prohorov3) Seja (Xn) e uma sucessao de vectores aleatorios em

Rd. (Xn) e limitada em probabilidade sse toda a subsucessao de (Xn) possui uma

subsucessao convergente em distribuicao.

Dem: Suponhamos que (Xn) e limitada em probabilidade,e provemos que toda a sua

subsucessao possui uma subsucessao convergente em distribuicao. Como qualquer

subsucessao duma sucessao limitada em probabilidade e ainda limitada em probabi-

lidade, basta que mostremos que (Xn) possui uma subsucessao convergente em dis-

tribuicao. Pelo teorema da seleccao de Helly, existe uma subsucessao (Xnk) de (Xn)

e uma funcao F∞ : Rd → R contınua a direita, nao-decrescente com 0 ≤ F∞ ≤ 1,

tais que lim FXnk(x) = F∞(x), ∀x ∈ C(F∞). Para concluir basta provar que a me-

dida finita µ∞ associada a F∞ e uma probabilidade. Para ǫ > 0, existe M > 0

tal que PXnk(] − M,M ]) > 1 − ǫ, ∀ k ∈ N. Tomando agora a < −M e b > M

tais que V ⊂ C(F∞) onde V e o conjunto dos vertices do rectangulo ]a, b], temos

µ∞(]a, b]) =∑

x∈V sgn(x)F∞(x) = limk∑

x∈V sgn(x)FXnk(x) = limk PXnk

(]a, b]) ≥limk PXnk

(] − M,M ]) ≥ 1 − ǫ. Sendo ǫ > 0 qualquer concluımos que µ∞(Rd) = 1.

Reciprocamente, suponhamos por absurdo que (Xn) nao e limitada em probabili-

dade. Tendo em conta o Exercıcio 9.4.4, existem ǫ > 0 e uma sucessao (nk) de

numeros naturais estritamente crescente tais que PXnk(] − K,K]) ≤ 1 − ǫ, para todo

o k ∈ N, onde K = (k, . . . , k). Por hipotese, existe (Xnk′) subsucessao de (Xnk

) tal

que Xnk′d−→ X, para algum vector aleatorio X em Rd. Para quaisquer a, b ∈ Rd

tais que V ⊂ C(FX), onde V e o conjunto dos vertices do rectangulo ]a, b], temos

PX(]a, b]) =∑

x∈V sgn(x)FX(x) = lim∑

x∈V sgn(x)FXnk′

(x) = lim PXnk′

(]a, b]) ≤ 1−ǫ,

o que e falso quando fazemos maxi ai → −∞ e mini bi → +∞.

Exercıcios

1. Se Xn = αn, com αn ∈ R, mostre que (Xn) e limitada em probabilidade sse (αn) e

limitada.3Prohorov, Yu.V., Theory Probab. Appl., 1, 157–214, 1956.

ATP, Coimbra 2002


2. Mostre que se Xnd−→ X entao (Xn) e limitada em probabilidade.

3. Prove que (Xn) e limitada em probabilidade sse cada uma das sucessoes coordenadas de

(Xn) e limitada em probabilidade.

4. Prove que (Xn) e limitada em probabilidade sse limk→+∞ lim supn PXn(] − K, K]c) = 0,

com K = (k, . . . , k).

5. Mostre que se (Xn) e (Yn) sao limitadas em probabilidade, entao (XnYn) e limitada em

probabilidade.

6. Sejam (Xn) e uma sucessao de vectores aleatorios em Rd, F∞ a funcao cuja existencia e

assegurada pelo Teorema 9.4.4 e µ∞ a medida sobre (Rd,B(Rd)) que lhe esta associada.

Para i = 1, . . . , d, consideremos as funcoes coordenada

F∞,i(xi) = limxj→+∞

j 6=i

F∞(x1, . . . , xi−1, xi, xi+1, . . . , xd).

(a) Conclua que o conjunto Ei dos pontos de descontinuidade de F∞,i e quando muito

numeravel.

(b) Mostre que Ec1 × . . . × Ec

d ⊂ C(F∞).

(c) Prove que se µ∞(Rd) < 1, entao (Xn) nao converge em distribuicao.

9.5 O teorema da continuidade de Levy–Bochner

Como veremos neste paragrafo, o teorema de Prohorov permite-nos caracterizar a

convergencia em distribuicao duma sucessao de vectores aleatorios apenas em termos

das funcoes caracterısticas respectivas. Uma tal caracterizacao sera de grande utilidade

no estudo da distribuicao assintotica da soma de vectores aleatorios independentes uma

vez que, como vimos anteriormente, a funcao caracterıstica e bem mais util para esse

efeito do que a funcao de distribuicao.

Teorema 9.5.1 Seja (Xn) uma sucessao de vectores aleatorios em Rd.

a) Se Xnd−→ X, entao φXn(t)→φX(t), para todo o t ∈ Rd.

b) Se (Xn) e limitada em probabilidade e φXn(t)→φ∞(t), para todo o t ∈ Rd, entao

φ∞ = φX para algum vector aleatorio X em Rd e Xnd−→ X.

Dem: a) Para t ∈ Rd fixo, sendo as funcoes x → sin(〈t, x〉) e x → cos(〈t, x〉), contınuas

e limitadas em Rd, concluımos pelo Teorema 9.2.1 que E(sin(〈t,Xn〉) → E(sin(〈t,X〉)e E(cos(〈t,Xn〉) → E(cos(〈t,X〉), uma vez que Xn

d−→ X, ou ainda, φXn(t)→ φX(t).

b) Comecemos por mostrar que φX = φ∞. Sendo (Xn) limitada em probabilidade,

existe, pelo teorema de Prohorov, uma subsucessao (Xnk) de (Xn) tal que Xnk

d−→ X,

para algum vector aleatorio X. Pela alınea a) obtemos φXnk(t) → φX(t), para todo o

t ∈ Rd, e portanto φX = φ∞. Mostremos agora que Xnd−→ X. Para tal, consideremos

ATP, Coimbra 2002


uma qualquer subsucessao (Xn′) de (Xn), e provemos que ela admite uma subsucessao

convergente para X. Com efeito, sendo (Xn′) limitada em probabilidade, existe (Xn′′)

subsucessao de (Xn′) com Xn′′ → Y , para algum vector aleatorio Y , o que implica que

φXn′′ (t) → φY (t), para todo o t ∈ Rd. Assim, φY = φ∞ = φX , ou ainda, X ∼ Y .

Mostramos agora que a condicao de (Xn) ser limitada em probabilidade pode ser

substituıda por uma hipotese de continuidade na origem da funcao limite φ∞. Um tal

resultado e conhecido como teorema da continuidade de Levy–Bochner.

Lema 9.5.2 Se X e uma variavel aleatoria real, entao para todo o r > 0,

P(|X| ≥ 2r) ≤ r

∫ 1/r

−1/r(1 − φX(t))dλ(t).

Dem: Para r > 0 temos,∫ 1/r−1/r(1 − φX(t))dλ(t) =

∫ 1/r−1/r

∫(1 − e i tx) dPX(x)dλ(t) =

∫ ∫ 1/r−1/r(1−e i tx) dλ(t)dPX(x) =

∫R\0 2(1−sin(x/r)/(x/r))/r)dPX (x) ≥

∫|x|≥2r 1/rdPX

= P(|X| ≥ 2r)/r, pois 1 − sin(x/r)/(x/r) ≥ 1/2, se |x| ≥ 2r.

Teorema 9.5.3 (de Levy–Bochner4) Seja (Xn) uma sucessao de vectores aleatorios

em Rd. Se φXn(t)→φ∞(t), para todo o t ∈ Rd, onde φ∞ e contınua na origem, entao

Xnd−→ X para algum vector aleatorio X em Rd e φX = φ∞.

Dem: Atendendo ao Teorema 9.5.1, basta demonstrar que se φXn(t)→φ∞(t), para todo

o t ∈ Rd, onde φ∞ e contınua na origem, entao a sucessao (Xn) e limitada em probabi-

lidade. Comecemos por demonstrar tal facto no caso real utilizando o Exercıcio 9.4.4.

Pelo Lema 9.5.2 e para k > 0, temos PXn(] − k, k]c) ≤ P(|Xn| ≥ k) ≤ (k/2)∫ 2/k−2/k(1 −

φXn(t))dλ(t), onde 1 − φXn(t) → 1 − φ∞(t) e |1 − φXn(t)| ≤ 2. Pelo teorema da con-

vergencia dominada obtemos lim supPXn(] − k, k]c) ≤ (k/2)∫ 2/k−2/k(1 − φ∞(t)) dλ(t) =

∫ 1−1(1 − φ∞(2t/k)) dλ(t). Pela continuidade de φ∞ na origem, uma nova aplicacao

do teorema da convergencia dominada permite finalmente concluir que limk lim supn

PXn(] − k, k]c) = 0. Para estabelecer o resultado no caso multivariado, vamos lancar

mao do Exercıcio 9.4.3. Tendo em conta a primeira parte da demonstracao, bastara de-

monstrar que para cada uma das sucessoes coordenadas (Xn,i) de (Xn), a sucessao das

funcoes caracterısticas (φXn,i) converge pontualmente para uma funcao contınua na ori-

gem. Tal e com efeito verdade uma vez que φXn,i(s) = φXn(sei) → φ∞(sei) =: φ∞,i(s),

para s ∈ R, onde ei representa o i-esimo vector da base canonica de Rd, e φ∞,i e

contınua na origem pela continuidade na origem de φ∞.

4Levy, P., C. R. Acad. Sci. Paris, 175, 854–856, 1922.4Bochner, S., Math. Ann., 108, 378–410, 1933.

ATP, Coimbra 2002


Notemos que a continuidade na origem da funcao limite e essencial para a validade

do resultado como o comprova o exemplo da sucessao Xn ∼ U([−n, n]). Atendendo

a que a funcao caracterıstica dum vector aleatorio e uma funcao contınua, concluımos

do resultado anterior que o limite φ∞ duma sucessao de funcoes caracterısticas e uma

funcao contınua se o for na origem.

Corolario 9.5.4 Xnd−→ X sse φXn(t)→φX(t), para todo o t ∈ Rd.

Sabemos ja que a distribuicao dum vector aleatorio e caracterizada pelas distri-

buicoes de probabilidade das variaveis aleatorias reais 〈a,X〉, para todo o a ∈ Rd (ver

Exercıcio 7.4.2). O resultado seguinte aponta no mesmo sentido relativamente a con-

vergencia em distribuicao, sendo importante no estudo da convergencia em distribuicao

de sucessoes de vectores aleatorios, pois permite faze-lo a partir da convergencia em

distribuicao de variaveis aleatorias reais.

Teorema 9.5.5 (de Cramer–Wold5) Sejam (Xn) e X vectores aleatorios em Rd.

Entao Xnd−→ X sse 〈a,Xn〉 d−→ 〈a,X〉, para todo o a ∈ Rd.

Dem: Se Xnd−→ X, entao sendo g(x) = 〈a, x〉 contınua, para a fixo em Rd, concluımos,

pelo Teorema 9.2.1 que g(Xn) d−→ g(X), isto e, 〈a,Xn〉 d−→ 〈a,X〉. Reciprocamente,

dado t ∈ Rd, temos φXn(t) = φ〈t,Xn〉(1) → φ〈t,X〉(1) = φX(t), e portanto Xnd−→ X.

Exercıcios

1. Sejam (Xn) e X ve.a. normais. Mostre que Xnd−→ X sse E(Xn)→E(X) e CXn →CX .

2. (Teorema de Slutsky6) Sejam (Xn), (Yn) e X ve.a. em Rd com Xnd−→ X e Xn−Yn

p−→0. Prove que Yn

d−→ X .

3. Sejam (Xn), (Yn) e X v.a.r. tais que Xnd−→ X e Yn

p−→ c, com c ∈ R. Prove que: a)

Xn + Ynd−→ X + c; b) YnXn

d−→ cX .

4. (Metodo delta) Sejam X1, X2, . . . ve.a. em Rd tais que

√n (Xn − µ)

d−→ N(0, Σ),

com µ ∈ Rd, Σ uma matriz de covariancia e g : Rd→Rp.

(a) Se limx→µ g(x) = α ∈ Rp, prove que g(Xn) p−→ α.

(b) Se g e diferenciavel em µ com derivada g′(µ), mostre que

√n (g(Xn) − g(µ))

d−→ N(0, g′(µ)Σ g′(µ)T ).

(Sugestao: Tenha em conta que se g e diferenciavel em µ, entao para h ∈ Rd, g(µ + h) =

g(µ) + g′(µ)h + r(h), onde limh→0 r(h)/||h|| = 0.)

5Cramer, H., Wold, H., J. London Math. Soc., 11, 290–295, 1936.6Slutsky, E., Metron, 5, 1–90, 1925.

ATP, Coimbra 2002


9.6 Bibliografia

Billingsley, P. (1968). Convergence of Probability Measures, Wiley.





ATP, Coimbra 2002

Capıtulo 10

O teorema do limite central

O teorema do limite central classico e de Lindeberg. A condicao de Liapounov. O

teorema do limite central multidimensional.

10.1 Preliminares

Se X1, . . . ,Xn, . . . sao variaveis aleatorias independentes e identicamente distribuıdas

com distribuicoes normais de media µ e variancia σ2, sabemos pela lei fraca dos grandes

numeros que1

nSn

p−→ µ,

onde

Sn = X1 + . . . + Xn.

Sendo a convergencia em distribuicao implicada pela convergencia em probabilidade, a

distribuicao assintotica de Sn/n e assim degenerada. No entanto, para todo o n ∈ N,

sabemos que

1

nSn ∼ N

(µ,

σ2

n

),

ou ainda,Sn/n − µ√

σ2/n∼ N(0, 1).

Concluımos assim que apesar de Sn/n possuir uma distribuicao assintotica degenerada,

Sn/n convenientemente normalizada (centragem e reducao) possui uma distribuicao

assintotica nao-degenerada:

S⋆n =

Sn − E(Sn)√Var(Sn)

d−→ N(0, 1). (10.1.1)

129


O facto de uma tal distribuicao assintotica ser normal, nao e, como veremos neste

capıtulo, uma propriedade exclusiva das variaveis normais. Indıcios de tal facto sao

ja nossos conhecidos (ver, por exemplo, o §3.3). Para algumas distribuicoes de proba-

bilidade ja estudadas, apresentamos a seguir, para alguns valores de n, os graficos da

densidade ou da funcao de probabilidade da variavel S⋆n. A tracejado surge tambem o

grafico da densidade normal centrada e reduzida.

-4 -2 2 4

0.1

0.2

0.3

0.4

n = 3

n = 9

n = 21

n = 35

Figura 9.1: Distribuicao de S⋆n quando X1, . . . , Xn ∼ B(1/3)

-4 -2 2 4

0.2

0.4

0.6

0.8

1

n = 2

n = 3

n = 5

n = 10

n = 20

Figura 9.2: Distribuicao de S⋆n quando X1, . . . , Xn ∼ χ2

1

ATP, Coimbra 2002


-4 -2 2 4

0.1

0.2

0.3

0.4

0.5

n = 2

n = 3

n = 5n = 10n = 20

Figura 9.3: Distribuicao de S⋆n quando X1, . . . , Xn ∼ E(1)

No caso das variaveis independentes X1, . . . ,Xn serem exponenciais de parametro

λ > 0, podemos confirmar de forma simples o comportamento sugerido pelos graficos

da Figura 9.3. Para tais variaveis sabemos que E(Xk) = 1/λ, Var(Xk) = 1/λ2 e

φXk(t) = λ/(λ − i t), para t ∈ R. Assim, pela independencia das variaveis X1, . . . ,Xn,

φS⋆n(t) = e− i t

√n φSn(tλ/

√n)

= e− i t√

n

(1

1 − i t/√

n

)n

=

(1 +

xn(t)

n

)n

,

onde

xn(t) = n

(e− i t/

√n −

(1 − i t√

n

))

= n

(1 − i t√

n− t2

2n+ . . . −

(1 − i t√

n

))

→ − t2

2.

Concluımos assim que

φS⋆n(t) → e−t2/2 = φN(0,1)(t),

para todo o t ∈ R (note que se xn → x entao (1 + xn/n)n → ex), o que, pelo teorema

de Levy–Bochner, permite concluir que

S⋆n

d−→ N(0, 1).

ATP, Coimbra 2002


Nos proximos paragrafos mostraremos que a convergencia em distribuicao (10.1.1)

ocorre para uma vasta famılia de variaveis aleatorias. Um resultado deste tipo e conhe-

cido como teorema do limite central ou teorema central do limite, designacao

esta devida a G. Polya (1920)1, onde a palavra “central” realca a importancia que um

tal resultado teve na investigacao em probabilidades ate meados do seculo XX.

Exercıcios

1. Sejam X1, X2, . . . variaveis i.i.d. com P(Xi = ±1) = 1/2. Mostre que Sn/√

n d−→ N(0, 1).

Suponha agora que, partindo dum ponto inicial, uma partıcula se desloca uma unidade

para a esquerda ou para a direita com probabilidade 0.5, em cada segundo. De uma

aproximacao para a probabilidade de ao fim de uma hora a partıcula se encontrar a uma

distancia superior a 200 unidades do ponto inicial.

2. Sejam X1, X2, . . . variaveis aleatorias independentes com distribuicoes de Poisson de

parametro λ > 0. Prove que (Sn − nλ)/√

nλ d−→ N(0, 1).

3. Sejam (Yn) uma sucessao de v.a.r. e (an) uma sucessao de numeros reais tais que an(Yn−µ) d−→ Y , com µ ∈ R e Y uma v.a.r.. Mostre que bn(Yn − µ) p−→ 0, para toda a sucessao

de numeros reais (bn) com bn/an → 0.

4. Seja (Xn) uma sucessao de v.a.r. de quadrado integravel satisfazendo (10.1.1). Mostre

que se n/√

Var(Sn) → +∞, entao (Xn) obedece a uma lei fraca dos grandes numeros

com µn =∑n

i=1 E(Xi)/n.

5. Seja (Xn) uma sucessao de v.a.r. i.i.d. de quadrado integravel com media µ satisfazendo

(10.1.1). Mostre que bn(Sn/n−µ) p−→ 0, para toda a sucessao de numeros reais (bn) com

bn/n1/2 → 0 (ver Exercıcio 6.2.4), mas que n1/2(Sn/n − µ) p−→6 0.

10.2 O teorema do limite central classico

Neste paragrafo estabelecemos a convergencia em distribuicao (10.1.1) para variaveis

aleatorias independentes e identicamente distribuıdas de quadrado integravel.

Para que possamos generalizar os argumentos utilizados no paragrafo anterior a

outras distribuicoes, e essencial o resultado seguinte que nao e mais do que um desen-

volvimento de Taylor duma funcao caracterıstica em que o resto e apresentado numa

forma que nos sera util.

Lema 10.2.1 Se E|X|n < +∞, para algum n ∈ N, entao para todo o t ∈ R,

φX(t) =

n∑

k=0

( i t)k

k!E(Xk) + un(t),

1Polya, G., Math. Z., 8, 171–180, 1920.

ATP, Coimbra 2002


onde

|un(t)| ≤ E

( |tX|n+1

(n + 1)!∧ 2|tX|n

n!

).

Dem: Para n ≥ 0 vale a igualdade

∫ x

0(x − s)ne i sds =

xn+1

n + 1+

i

n + 1

∫ x

0(x − s)n+1e i sds.

Por inducao podemos entao obter

e ix =

n∑

k=0

( i x)k

k!+

i n+1

n!

∫ x

0(x − s)ne i sds,

para n ≥ 1. Por um lado, a ultima parcela do segundo membro da igualdade anterior

e, em modulo, majorada por∫ x0 |x − s|nds/n! ≤ |x|n+1/(n + 1)!. Por outro lado, e

atendendo a primeira das igualdades anteriores, e majorada por |∫ x0 (x − s)n−1e i sds −

xn/n|/(n−1)! ≤ 2|x|n/n!. Assim, integrando ambos os membros da segunda igualdade

depois de tomar x = tX, obtemos o pretendido.

Teorema 10.2.2 (do limite central classico2) Sejam (Xn) variaveis aleatorias in-

dependentes e identicamente distribuıdas de quadrado integravel, com E(X1) = µ e

Var(X1) = σ2 > 0. EntaoSn − nµ

σ√

n

d−→ N(0, 1).

Dem: Basta considerar o caso em que µ = 0 e σ = 1. Denotemos por φn a funcao

caracterıstica de Sn/√

n e por φ a funcao caracterıstica de X1. Para t ∈ R, temos

φn(t) = φSn(t/√

n) = φn(t/√

n), onde pelo Lema 10.2.1, φ(t/√

n) = 1+ i tE(X1)/√

n+

i 2t2E(X1)2/(2n) + vn(t) = 1 − t2/(2n) + vn(t), com n|vn(t)| ≤ E(|tX1|3/(6n1/2) ∧

|tX1|2) → 0 (porque?). Assim, φn(t) = (1+(−t2/2+nvn(t))/n)n → e−t2/2 = φN(0,1)(t),

o que permite concluir.

Reescrevendo a variavel aleatoria (Sn−nµ)/√

n na forma√

n (Sn/n−µ), o teorema

anterior estabelece que√

n (Sn/n − µ) d−→ N(0, σ2). Em particular Sn/n p−→ µ (cf.

Exercıcio 10.2.5), isto e, o teorema do limite central classico implica a lei fraca dos

grandes numeros. Alem disso, estabelecendo a forma da distribuicao assintotica de Sn,

o teorema do limite central da-nos uma informacao mais precisa sobre o comportamento

assintotico de Sn do que a lei fraca dos grandes numeros.

2Laplace, P.S., Mem. Acad. Sci. Paris, 10, 353–415 e 559–565, 1810 (reproduzidos em Oeuvres de

Laplace, 12, 301–345 e 349–353).

ATP, Coimbra 2002


Exercıcios

1. (Convergencia da binomial para a normal3) Para n ∈ N, Seja Yn uma v.a. binomial

de parametros (n, p) com 0 < p < 1. Mostre que

Yn − np√np(1 − p)

d−→ N(0, 1).

Determine K ∈ N, de modo que a probabilidade de em 1000 lancamentos duma moeda

equilibrada obter entre 500−K e 500+K caras, seja aproximadamente 0.99. Se em 1000

lancamento duma moeda forem observadas 455 caras, poderemos considerar essa moeda

equilibrada?

2. Retome os Exercıcios 1.8.4 e 2.1.6. Mostre que

√n (Sn/n + 1/37)

d−→ N(0, σ2),

onde σ2 = (372 − 1)/372. Obtenha uma aproximacao para P(Sn ≥ 0), quando n =

200, 1000 e 2000. Compare os resultados com os obtidos nos exercıcios referidos.

3. (Convergencia do χ2 para a normal) Se Yn e uma variavel com uma distribuicao do

qui-quadrado com n graus de liberdade, mostre que (Yn − n)/√

2n d−→ N(0, 1).

4. Sejam (Xn) uma sucessao de v.a.r. i.i.d. com momentos finitos de quarta ordem, µ =

E(X1), σ2 = Var(X1) e τ = E(X1 − µ)4.

(a) Mostre que√

n( 1n

∑ni=1(Xi − µ)2 − σ2) d−→ N(0, τ − σ4).

(b) Conclua que√

n(σ2n − σ2) d−→ N(0, τ − σ4), onde σ2

n e a variancia empırica das

variaveis X1, . . . , Xn (ver Exercıcio 6.5.2).

5. Utilizando a tecnica das funcoes caracterısticas demonstre a lei fraca dos grande numeros

de Khintchine (ver Teorema 6.3.3).

10.3 O teorema do limite central de Lindeberg

Vamos neste paragrafo generalizar o Teorema 10.2.2 ao caso em que as variaveis

aleatorias X1,X2, . . ., apesar de independentes e de quadrado integravel nao sao neces-

sariamente identicamente distribuıdas. Denotaremos µk = E(Xk), σ2k = Var(Xk) e

s2n = Var(Sn) = σ2

1 + . . . + σ2n.

Definicao 10.3.1 Dizemos que a sucessao (Xn) de variaveis aleatorias independentes

e de quadrado integravel satisfaz a condicao de Lindeberg se

∀ ǫ > 01

s2n

n∑

k=1

E((Xk − µk)21I|Xk−µk |>ǫsn)→0.

3de Moivre, A., Approximatio as Summam Terminorum Binomii (a + b)n in Seriem Expansi, 1733,

e The Doctrine of Chances, 1738.

ATP, Coimbra 2002


Comecemos por notar que uma sucessao de variaveis aleatorias independentes e

identicamente distribuıdas de quadrado integravel satisfaz a condicao de Lindeberg.

Para ǫ > 0, e pelo teorema da convergencia dominada, temos

1

s2n

n∑

k=1

E((Xk − µk)21I|Xk−µk|>ǫsn)

=1

nσ2

n∑

k=1

E((Xk − µk)21I|Xk−µk |>ǫσ

√n)

=1

σ2E((X1 − µ1)

21I|X1−µ1|>ǫσ√

n)→0.

A condicao de Lindeberg impoe que para cada k, a variavel aleatoria Xk deve estar

concentrada num intervalo centrado na sua media e cuja amplitude deve ser pequena

quando comparada com sn. A proposicao seguinte da enfase a esta interpretacao,

expremindo-a em termos de variancias.

Proposicao 10.3.2 Se (Xn) satisfaz a condicao de Lindeberg entao∨n

k=1 σ2k

s2n

→0.

Dem: Para ǫ > 0, basta notar que σ2k/s

2n = E((Xk −µk)

21I|Xk−µk|≤ǫsn)/s2n + E((Xk −

µk)21I|Xk−µk |>ǫsn)/s

2n ≤ ǫ2 +

∑nk=1 E((Xk − µk)

21I|Xk−µk|>ǫsn)/s2n.

Para que possamos generalizar os argumentos utilizados na demonstracao do teo-

rema de limite central classico a variaveis aleatorias nao sao necessariamente identica-

mente distribuıdas e importante e lema seguinte sobre a comparacao de produtos de

numeros complexos.

Lema 10.3.3 Para n ∈ N, sejam a1, . . . , an, b1, . . . , bn numeros complexos em modulo

inferiores ou iguais a 1. Entao

∣∣∣n∏

i=1

ai −n∏

i=1

bi

∣∣∣ ≤n∑

i=1

|ai − bi|.

Dem: Basta ter em conta que o resultado e valido para n = 2 e que |∏ni=1 ai−

∏ni=1 bi| =

|a1∏n

i=2 ai − b1∏n

i=2 bi| ≤ |a1 − b1| + |∏ni=2 ai −

∏ni=2 bi|.

Teorema 10.3.4 (de Lindeberg4) Sejam (Xn) variaveis aleatorias reais indepen-

dentes e de quadrado integravel com Var(Xn) > 0 para n suficientemente grande. Se

(Xn) satisfaz a condicao de Lindeberg, entao

Sn − E(Sn)

sn

d−→ N(0, 1).

ATP, Coimbra 2002


Dem: Basta demonstrar o resultado para variaveis centradas. Sendo φk a funcao ca-

racterıstica de Xk, pela independencia das variaveis X1, . . . ,Xn, obtemos, φSn/sn(t) =

∏nk=1 φXk/sn

(t) =∏n

k=1 φk(t/sn), para t ∈ R. Com o objectivo de mostrar que∏n

k=1 φk(t/sn) → e−t2/2, para todo o t ∈ R, provaremos que An = |∏nk=1 φk(t/sn) −

exp(∑n

k=1(φk(t/sn) − 1))| → 0 e que Bn = |∑nk=1(φk(t/sn) − 1)) + t2/2| → 0. Pelo

Lema 10.3.3, An ≤ ∑nk=1 |φk(t/sn)− exp(φk(t/sn)− 1))| =

∑nk=1 | exp(φk(t/sn)− 1)−

1 − (φk(t/sn) − 1)|, uma vez que | exp(z − 1)| ≤ 1, quando |z| ≤ 1. Pelo Lema 10.2.1 e

pela Proposicao 10.3.2, obtemos ainda |φk(t/sn) − 1| ≤ E(|tXk|2/(2sn) ∧ 2|tXk|/sn) ≤t2E(X2

k)/(2s2n) ≤ (t2/2)∨n

k=1 σ2k/s

2n → 0. Assim, e tendo agora em conta que | exp(z)−

1 − z| ≤ 2|z|2, quando |z| ≤ 1/2, obtemos finalmente, An ≤ ∑nk=1 2|φk(t/sn) − 1|2 ≤

∑nk=1 2|φk(t/sn)−1|(t2/2)∨n

k=1σ2k/s

2n ≤ t2(∨n

k=1σ2k/s

2n)

∑nk=1(t

2/2)σ2k/s2

n = (t4/2)∨nk=1

σ2k/s

2n → 0. Pelo Lema 10.2.1 temos agora, para ǫ > 0, Bn =

∑nk=1 E(|t|3|Xk|3/(6s3

n)∧t2X2

k/s2n) ≤ |t|2 ∑n

k=1 E(X2k1I|Xk|>ǫsn)/s

2n + |t|3 ∑n

k=1 E(|Xk|31I|Xk|≤ǫsn)/(6s3n) ≤ |t|2

∑nk=1 E(X2

k1I|Xk|>ǫsn)/s2n + |t|3ǫ/6. Sendo ǫ > 0 qualquer, a condicao de Lindeberg

permite agora concluir.

Em 1935, W. Feller5 e P. Levy6, trabalhando independentemente, estabelecem

condicoes necessarias para a validade do teorema do limite central mostrando que,

na presenca da condicao apresentada na Proposicao 10.3.2, a condicao de Lindeberg

e tambem necessaria para que se tenha Sn−E(Sn)sn

d−→ N(0, 1) (ver Feller, 1971, pg.

518–521; sobre a prioridade da descoberta ver Le Cam, 1986.).

A condicao que a seguir apresentamos, apesar de mais restrictiva que a condicao de

Lindeberg, e normalmente simples de utilizar, em particular para δ = 1.

Proposicao 10.3.5 Se (Xn) e uma sucessao de variaveis aleatorias reais independen-

tes que, para algum δ > 0, satisfaz a condicao

1

s2+δn

n∑

k=1

E|Xk − µk|2+δ→0,

dita de condicao de Liapounov7entao (Xn) satisfaz a condicao de Lindeberg.

Exercıcios

1. Mostre que∨n

k=1 σ2k/s2

n→0 sse s2n→∞ e σ2

n/s2n→0.

4Lindeberg, J.W., Math. Z., 15, 211–225, 1922.5Feller, W., Math. Z., 40, 521–559, 1935.6Levy, P., J. Math. Pures Appli., 14, 347–402, 1935.7Liapounov, A., Bull. Acad. Sci. St. Petersbourg, 13, 359–386, 1900, e Mem. Acad. Sci. St. Peters-

bourg, 12, 1–24, 1901.

ATP, Coimbra 2002


2. Demonstre a Proposicao 10.3.5.

3. Sejam X1, X2, . . . v.a. independentes com Xn ∼ U([−n, n]). Mostre que Sn/Var(Sn) d−→N(0, 1), onde

(Sugestao: Use o facto de 1nλ+1

∑nk=1 kλ→ 1

λ+1 .)

10.4 O teorema do limite central multidimensional

Neste paragrafo obtemos, via teorema de Cramer–Wold, versoes multivariadas dos

teoremas do limite central classico e de Lindeberg.

Teorema 10.4.1 Se (Xn) e uma sucessao de vectores aleatorios independentes e iden-

ticamente distribuıdos de quadrado integravel com media µ e matriz de covariancia Σ,

entaoSn − E(Sn)√

n

d−→ N(0,Σ).

Dem: Sem perda de generalidade supomos que os vectores Xk sao centrados. Pelo

Teorema 9.5.5, basta mostrar que, para todo o a ∈ Rd, 〈a, Sn/√

n〉 d−→ 〈a,X〉, onde

X ∼ N(0,Σ), ou de forma equivalente, 〈a, Sn/√

n〉 d−→ N(0, aT Σa). Ora, 〈a, Sn/√

n〉 =∑n

k=1〈a,Xk〉/√

n, onde 〈a,Xk〉, k = 1, 2, . . ., sao variaveis reais independentes com

media 0 e variancia aT Σa. Se aT Σa > 0, o resultado e assim consequencia do Teorema

10.2.2. Se aT Σa = 0, 〈a,Xk〉 = 0, q.c., para k = 1, 2, . . ., e 〈a, Sn/√

n〉 ∼ N(0, 0) =

N(0, aT Σa).

Teorema 10.4.2 Seja (Xn) uma sucessao de vectores aleatorios independentes de qua-

drado integravel com medias µn e matrizes de covariancia Σn. Se

1

n(Σ1 + . . . + Σn)→Σ,

e

∀ ǫ > 01

n

n∑

k=1

E(||Xk − µk||21I||Xk−µk||>ǫ√

n)→0,

entaoSn − E(Sn)√

n

d−→ N(0,Σ).

Exercıcios

1. Demonstre o Teorema 10.4.2.

2. Para n ∈ N, seja Xn ∼ M(n, p1, . . . , pk) com∑k

i=1 pi = 1. Mostre que (Xn−E(Xn))/√

n

e assintoticamente normal.

ATP, Coimbra 2002


3. Seja (Xn) uma sucessao de ve.a. i.i.d. com momentos de ordem 2k, para k ∈ N fixo.

(a) Estabeleca a normalidade assintotica do vector dos k primeiros momentos empıricos

(∑n

i=1 Xℓi /n; ℓ = 1, . . . , k).

(b) Usando o Exercıcio 9.5.4 e a normalidade assintotica estabelecida na alınea anterior,

resolva novamente a alınea (b) do Exercıcio 10.3.4.

10.5 Bibliografia

Araujo, A., Gine, E. (1980). The Central Limit Theorem for Real and Banach Valued

Random Variables, Wiley.

Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2,

Wiley.


Le Cam, L. (1986). The central limit theorem around 1935, Statistical Science, 1, 78–96.


ATP, Coimbra 2002

Tabela 1

Valores da funcao de distribuicao

normal standard

139

Tabela da distribuicao normal 141

Tabela 1: Valores da funcao de distribuicao normal

x → 1√2π

∫ x

−∞e−t2/2dt

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857

2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890

2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916

2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952

2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974

2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981

2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

0,00 0,02 0,04 0,06 0,08

3,0 0,998650 0,998736 0,998817 0,998893 0,998965

3,1 0,999032 0,999096 0,999155 0,999211 0,999264

3,2 0,999313 0,999359 0,999402 0,999443 0,999481

3,3 0,999517 0,999550 0,999581 0,999610 0,999638

3,4 0,999663 0,999687 0,999709 0,999730 0,999749

3,5 0,999767 0,999784 0,999800 0,999815 0,999828

3,6 0,999841 0,999853 0,999864 0,999874 0,999883

3,7 0,999892 0,999900 0,999908 0,999915 0,999922

3,8 0,999928 0,999933 0,999938 0,999943 0,999948

3,9 0,999952 0,999956 0,999959 0,999963 0,999966

4,0 0,999968 0,999971 0,999973 0,999975 0,999977

ATP, Coimbra 2002

Bibliografia Geral

Sobre Teoria das Probabilidades


Chow, Y.S., Teicher, H. (1997). Probability Theory: Independence, Interchangeability,

Martingales, Springer.

Chung, K.L. (1974). A Course in Probability Theory, Academic Press.

Durrett, R. (1996). Probability: Theory and Examples, Duxbury Press.

Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2,

Wiley.


Masson.





Company (traducao do original Grundbegriffe der Wahrscheinlichkeitrechnung

datado de 1933).

Laha, R.G., Rohatgi, V.K. (1979). Probability Theory, Wiley.

Loeve, M. (1977). Probability Theory I, Springer.


Monfort, A. (1980). Cours de Probabilite, Economica.


143


Sobre alguns temas especıficos

Araujo, A., Gine, E. (1980). The Central Limit Theorem for Real and Banach Valued

Random Variables, Wiley.

Billingsley, P. (1968). Convergence of Probability Measures, Wiley.

Gnedenko, B.V., Kolmogorov, A.N. (1968). Limit Distributions for Sums of Indepen-

dent Random Variables, Addison-Wesley.

Le Cam, L. (1986). The central limit theorem around 1935, Statistical Science, 1, 78–96.

Lukacs, E. (1964). Fonctions Caracteristiques, Dunod.

Lukacs, E. (1975). Stochastic Convergence, Academic Press.

Revesz, P. (1968). The Laws of Large Numbers, Academic Press.

Williams, D. (1991). Probability with Martingales, Cambridge University Press.

Sobre Teoria da Medida e Integracao

Cohn, D.L. (1980). Measure Theory, Birkhauser.

Fernandez, P.J. (1976). Medida de Integracao, IMPA.

Halmos, P.R. (1950). Measure Theory, D. Van Nostrand Company.

Rudin, W. (1974). Real and Complex Analysis, McGraw-Hill.

Sobre a historia das Probabilidades (e nao so)

Borel, E. (1950). Elements de la Theorie des Probabilites, Editions Albin Michel.

Hald, A. (1990). A History of Probability and Statistics and their applications before

1750, Wiley.

Hald, A. (1998). A History of Mathematical Statistics from 1759 to 1930, Wiley.

Sobre simulacao de experiencias aleatorias

Grycko, E., Pohl, C., Steinert, F. (1998). Experimental Stochastics, Springer.

Knuth, D.E. (1981). The Art of Computer Programming, vol. II, Addison-Wesley.

Tompson, J.R. (2000). Simulation: a Modeler’s Approach, Wiley.

ATP, Coimbra 2002

Indice Remissivo

acontecimento

aleatorio, 3, 5

certo, 3

elementar, 3

impossıvel, 3

acontecimentos aleatorios

incompatıveis, 4

independentes, 49

Bernoulli, D., 65

Bernoulli, J., 87

Bernoulli, N., 65

Bienayme, I.-J., 68

Bochner, S., 126

Borel, E., 57, 87

Box-Muller

metodo de, 44, 54

Cantelli, F.P., 57

cilindro

de base A, 16

de dimensao finita, 16

coeficiente

de achatamento, 66

de assimetria, 66

de correlacao, 69

condicao

de Liapounov, 136

de Lindeberg, 134

convergencia

da binomial para a Poisson, 34, 120

em distribuicao, 117

caracterizacoes da, 118

propriedades da, 119, 121

em media de ordem p, 78, 81

em media quadratica, 78, 81

em probabilidade, 76, 81

quase certa, 75, 81

quase completa, 76

convolucao

de densidades de probabilidade, 44, 54

de funcoes de probabilidade, 54

covariancia, 69

e independencia, 113

matriz de, 71

Cramer, H., 127

d-sistema, 50

de Moivre, A., 134

densidade condicional, 46

densidade de probabilidade, 10, 15, 35, 43

normal bivariada, 10

normal univariada, 10

uniforme, 15

desigualdade

de Bienayme-Tchebychev, 68

de Cauchy-Schwarz, 68

de Levy, 96

de Tchebychev-Markov, 79

maximal de Kolmogorov, 90

desvio-padrao, 66

distribuicao

145


absolutamente contınua, 35

binomial, 31

binomial negativa, 33

condicional, 46

da soma de variaveis reais, 54

de Bernoulli, 30

de Cauchy, 40

de Erlang, 56

de Laplace, 40

de Pascal, 33

de Poisson, 33

de Rayleigh, 44

de Weibull, 41

degenerada, 38

discreta, 35

do qui-quadrado, 56

exponencial, 39

funcao de, 15

geometrica, 33

log-normal, 67

logıstica, 41

marginal, 31

multinomial, 32

normal, 32, 111, 112

singular, 35

suporte da, 35

triangular, 44

uniforme, 32

uniforme discreta, 38

distribuicao de probabilidade, 30

espaco

de probabilidade, 5, 14

dos resultados, 3

fundamental, 3

esperanca matematica, 62, 70, 101

calculo da, 64


experiencia aleatoria, 3, 5

modelacao de uma, 5, 6, 8–12, 20

simulacao de uma, 24

formula

da probabilidade composta, 19

da probabilidade total, 20

de Daniel da Silva, 8

Feller, W., 136

Fermat, P., 13

funcao

caracterıstica, 102

calculo da, 103

derivadas e momentos da, 104

dum vector normal, 112

formulas de inversao, 107

injectividade, 106

propriedades da, 102

de distribuicao, 15, 36, 41


de probabilidade, 35

quantil, 39

Galileu Galilei, 6

Galton, F., 9

Gauss, C.F., 9

Helly, E., 123

Huygens, C., 14

independencia

caracterizacoes, 51–53

de acontecimentos aleatorios, 49

de classes, 50

de variaveis aleatorias, 51

jogo justo, 64

Khintchine, A., 81, 89

ATP, Coimbra 2002


Kolmogorov, A.N., 3, 4, 58, 81, 88, 90, 91,

93, 95

Levy, P., 126, 136

Laplace, P.S., 133

lei dos grandes numeros

em media de ordem p, 84

em media quadratica, 85

lei forte dos grandes numeros, 84, 86

de Borel, 87

de Kolmogorov, 93

lei fraca dos grandes numeros, 84

de Bernoulli, 87

de Khintchine, 89

de Markov, 85

de Poisson, 87

de Tchebychev, 87

lei zero-um

de Borel, 57

de Kolmogorov, 58

Lindeberg, J.W., 136

media empırica, 93, 115

metodo

das subsucessoes, 86

de Box-Muller, 44, 54

de congruencia linear, 24

de Monte Carlo, 26, 93

Marcinkiewicz, J., 93

Markov, A.A., 85

medida, 5


alheia, 34

difusa, 34

discreta, 34

singular, 34

modelo probabilıstico, 5

Montmort, P.R., 8, 65

numeros pseudo-aleatorios, 25

Polya, G., 132

Paccioli, L., 14

parametros

de dispersao, 65

de forma, 66

de localizacao, 62

paradoxo

das coincidencias, 8

de Sao Petersburgo, 65

do dia de aniversario, 6

do teste para despiste duma doenca

rara, 21

Pascal, B., 13

π-sistema, 50

Poisson

distribuicao de, 33

processo de, 12

Poisson, S.D., 87

probabilidade, 5

a posteriori, 20

a priori, 20

conceito frequencista de, 4

condicionada, 19

das causas, 22

de transicao, 23

definicao classica de, 5, 14

densidade de, 10, 15

espaco de, 5, 14

geometrica, 6

imagem, 16

produto, 16, 18

produto generalizado de, 22

propriedades duma, 7

problema

da divisao das apostas, 13

da ruına do jogador, 14

ATP, Coimbra 2002


do concurso das portas, 24

processo estocastico, 29

produto

de espacos de probabilidade, 18

de espacos mensuraveis, 17

generalizado de probabilidades, 22

infinito de probabilidades, 16

Prohorov, Yu.V., 124

rectangulo

mensuravel, 17

semi-aberto a esquerda, 15

representacao de Skorokhod, 39

Scheffe, H., 120

semi-algebra, 7

semi-anel, 7

σ-algebra, 5

assintotica, 58

gerada, 18

produto, 16

trivial, 57

Silva, D., 8

simetrizacao, 95

simulacao de variaveis, 39, 40

de Cauchy, 40

de Laplace, 40

de Weibull, 41

exponenciais, 39

logısticas, 41

normais, 44, 54

sucessao

aleatoria, 29

de Cauchy em Lp, 80

de Cauchy em probabilidade, 77

de Cauchy quase certamente, 76

limitada em probabilidade, 122

Tchebychev, P.L., 68, 87

teorema

da continuidade de Levy–Bochner, 126

da convergencia dominada, 79, 80

da decomposicao de Lebesgue, 34

da diferenciacao de Lebesgue, 37

da mudanca de variavel, 43

da seleccao de Helly, 123

das tres series, 95

de Bayes, 20

de Borel-Cantelli, 57

de Cramer–Wold, 127

de Prohorov, 124

de Scheffe, 120

de Slutsky, 127

do limite central, 132

do limite central classico, 133, 137

do limite central de Lindeberg, 135,

137

variavel aleatoria, 29


binomial, 31

binomial negativa, 33

centrada e reduzida, 66

complexa, 101

de Bernoulli, 30

de Cauchy, 40

de Laplace, 40

de Pascal, 33

de Poisson, 33

de Rayleigh, 44

de Weibull, 41

degenerada, 38

discreta, 35

do qui-quadrado, 56

exponencial, 39

geometrica, 33

independencia de, 51

ATP, Coimbra 2002


integravel, 62, 70, 101

log-normal, 67

logıstica, 41

momentos de uma, 65

multinomial, 32

nao-correlacionadas, 69

normal, 111, 112

real, 29

simulacao duma, 40

singular, 35

suporte da, 35

triangular, 44

uniforme discreta, 38

variancia, 66

calculo da, 66

empırica, 93, 115

propriedades da, 66

vector aleatorio, 29

margens dum, 31

Wold, H., 127

Zygmund, A., 93

ATP, Coimbra 2002

Download - Apontamentos de Teoria das Probabilidades - esalq.usp.br · Nota prévia Os presentes apontamentos têm por base as notas do curso de Teoria das Probabilidades que leccionámos

Top Related