76
alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conte´ udo 1 Cap´ ıtulo 1 - An´ alise Combinat´ oria 3 1.1 Motiva¸ ao ............................................. 3 1.2 O Princ´ ıpio b´ asico da contagem ................................. 3 1.3 Permuta¸ oes ............................................ 4 1.4 Combina¸c˜ oes ........................................... 4 1.5 Curiosidade ............................................ 5 1.6 Combina¸c˜ oes - continua¸c˜ ao ................................... 7 1.7 Coeficientes multinomiais .................................... 8 2 Cap´ ıtulo 2 - Axiomas da Probabilidade 8 2.1 Espa¸co amostral e eventos .................................... 8 2.2 Teoria de conjuntos ........................................ 9 2.3 Axiomas da probabilidade .................................... 11 2.4 Espa¸cos amostrais com resultados igualmente prov´ aveis ................... 15 2.5 Curiosidade ............................................ 17 2.6 Espa¸cos amostrais com resultados igualmente prov´ aveis - continua¸c˜ ao ........... 18 3 Cap´ ıtulo 3 - Probabilidade Condicional e Independˆ encia 20 3.1 Motiva¸ ao ............................................. 20 3.2 Probabilidades condicionais ................................... 20 3.2.1 A regra da multiplica¸ ao para probabilidades condicionais .............. 22 3.2.2 Probabilidade condicional e parti¸c˜ oes .......................... 23 3.3 Eventos independentes ...................................... 24 3.3.1 Independˆ encia de v´ arios eventos ............................ 25 3.4 O Teorema de Bayes ....................................... 27 4 Cap´ ıtulo 4 - Vari´ aveis Aleat´ orias 31 4.1 Motiva¸ ao e defini¸ ao ...................................... 31 4.2 Vari´ aveis aleat´ orias discretas .................................. 32 4.3 Valor esperado .......................................... 33 4.4 Esperan¸cadeumafun¸c˜ ao de uma vari´ avel aleat´ oria ...................... 35 4.5 Variˆ ancia ............................................. 37 4.6 Vari´ aveis aleat´ orias Bernoulli e Binomial ............................ 39 4.7 A vari´ avel aleat´ oria de Poisson ................................. 41 4.8 Vari´ avel aleat´ oria geom´ etrica .................................. 44 4.9 Vari´ avel aleat´ oria binomial negativa .............................. 45 4.10 Vari´ avel aleat´ oria hipergeom´ etrica ............................... 46 4.11 Valor esperado de soma de vari´ aveis aleat´ orias ........................ 47 4.12 Propriedades da fun¸ ao de probabilidade acumulada ..................... 48 1

C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Calculo das Probabilidades I - Notas de aula

Hugo Carvalho

30 de Junho de 2018

Conteudo

1 Capıtulo 1 - Analise Combinatoria 31.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 O Princıpio basico da contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Permutacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Combinacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5 Curiosidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.6 Combinacoes - continuacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.7 Coeficientes multinomiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Capıtulo 2 - Axiomas da Probabilidade 82.1 Espaco amostral e eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Teoria de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Axiomas da probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Espacos amostrais com resultados igualmente provaveis . . . . . . . . . . . . . . . . . . . 152.5 Curiosidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.6 Espacos amostrais com resultados igualmente provaveis - continuacao . . . . . . . . . . . 18

3 Capıtulo 3 - Probabilidade Condicional e Independencia 203.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2.1 A regra da multiplicacao para probabilidades condicionais . . . . . . . . . . . . . . 223.2.2 Probabilidade condicional e particoes . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Eventos independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.1 Independencia de varios eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Capıtulo 4 - Variaveis Aleatorias 314.1 Motivacao e definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2 Variaveis aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3 Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.4 Esperanca de uma funcao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . 354.5 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.6 Variaveis aleatorias Bernoulli e Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.7 A variavel aleatoria de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.8 Variavel aleatoria geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.9 Variavel aleatoria binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.10 Variavel aleatoria hipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.11 Valor esperado de soma de variaveis aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 474.12 Propriedades da funcao de probabilidade acumulada . . . . . . . . . . . . . . . . . . . . . 48

1

Page 2: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

5 Capıtulo 5 - Variaveis Aleatorias Contınuas 505.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2 Esperanca e variancia de variaveis aleatorias contınuas . . . . . . . . . . . . . . . . . . . . 515.3 Variavel aleatoria uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.4 Variavel aleatoria normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.4.1 Teorema Limite de DeMoivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 565.5 Variavel aleatoria exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.5.1 Funcoes taxa de risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.6 A variavel aleatoria de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.7 A distribuicao de uma funcao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . 60

6 Capıtulo 6 - Variaveis Aleatorias Conjuntamente Distribuıdas 626.1 FPA conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.2 Variaveis aleatorias conjuntas discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.3 Variaveis aleatorias conjuntas contınuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.4 Caso geral: n variaveis aleatorias conjuntas . . . . . . . . . . . . . . . . . . . . . . . . . . 646.5 Variaveis aleatorias independentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.6 Somas de variaveis aleatorias independentes . . . . . . . . . . . . . . . . . . . . . . . . . . 656.7 Distribuicoes condicionais: caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.8 Distribuicoes condicionais: caso contınuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7 Capıtulo 7: Propriedades da Esperanca 687.1 Esperanca de funcoes de variaveis aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2 Covariancia e correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.3 Funcoes geradoras de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

8 Capıtulo 8 - Teoremas Limites 738.1 Algumas desigualdades importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738.2 O Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

2

Page 3: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

1 Capıtulo 1 - Analise Combinatoria

1.1 Motivacao

Um sistema de telecomunicacoes e formado por n antenas identicas alinhadas em sequencia. O sistemae dito funcional se duas antenas consecutivas nao apresentarem defeito. Se exatamente m das n antenasestao com defeito, qual sera a probabilidade de que o sistema seja funcional?

No caso particular onde n = 4 e m = 2 temos seis configuracoes possıveis para o sistema:

× ◦ ◦ ×× ◦ × ◦◦ × ◦ ×× × ◦ ◦◦ × × ◦◦ ◦ × ×

onde × indica uma antena com defeito e ◦ indica uma antena funcional. As tres primeiras configuracoessao funcionais, enquanto que as tres ultimas nao. Dessa forma, tal probabilidade aparentemente e dadapor 3/6 = 1/2. Porem, listar todas as possibilidades para valores de n e m mais gerais pode ser impra-ticavel. Devemos estudar metodos de contagem para facilitar tal procedimento.

1.2 O Princıpio basico da contagem

Um conceito basico em Probabilidade e um experimento:

Definicao. Um experimento e qualquer processo, real ou hipotetico, no qual os resultados podem seridentificados ao longo do tempo.

Dessa forma, o princıpio basico da contagem pode ser enunciado como:

Teorema (Princıpio basico da contagem). Dois experimentos sao realizados, gerando m e n resultadosdistintos, respectivamente. Entao os dois experimentos em conjunto possuem mn resultados possıveis.

A demonstracao e simples, e consiste em listar os mn pares ordenados de resultados. Vejamos algunsexemplos.

Exemplo. Uma comunidade e composta por 10 mulheres, cada uma com 3 filhos. Se uma mulher e umde seus filhos devem ser escolhidos para ganhar um premio, quantas escolhas sao possıveis?

Resolucao. Temos 10 possibilidades de escolha para a mulher (primeiro experimento), e em seguida 3possibilidades de escolha para o filho (segundo experimento). Portanto, pelo princıpio basico, o resultadodesejado e 10× 3 = 30.

Obviamente o princıpio pode ser generalizado facilmente para mais de um experimento. Vejamosoutros exemplos.

Exemplo. Quantas placas diferentes de automovel do Brasil sao possıveis de serem formadas?

Resolucao. 26× 26× 26× 10× 10× 10× 10 = 175.760.000.

Exemplo. E agora, se supormos que nao sao permitidas repeticoes de letras nem numeros?

Resolucao. 26× 25× 24× 10× 9× 8× 7 = 78.624.000.

3

Page 4: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

1.3 Permutacoes

Quantas ordenacoes distintas das letras a, b e c sao possıveis? Por listagem direta, temos: abc, acb, bac,bca, cab e cba, ou seja, 6 possibilidades. Cada uma dessas ordenacoes e dita uma permutacao. Podemosobter esse resultado do princıpio basico de contagem, pois para a primeira posicao temos 3 possibilidades,para a segunda 2 e finalmente para a ultima, somente uma, de modo que 3× 2× 1 = 6.

Supondo agora um conjunto de n letras (ou mais geralmente, de objetos), temos

n× (n− 1)× (n− 2)× · · · × 2× 1 = n!

permutacoes distintas dos objetos.

Exemplo. Uma turma de Calculo das Probabilidades e formada por 6 homens e 4 mulheres. Aplica-seuma prova e os estudantes sao classificados de acordo com o seu desempenho. Suponha que nenhum dosestudantes tenha tirado a mesma nota.

a) Quantas diferentes classificacoes sao possıveis?

b) Se os homens e as mulheres forem classificados apenas entre si, quantas diferentes classificacoessao possıveis?

Resolucao. Temos que:

a) Cada classificacao e uma permutacao das 10 pessoas, de modo que o resultado e 10! = 3.628.800.

b) Como ha 6! e 4! possıveis classificacoes para homens e mulheres, respectivamente, segue do princıpiobasico da contagem que ha 6!× 4! = 17.280 classificacoes possıveis nesse caso.

Vejamos um exemplo um pouco mais complicado.

Exemplo. Quantos anagramas da palavra PEPPER existem?

Resolucao. Mesmo tendo a palavra PEPPER 6 letras, a resposta nao e 6!, pois temos letras repetidas.Note que ao trocar a posicao dos tres P’s entre si nada e alterado, bem como ao trocar a posicao dos doisE’s. Dessa forma, dos 6! arranjos totais, 3!× 2! sao redundantes entre si, pelo princıpio basico. Portanto,a resposta e 6!/(3!× 2!) = 60.

Mais geralmente, se tivermos n objetos dos quais n1 sao indistinguıveis entre si, outros n2 tambem osao, etc., ate nr, entao a quantidade total de permutacoes distintas dos n objetos e dada por

n!

n1!× · · · × nr!.

1.4 Combinacoes

Suponha que temos um conjunto de n objetos, e queremos saber quantos grupos de r objetos podem serformados, obviamente suponto r ≤ n. Por exemplo, considere 5 objetos A, B, C, D e E, e queremossaber quantos grupos de tamanho 3 podem ser formados. Para a primeira posicao podemos selecionar 5objetos, para a segunda 4 e para a terceira 3. Portanto, caso a ordenacao seja relevante, temos 5× 4× 3maneiras de selecionar 3 objetos de 5. Entretanto, caso a ordem nao importe, note que as permutacoesABC, ACB, BAC, BCA, CAB e CBA sao redundantes, no caso de escolhermos os objetos A, B e Cinicialmente. Temos entao 3 × 2 × 1 redundancias, de modo que agora o numero total de grupos quepodem ser formados e de

5× 4× 3

3× 2× 1= 10.

4

Page 5: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Mais geralmente, n× (n− 1)× · · · × (n− r + 1) representa de quantas maneiras podemos selecionarr itens a partir de n, quando a ordem e relevante, e cada grupo de r itens sera contado r! vezes. Dessaforma, o numero total de grupos de r elementos que podem ser formados a patir de um conjunto de nitens e

n× (n− 1)× · · · × (n− r + 1)

r!=

n!

(n− r)! r!.

Uma escolha particular de r objetos dentro de n, para r ≤ n, sem considerar ordenacao, e dita uma

combinacao. Denotamos o numero de combinacoes possıveis de n objetos em grupos de r por

(n

r

), e tal

quantidade e dada porn!

(n− r)! r!, como discutido acima.

Exemplo. De um grupo de 5 mulheres e 7 homens, quantos comites diferentes compostos por 2 mulherese 3 homens podem ser formados? E se dois dos homens estiverem brigados e se recusarem a trabalharjuntos?

Resolucao. Note que ha

(5

2

)grupos possıveis de duas mulheres e

(7

3

)grupos possıveis de tres homens.

Pelo princıpio basico, temos

(5

2

)×(

7

3

)=

5× 4

2× 1× 7× 6× 5

3× 2× 1= 350 possıveis comites.

Suponha agora que dois dos homens se recusem a trabalhar juntos. Pelo princıpio fundamental, a

quantidade de grupos que contem os dois homens e

(2

2

)(5

1

)= 5. Portanto, do total de

(7

3

)= 35

grupos totais, 5 nao sao viaveis, de modo que somente 30 o sao. Como a porcao feminina do comite esta

inalterada, podemos formar

(5

2

)× 30 = 300 comites nesse caso.

Exemplo. Considere um conjunto de n antenas, das quais m apresentam defeito e n −m funcionam.Quantos alinhamentos podem ser feitos sem que duas antenas com defeito sejam colocadas lado a lado?

Resolucao. Alinhe as n−m antenas funcionais, representadas abaixo por ◦. Como elas sao identicas, issoso pode ser feito de uma unica maneira. Agora, entre duas antenas funcionais pode haver no maximouma antena defeituosa, ou seja, nas n −m + 1 posicoes possıveis (representadas abaixo por ×) entre asn−m antenas funcionais devemos selecionar m espacos onde colocar as antenas defeituosas.

× ◦ × ◦ · · · × ◦ × ◦×

Isso pode ser feito de

(n−m+ 1

m

)maneiras distintas. Logo, tal quantidade representa o valor desejado.

1.5 Curiosidade

Pelo que aprendemos, um baralho de 52 cartas pode ser embaralhado de 52! maneiras distintas. Quaogrande e esse numero? E possıvel que dois embaralhamentos sejam iguais? Ceramente sim, mas eprovavel? Primeiramente, notemos que 52! ≈ 8, 0658× 1067. Comparemos com a idade do Universo, quee de aproximadamente 1018 segundos! Esse numero e TAO grande, que mesmo se embaralharmos umbaralho uma vez por segundo desde o surgimento do Universo, estarıamos longe de termos visto todas aspossibilidades.

Vamos ilustrar quao grande e 52! atraves do seguinte procedimento:

• Coloque um cronometro em contagem regressiva para contar 52! segundos.

• Ao iniciar a contagem, fique em pe na linha do Equador. Espere um bilhao de anos e de um passo.Espere mais um bilhao de anos e de outro passo, e assim sucessivamente.

5

Page 6: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

• Ao chegar novamente ao ponto de partida, pegue uma gota de agua (aproximadamente 0, 05 ml)do Oceano Pacıfico e coloque em um copo (bem grande). Repita esse procedimento ate o OceanoPacıfico estar totalmente vazio.

• Quando isso acontecer, coloque uma folha de papel no chao, encha novamente o Oceano Pacıfico, erepita o procedimento (1 passo a cada bilhao de anos, ao voltar ao local original tira uma gota, eao esvaziar coloque outra folha de papel em cima dessa).

• Quando a pilha de folhas de papel alcancar o Sol, ainda restara aproximadamente 8, 0632 × 1067

segundos no cronometro!

• Repita todo esse procedimento 3.000 vezes, e voce finalmente tera zerado o cronometro.

A proposito, qual e a melhor maneira de embaralhar um baralho? Persi Diaconis (magico e ma-tematico, fugiu de casa aos 14 anos para viajar com um circo e se interessou por Probabilidade; estudouMatematica para ler o livro do William Feller, “An Introduction to Probability Theory and Its Applica-tions”.) provou que o riffle shuffle e a melhor maneira de embaralhar um baralho. Em particular, fazerisso 7 vezes e mais que suficiente para termos um baralho muito bem embaralhado.

6

Page 7: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

1.6 Combinacoes - continuacao

A quantidade anteriormente definida

(n

r

)=

n!

(n− r)! r!e comumente chamada de numero binomial, por

conta de sua aparicao no Teorema Binomial, abaixo:

Teorema. (x+ y)n =

n∑k=0

(n

k

)xkyn−k.

Demonstracao. Podemos prova-lo usando inducao, mas o facamos usando um argumento combinatorio.Considere o produto

(x1 + y1)(x2 + y2) . . . (xn + yn).

Sua expansao consiste na soma de 2n termos, cada um deles sendo o produto de n fatores. Alem disso,cada um dos 2n termos da soma apresenta xi ou yi como fator, para cada i = 1, . . . , n. Por exemplo,

(x1 + y1)(x2 + y2) = x1x2 + x1y2 + x2y1 + y1y2.

Agora, quantos dos 2n termos da soma vao ter k dos xi’s e n− k dos yi’s como fatores? Note que cadatermo dessa natureza consiste da escolha de um grupo de k dos valores de x1, . . . , xn, onde a ordem nao

importa. Dessa forma, ha

(n

k

)termos como esse. Assim, fazendo xi = x e yi = y, para i = 1, . . . , n,

vemos que

(x+ y)n =

n∑k=0

(n

k

)xkyn−k.

Exemplo. Quantos sub-conjuntos existem em um conjunto de n elementos?

Resolucao. Como ha

(n

k

)possıveis sub-conjuntos de tamanho k, temos que a quantidade desejada e

dada porn∑k=0

(n

k

)= (1 + 1)n = 2n.

Note que colocando o valor de k = 0 na soma estamos considerando um sub-conjunto que nao contemelementos, o conjunto vazio. Caso quisessemos saber quantos sub-conjuntos nao vazios existem em umconjunto de n elementos, a resposta seria 2n − 1.

A identidade abaixo e bastante util:

Teorema. Para 1 ≤ r ≤ n, vale que

(n

r

)=

(n− 1

r − 1

)+

(n− 1

r

).

Demonstracao. Facamos uma prova combinatoria. Considere um grupo de n objetos, e lembremos que(n

r

)representa quantos sub-grupos de tamanho r podem ser formados. Vamos considerar esse mesmo

problema, e fazer a contagem de outra maneira. Chegaremos em outra expressao, que devera ser igual aessa primeira, ja conhecida.

Fixe um objeto particular, e chame-o de objeto 1. Agora, ha

(n− 1

r − 1

)sub-grupos de tamanho r

contendo o objeto 1, pois cada grupo e formado selecionando-se r − 1 dos n− 1 objetos restantes. Alem

disso, ha

(n− 1

r

)sub-grupos de tamanho r que nao contem o objeto 1, pois selecionamos r dos n − 1

objetos restantes. Dessa forma, podemos formar

(n− 1

r − 1

)+

(n− 1

r

)sub-grupos de tamanho r de um

total de n objetos, e o resultado segue.

7

Page 8: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

1.7 Coeficientes multinomiais

Agora, consideremos o seguinte problema, um pouco mais geral: um conjunto de n itens distintos deveser dividido em r grupos distintos de tamanhos n1, n2, . . . , nr, respectivamente, onde

∑ni = n. Quantas

divisoes diferentes sao possıveis? Note que, para o primeiro grupo, temos

(n

r1

)escolhas possıveis; para o

segundo grupo, temos

(n− n1n2

)escolhas possıveis; para o terceiro,

(n− n1 − n2

n3

)possibilidades, e assim

sucessivamente. Pelo princıpio basico da contagem, temos que a quantidade de maneiras que podemosdividir o grupo de n como desejado e:(

n

r1

)(n− n1n2

)(n− n1 − n2

n3

). . .

(n− n1 − n2 − · · · − nr−1

nr

)= contas =

n!

n1! n2! . . . nr!.

Fazemos entao a definicao abaixo

Definicao. Se n1 + n2 + . . . nr = n, definimos entao(n

n1, n2, . . . , nr

)=

n!

n1! n2! . . . nr!,

de modo que tal quantidade representa o numero de divisoes possıveis de n objetos distintos em r gruposdistintos de tamanhos n1, n2, . . . , nr, respectivamente. Tal quantidade e dita um coeficiente multinomial.

Observacao. Essa nomenclatura se da por conta do resultado abaixo, dito o Teorema Multinomial, cujaprova encontra-se na lista de exercıcios:

(x1 + x2 + · · ·+ xr)n =

∑{n1,...,nr | n1+···+nr=n}

(n

n1, n2, . . . , nr

)xn11 xn2

2 . . . xnrr .

Vejamos um exemplo.

Exemplo. Um grupo de 10 policiais vao se dividir da seguinte maneira: 5 patrulham as ruas, 2 ficamna delegacia e 3 ficam na reserva. Quantas divisoes sao possıveis?

Resolucao. A resposta e

(10

5, 2, 3

)=

10!

5! 2! 3!= 2.250.

Agora, vamos usar o que aprendemos de combinatoria para calcular probabilidades.

2 Capıtulo 2 - Axiomas da Probabilidade

2.1 Espaco amostral e eventos

Definimos ja o que e um experimento (e qualquer processo, real ou hipotetico, no qual os resultados podemser identificados ao longo do tempo). Dizemos que o conjunto de todos os possıveis resultados de umexperimento e o seu espaco amostral, e qualquer sub-conjunto de possıveis resultados desse experimentoe dito um evento.

Usualmente denotamos o espaco amostral pela letra S, enquanto que eventos sao denotados pelasletras A, B, C, etc. Vejamos alguns exemplos.

Exemplo. Ao jogar um dado, o espaco amostral e o conjunto S = {1, 2, 3, 4, 5, 6} e possıveis eventossao A = {2, 4, 6}, onde um resultado par e obtido, e B = {3, 4, 5, 6}, onde um resultado maior que 2 eobservado.

8

Page 9: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Exemplo. Se o experimento e medir o tempo de vida, em horas, de uma lampada, o espaco amostral eo conjunto de todos os numeros reais positivos, ou seja S = {x ∈ R | 0 ≤ x < +∞}. Um possıvel eventoe que a lampada funcione por mais de um ano, ou seja A = {x ∈ R | x ≥ 8.760}.

Exemplo. Ao jogar dois dados, o espaco amostral sao os pares ordenados S = {(i, j) | i, j = 1, 2, 3, 4, 5, 6}.Um possıvel evento e a soma dos dados ser igual a 7, ou seja, A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.

Dizemos que um evento A ocorre caso no experimento seja observado um resultado que esta em A.Por exemplo, se ao jogar um dado o numero 2 for observado, o evento A no primeiro exemplo acimaocorreu, enquanto que o evento B nao.

Estaremos entao interessados em calcular probabilidades de ocorrencia de determinados eventos, epara isso nossa teoria sera fundamentada na teoria de conjuntos, que precisaremos relembrar algunselementos aqui.

2.2 Teoria de conjuntos

Relembremos algumas definicoes e resultados basicos. Aqui sempre consideraremos A e B como eventosde um espaco amostral S. (Ilustrar com diagramas de Venn as definicoes abaixo)

Definicao. Dizemos que A esta contido em B se todo elemento de A e um elemento de B, e denotamosisso como A ⊂ B. Em linguagem de eventos, dizemos que se A ocorre, entao B tambem ocorre.

Definicao. O conjunto vazio e denotado por ∅, e representa um evento impossıvel de acontecer (cair 7em uma rolagem de dado, por exemplo).

Definicao. O complementar de A e definido como os elementos de S que nao estao em A. Ou seja, Oselementos em Ac sao resultados do experimento para os quais o evento A nao acontece.

Definicao. A uniao de A e B, denotada por A ∪ B, representa os elementos que estao em A ou emB. Nesse caso, dizemos que A ou B ocorrem. Denotamos a uniao de diversos conjuntos A1, A2, . . . , An

como

n⋃i=1

Ai. Essa uniao pode ser infinita tambem.

Definicao. A intersecao de A e B, denotada por A ∩ B, representa os elementos que estao em A e Bsimultaneamente. Nesse caso, dizemos que A e B ocorrem. Denotamos a intersecao de diversos conjuntos

A1, A2, . . . , An como

n⋂i=1

Ai. Essa intersecao pode ser infinita tambem.

Observacao. Alguns textos, dentre eles o Ross, denotam intersecao como simplesmente a concatenacaodas letras, ou seja A ∩B e AB representam o mesmo conjunto. Nao faremos isso aqui.

Definicao. Dizemos que dois eventos A e B sao disjuntos ou mutuamente exclusivos se a sua intersecaoe vazia, ou seja A ∩B = ∅. Nesse caso, dizemos que A e B nao podem ocorrer simultaneamente.

Um resultado importante sao as leis de DeMorgan, enunciadas abaixo:

Teorema. Para quaisquer eventos A e B de um espaco amostral S, vale que

(A ∪B)c = Ac ∩Bc e (A ∩B)c = Ac ∪Bc.

Demonstracao. Ilustrar com um diagrama de Venn.

Provemos aqui um caso mais geral das leis de DeMorgan:

9

Page 10: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Teorema. Para eventos A1, A2, . . . em um espaco amostral S, temos que:( ∞⋃i=1

Ai

)c=

∞⋂i=1

Aci e

( ∞⋂i=1

Ai

)c=

∞⋃i=1

Aci .

Demonstracao. Mostrar a primeira lei, provando que um lado esta contido no outro e o outro lado estacontido no primeiro. Depois, usar a primeira lei no lado direito da segunda, tomando complementar, econcluir. Demonstracao completa, ver no Ross.

10

Page 11: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

2.3 Axiomas da probabilidade

Seja S o espaco amostral de um dado experimento. Chamemos qualquer subconjunto de S de um evento1.Queremos definir o que e a probabilidade de tal evento ocorrer. Definicao frequentista, natural:

• Realize o experimento, exatamente nas mesmas condicoes, n vezes

• Para A ⊂ S, seja n(A) o numero de vezes que a ocorrencia do evento A foi observado nessas nrepeticoes

• Defina P(A), a probabilidade de ocorrencia do evento A, como

P(A) = limn→+∞

n(A)

n,

a proporcao relativa da ocorrencia de A.

Problemas:

• Como saber se esse valor converge para algo?

• Caso o procedimento seja realizado novamente, como garantir que converge para o mesmo valor?

• Essa interpretacao nao se aplica em outros contextos. Por exemplo, a sentenca “qual e a probabili-dade de chover amanha?” nao pode ser interpretada nesse contexto. [aproveitar e falar um poucosobre interpretacoes de probabilidade, DeGroot & Schervish, sec. 1.2]

Podemos tomar isso como axiomas, mas isso parece forte demais... mais razoavel assumir um conjuntosimples de axiomas e entao provar que tal limite ocorre (Lei dos Grandes Numeros, final do curso).Abordagem moderna, axiomatica, da probabilidade.

Vamos assumir que para cada evento A ⊂ S existe um numero P(A) satisfazendo os tres axiomasabaixo:

• Axioma 1: P(A) ≥ 0

• Axioma 2: P(S) = 1

• Axioma 3: Para toda sequencia de eventos disjuntos2 A1, A2, . . . em S, temos que P

( ∞⋃i=1

Ai

)=

+∞∑i=1

P(Ai)

Sobre o axioma 3: parece razoavel que a probabilidade da uniao de dois conjuntos disjuntos seja a somadas probabilidades; generalizar para colecao infinita de conjuntos.

Nesse caso, dizemos que a funcao P e uma medida de probabilidade.

Exemplo. Ao rolar um dado, temos que S = {1, 2, 3, 4, 5, 6}. Para A ⊂ S, defina P(A) = |A|/6, onde|A| e a quantidade de elementos no conjunto A. E facil ver que P satisfaz aos tres axiomas acima.

Exemplo. Sendo o dado viciado, podemos ter, por exemplo, uma outra medida de probabilidade definidada seguinte forma: o numero i tem chance pi de cair para cima, onde pi = 1/7, para i = 1, . . . , 5 e

p6 = 2/7. Definimos P(A) =∑i∈A

pi. Tambem e facil ver que P satisfaz aos tres axiomas acima.

Vamos provar alguns resultados importantes, que serao usados ao longo do curso.

1Isso sera diferente em Prob II!2Ai ∩Aj = ∅, se i 6= j.

11

Page 12: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Teorema. Valem os resultados abaixo, onde A,B,A1, . . . , An sao eventos do espaco amostral S:

1) P(∅) = 0

2) Para toda sequencia finita de eventos disjuntos A1, . . . , An, vale que P

(n⋃i=1

Ai

)=

n∑i=1

P(Ai)

3) P(Ac) = 1− P(A)

4) Se A ⊂ B, entao P(A) ≤ P(B)

5) 0 ≤ P(A) ≤ 1

6) P(A ∩Bc) = P(A)− P(A ∩B)

7) P(A ∪B) = P(A) + P(B)− P(A ∩B)

Explicar os resultados atraves de diagramas de Venn antes de prova-los.

Demonstracao. Somente esboco. Para prova completa, ver DeGroot & Schervish.

1) Usar axioma 3 com todos Ai = ∅.

2) Usar axioma 3 com An+1, An+2, · · · = ∅, junto com o resultado 1).

3) Usar que A ∪Ac = S, disjuntos, junto com o resultado 2).

4) Usar que B = A ∪ (B ∩Ac), disjuntos, junto com resultado 2) e axioma 1.

5) Uma parte e o axioma 1; outra parte segue de A ⊂ S e do resultado 4.

6) Usar que A = (A ∩B) ∪ (A ∩Bc), disjuntos, e usar o resultado 2.

7) Usar que A ∪B = B ∪ (B ∩Ac), disjuntos, junto com resultados 2 e 6.

Exemplo. Paciente com dor de garganta e febre baixa; medico desconfia de infeccao viral (com proba-bilidade 0.4) ou bacteriana (com probabilidade 0.7), podendo tambem ser ambos. Qual e a probabilidadede que o paciente tenha ambas as infeccoes?

Resolucao. Eventos B = {paciente com infeccao bacteriana} e V = {paciente com infeccao viral}. Te-mos que P(B) = 0.4 e P(V ) = 0.7; sabemos que S = B ∪ V e queremos calcular P(B ∩ V ). Lembremosque P(B ∪ V ) = P(B) + P(V )− P(B ∩ V ), de modo que P(B ∩ V ) = 0.1.

Temos tambem dois resultados importantes:

Teorema (Desigualdades de Bonferroni). Para eventos A1, . . . , An em S, vale que:

1) P

(n⋃i=1

Ai

)≤

n∑i=1

P(Ai)

2) P

(n⋂i=1

Ai

)≥ 1−

n∑i=1

P(Aci )

Demonstracao. Provemos na ordem inversa:

2) Tomar o complementar dentro de P ao lado esquerdo, e usar as leis de DeMorgan.

1) Exercıcio do deGroot & Schervish.

12

Page 13: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

O sinal de desigualdade na afirmacao 1) acima se da por conta de intersecoes entre os conjuntos (verem um diagrama de Venn). Podemos, entretanto, calcular explicitamente quem e essa probabilidade.

Teorema (Princıpio da inclusao-exclusao). Para eventos A1, . . . , An temos que:

P

(n⋃i=1

Ai

)=

n∑i=1

P(Ai)−∑i<j

P(Ai ∩Aj) +∑i<j<k

P(Ai ∩Aj ∩Ak)

−∑

i<j<k<l

P(Ai ∩Aj ∩Ak ∩Al) + . . .

+ (−1)n+1P(A1 ∩A2 ∩ . . . ∩An).

Ilustrar para n = 3.

Demonstracao. Prova por inducao, ver Ross ou DeGroot & Schervish. Faremos aqui uma prova com-binatoria, apresentada no Ross. Se um dado elemento de S nao esta em nenhum Ai, entao ele naocontribuira de forma alguma a nenhum dos dois lados da desigualdade. Agora, suponha que um elementode S apareca em exatamente m dos eventos Ai, onde m > 0. Como tal elemento aparece em ∪Ai, suaprobabilidade e contada uma vez em P(∪Ai). Olhemos agora, termo a termo, para o lado direito dasoma:

• Em

n∑i=1

P(Ai), tal elemento contribui m =

(m

1

)vezes, ja que ele aparece em exatamente m dos

conjuntos Ai.

• Ja em∑i<j

P(Ai ∩ Aj), a quantidade de vezes que tal elemento contribui com a soma e igual ao

numero de maneiras que podemos selecionar 2 dos m conjuntos aos quais ele pertence, ou seja(m

2

).

• Para o terceiro termo,∑i<j<k

P(Ai ∩Aj ∩Ak), por um raciocınio analogo, a quantidade de vezes que

tal elemento contribui na soma e

(m

3

)• E mais geralmente, em cada termo da soma onde aparecem k ≤ m intersecoes, o elemento contribui(

m

k

)vezes. Note que nao necessariamente devemos ir ate o final da soma, pois se o elemento esta

em exatamente m conjuntos, nao faz sentido considerar uma intersecao com mais de m conjuntos,ja que nela o elemento em nada contribuira.

Dessa forma, considerando o sinal do lado direito, a contribuicao de tal elemento para a probabilidade econtada (

m

1

)−(m

2

)+

(m

3

)− · · · ±

(m

m

)vezes. Como no lado esquerdo a sua contribuicao e contada somente uma vez, queremos mostrar que

1 =

(m

1

)−(m

2

)+

(m

3

)− · · · ±

(m

m

).

13

Page 14: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Usando o fato que 1 =

(m

0

), isso e equivalente a mostrar que

(m

0

)−(m

1

)+

(m

2

)−(m

3

)− . . . (−1)m

(m

m

)=

m∑i=0

(−1)i(m

i

)= 0.

Isso segue diretamente do Teorema Binomial fazendo x = −1 e y = 1, pois nesse caso temos que

0 = (−1 + 1)m =

m∑i=0

(m

i

)(−1)i(1)m−i.

Dessa forma, concluımos que a contribuicao de tal elemento e igual no lado direito e no lado esquerdo dasoma. Sendo tal elemento arbitrario, a prova esta concluıda.

14

Page 15: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

2.4 Espacos amostrais com resultados igualmente provaveis

Hipotese razoavel em muitos experimentos e que todos os resultados tem igual probabilidade de seremobservados, sendo o espaco amostral finito. Seja = {1, 2, . . . , N} tal espaco amostral, e suponha que

P({1}) = P({2}) = . . .P({N}) = p.

Pelos axiomas 2 e 3, temos que

P(S) = P

(N⋃i=1

{i}

)=

N∑i=1

P({i}) = Np⇒ p =1

N.

Dessa forma pelo axioma 3, recuperamos o fato que, nesse caso particular,

P(A) =|A||S|

=quantidade de eventos favoraveis

quantidade de eventos totais, para todo A ⊂ S.

Vejamos diversos exemplos.

Exemplo (Preliminar). Se dois dados sao lancados, qual e a probabilidade de que a soma dos lados seja7?

Resolucao. Supondo que todos os 36 resultados sao igualmente provaveis, os eventos favoraveis sao ospares (1, 6), (2, 5), (3, 4), (4, 3), (5, 2) e (6, 1), de modo que a probabilidade e 6/36 = 1/6.

Exemplo (Com ou sem ordenacao?). Se tres bolas sao retiradas aleatoriamente de um recipiente contendo6 bolas brancas e 5 bolas pretas, qual e a probabilidade de que uma das bolas seja branca e as outras duassejam pretas?

Resolucao. Resolver de duas maneiras distintas:

• Considerando ordenacao: O espaco amostral e formado por 11.10.9 = 990 resultados possıveis. Alemdisso, existem 6.5.4 = 120 resultados BPP, 5.6.4 = 120 da forma PBP e 5.4.6 = 120 da forma PPB.Supondo que cada evento do espaco amostral seja igualmente provavel, a probabilidade e igual a

120 + 120 + 120

990=

4

11.

• Sem considerar ordenacao: Agora, existem

(11

3

)= 165 resultados possıveis no espaco amostral.

Nesse caso, cada conjunto de 3 bolas corresponde a 3! resultados quando a ordenacao e levada emconsideracao. Dessa forma, e razoavel supor que nesse cenario, as selecoes tambem sao igualmenteprovaveis. Assim, a probabilidade desejada e dada por(

61

)(52

)(113

) =4

11,

que obviamente coincide com o resultado previamente obtido.

Exemplo (Duas maneiras de resolver). Uma urna contem n bolas, das quais uma e especial. Se k dessasbolas sao retiradas uma de cada vez, e se todas as bolas da urna tem a mesma probabilidade de seremretiradas. qual e a probabilidade da bola especial ser escolhida?

Resolucao. Vamos resolver de duas maneiras:

15

Page 16: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

1) O espaco amostral consiste de

(n

k

)possibilidades, supostas igualmente provaveis. A quantidade

de conjuntos que contem a bola especial e dado por

(1

1

)(n− 1

k − 1

), logo, a probabilidade desejada e

dada por (11

)(n−1k−1)(

nk

) =k

n.

2) Seja Ai o evento que representa a bola especial sendo a i-esima bola a ser escolhida, para i = 1, . . . , k.Tais eventos sao disjuntos, entao a probabilidade desejada e dada por

P

(k⋃i=1

Ai

)=

k∑i=1

P(Ai).

Calculemos os P(Ai). Para isso, note que a quantidade de resultados (igualmente provaveis) noexperimento e dada por n(n − 1) . . . (n − k + 1) = n!/(n − k)!, sendo que (n − 1)(n − 2) . . . (n −i+ 1)(1)(n− i) . . . (n− k + 1) = (n− 1)!/(n− k)! tem a bola especial como sendo a i-esima sendoescolhida. Dessa forma, temos que

P(Ai) =(n− 1)!/(n− k)!

n!/(n− k)!

(n− 1)!

n!=

1

n.

Dessa forma, a probabilidade inicialmente desejada e dada por k/n.

Exemplo (Poquer). Uma mao de poquer consiste em 5 cartas. Um straight e uma mao onde todas ascartas tem valores consecutivos mas nao sao todas do mesmo naipe (ex., (5E, 6E, 7E, 8E, 9C) e umstraight, enquanto que se a ultima carta fosse 9E, nao o seria). Qual e a probabilidade de que alguemsaia com um straight?

Resolucao. Supomos que todas as

(52

5

)maos possıveis sao igualmente provaveis. Vamos contar o numero

de maos que consistem em straights. Vamos fazer por partes:

• Determinar quantas maos sao formadas por (A, 2, 3, 4, 5), de naipes irrelevantes. Como temos 4de cada uma dessas cartas, o resultado e 45.

• Em exatamente 4 dos eventos acima todas as cartas possuirao o mesmo naipe (flush). Dessa forma,existem 45 − 4 maos que resultam em um straight na forma de (A, 2, 3, 4, 5).

• Variando a sequencia entre todas as possibilidades, (2, 3, 4, 5, 6), (3, 4, 5, 6, 7), . . . , (10, J, Q, K,A), temos um total de 10(45 − 4) maos que sao straights.

• Finalmente, a probabilidade desejada e dada por

10(45 − 4)(525

) ≈ 0, 0039.

Exemplo (Poquer, novamente). Um full house ocorre quando alguem sai com duas cartas de mesmovalor e tres do mesmo valor (diferente do primeiro). Qual e a probabilidade de alguem sair com um fullhouse?

16

Page 17: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. Novamente, suporemos que todas as

(52

5

)maos sao igualmente provaveis. Determinemos

o numero possıvel de full houses. Primeiramente, notemos que ha

(4

2

)(4

3

)combinacoes diferentes de,

digamos 2 setes e 3 valetes. Como existem 13 diferentes escolhas para o valor do par, e apos a escolha dopar, 12 outras escolhas para o valor da trinca, tem-se que a probabilidade de um full house e dada por

13.12.(42

)(43

)(525

) ≈ 0, 0014.

As vezes, resultados nao-intuitivos podem ocorrer. Vejamos um exemplo assim.

Exemplo (Problema do aniversario; DeGroot & Schervish). Qual e a probabilidade de que pelo menosduas pessoas, de um grupo de k pessoas, facam aniversario no mesmo dia do ano?

Resolucao. Assumir que ninguem nasceu no dia 29/2, que os nascimento sao nao correlacionados (emparticular, sem gemeos) e que todos os 365 dias do ano sao igualmente provaveis para nascimentos. Comocada pessoa pode fazer aniversario em qualquer um dos dias, o espaco amostral consiste de 365k elementos,todos igualmente provaveis. Obviamente, se k > 365, a probabilidade desejada e igual a 1, pois temos maispessoas que dias no ano. Assumiremos entao que k ≤ 365. Contar eventos que envolvem “pelo menos” etedioso, entao calculemos a probabilidade do complementar: a probabilidade de que todas as k pessoasfacam aniversarios em dias distintos. Isso pode ocorrer de 365.364 . . . (365 − k + 1) = 365!/(365 − k)!maneiras distintas. Dessa forma, a probabilidade de que quaisquer duas pessoas facam aniversario emdias distintos e dada por

365!

(365− k)!365k,

e a probabilidade inicialmente desejada e dada por

1− 365!

(365− k)!365k.

Valores numericos aproximados para essas probabilidades sao informados abaixo, com pares organizadosda forma (k, probabilidade):

(5; 0,027), (10; 0,117), (15; 0,253), (20; 0,411)

(22; 0,476), (23; 0,507), (25; 0,569), (30; 0,706)

(40; 0,891), (50; 0,970), (60; 0,994).

,

2.5 Curiosidade

Nesses problemas, usualmente aparece o calculo de fatoriais de numeros grandes. Vimos que 52! e umnumero razoavelmente grande, e acima precisamos calcular 365!, que e inviavel em qualquer computador.Felizmente, temos o seguinte resultado:

Teorema (Formula de Stirling). Vale que limn→+∞

(2π)1/2nn+1/2e−n

n!= 1.

Ou seja, escrito de outra forma, vale que n! ≈√

2πnnne−n, se n e suficientemente grande.

17

Page 18: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

2.6 Espacos amostrais com resultados igualmente provaveis - continuacao

Continuemos vendo alguns exemplos.

Exemplo (Bridge). No jogo de bridge, as 52 cartas sao distribuıdas entre 4 jogadores. Qual e a proba-bilidade de:

a) um dos jogadores receber todas as cartas de espadas?

b) cada jogador receber um as?

Resolucao. a) Seja Ai o evento em que a mao i tem todas as cartas de espadas. Temos entao queP(Ai) = 1/

(5213

), para i = 1, 2, 3, 4. Como os eventos Ai sao disjuntos, a probabilidade de uma mao

sair com todas as cartas de espadas e

P

(4⋃i=1

Ai

)=

4∑i=1

P(Ai) =4(5213

) ≈ 6, 3× 10−12.

b) Note que podemos dividir as cartas entre os jogadores de

(52

13, 13, 13, 13

)maneiras distintas. Con-

temos em quantas dessas divisoes cada jogador recebe exatamente um as. Para isso, deixe os ases

de lado e note que podemos dividir as outras 48 cartas de

(48

12, 12, 12, 12

)maneiras distintas entre

os jogadores. Como podemos dividir os ases de 4! maneiras distintas entre os jogadores, temos que

o numero de eventos nos quais cada jogador recebe exatamente um as e igual a 4!

(48

12, 12, 12, 12

).

Dessa forma, a probabilidade desejada e dada por

4!(

4812,12,12,12

)(52

13,13,13,13

) ≈ 0, 1055.

Exemplo (Probabilidade como ferramenta). Um total de 36 socios de um clube joga tenis, 28 jogamsquash e 18 jogam boliche. Alem disso, 22 dos socios jogam tenis e squash, 12 jogam tenis e boliche, 9jogam squash e boliche e 4 jogam todos os esportes. Quantos socios desse clube jogam pelo menos umdos tres esportes?

Resolucao. Seja N o numero de socios do clube, e suponha que um socio e selecionado com igual probabi-lidade, que sabemos ser 1/N . Dessa forma, para qualquer sub-conjunto C dos socios do clube, temos quea probabilidade de que o socio selecionado esteja nesse conjunto e dada por P(C) = |C|/N . Seja agoraT o conjunto de socios que jogam tenis, S os socios que jogam squash e B os socios que jogam boliche.Temos entao que:

P(T ∪ S ∪B) = P(T ) + P(S) + P(B)− P(T ∩ S)− P(T ∩B)− P(S ∩B) + P(T ∩ S ∩B)

=36 + 28 + 18− 22− 12− 9 + 4

N

=43

N.

Dessa forma, 43 dos socios jogam pelo menos um dos esportes.

Exemplo (Inclusao-exclusao). Calcule a probabilidade de que, com 10 casais sentados de forma aleatoriaem uma mesa redonda, ninguem sente-se ao lado de seu companheiro.

18

Page 19: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. Seja Ai o evento em que o i-esimo casal se senta junto, para i = 1, . . . , 10. Temos entao que

P

(10⋃i=1

Ai

)representa a probabilidade de pelo menos um dos 10 casais sentarem-se juntos. A probabili-

dade desejada e entao dada por 1 − P

(10⋃i=1

Ai

). Notemos que tais eventos nao sao disjuntos, de modo

que, pelo princıpio da inclusao-exclusao, temos:

P

(10⋃i=1

Ai

)=

10∑i=1

P(Ai)− · · ·+ (−1)n+1∑

i1<i2<···<in

P(Ai1 ∩Ai2 ∩ . . . ∩Ain)

+ · · · − P(A1 ∩A2 ∩ . . . ∩A10).

Calculemos entao cada P(Ai1 ∩ Ai2 ∩ . . . ∩ Ain), a probabilidade de que um grupo especıfico de n casaissentem-se juntos. Primeiramente, note que temos 19! maneiras distintas de arranjar 20 pessoas em umamesa redonda (basta olhar a posicao relativa de 19 pessoas em relacao a uma pessoa fixa). Para obtermoso numero de arranjos nos quais um conjunto especıfico de n casais senta-se junto, considere somente ummembro de cada um desses casais, deixando as outras n pessoas de fora do grupo. Podemos arranjaressas 20 − n pessoas de modo circular de (20 − n − 1)! maneiras distintas. Agora, cada membro docasal coloca uma cadeira ao seu lado para o seu acompanhante, podendo estar a sua esquerda ou direita.Temos entao 2 possibilidades por casal, de modo que eles podem se organizar de 2n maneiras distintas.Portanto, temos que

P(Ai1 ∩Ai2 ∩ . . . ∩Ain) =2n(19− n)!

19!.

Note tambem que podemos escolher um conjunto de n casais de um total de 10 de

(10

n

)maneiras

distintas. Portanto, temos que a probabilidade de pelo menos um casal sentar-se junto e igual a

P

(10⋃i=1

Ai

)=

(10

1

)21

18!

19!−(

10

2

)22

17!

19!+

(10

3

)23

16!

19!− · · · −

(10

10

)210

9!

19!≈ 0, 6605,

e a probabilidade de nenhum casal sentar-se junto e 1− 0, 6605 = 0, 3395.

19

Page 20: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

3 Capıtulo 3 - Probabilidade Condicional e Independencia

3.1 Motivacao

Eventualmente, ao calcular uma determinada probabilidade, queremos atualiza-la de acordo com a che-gada de uma nova informacao. Vejamos o seguinte exemplo.

Exemplo. Ao lancar dois dados honestos, cada um dos 36 resultados possıveis e suposto igualmenteprovavel, cada um com probabilidade 1/36. A probabilidade de que a soma dos dois dados seja igual a 8e igual a 5/36, pois os eventos favoraveis sao os pares (2, 6), (3, 5), (4, 4), (5, 3) e (6, 2). Agora, temos ainformacao adicional que no primeiro dado foi observado um 3. Qual a nova probabilidade de observamosa soma igual a 8?

Resolucao. Sabendo que o primeiro dado e um 3, temos seis resultados possıveis, a saber, os pares(3, 1), (3, 2), (3, 3), (3, 4), (3, 5) e (3, 6), dos quais somente o par (3, 5) soma 8. Portanto, a luz dessa novainformacao, a nova probabilidade aumenta para 1/6.

3.2 Probabilidades condicionais

De modo mais geral, seja S o espaco amostral de um dado experimento e sejam A e B eventos em S.Queremos calcular a probabilidade de ocorrencia de A, sabendo da ocorrencia do evento B, denotadapor P(A|B). Notemos que, nesse cenario, ambos os eventos devem acontecer, de modo que a quantidadeP(A∩B) e relevante, mas note que esta incorreto definirmos P(A|B) = P(A∩B); de fato, ao calcularmosP(B|B) dessa forma obtemos como resultado P(B), que possivelmente e estritamente menor que 1. Comoagora o espaco amostral foi reduzido de S para B, deverıamos ter essa probabilidade igual a 1. Definimosentao o seguinte:

Definicao. Se P(B) > 0, definimos a probabilidade condicional de A dado B, denotada por P(A|B),como

P(A|B) =P(A ∩B)

P(B).

Observacao. Sera importante aprender a condicionar em eventos de probabilidade zero. Veremos comocontornar isso ao falarmos de variaveis aleatorias, e uma definicao mais geral sera vista no curso deCalculo das Probabilidades II.

Exemplo (Exemplo de motivacao - conclusao). Refacamos o exemplo dos dados, agora com a definicaorigorosa em maos.

Resolucao. Nesse caso, os eventos A e B representam, respectivamente, “a soma dos dados ser igual a8” e “um 3 ser observado no primeiro dado”. Temos entao que:

• P(B) = 6/36 = 1/6

• P(A ∩B) = 1/36

• P(A|B) =P(A ∩B)

P(B)=

1/36

1/6=

1

6,

que coincide com o resultado obtido inicialmente de modo intuitivo.

Agora vejamos alguns exemplos de aplicacao desse novo conceito.

Exemplo (Um exemplo que nao e de contagem). Um estudante faz um teste com uma hora de duracao.Suponha que a probabilidade do estudante finalizar o teste em menos de x horas e dada por x/2, paratodo 0 ≤ x ≤ 1. Dado que o estudante ainda esta fazendo o teste apos 45 minutos, qual a probabilidadede que a hora completa seja utilizada?

20

Page 21: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. Seja Lx o evento “o estudante finaliza o teste em menos de x horas”, para 0 ≤ x ≤ 1, e sejaF o evento “o estudante usa a hora completa”. Como F e o evento em que o estudante nao finaliza oteste em 1 hora, temos que

P(F ) = P(Lc1) = 1− P(L1) = 1− 0, 5 = 0, 5.

Note que o evento no qual estamos condicionando e o complementar de L0,75, de modo a termos

P(F |Lc0,75) =P(F ∩ Lc0,75)

P(Lc0,75)

=P(F )

1− P(L0,75)

=0, 5

0, 625

= 0, 8.

Note que, sem ter a informacao de que o estudante ja trabalhou no teste durante 45 minutos, a probabi-lidade seria apenas P(F ) = 0, 5.

Exemplo. Uma moeda honesta e jogada duas vezes. Qual e a probabilidade condicional de que de caraem ambas as jogadas, dado que

a) de cara na primeira jogada?

b) de cara em pelo menos uma das jogadas?

Resolucao. Seja S = {(k, k), (k, c), (c, k), (c, c)} o espaco amostral do experimento, onde k denota cara ec denota coroa. Os eventos em questao sao:

A = {cara em ambas as jogadas} = {(k, k)}B = {dar cara na primeira jogada} = {(k, k), (k, c)}C = {dar cara em pelo menos uma das jogadas} = {(k, k), (k, c), (c, k)}.

Temos entao que:

a)

P(A|B) =P(A ∩B)

P(B)=

P(A)

P(B)=

1/4

1/2=

1

2.

b)

P(A|C) =P(A ∩ C)

P(C)=

P(A)

P(C)=

1/4

3/4=

1

3.

Exemplo (Probabilidade condicional como ferramenta). Rolar dois dados repetidamente e observar ovalor da soma, T . Qual a probabilidade de observarmos o valor T = 7 antes de T = 8?

Resolucao. Uma possıvel maneira de resolver: considerar espaco amostral (infinito) contendo todas assequencias de somas que terminam com 7 ou 8; calcular entao a soma das probabilidades de todas assequencias que terminam com o valor T = 7. Muito trabalhoso!

Maneira mais simples. Considere o experimento que e rolar dois dados somente uma vez e olhar asoma. Como estamos repetindo o experimento ate observarmos a soma igual a 7 ou 8, podemos nosrestringir somente a esses resultados. Dessa forma, podemos reformular o problema da seguinte maneira:

21

Page 22: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

dado que o resultado da soma e T = 7 ou T = 8, determine a probabilidade de que o valor seja 7.Portanto, defina os eventos A = {T = 7} e B = {T = 7 ou T = 8}. Temos entao que:

P(A|B) =P(A ∩B)

P(B)=

P(A)

P(B)=

6/36

6/36 + 5/36=

6

11.

3.2.1 A regra da multiplicacao para probabilidades condicionais

Segue diretamente da definicao de probabilidade condicional o seguinte resultado:

Teorema (Regra da multiplicacao para probabilidades condicionais). Se P(B) > 0, entao vale que:P(A ∩B) = P(B)P(A|B). Se P(A) > 0, entao vale que: P(A ∩B) = P(A)P(B|A).

Tal resultado pode parecer obvio, mas as vezes obter probabilidades condicionais pode ser mais facil,de modo que esse resultado pode simplificar alguns calculos. Vejamos alguns exemplos.

Exemplo. Retirar duas bolas aleatoriamente, sem reposicao, de uma caixa contendo v bolas vermelhase a bolas azuis. Determine a probabilidade de que a primeira bola seja vermelha e a segunda seja azul.

Resolucao. Sejam A = {a primeira bola e vermelha} e B{a segunda bola e azul}. Claramente temos que

P(A) =v

v + a. Mais ainda, se o evento A aconteceu, temos agora um total de v + a − 1 bolas na caixa,

das quais a sao azuis. Logo, a probabilidade da segunda bola ser azul, dado que a primeira e vermelha,

e igual a P(A|B) =a

v + a− 1. Portanto, pela regra da multiplicacao, temos que:

P(A ∩B) = P(A)P(B|A) =v

v + a· b

v + a− 1.

Essa regra se generaliza para uma quantidade arbitraria de eventos:

Teorema (Regra da multiplicacao para probabilidades condicionais - caso geral). Sejam A1, . . . , Aneventos tais que P(A1 ∩A2 ∩ . . . ∩An−1) > 0. Entao vale que:

P(A1 ∩A2 ∩ . . . ∩An) = P(A1)P(A2|A1)P(A3|A2 ∩A1) . . .P(An|A1 ∩A2 ∩ . . . ∩An−1).

Demonstracao. O produto das probabilidades no lado direito da igualdade e dado por:

P(A1) · P(A1 ∩A2)

P(A1)· P(A1 ∩A2 ∩A3)

P(A1 ∩A2). . .

P(A1 ∩A2 ∩ . . . ∩An)

P(A1 ∩A2 ∩ . . . ∩An−1).

Como, por hipotese, temos que P(A1 ∩ A2 ∩ . . . ∩ An−1) > 0, entao todos os termos no denominadordesse produto sao positivos. Todos os termos desse produto se cancelam dois a dois, exceto o ultimonumerador, que e igual a P(A1 ∩A2 ∩ . . . ∩An).

Exemplo. Agora, na caixa contendo v bolas vermelhas e a bolas azuis, retiramos quatro bolas, semreposicao. Qual e a probabilidade de obtermos a sequencia vermelho, azul, vermelho, azul?

Resolucao. Denotando por Aj o evento no qual a j-esima bola e vermelha e Bj o evento no qual a j-esimabola e azul, para j = 1, 2, 3, 4, temos que:

P(A1 ∩B2 ∩A3 ∩B4) = P(A1)P(B2|A1)P(A3|A1 ∩B2)P(B4|A1 ∩B2 ∩A3)

v

v + a· a

v + a− 1· v − 1

v + a− 2· a− 1

v + a− 3.

22

Page 23: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Relembrar a regra da multiplicacao.

Exemplo. Celina esta indecisa quanto a fazer uma disciplina de Frances ou de Quımica. Ela estimaque sua probabilidade de conseguir um conceito A e de 1/2 em Frances e 2/3 em Quımica. Se ela decidebasear a sua escolha no lancamento de uma moeda honesta, qual e a probabilidade de que ela obtenha umA em Quımica?

Resolucao. Seja C o evento em que Celina faz o curso de quımica, e A o evento em que ela tira A,independentemente do curso que fizer. A probabilidade desejada e entao:

P(A ∩ C) = P(C)P(A|C) =1

2· 2

3=

1

3.

3.2.2 Probabilidade condicional e particoes

Motivemos com um exemplo.

Exemplo. Duas caixas contem pregos curtos e longos. Suponha que uma contem 60 longos e 40 curtos,e outra contem 10 longos e 20 curtos. Selecionamos uma caixa ao acaso, e entao um prego e escolhidoao acaso dessa caixa. Qual a probabilidade de que ele seja longo?

Se soubessemos qual caixa foi escolhida, seria facil calcular essa probabilidade. Porem, temos incertezanessa parte da informacao. Como fazer para resolver o problema nessa situacao? Vamos criar umaferramenta para auxiliar em cenarios assim.

Definicao. Seja S o espaco amostral de um experimento, e considere k eventos, B1, B2, . . . , Bk em S

tais que eles sejam disjuntos e que

k⋃i=1

Bi = S. Entao dizemos que tais eventos B1, B2, . . . , Bk formam

uma particao de S.

Tipicamente consideramos como uma particao eventos que sejam relevantes para o problema. Porexemplo, no caso das caixas de pregos, parece razoavel os eventos B1 e B2 representarem as caixas emquestao. Temos o seguinte resultado:

Teorema (Lei da probabilidade total). Suponha que os eventos B1, . . . , Bk formem uma particao doespaco amostral S e que P(Bi) > 0, para i = 1, . . . , k. Entao, para cada evento A ⊂ S, temos que:

P(A) =

k∑i=1

P(Bi)P(A|Bi).

Demonstracao. Note que temos A = (A ∩ B1) ∪ (A ∩ B2) ∪ . . . ∪ (A ∩ Bk), e os conjuntos A ∩ Bi saodisjuntos entre si. Dessa forma, temos que

P(A) =

k∑i=1

P(Bi ∩A).

Finalmente, como temos P(Bi) > 0 para i = 1, . . . , k, entao P(Bi ∩A) = P(Bi)P(A|Bi), e daı segue entaoque

P(A) =

k∑i=1

P(Bi)P(A|Bi).

23

Page 24: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Voltemos aos exemplos dos pregos nas caixas.

Resolucao (Pregos nas caixas). Sejam os eventos B1 e B2 representando as escolhas da primeira (60longos e 40 curtos) e da segunda caixa (10 longos e 20 curtos), respectivamente. E claro que eles saodisjuntos, e que sua uniao forma todo S. Temos entao que P(B1) = P(B2) = 1/2. Mais ainda, temosque a probabilidade de escolher um prego grande da primeira caixa e P(A|B1) = 60/100 = 3/5 e que aprobabilidade de escolher um prego grande da segunda caixa e P(A|B2) = 10/30 = 1/3. Portanto, pelalei da probabilidade total, temos que:

P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) =1

2· 3

5+

1

2· 1

3=

7

15.

Vamos utilizar bastante essa ferramenta no Teorema de Bayes.

Observacao. Ler sobre o jogo de craps, na pag. 63/64 do DeGroot & Schervish.

3.3 Eventos independentes

Nem sempre condicionar em um evento nos da alguma informacao sobre a nova probabilidade desejada.

Exemplo. Ao jogar um dado honesto, qual e a probabilidade de cair um numero par? E se soubermosque o numero que caiu esta entre 1 e 4?

Resolucao. Seja A o evento no qual cai um numero par, e B o evento no qual o numero no dado e 1, 2,

3 ou 4. Temos entao que P(A) = 3/6 = 1/2, e que P(A|B) =P(A ∩B)

P(B)=

2/6

4/6=

1

2.

Portanto, no exemplo acima, saber da nova informacao B em nada altera a probabilidade do eventoA, ou seja P(A|B) = P(A). Motivados pela definicao de probabilidade condicional, definimos entao:

Definicao. Dois eventos A e B sao ditos independentes se P(A ∩B) = P(A)P(B).

Independencia muitas vezes e mais suposta do que provada, em certos modelos probabilısticos.

Exemplo. Duas maquinas 1 e 2 em uma fabrica operam de modo independente. Seja A o evento no quala maquina 1 esta inoperante em um perıodo de 8 horas e B o evento no qual a maquina 2 esta inoperanteno mesmo perıodo. Suponha tambem que P(A) = 1/3 e P(B) = 1/4. Determine a probabilidade de pelomenos uma das maquinas estar inoperante nesse perıodo.

Resolucao. Queremos calcular P(A∪B) = P(A)+P(B)−P(A∩B). Como estamos supondo independenciaentre a operacao das maquinas, temos que P(A ∩ B) = P(A)P(B) = 1/3 · 1/4 = 1/12. Portanto, temosque

P(A ∪B) =1

3+

1

4− 1

12=

1

2.

Observacao. A independencia pode se dar mesmo entre eventos fisicamente relacionados, como no pri-meiro exemplo.

Observacao. Supor independencia nem sempre e uma boa ideia! Comentar de dois casos em sala.

Exemplo. Sejam A e B eventos disjuntos tais que P(A) > 0 e P(B) > 0. E possıvel termos A e Bindependentes?

Resolucao. NAO! Caso A e B fossem independentes, terıamos P(A ∩ B) = P(A)P(B). Como estamossupondo que eles sao disjuntos, temos que P(A ∩B) = 0 6= P(A)P(B) > 0.

Outra maneira de pensar isso e a seguinte: como A e B sao disjuntos, se um deles ocorre, com certezao outro nao pode ocorrer. Isso fere a intuicao sobre eventos independentes.

24

Page 25: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Teorema. Se A e B sao independentes, entao A e Bc tambem o sao, bem como Ac e Bc.

Demonstracao. Queremos provar que P(A ∩Bc) = P(A)P(Bc). Temos entao que:

P(A ∩Bc) = P(A)− P(A ∩B) = P(A)− P(A)P(B) = P(A)[1− P(B)] = P(A)P(Bc).

A prova do outro caso e analoga, e e exercıcio.

3.3.1 Independencia de varios eventos

Definicao. Dizemos que os eventos A1, . . . , An sao independentes se para cada sub-conjunto Ai1 , . . . , Aikdesses eventos vale que

P(Ai1 ∩ . . . ∩Aik) = P(Ai1) . . .P(Aik).

Em particular, para tres eventos A, B e C, temos que eles sao independentes se P(A∩B) = P(A)P(B),P(A∩C) = P(A)P(C), P(B ∩C) = P(B)P(C) e alem disso P(A∩B ∩C) = P(A)P(B)P(C). Podemos teras tres primeiras satisfeitas mas a ultima nao:

Exemplo. Ao jogar uma moeda duas vezes, o espaco amostral e S = {KK,KC,CK,CC}. Defina oseventos A = {KK,KC}, B = {KK,CK} e C = {KK,CC}, representando respectivamente, “cara noprimeiro lancamento”, “cara no segundo lancamento”e “ambos os lancamentos iguais”. Temos entao queA∩B = A∩C = B ∩C = A∩B ∩C = {KK}, e tambem que P(A) = P(B) = P(B) = 1/2. Finalmente,P(A∩B) = P(A∩C) = P(B∩C) = P(A∩B∩C) = 1/4, de modo que P(A∩B∩C) 6= P(A)P(B)P(C).

No exemplo acima, os eventos A, B e C sao ditos dois-a-dois independentes.

Exemplo. Lanca-se uma moeda infinitas vezes, cuja probabilidade de cair cara e igual a p ∈ [0, 1]. Quale a probabilidade de que:

a) Ocorra pelo menos uma cara nas primeiras n tentativas?

b) Ocorram exatamente k caras nas primeiras n tentativas?

c) Todos os lancamentos sejam caras?

Resolucao. a) E mais facil determinar a probabilidade de nao obtermos nenhuma cara nas n primeirastentativas. Tal probabilidade, pela independencia, e dada por (1−p)n, de modo que a probabilidadede obtermos pelo menos uma cara nas n primeiras tentativas e dada por 1− (1− p)n.

b) A probabilidade de k caras e n−k coroas em uma ordenacao particular e pk(1−p)n−k. Como temos(nk

)maneiras distintas de ordenar esses lancamentos, a probabilidade desejada e

(nk

)pk(1− p)n−k.

c) Primeiramente suponha p ∈ (0, 1). Se p = 1 tal probabilidade e 1 e se p = 0 tal probabilidadee zero. Nao podemos usar a independencia para infinitos eventos! Calculemos a probabilidadedo complementar, ou seja, de termos pelo menos uma coroa. Seja Ai o evento no qual obtemoscara nos i primeiros lancamentos e uma coroa no i + 1-esimo, para i = 0, 1, . . . . Temos entao que

25

Page 26: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

P(Ai) = pi(1− p), para i = 0, 1, . . . . Como tais eventos sao disjuntos, temos que:

P({todos os lancamentos serem caras}) = 1− P({pelo menos um lancamento ser coroa})

= 1− P

( ∞⋃i=0

Ai

)

= 1−∞∑i=0

P(Ai)

= 1−∞∑i=0

pi(1− p)

= 1− (1− p)× 1

1− p= 0.

Observacao. Ler exemplos sobre independencia no Ross! Paginas 111 ate 119.

26

Page 27: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

3.4 O Teorema de Bayes

Ilustremos com um exemplo.

Exemplo. Um novo teste para uma determinada doenca e lancado no mercado, satisfazendo as seguintescondicoes: se a pessoa tem a doenca, entao a probabilidade do teste dar positivo e de 0, 99; e se a pessoae saudavel, a probabilidade do teste dar positivo e de 0, 01. Suponha que 1 em cada 200 pessoas tem essadoenca. Um indivıduo fez o teste e deu positivo. Qual e a probabilidade de que ele tenha a doenca?

Comecemos com um caso um pouquinho mais simples.

Exemplo. Considere o exemplo das caixas de pregos da aula passada. Se o prego escolhido e longo, quala probabilidade dele ter vindo da primeira caixa?

Resolucao. Na notacao da aula passada, temos que:

P(B1|A) =P(A ∩B1)

P(A)=

P(B1)P(A|B1)

P(A)=

12 ×

35

715

=9

14.

Como a primeira caixa tem uma maior proporcao de pregos longos, parece razoavel termos P(B1|A) >P(B2|A), sendo o segundo igual a 5/14.

Temos entao o seguinte resultado:

Teorema (Teorema de Bayes). Sejam os eventos B1, . . . , Bn uma particao do espaco amostral S taisque P(Bi) > 0, para i = 1, . . . , n, e seja A um evento em S tal que P(A) > 0. Entao para i = 1, . . . , n,vale que:

P(Bi|A) =P(A|Bi)P(Bi)n∑i=1

P(A|Bi)P(Bi).

Demonstracao. Pela definicao de probabilidade condicional, temos que P(Bi|A) =P(Bi ∩A)

P(A). O nume-

rador e igual ao do Teorema pela regra da multiplicacao, e o denominador tambem e o mesmo de acimapor conta da lei da probabilidade total.

Voltemos ao exemplo inicial da doenca.

Resolucao (Exemplo inicial). Sejam os eventos B1 e B2 representando a situacao na qual o paciente temou nao a doenca, respectivamente. Claramente eles formam uma particao do espaco amostral. Denotepor A o evento no qual o teste da positivo. Queremos entao calcular P(B1|A), que pelo Teorema de Bayese dado por:

P(B1|A) =P(A|B1)P(B1)

P(A|B1)P(B1) + P(A|B2)P(B2)=

(0, 99)(0, 005)

(0, 99)(0, 005) + (0, 01)(0, 995)≈ 0, 332,

Ou seja, a probabilidade do indivıduo ser portador da doenca e de aproximadamente 1 em 3! Note que,previamente a realizacao do exame, tal probabilidade era de 1 em 200, pois aproximadamente uma emcada 200 pessoas era portadora. Porem, o exame ainda mantem esse valor muito baixo para se concluirque a pessoa de fato tem a doenca.

Aqui segue uma explicacao intuitiva. Se 1.000 indivıduos sao testados, espera-se que 995 sejamsaudaveis e 5 sejam doentes. Para os 995 saudaveis, sao esperados 0, 01× 995 ≈ 10 falsos positivos. Paraos 5 enfermos, sao esperados 0, 99 × 5 ≈ 5 positivos verdadeiros. Ou seja, dos 15 resultados positivos,apenas 5 sao genuınos.

Observacao. O exemplo abaixo NAO foi visto em sala, mas o deixei aqui nas notas devido a sua didatica.

27

Page 28: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Exemplo (Atualizar informacoes com base em dados). Um aviao desapareceu e presume-se que sejaigualmente provavel que ele tenha caıdo em qualquer uma das tres regioes possıveis. Denote por 1 − βi,i = 1, 2, 3, a probabilidade de que o aviao seja encontrado apos uma busca na regiao i quando ele defato esta nessa regiao (as constantes βi sao ditas probabilidades de negligencia, pois representam aprobabilidade de nao encontrar o aviao; em geral sao atribuıdas as condicoes climaticas e geograficas daregiao). Qual e a probabilidade de que o aviao esteja na regiao i dado que a busca na regiao 1 tenha sidomal-sucedida?

Resolucao. Denote por Ri o evento em que o aviao esta na regiao i, para i = 1, 2, 3, e seja E o evento emque a busca na regiao 1 e mal-sucedida. Pelo Teorema de Bayes, temos que:

P(R1|E) =P(E|R1)P(R1)3∑j=1

P(E|Rj)P(Rj)

=β1 · 13

β1 · 13 + 1 · 13 + 1 · 13

=β1

β1 + 2.

Agora, para i = 2, 3 temos que:

P(Ri|E) =P(E|Ri)P(Ri)

3∑j=1

P(E|Rj)P(Rj)

=1 · 13

β1 · 13 + 1 · 13 + 1 · 13

=1

β1 + 2.

As probabilidades de 1/3 para os eventos Ri sao ditas as probabilidades a priori, pois carregam umainformacao previamente a observacao de dados de interesse. Apos a busca na regiao 1 ter sido realizada,temos uma nova informacao, de modo que essas probabilidades podem ser atualizadas, condicionando-seno evento observado. Essas novas probabilidades, P(Bi|E) sao ditas as probabilidades a posteriori.

Repare que a probabilidade do aviao estar na regiao i dado que a busca na regiao 1 foi mal-sucedidaaumenta, se i = 2, 3 e diminui no caso de i = 1. Isso faz sentido, pois nao encontrar o aviao na regiao1 da uma evidencia de que ele nao esta la. Note tambem que P(R1|E) e uma funcao crescente de β1,representando o fato de quanto maior for β1, mais razoavel e atribuir o fracasso da busca a “ma-sorte” doque ao fato do aviao de fato nao estar la. Analogamente, P(Ri|E) sao funcoes crescentes de β1, parai = 2, 3.

Utilizando essa interpretacao do Teorema de Bayes como uma ferramenta para atualizacao de proba-bilidades com base em novas informacoes, voltemos ao exemplo do teste para detectar uma doenca.

Exemplo (Teste para diagnosticar uma doenca). Ao dar positivo o teste, o paciente fica intrigado eresolve fazer um segundo exame, independente do primeiro, acreditando que essa nova informacao con-firmara o resultado do primeiro. De fato, ele fez o exame e o resultado deu positivo. Qual e a novaprobabilidade do paciente ser portador da doenca?

Resolucao. Denote por A2 o evento no qual um segundo teste tambem da positivo. Queremos entao

28

Page 29: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

calcular P(B1|A ∩A2). Temos entao que:

P(B1|A ∩A2) =P(A ∩A2|B1)P(B1)

P(A ∩A2|B1)P(B1) + P(A ∩A2|B2)P(B2)

=P(A|B1)P(A2|B1)P(B1)

P(A|B1)P(A2|B1)P(B1) + P(A|B2)P(A2|B2)P(B2)

=(0, 99)(0, 99)(0, 005)

(0, 99)(0, 99)(0, 005) + (0, 01)(0, 01)(0, 995)

≈ 0, 98.

Portanto, apos a realizacao de um novo exame, a pessoa tem muito mais certeza que e portadorada doenca do que somente com um exame. Do ponto de vista pratico isso e muito ruim, pois implicaque a pessoa deve fazer dois testes! Uma outra maneira de aumentar a eficiencia do exame e diminuir aquantidade de falsos positivos. Aumentar a quantidade de positivos verdadeiros nao e suficiente (faca ascontas!).

No exemplo acima, e razoavel considerar a nova informacao a priori como sendo P(A2|B1)P(B1) =P(A2 ∩ B1) = 0, 00495 e P(A2|B2)P(B2) = P(A2 ∩ B2) = 0, 00995. Tais quantidades representam,respectivamente, as probabilidades de uma pessoa ser doente e um teste dar positivo, e de uma pessoa sersaudavel e o teste dar positivo. No caso particular desse indivıduo incorporar essa informacao e razoavel,pois ele ja foi testado e sabemos que o teste deu positivo.

Exemplo (Como enganar pessoas que nao sabem probabilidade). Suponha que temos 3 cartas, uma comambos os lados vermelho, outra com ambos os lados pretos e a terceira com um lado de cada cor. Ascartas sao misturadas e colocadas em uma caixa. Uma carta e selecionada ao acaso e colocada em cimada mesa. Se o lado virado pra cima e vermelho, qual e a probabilidade de que o outro lado seja preto?

Resolucao. Denote por V V , PP e V P os eventos onde a carta tem ambos os lados vermelhos, ambos oslados pretos e um lado de cada cor, respectivamente. Denote tambem por V o evento em que o lado decima da carta sorteada e vermelho. A probabilidade desejada e entao dada por:

P(V P |V ) =P(V |V P )P(V P )

P(V |V P )P(V P ) + P(V |V V )P(V V ) + P(V |PP )P(PP )

=12 ·

13

12 ·

13 + 1 · 13 + 0 · 13

=1

3.

Seria comum pensar que tal probabilidade e 1/2, pois dado que um lado vermelho aparece, existem duaspossibilidades igualmente provaveis: a carta ser toda vermelha ou ser vermelha e preta. O erro e pensarque elas sao igualmente provaveis. Se pensarmos que cada carta e formada por dois lados distintos,o experimento tem seis possıveis resultados: V1, V2, P1, P2, V3, P3, onde V1 e V2 sao uma face da cartavermelha estar para cima, P1 e P2 sao uma face da carta preta estar para cima e V3 e P3 sao as facesvermelha e preta, respectivamente, da carta bicolor estar para cima. Como o outro lado da carta comlado vermelho virado pra cima sera preto somente se o resultado do experimento for V3, vemos que aprobabilidade desejada e a probabilidade condicional de V3 dado que V1, V2 ou V3 tenham ocorrido, oque obviamente e igual a 1/3.

Exemplo (Identificando produtos defeituosos). Tres maquinas diferentes, M1, M2 e M3, sao usadas paraproduzir o mesmo produto em larga escala. Suponha que elas produzam 20%, 30% e 50% dos produtos emquestao, respectivamente. Alem disso, suponha que o percentual de produtos defeituosos produzidos porcada maquina e de 1%, 2% e 3%, respectivamente. Um item e selecionado ao acaso de toda a producaoe constata-se que ele esta com defeito. Qual e a probabilidade que ele tenha sido produzido pela maquinaM2?

29

Page 30: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. Denote por Mi o evento no qual o produto e produzido pela maquina Mi, para i = 1, 2, 3 epor D o evento no qual o produto e defeituoso. O enunciado nos da acesso as informacoes de P (Mi) eP (D|Mi), para i = 1, 2, 3. Queremos calcular P(M2|D), e usemos o teorema de Bayes:

P(M2|D) =P(D|M2)P(M2)

P(D|M1)P(M1) + P(D|M2)P(M2) + P(D|M3)P(M3)

=0, 3 · 0, 02

0, 2 · 0, 01 + 0, 3 · 0, 02 + 0, 5 · 0, 03

= 0, 26.

30

Page 31: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4 Capıtulo 4 - Variaveis Aleatorias

4.1 Motivacao e definicao

Muitas vezes, ao realizar um determinado experimento, nao estamos interessados no resultado direto dele,mas sim em uma funcao numerica dos seus resultados. Por exemplo, ao lancar um par de dados, podemosestar interessados somente na soma dos resultados observados, e nao no par em si; ao lancar uma moeda10 vezes, podemos estar interessados na quantidade de caras obtidas, e nao necessariamente na sequenciaem si. Essas grandezas, funcoes reais definidas em espacos amostrais, sao ditas variaveis aleatorias.

Definicao. Seja S o espaco amostral de um determinado experimento, munido da medida de probabilidadeP. Uma funcao X : S → R e dita uma variavel aleatoria.

Exemplo (Para fixar a linguagem). Suponha que nosso experimento consista em jogar 3 moedas honestas,com K representando cara e C representando coroa. Se X representar o numero de caras observadas,entao X e uma variavel aleatoria que assume os valores 0, 1, 2 ou 3, da seguinte forma:

X(CCC) = 0

X(KCC) = X(CKC) = X(CCK) = 1

X(KKC) = X(KCK) = X(CKK) = 2

X(KKK) = 3.

Temos entao que:

P(X = 0) = P({CCC}) = 1/8

P(X = 1) = P({KCC,CKC,CCK}) = 3/8

P(X = 2) = P({KKC,KCK,CKK}) = 3/8

P(X = 3) = P({KKK}) = 1/8.

Como X assume somente os valores 0, 1, 2 e 3, devemos ter que

1 = P

(3⋃i=0

{X = i}

)=

3∑i=0

P(X = i),

que esta de acordo com as probabilidades anteriores.

Exemplo (Um exemplo contınuo). Um jogador de dardos deve arremessar um dardo em um alvo circularde raio de 1m, e a quantidade de interesse e X, a distancia do dardo ate o centro do alvo. Podemos pensarque o espaco amostral S e um disco de raio 1 centrado na origem do plano xy, e a funcao X : S → Rdenota a distancia ate a origem. Note que X pode assumir qualquer valor no intervalo [0, 1], e atribuirprobabilidades a valores ou intervalos e um pouco mais sutil. Veremos variaveis aleatorias assim, ditascontınuas no Capıtulo 5.

Independente de qual seja o “tipo” de uma variavel aleatoria, uma funcao importante e a funcaodistribuicao cumulativa, funcao de distribuicao ou funcao de probabilidade acumulada, definida por

F (x) = P(X ≤ x), para x ∈ R.

Veremos mais propriedades de tal funcao a frente, mas notemos primeiramente que ela e nao-decrescente:de fato, se a ≤ b, entao vale que {X ≤ a} ⊂ {X ≤ b}, e portanto, F (a) ≤ F (b).

31

Page 32: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4.2 Variaveis aleatorias discretas

Definicao. Dizemos que uma variavel aleatoria X definida em um espaco amostral S e discreta se afuncao X pode assumir no maximo um numero contavel de valores possıveis.

Os dois exemplos que vimos acima sao de variaveis aleatorias discretas. Nesse caso, definimos a suafuncao de probabilidade, abreviada como fp, como

p(a) = P(X = a), para a ∈ R.

Note que ela e positiva para no maximo um numero contavel de valores de a, ou seja, se X assumesomente os valores x1, x2, . . . , entao

p(xi) ≥ 0, para i = 1, 2, . . .

p(x) = 0, para todos os demais valores de x.

E facil vermos que

∞∑i=1

p(xi) = 1. E instrutivo ilustrar a fp de uma variavel aleatoria por um grafico de

barras.

Exemplo. A fp de uma variavel aleatoria X e dada por p(i) = cλi/i!, para i = 0, 1, 2, . . . , onde λ ealgum valor positivo. Encontre o valor de c para que isso seja de fato uma funcao de probabilidade ecalcule P(X = 0) e P(X > 2)

Resolucao. Note que devemos ter

∞∑i=1

p(i) = 1, o que implica que

∞∑i=1

cλi

i!= c

∞∑i=1

λi

i!= ceλ = 1,

que implica c = e−λ, pois ex =

∞∑i=0

xi

i!. Assim, com esse valor de c, a funcao p e de fato uma funcao de

probabilidade. Podemos entao calcular

P(X = 0) = e−λλ0

0!= e−λ

e tambem

P(X > 2) = 1− P(X ≤ 2)

= 1− P(X = 0)− P(X = 1)− P(X = 2)

= 1− e−λ − λe−λ − λ2e−λ

2.

A funcao de probabilidade acumulada F pode ser expressa em termos da fp como

F (a) =∑x≤a

p(x).

Note que se X e uma va discreta cujos valores possıveis sao x1 < x2 < x3 < . . . , entao a funcaode probabilidade acumulada F de X e uma funcao tipo degrau. Por exemplo, se X de uma fp queassume os valores 1, 2, 3 e 4 com probabilidades 1/4, 1/2, 1/8 e 1/8, respectivamente, entao a sua funcao

32

Page 33: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

de probabilidade acumulada e dada por (fazer desenho e deducao no quadro, atentando ao fato que otamanho do salto e igual a probabilidade daquele valor ser assumido):

F (a) =

0, se a < 1;

1/4, se 1 ≤ a < 2;

3/4, se 2 ≤ a < 3;

7/8, se 3 ≤ a < 4;

1, se 4 ≤ a.

4.3 Valor esperado

Motivemos o conceito de esperanca a luz da maneira como as nocoes de Probabilidade foram introduzidasno seus primordios no Ocidente, em torno do seculo XVI, atraves de jogos de azar. Considere um jogo noqual n resultados distintos podem ser obtidos, e cada um desses resultados da um retorno de xi unidadesmonetarias ao jogador, para i = 1, . . . , n. Para participar de cada rodada do jogo, a mesa cobra Cunidades monetarias. E de interesse do jogador saber se a mesa esta levando vantagem em relacao a ele.Dessa forma, ele joga (ou simula, para nao perder dinheiro) esse jogo um numero N de vezes, e observaque cada resultado xi ocorre em uma proporcao p(xi) das jogadas. Ou seja, o resultado i ocorre emp(xi)N vezes, aproximadamente. A quantidade

n∑i=1

xipiN −NC = N

(n∑i=1

xipi − C

)

representa aproximadamente o lucro do jogador apos jogar o jogo N vezes, pois o retorno de xi unidadesmonetarias acontece em aproximadamente p(xi)N jogadas. Dessa forma, essa quantidade sendo positiva,a longo prazo a mesa esta perdendo dinheiro, enquanto que se for negativa, a longo prazo o jogador saiperdendo. O jogo e honesto somente quando tal quantidade e zero.

Notemos a importancia da quantidade

n∑i=1

xip(xi)N discutida acima. Nessa discussao, ela significava

aproximadamente quanto que a mesa da ao jogador apos N repeticoes do jogo. Fazendo N = 1, temos

que

n∑i=1

xip(xi) representa aproximadamente quanto que a mesa da ao jogador em um unico jogo. E

razoavel chamarmos essa quantidade de retorno esperado do jogo.Note que muito provavelmente essa quantidade exata nao sera paga em uma unica jogada do jogo,

pois nao ha nada que garanta que ela coincida com algum dos valores de xi, para i = 1, . . . , n. Dessaforma, e mais razoavel pensarmos nessa quantidade a longo prazo: ao jogarmos o jogo N vezes, aofazermos a media aritmetica dos retornos obtidos em casa realizacao do jogo, esperamos que tal valor

seja aproximadamente igual a

n∑i=1

xip(xi).

Dessa forma, dada uma variavel aleatoria discreta X qualquer, definimos o seu valor esperado, mediaou esperanca como

E[X] =∑xi

xip(xi).

Exemplo. Seja X a variavel aleatoria que codifica o numero observado em um lancamento de dadohonesto, Temos que X assume os valores 1, 2, 3, 4, 5 e 6, com respectivas probabilidades igual a 1/6, demodo que

E[X] = 1

(1

6

)+ 2

(1

6

)+ 3

(1

6

)+ 4

(1

6

)+ 5

(1

6

)+ 6

(1

6

)=

7

2= 3, 5.

33

Page 34: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Note que o valor 3,5 jamais sera observado em um lancamento de um dado!

Exemplo (Maximizando ganhos). Um competidor em um jogo de perguntas e respostas recebe duasquestoes, 1 e 3, as quais tentara responder na ordem que preferir. Se ele decidir tentar a questao iprimeiro, entao ele podera passar a questao j somente se a sua resposta para a questao i estiver correta.Se a sua resposta inicial estiver incorreta, ele nao podera responder a outra questao. O competidorrecebera Vi reais se responder a questao i corretamente, para i = 1, 2. Se a probabilidade de que ele saibaresponder a questao i e igual a pi, para i = 1, 2, que questao ele deveria tentar responder primeiro deforma a maximizar seu premio esperado?

Resolucao. Suponha que ele tente responder a questao 1 primeiro. Entao ele ganhara:

0, com probabilidade 1− p1;

V1, com probabilidade p1(1− p2);

V1 + V2, com probabilidade p1p2.

Dessa firma, o premio esperado nesse caso e dado por

V1p1(1− p2) + (V1 + V2)p1p2.

Por outro lado, se ele tentar responder a questao 2 primeiro, seu premio esperado sera

V2p2(1− p1) + (V1 + V2)p1p2.

Portanto, e melhor tentar responder a questao 1 primeiro se

V1p1(1− p2) + (V1 + V2)p1p2 ≥ V2p2(1− p1) + (V1 + V2)p1p2,

ou equivalentemente,V1p1

1− p1≥ V2p2

1− p2.

Colocando valores numericos, se p1 = 0, 6, V1 = 200, p2 = 0, 8 e V2 = 100, entao ele deve tentar respondera questao 2 primeiro, pois o lado esquerdo da desigualdade acima e 300 e o lado direito e 400.

34

Page 35: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Falar da interpretacao fısica de esperanca, como centro de massa.

4.4 Esperanca de uma funcao de uma variavel aleatoria

Suponha que tenhamos uma variavel aleatoria X de interesse e temos acesso a sua fp, porem queremoscalcular nao o valor esperado de X, mas sim de uma funcao de tal variavel aleatoria, digamos g(X)(DESENHO PARA ILUSTRAR). Uma maneira de fazer isso e notar que g(X) e tambem uma variavelaleatoria discreta, com a sua propria funcao de probabilidade, e aı calculamos o seu valor esperado apartir da definicao.

Exemplo. Seja X uma variavel aleatoria que assume os valores −1, 0 e 1 com probabilidades 0, 2, 0, 5 e0, 3, respectivamente, e seja Y = X2. Calcule E[Y ].

Resolucao. Note que Y assume os valores 0 e 1, com probabilidades

P(Y = 0) = P(X = 0) = 0, 5

P(Y = 1) = P(X = −1) + P(X = 1) = 0, 2 + 0, 3 = 0, 5.

Dessa forma, temos queE[Y ] = 0 · (0, 5) + 1 · (0, 5) = 0, 5.

Observacao. ATENCAO! E importante notar que em geral E[g(X)] 6= g(E[X]). Em particular no exemploacima, temos que

0, 5 = E[Y ] = E[X2] 6= E[X]2 = (−1 · (0, 2) + 0 · (0, 5) + 1 · (0, 3))2 = 0, 01.

Porem, obter a fp de g(X) pode ser nao-trivial em alguns casos, ou ate impossıvel! Notemos que a vag(X) assume um determinado valor g(x) quando X assume o valor x, o que ocorrem com probabilidadeP(X = x). Portanto, e razoavel imaginar que poderıamos calcular E[g(X)] ponderando os valores de g(x)por probabilidades com respeito a X. De fato, temos o seguinte resultado:

Teorema (Lei do estatıstico preguicoso). Seja X uma variavel aleatoria que assume os valores x1, x2, . . .com probabilidades p(x1), p(x2), . . . , respectivamente. Entao para qualquer funcao real g, vale que

E[g(X)] =∑i

g(xi)p(xi).

Antes de prova-lo verifiquemos que se aplica ao exemplo anterior. (Conta simples, fazer em sala)

Demonstracao. Considere o termo∑i g(xi)p(xi), e vamos agrupar todos os valores que tenham os mesmos

valores de g(xi). Mais especificamente, suponha que yj , para j ≥ 0, represente os diferentes valores deg(xi), para i ≥ 0. Temos entao que:∑

i

g(xi)p(xi) =∑j

∑i:g(xi)=yj

g(xi)p(xi)

=∑j

∑i:g(xi)=yj

yjp(xi)

=∑j

yj∑

i:g(xi)=yj

p(xi)

=∑j

yjP(g(X) = yj)

= E[g(X)].

35

Page 36: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Exemplo. Um produto que e vendido sazonalmente resulta em um ganho lıquido de b reais para cadaunidade vendida e em uma perda lıquida de ` reais para cada unidade que nao tenha sido vendida nofinal da temporada. O numero de unidades do produto que e solicitada pelos clientes em uma loja dedepartamentos especıfica durante uma determinada temporada e uma variavel aleatoria discreta que temfp p(i), para i ≥ 0. Se a loja deve estocar esse produto com antecedencia, determine o numero de unidadesque a loja deveria estocar para maximizar seu lucro esperado.

Resolucao. SejaX o numero de unidades solicitadas pelos clientes, e seja s o numero de unidades estocadasde tal produto. Note que o lucro ao final da temporada depende tanto do valor de X quanto de s, daseguinte forma abaixo:

LX(s) =

{bX − (s−X)`, se X ≤ s;sb, se X > s.

O lucro esperado e entao dado por:

E[LX(s)] =∑i

Li(s)p(i)

=

s∑i=0

[bi− (s− i)`]p(i) +

∞∑i=s+1

sbp(i)

=

s∑i=0

[bi− (s− i)`]p(i) + sb

[1−

s∑i=0

p(i)

]

= (b+ `)

s∑i=0

ip(i)− s`s∑i=0

p(i) + sb

[1−

s∑i=0

p(i)

]

= (b+ `)

s∑i=0

ip(i)− (b+ `)s

s∑i=0

p(i) + sb

= sb+ (b+ `)

s∑i=0

(i− s)p(i).

Queremos o valor de s que maximize o lucro esperado. Para isso, vejamos o que acontece com essaexpressao quando trocamos s por s+ 1:

E[LX(s+ 1)] = (s+ 1)b+ (b+ `)

s∑i=0

[i− (s+ 1)]p(i)

= (s+ 1)b+ (b+ `)

s∑i=0

(i− s− 1)p(i).

Portanto, temos que:

E[LX(s+ 1)]− E[LX(s)] = b− (b+ `)

s∑i=0

p(i).

Assim, estocar s + 1 unidades sera melhor que estocar s unidades se a equacao acima for positiva, ouseja, se tivermos que

s∑i=0

p(i) <b

b+ `.

36

Page 37: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Note que o lado esquerdo acima aumenta com s e o lado direito mantem-se constante. Dessa forma, aquantidade otima de itens a ser estocado e o maior valor de s de modo que a desigualdade acima sejasatisfeita. O chamemos de s∗. Assim, teremos que

E[LX(0)] < . . .E[LX(s∗)] < E[LX(s∗ + 1)] > E[LX(s∗ + 2)] > . . .

Portanto, estocar s∗ + 1 itens e a estrategia que leva ao maior lucro esperado.

Uma consequencia da Lei do Estatıstico Preguicoso e a seguinte:

Teorema. Seja X uma variavel aleatoria e a, b constantes. Entao temos que E[aX + b] = aE[X] + b.Em outras palavras, o valor esperado e uma operacao linear.

Demonstracao. E bem simples:

E[aX + b] =∑

x:p(x)>0

(ax+ b)p(x)

= a∑

x:p(x)>0

xp(x) + b∑

x:p(x)>0

p(x)

= aE[X] + b.

Tambem chamamos E[X] de primeiro momento de X, e os valores E[Xn], para n ≥ 1 sao ditos osn-esimos momentos de X. Temos que eles sao calculados como

E[Xn] =∑

x:p(x)>0

xnp(x).

4.5 Variancia

A media e um resumo numerico de uma variavel aleatoria, informando sobre a sua tendencia central.Porem, nada sabemos sobre a sua dispersao. Por exemplo, considere as seguintes variaveis aleatorias:

X = 0 com probabilidade 1

Y =

{−1 com probabilidade 1/2

1 com probabilidade 1/2

Z =

{−100 com probabilidade 1/2

100 com probabilidade 1/2

Note que temos E[X] = E[Y ] = E[Z] = 0, porem obviamente a dispersao de Z e maior que a de Y que emaior que a de X! Definimos entao:

Definicao. Seja X uma variavel aleatoria com media µ. A sua variancia e definida como

V(X) = E[(X − µ)2]

.

Explicar porque essa definicao faz sentido!Podemos calcular a variancia alternativamente como

V(X) = E[X2]− E[X]2,

que usualmente fornece um calculo mais simples (deduzir em sala!).

37

Page 38: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Exemplo (Lancamento de dado honesto). Sabemos que E[X] = 7/2, e e facil verificar que E[X2] = 91/6.Dessa forma, temos que V(X) = 35/12.

Uma identidade util e que V(aX+b) = a2V(X). Verificar atraves da definicao de variancia, e explicaro significado disso.

Observar que a variancia e analoga ao momento de inercia.Outra quantidade importante tambem e o desvio padrao, definido como DP(X) =

√V(X). Sua

motivacao e para que DP(X) e X tenham a mesma unidade de medicao, e portanto serem grandezascomparaveis.

38

Page 39: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4.6 Variaveis aleatorias Bernoulli e Binomial

Suponha que um experimento pode resultar em sucesso ou fracasso com probabilidades p e 1 − p, res-pectivamente. Associe X = 1 se o resultado e um sucesso e X = 0 se e um fracasso. Temos entao queP(X = 0) = 1−p e P(X = 1) = p. Tal variavel aleatoria X e dita uma variavel aleatoria de Bernoulli comparametro p, em homenagem ao matematico suıco James Bernoulli. Denotamos isso como X ∼ Bern(p).Efacil verificar que E[X] = p e V(X) = p(1− p).

Suponha agora que realizamos n repeticoes independentes desse experimento, e seja Y a quantidadede sucessos obtidos. Queremos determinar P(Y = k), para k = 0, 1, . . . , n. E facil nos convencermos que

P(Y = k) =

(n

k

)pk(1− p)n−k, para k = 0, 1, . . . , n,

pois o termo pk(1−p)n−k representa a probabilidade de obtermos uma sequencia particular de k sucessose n−k fracassos, e

(nk

)e de quantas formas podemos ordenar esses resultados. Note que de fato a formula

acima caracteriza uma funcao de probabilidade:

n∑k=0

P(Y = k) =

n∑k=0

(n

k

)pk(1− p)n−k

= [p+ (1− p)]n

= 1,

pelo Teorema Binomial. Dizemos entao que Y e uma variavel aleatoria Binomial com parametros n e p,e denotamos Y ∼ Binom(n, p).

Exemplo. Em um jogo de azar, um jogador aposta em um numero de 1 a 6 e tres dados sao lancados.Se o numero apostado sair k vezes, para k = 1, 2, 3, entao o jogador ganha k unidades; se o numeroapostado nao sair em nenhum dos dados, entao o jogador perde 1 unidade. Esse jogo e justo para ojogador?

Resolucao. Supondo independencia entre o dados e que eles sao honestos, a quantidade de vezes que onumero escolhido cai e uma va binomial com parametros 3 e 1/6, chamando de Y essa va, temos queY ∼ Binom(3, 1/6). Denote por X o ganho do jogador no jogo. Temos entao que:

P(X = −1) = P(Y = 0) =

(3

0

)(1

6

)0(5

6

)3

=125

216

P(X = 1) = P(Y = 1) =

(3

1

)(1

6

)1(5

6

)2

=75

216

P(X = 2) = P(Y = 2) =

(3

2

)(1

6

)2(5

6

)1

=15

216

P(X = 3) = P(Y = 3) =

(3

3

)(1

6

)3(5

6

)0

=1

216.

Dessa forma, temos que

E[X] = −1× 125

216+ 1× 75

216+ 2× 15

216+ 3× 1

216= − 17

216,

ou seja, a longo prazo, o jogador perde 17 unidades a cada 216 jogos que jogar, de modo que o jogo naoe honesto para o jogador.

Exemplo (Nao feito em sala!). Um sistema de comunicacao e formado por n componentes, cada umdos quais ira funcionar, independentemente dos outros, com probabilidade p. O sistema total funciona

39

Page 40: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

de forma efetiva se pelo menos metade dos seus componentes tambem funcionar. Para que valores dep um sistema com 5 componentes tem maior probabilidade de funcionar corretamente do que um de 3componentes?

Resolucao. O numero de componentes em funcionamento e uma va binomial com parametros n e p. Seo sistema tem 5 componentes, a probabilidade dele funcionar e(

5

3

)p3(1− p)2 +

(5

4

)p4(1− p) + p5,

enquanto que a probabilidade correspondente para um sistema de 3 componentes e(3

2

)p2(1− p) + p3.

Portanto, o sistema de 5 componentes e melhor se

10p3(1− p)2 + 5p4(1− p) + p5 > 3p2(1− p) + p3,

que se simplifica para3(p− 1)2(2p− 1) > 0,

o que ocorre se e somente se p > 1/2.

Vamos examinar agora algumas propriedades da va binomial com parametros n e p. Primeiramente,calculemos os seus momentos:

Teorema. Seja X ∼ Binom(n, p). Entao vale que E[Xk] = npE[(Y + 1)k−1], onde Y ∼ Binom(n− 1, p).

Demonstracao. Vamos usar a seguinte identidade: i

(n

i

)= n

(n− 1

i− 1

). Para verifica-la, compare ambos

os lados da igualdade e veja que de fato sao iguais. Temos entao que:

E[Xk] =

n∑i=0

ik(n

i

)pi(1− p)n−i

=

n∑i=1

ik−1i

(n

i

)pi(1− p)n−i

=n∑i=1

ik−1n

(n− 1

i− 1

)pi(1− p)n−i

= np

n∑i=1

ik−1(n− 1

i− 1

)pi−1(1− p)n−i

= np

n−1∑j=0

(j + 1)k−1(n− 1

j

)pj(1− p)n−1−j

= npE[(Y + 1)k−1],

onde ao trocar de i para j fizemos j = i− 1.

Dessa forma, fazendo k = 1, temos que E[X] = np, ou seja, o numero esperado de sucessos apos nrepeticoes do experimento e np. Fazendo k = 2, temos que

E[X2] = npE[Y + 1] = np[(n− 1)p+ 1],

40

Page 41: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

de modo que

V(X) = E[X2] = E[X]2

= np[(n− 1)p+ 1]− (np)2

= np(1− p).

Teorema. Se X ∼ Binom(n, p), entao a sua funcao de probabilidade cresce monotonicamente e depoisdecresce monotonicamente, atingindo o seu maior valor quando no maior inteiro menor ou igual a (n+1)p.

Demonstracao. Ver no livro!

• Sugerir leitura do Exemplo 6g, sobre as eleicoes americanas

• Sugerir download do aplicativo Probability Distributions, para visualizar fp’s e fpa’s

• Sugerir leitura da nota historica na pagina 180

4.7 A variavel aleatoria de Poisson

Exemplo. Em um estabelecimento, consumidores chegam a uma taxa de 4,5 consumidores por hora, emmedia. Fixado um perıodo de uma hora, qual e a distribuicao de probabilidade do numero de consumidoresque chagara a loja nesse intervalo de tempo?

Resolucao. Divida uma hora em 3.600 intervalos de 1 s, de modo que a taxa de chegada de consumidorespor segundo e de aproximadamente 4,5/3.600 = 0,00125. Suponha entao que em um intervalo particularde 1 s chega 0 ou 1 consumidor na loja, com probabilidade de 0,00125. Dessa forma, a distribuicao deinteresse parece ser uma binomial com parametros n = 3.600 e p = 0,00125. Ao tentar calcular a fp dessava, denotada por f(x), ve-se que o calculo e inviavel, devido aos grandes fatoriais envolvidos. Porem,nota-se que para valores sucessivos de x, o valor de f altera-se de modo sistematico, devido ao fato de nser grande e p ser pequeno. Facamos entao a seguinte comparacao:

f(x+ 1)

f(x)=

(nx+1

)px+1(1− p)n−x−1(nx

)px(1− p)n−x

=(n− x)p

(x+ 1)(1− p)

≈ np

x+ 1,

onde a aproximacao na ultima linha se da ao fato de que n− x ≈ n, para x moderado pois n e grande, e1− p ≈ p pois p e pequeno. Definindo λ = np, temos que f(x+ 1) ≈ f(x)λ/(x+ 1), ou seja,

f(1) = f(0)λ

f(2) = f(1)λ

2= f(0)

λ2

2

f(3) = f(2)λ

3= f(0)

λ3

3!...

Continuando, temos que f(x) = f(0)λx/x!, para x = 1, 2, . . . . Para encontrar f(0), lembremos que∑p(x) = 1, de modo que

f(0) =1∑∞

x=0 λx/x!

= eλ.

Dessa forma, temos que f(x) = e−λλx/x!, para x = 0, 1, 2, . . . .

41

Page 42: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

A formula acima e a funcao de probabilidade de uma variavel aleatoria de Poisson com parametro λ,denotada por Poisson(λ). Foi proposta em 1837 por Simeon Denis Poisson em um livro sobre aplicacaoda teoria da probabilidade a processos, julgamentos criminais, e similares. Pode ser usada para modelaros mais diversos fenomenos:

• Numero de erros de impressao em uma pagina (ou grupo de paginas) de um livro

• Numero de pessoas em uma comunidade que vivem mais de 100 anos

• Numero de numeros de telefone discados incorretamente em um dia

• Numero de clientes que entram em uma agencia dos correios em um dia

• Numero de partıculas descarregadas por um material radioativo em um perıodo de tempo fixo

• Numero de terremotos que ocorrem durante um intervalo de tempo fixo

• Numero de guerras por ano

• Numero de eletrons emitidos por um catodo aquecido durante um intervalo de tempo fixo

• Numero de mortes em um dado perıodo de tempo de segurados de uma companhia que vendeseguros de vida

Nos casos acima, o parametro λ > 0 representa a taxa media de ocorrencia do evento de interesse naunidade de tempo em questao. Nossa deducao acima implica que se n e grande e p e pequeno, entao adistribuicao Binom(n, p) e bem aproximada por Poisson(np).

Exemplo. Em uma populacao, a proporcao de pessoas com uma certa doenca e de 0,01. Determine aprobabilidade de que em um grupo de 200 pessoas pelo menos quatro tenham a doenca.

Resolucao. O numero de pessoas doentes na amostra e uma va X ∼ Binom(200, 0,01). Calcular P(X ≥4) = 1−P(X < 4) pode ser muito custoso. Aproxime X pela va Y ∼ Poisson(λ), onde λ = 200×0,01 = 2.Dessa forma, temos que

P(X ≥ 4) ≈ P(Y ≥ 4) = 0,1428.

O valor verdadeiro e igual a 0,1420, de modo que a aproximacao e boa.

Calculemos agora a media e a variancia de uma va de Poisson:

Teorema. Se X ∼ Poisson(λ), entao E[X] = λ e V(x) = λ.

Demonstracao. Temos que:

E[X] =

∞∑i=0

ie−λλi

i!

= λ

∞∑i=1

e−λλi−1

(i− 1)!

= λe−λ∞∑j=0

e−λλj

j!

= λ,

42

Page 43: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

onde fizemos j = i− 1, e usamos o fato que∑∞j=0 λ

j/j! = eλ. Para E[X2], temos que (tal conta nao foifeita em sala):

E[X2] =

∞∑i=0

i2e−λλi

i!

= λ

∞∑i=1

ie−λλi−1

(i− 1)!

= λ

∞∑j=0

(j + 1)e−λλj

j!

= λ

∞∑j=0

je−λλj

j!+

∞∑j=0

e−λλj

j!

= λ(λ+ 1),

onde novamente fizemos j = i− 1, e na ultima igualdade o primeiro termo e o valor esperado de uma vaPoisson com parametro λ e o segundo termo e a soma das probabilidades dessa va. Dessa forma, temosque

V(X) = E[X2]− E[X]2 = λ.

Exemplo. Suponha que ocorram em media 2 terremotos por semana na regiao oeste dos EUA.

a) Determine a probabilidade de que pelo menos 3 terremotos ocorram durante as proximas 2 semanas.

b) Determine a distribuicao de probabilidade do tempo, comecando de agora, ate a ocorrencia doproximo terremoto.

Resolucao. Temos que:

a) Seja λ = 2, a taxa media de ocorrencia de terremotos por semana. Como estamos interessados naocorrencia de terremotos em um perıodo de 2 semanas, devemos considerar uma distribuicao dePoisson com parametro 2λ. Seja X2 tal distribuicao. Temos entao que:

P(X ≥ 3) = 1− P(X ≤ 2)

= 1− (P(X = 0) + P(X = 1) + P(X = 2))

= 1− (e−4 − 4e−4 − 42

2e−4)

= 1− 13e−4

≈ 0,76.

b) Seja Y o tempo, em semanas, ate que ocorra o proximo terremoto. Note que Y e maior que t se esomente se nenhum terremoto ocorrer nas proximas t semanas. Temos entao que

P(Y > t) = P(Xt = 0) = e−λt,

onde a va Xt representa a quantidade de terremotos ocorridas em t semanas, e tem distribuicao dePoisson com parametro λt. Assim, a va Y tem funcao de probabilidade acumulada dada por

F (t) = P(Y ≤ t) = 1− P(Y > t) = 1− e−λt = 1− e−2t.

43

Page 44: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4.8 Variavel aleatoria geometrica

Suponha que tentativas independentes sao realizadas, cada uma com probabilidade p de sucesso, ate queocorra um sucesso. Seja X o numero de tentativas necessarias. Entao temos que

P(X = n) = (1− p)n−1p, para n = 1, 2, . . . ,

pois devemos ter que as n− 1 primeiras tentativas resultem em fracasso e que a n-esima seja um sucesso.Denotamos por X ∼ Geo(p). De fato isso da uma fp, pois

∞∑n=1

P(X = n) = p

∞∑n=1

(1− p)n−1 =p

1− (1− p)= 1,

onde usamos o fato que∑∞n=0 ar

n = a/(1− r), se |r| < 1.

Teorema. Se X ∼ Geo(p), entao E[X] = 1/p e V(X) = (1− p)/p2.

Demonstracao. Para o valor esperado, temos que:

E[X] =

∞∑n=1

np(1− p)n−1

= p∞∑n=1

n(1− p)n−1

= p

∞∑n=1

− d

dp(1− p)n

= −p ddp

∞∑n=1

(1− p)n

= −p ddp

(1− p

1− (1− p)

)= −p d

dp

(1− pp

)=

1

p,

onde usamos o fato que∑∞n=1 x

n = x/(1− x), se |x| < 1.Para a variancia, calcula-se E[X2] por um argumento parecido, e conclui-se que V(X) = (1−p)/p2.

Por exemplo, ao rolar-se um dado, devemos esperar em media 6 jogadas para obtermos um 5. Vejamosoutro exemplo.

Exemplo. Uma urna contem N bolas brancas e M bolas pretas. Retira-se bolas, com reposicao, ateobtermos uma bola preta. Qual a probabilidade de...

a) ...precisamos de exatamente k retiradas?

b) ...precisamos de pelo menos k retiradas?

Resolucao. Seja X o numero de bolas retiradas ate obtermos uma preta. Entao X tem distribuicaogeometrica com parametro p = M/(M +N). Temos entao que:

a) P(X = k) = p(1− p)k−1 =M

M +N

(N

M +N

)k−1.

44

Page 45: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

b) Temos que:

P(X ≥ k) =M

M +N

∞∑n=k

(N

M +N

)n−1=

(M

M +N

)(N

M +N

)k−1/[1− N

M +N

]

=

(N

M +N

)k−1,

onde usamos o fato que∑∞k=m ax

k = axm/(1− x), se |x| < 1.

O item b) do exemplo anterior pode ser generalizado como P(X ≥ k) = (1− p)k−1, e tal resultado eintuitivo: o evento {X ≥ k} representa pelo menos k repeticoes ate o primeiro sucesso, e isso ocorre se esomente se as primeiras k − 1 repeticoes sao fracassos, o que ocorre com probabilidade (1− p)k−1.

4.9 Variavel aleatoria binomial negativa

Suponha agora que queremos contar o numero de repeticoes independentes necessarias ate a obtencao der sucessos no experimento, onde a probabilidade individual de obter sucesso e um numero 0 < p < 1.Chamando tal va de X, temos que:

P(X = n) =

(n− 1

r − 1

)pr(1− p)n−r, para n = r, r + 1, . . . .

Tal equacao significa que para que o r-esimo sucesso ocorra na n-esima tentativa, devemos ter r − 1sucessos nas n − 1 tentativas anteriores, e a n-esima tentativa necessariamente deve ser um sucesso. A

probabilidade do primeiro evento e

(n− 1

r − 1

)pr−1(1 − p)n−r, e a probabilidade do segundo e p. Pela

independencia, multiplicamos os resultados. Tal va e dita uma variavel aleatoria binomial negativa deparametros r e p, e denotamos como X ∼ NegBin(r, p).

Podemos mostrar que E[X] = r/p e V(X) = r(1− p)/p2, e e claro que a distribuicao geometrica e ocaso particular onde temos r = 1.

Exemplo. Um matematico que fuma cachimbos sempre carrega consigo duas caixas de fosforos – umano seu bolso esquerdo e a outra no seu bolso direito. Cada vez que precisa de um fosforo, ele o retira deum bolso ou de outro com mesma probabilidade. Considere o momento em que o matematico descobreque uma de suas caixas de fosforo esta vazia. Se se supoe que ambas as caixas de fosforos continhaminicialmente N fosforos, qual e a probabilidade de que existam exatamente k fosforos, k = 0, 1, 2, . . . , N ,na outra caixa?

Resolucao. Seja E o evento em que o matematico descobre que a caixa de fosforos do bolso direito estavazia e que existem k fosforos na caixa do bolso esquerdo naquele exato momento. Agora, este eventoocorrera se e somente se a (N+1)-esima escolha da caixa do bolso direito for feita na (N+1+N−k)-esimatentativa. Portanto, podemos considerar que retirar um fosforo do bolso direito e um sucesso (p = 1/2),queremos que ocorram N + 1 sucessos (r = N + 1) em um numero n = 2N − k+ 1 de tentativas. Assim,estamos interessados na probabilidade de uma va binomial negativa com os parametros r e p acima serigual a n, ou seja,

P(E) =

(2N − kN

)(1

2

)2N−k+1

.

Como ha uma mesma probabilidade de que a caixa esquerda se esvazie primeiro e ainda restem k fosforosna caixa do bolso direito, temos que o numero desejado e

2P(E) =

(2N − kN

)(1

2

)2N−k

.

45

Page 46: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4.10 Variavel aleatoria hipergeometrica

Suponha que uma amostra de tamanho n seja escolhida aleatoriamente, sem reposicao, de uma urnacontendo N bolas, das quais m sao brancas e N − m sao pretas. Se X representa o numero de bolasbrancas selecionadas, entao

P(X = i) =

(mi

)(N−mn−i

)(Nn

) , para i = 0, 1, . . . , n.

Note que P(X = i) = 0, a menos que i satisfaca n − (N − m) ≤ i ≤ min(n,m) (a primeira desigual-dade quer dizer que devemos perguntar no mınimo pela menor quantidade possıvel de bolas brancassorteadas, e a segunda que devemos perguntar no maximo pela quantidade total de bolas brancas oupela quantidade de bolas retiradas, o que for menor). Porem, convencionando-se que

(rk

)= 0 se k < 0

ou r < k, tal restricao nao se faz necessaria. Dizemos que X e uma variavel aleatoria hipergeometricade parametros n, N e m, e denotamos por X ∼ HiperGeo(n,N,m). Prova-se que E[X] = nm/N e

V(X) =nm

N

[(n− 1)(m− 1)

N − 1+ 1− nm

N

].

Exemplo. Um comprador de componentes eletricos os compra em lotes de 10. E sua polıtica inspecionar 3componentes de um lote aleatoriamente e aceitar o lote se todos os 3 itens inspecionados nao apresentaremdefeito. Se 30% dos lotes tem 4 componentes defeituosos e 70% tem apenas 1 componente defeituoso, queproporcao de lotes e rejeitada pelo comprador?

Resolucao. Seja A o evento no qual o comprador aceita o lote. Entao temos que:

P(A) = P(A|lote tenha 4 itens com defeito)3

10+ P(A|lote tenha 1 item com defeito)

7

10

=

(40

)(63

)(103

) 3

10+

(10

)(93

)(103

) 7

10

=54

100.

Portanto, 46% dos lotes serao rejeitados.

Repare que se m e N sao grandes em relacao a n, entao aparentemente pouco importa se o procedi-mento e realizado com ou sem reposicao, de modo que imaginamos que nesse caso, uma va hipergeometricacom parametros n, N e m e aproximadamente uma va binomial com parametros n e p = m/N . De fato,chamando de X tal va hipergeometrica, temos que (ver conta no Ross, pag. 202). Um indıcio disso e que,

denotando m/N por p, temos que E[X] = np e V(X) =N − nN − 1

np(1− p), que se N e grande em relacao

a n, podemos dizer que V(X) ≈ np(1− p).

46

Page 47: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

4.11 Valor esperado de soma de variaveis aleatorias

Um dos resultados mais importantes em Teoria de Probabilidades e que E[X+Y ] = E[X]+E[Y ], ou seja,o valor esperado e uma operacao linear. Provar tal resultado em um contexto geral exige ferramentasque ainda nao temos (Capıtulo 6), mas por ora podemos provar tal resultado quando o espaco amostralsubjacente S e finito ou infinito enumeravel. Alem disso, a prova e instrutiva e da intuicoes relevantespara cursos posteriores.

Lembremos que uma variavel aleatoria X definida em um espaco amostral S e uma funcao X : S → R.Portanto, para s ∈ S, seja X(s) o valor numerico associado ao resultado do experimento em questao,denotado por s. Sendo agora X e Y variaveis aleatorias definidas no mesmo espaco amostral, temos queZ = X+Y tambem e uma variavel aleatoria, e temos que Z(s) = X(s) +Y (s). (Considere, por exemplo,lancar uma moeda honesta cinco vezes, e seja X a quantidade da caras nos tres primeiros lancamentos eY a quantidade de caras nos dois ultimos lancamentos).

Denote por p(s) a probabilidade do resultado s ser observado, ou seja, p(s) = P({s}). Como estamossupondo que S e finito ou infinito enumeravel, podemos escrever que

P(A) =∑s∈A

p(s).

Seja agora X uma variavel aleatoria e considere E[X]. Como X(s) e o valor de X quando s e oresultado do experimento, parece intuitivo que E[X] – a media ponderada dos valores possıveis de X,com cada valor sendo ponderado pela probabilidade de que X assuma aquele valor – deva ser igual amedia ponderada dos valores X(s), para s ∈ S, com X(s) ponderado pela probabilidade de que s seja oresultado do experimento. Provemos tal resultado.

Teorema. Vale que E[X] =∑s∈S X(s)p(s).

Demonstracao. Suponha que X assume os valores xi, para i ≥ 1, e para cada i seja Si o evento em queX e igual a xi, ou seja, Si = {s ∈ S|X(s) = xi}. Entao temos que:

E[X] =∑i

xiP(X = xi)

=∑i

xiP(Si)

=∑i

xi∑s∈Si

p(s)

=∑i

∑s∈Si

xip(s)

=∑i

∑s∈Si

X(s)p(s)

=∑s∈S

X(s)p(s),

onde a ultima igualdade segue do fato de S1, S2, . . . , formarem uma particao do espaco amostral S.

Agora, podemos provar o resultado sobre valor esperado de soma de variaveis aleatorias.

Corolario. Para variaveis aleatorias X1, X2, . . . , Xn, vale que:

E

[n∑i=1

Xi

]=

n∑i=1

E[Xi].

47

Page 48: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Demonstracao. Seja Z = X1 +X2 + · · ·+Xn. Temos entao que:

E[Z] =∑s∈S

Z(s)p(s)

=∑s∈S

(X1(s) +X2(s) + · · ·+Xn(s))p(s)

=∑s∈S

X1(s)p(s) +∑s∈S

X2(s)p(s) + · · ·+∑s∈S

Xn(s)p(s)

= E[X1] + E[X2] + · · ·+ E[Xn].

Exemplo. Determine o numero esperado de sucessos que resultam de n tentativas quanto a tentativa item probabilidade de sucesso pi, para i = 1, . . . , n.

Resolucao. Seja X a variavel aleatoria que conta a quantidade de sucessos em n tentativas. Fazendo

Xi =

{1, se a tentativa i e um sucesso

0, se a tentativa i e um fracasso,

temos que X =∑ni=1Xi. Consequentemente,

E[X] =

n∑i=1

E[Xi] =

n∑i=1

pi.

Observe que esse resultado NAO requer independencia entre as variaveis aleatorias! Temos os seguin-tes casos especiais:

• Binomial: Aqui as tentativas sao todas independentes e todas a probabilidades pi sao iguais aomesmo valor p, de modo que recuperamos o fato do valor esperado da Binomial de parametros n ep ser igual a np.

• Hipergeometrica: Lembremos que a variavel aleatoria hipergeometrica de parametros n, N e mrepresenta o numero de bolas brancas selecionadas de uma urna contendo N bolas, das quais m saobrancas e N−m sao pretas, e retiramos n bolas sem reposicao. Supondo que um sucesso na i-esimatentativa representa a remocao de uma bola branca, temos que a hipergeometrica tambem admitea representacao acima, onde cada pi e igual a m/N . Como estamos realizando o experimento nvezes, temos que a quantidade esperada de bolas brancas e igual a nm/N , resultado ja provadoanteriormente. Note que agora as repeticoes nao sao independentes!

Para casa: Ler exemplo 9e, pagina 208. Encontrar variancias usando esse metodo.

4.12 Propriedades da funcao de probabilidade acumulada

Lembremos que se X e uma va, entao denotamos a sua fpa por F (x) = P(X ≤ x). Temos aqui algumaspropriedades de F :

Teorema. Se F e fpa de alguma va X, entao vale que:

1) F e uma funcao nao-decrescente, ou seja, se x < y, entao F (x) ≤ F (y)

2) limx→−∞

F (x) = 0

48

Page 49: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

3) limx→+∞

F (x) = 1

4) F e contınua a direita, ou seja, para qualquer x e qualquer sequencia decrescente xn, n ≥ 1, queconvirja para x, vale que lim

n→+∞F (xn) = F (x).

Atraves da fpa podemos obter qualquer informacao sobre X. Ja vimos que P(a < X ≤ b) = F (b) −F (a), se a < b. E facil nos convencermos tambem de que P(X < b) = limx→b F (x). Note que NAO everdade que P(X < b) e igual a F (b), pois no segundo incluımos a possibilidade de termos X igual a b.

Fazer exemplo 10a, Ross, pag. 211.

49

Page 50: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

5 Capıtulo 5 - Variaveis Aleatorias Contınuas

5.1 Introducao

Variaveis aleatorias discretas somente dao casos de problemas de contagem. Problemas de medicao maisgeral necessitam de uma nova classe de variaveis aleatorias para serem tratados. Por exemplo, o tempo devida de um componente eletrico ou a altura de uma pessoa nao sao bem descritos por variaveis aleatoriasdiscretas. Introduzimos aqui um novo tipo, as variaveis aleatorias contınuas.

Definicao. Dizemos que X e uma variavel aleatoria contınua se existe uma funcao f : R → R tal quef(x) ≥ 0 e

P(X ∈ B) =

∫B

f(x) dx,

para todo sub-conjunto B ⊂ R. A funcao f e dita a funcao densidade de probabilidade, abreviada porfdp, da variavel aleatoria X.

Observacao. E importante notar que a fdp NAO mede probabilidade, ao contrario da fp de uma vadiscreta! Voltaremos a esse topico mais vezes.

Com essa definicao, e claro que 1 = P(X ∈ (−∞,+∞)) =

∫ +∞

−∞f(x) dx, pois X necessariamente

deve assumir algum valor! E imediato tambem que P(a ≤ X ≤ b) =

∫ b

a

f(x) dx. Porem, note que ao

fazermos a = b acima, temos que P(X = a) =

∫ a

a

f(x) dx = 0! Portanto, a probabilidade de uma variavel

aleatoria contınua assumir qualquer valor em particular e sempre zero! (Falar um pouco mais sobre issoem sala; falar da interpretacao de probabilidade como area; explicar isso desse ponto de vista e de quetemos muitos numeros reais, de modo a ser impossıvel atribuir probabilidades individuais).

Dessa forma, temos que

P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) =

∫ b

a

f(x) dx,

e vale tambem que

F (y) = P(X ≤ y) = P(X < y) =

∫ y

−∞f(x) dx.

Exemplo. Seja X uma variavel aleatoria cuja fdp e dada por

f(x) =

{C(4x− 2x2), para 0 < x < 2;

0, caso contrario.

a) Qual o valor de C?

b) Determine P (X < 1).

Resolucao. a) Devemos ter que

∫ +∞

−∞f(x) dx = 1, ou seja,

1 =

∫ +∞

−∞f(x) dx

=

∫ 2

0

C(4x− 2x2) dx

= C

[2x2 − 2x3

3

]20

= C8

3,

50

Page 51: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

de modo que C = 3/8.

b) P(X > 1) =

∫ ∞1

f(x) dx =

∫ 2

1

3

8(4x− 2x2) dx =

1

2.

Exemplo. O tempo de vida, em horas, de uma valvula de radio e uma variavel aleatoria com funcaodensidade de probabilidade dada por

f(x) =

{0, se x ≤ 100100x2 , se x > 100.

Qual e a probabilidade de que exatamente 2 de 5 valvulas no circuito de um aparelho de radio tenhamque ser trocadas nas primeiras 150 horas de operacao? Suponha que os eventos Ei, para i = 1, . . . , 5, emque a i-esima valvula tem que ser substituıda dentro deste intervalo de tempo sejam independentes.

Resolucao. Temos que P(Ei) =

∫ 150

0

f(x) dx = 100

∫ 150

100

x−2 dx =1

3. Portanto, pela independencia, a

probabilidade desejada e

(5

2

)(1

3

)2(2

3

)3

=80

243.

Temos uma relacao interessante entre a fpa e a fdp de uma va contınua. Lembremos que a fpa e

definida como F (x) =

∫ x

−∞f(y) dy. Dessa forma, derivando a equacao dos dois lados, pelo Teorema

Fundamental do Calculo, temos que F ′(x) = f(x)− f(−∞) = f(x).Apresentamos agora uma interpretacao interessante da fdp. Suponha que ε e pequeno e que f seja

contınua em torno de a ∈ R. Temos entao que:

P(a− ε

2≤ X ≤ a+

ε

2

)=

∫ a+ε/2

a−ε/2f(x) dx ≈ εf(a).

Dessa forma, a probabilidade de que X esteja em um intervalo de comprimento ε em torno de um valor ae de aproximadamente εf(a). Assim, temos que o valor f(a) esta relacionado com quao provavel e X deestar em torno de a, porem lembremos que tal valor NAO mede probabilidade diretamente! E um errocomum achar que f(a) = P(X = a), mas sabemos que o segundo sempre e zero!

5.2 Esperanca e variancia de variaveis aleatorias contınuas

Lembremos que para uma va discreta Y definimos E[Y ] =∑y

yP(Y = y). Seja agora X uma va contınua,

com fdp f . Lembremos que X tem probabilidade nula de assumir valores pontuais, mas temos que

P(x ≤ X ≤ x+ dx) ≈ f(x) dx,

se dx e suficientemente pequeno. Dessa forma, parece fazer sentido tentar definir, em analogia ao casodiscreto, E[X] como

∑x

xP(x ≤ X ≤ x+ dx) =∑x

xf(x) dx ≈∫ +∞

−∞xf(x) dx.

De fato,

Definicao. Se X e uma va contınua com fdp f , definimos entao E[X] =

∫ +∞

−∞xf(x) dx.

51

Page 52: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Exemplo. Determine E[X] quando a fdp de X e dada por

f(x) =

{2x, se 0 ≤ x ≤ 1

0, caso contrario.

Resolucao. E[X] =

∫ +∞

−∞xf(x) dx =

∫ 1

0

2x2 dx =2

3.

Exemplo. A fdp de X e dada por

fX(x) =

{1, se 0 ≤ x ≤ 1

0, caso contrario.

Calcule E[eX ].

Resolucao. Seja Y = eX . A princıpio, devemos encontrar fY , a fdp de Y , para entao calcular a suaesperanca. Denote por FY a fpa de y e por FX a fpa de X. Note que, como X assume valores entre 0 e1, entao Y assume valores entre 1 e e. Temos entao que, para 1 ≤ y ≤ e:

FY (y) = P(Y ≤ y)

= P(eX ≤ y)

= P(X ≤ ln(y))

=

∫ ln(y)

1

fX(x) dx

= ln(y).

Assim, temos que fY (y) = F ′Y (y) = 1/y, para 1 ≤ y ≤ e. Dessa forma concluımos que

E[eX ] = E[Y ] =

∫ e

1

yfY (y) dy = e− 1.

Da mesma forma que com va’s discretas, podemos pular essa etapa de encontrar a fdp de Y paraencontrar entao o seu valor esperado. De fato, temos o seguinte resultado:

Teorema (Lei do Estatıstico Preguicoso - caso contınuo). Se X e uma va contınua com fdp f , entaopara qualquer funcao real g vale que

E[g(X)] =

∫ +∞

−∞g(x)f(x) dx.

Aplicando ao exemplo anterior, temos que:

E[eX ] =

∫ 1

0

ex dx = e− 1,

que certamente coincide com o resultado anteriormente obtido.

Exemplo. Uma vareta de comprimento 1 e dividida em um ponto U que e uniformemente distribuıdoao longo do intervalo (0, 1). Determine o comprimento esperado do pedaco que contem o ponto p, paraum valor 0 ≤ p ≤ 1 fixado.

52

Page 53: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. Seja Lp(U) o tamanho do pedaco que contem o ponto p. Note que (fazer figura para explicar)

Lp(U) =

{1− U, se U < p

U, se U > p.

Com isso, temos que

E[Lp(U)] =

∫ 1

0

Lp(u) du

=

∫ p

0

1− u du+

∫ 1

p

u du

=1

2+ p(1− p).

Notemos que p(1 − p) e maximo quando p = 1/2. Portanto, se quisessemos maximizar o comprimentoesperado do pedaco que contem p, devemos posiciona-lo precisamente no meio da vareta.

Sugerir leitura do exemplo 2d, pag. 239.Para variaveis aleatorias contınuas, tambem vale que E[aX + b] = aE[X] + b, e ainda definimos

V(X) = E[(X −µ)2], onde µ = E[X]. Vale tambem que V(X) = E[X2]−E[X]2, e pela Lei do Estatıstico

preguicoso, calculamos o primeiro termo como

∫ +∞

−∞x2f(x) dx. Vale tambem que V(aX + b) = a2V(X)

e tambem que E[X + Y ] = E[X] + E[Y ].

53

Page 54: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

5.3 Variavel aleatoria uniforme

Dizemos que X e uma variavel aleatoria uniforme no intervalo [a, b], abreviado por X ∼ Unif(a, b), se asua fdp e dada por

f(x) =

{1b−a , para a ≤ x ≤ b0, caso contrario.

Dessa forma, a sua fpa e dada por

F (x) =

0, para x < ax−ab−a , para a ≤ x < b

1, para a < x.

E facil nos convencermos que E[X] = (b+ a)/2, o ponto medio do intervalo [a, b] (analogia com centro demassa). Para calcularmos a sua variancia, notemos que

E[X2] =

∫ b

a

x21

b− adx =

b2 + ab+ a2

3,

e portanto

V(X) =(b− a)2

12.

5.4 Variavel aleatoria normal

Fixado um intervalo [a, b], e bastante intuitivo que a distribuicao contınua “mais aleatoria” em tal intervaloe a uniforme. Ela representa a nossa intuicao quando dizemos “um ponto e escolhido ao acaso no intervalo[a, b]”, ou seja, nao ha nenhuma preferencia por algum sub-conjunto particular. Agora, queremos nosperguntar qual e a distribuicao contınua “mais aleatoria” em todo R. Obviamente algo uniforme naopode ser, pois jamais integraria 1! Alem disso, a pergunta nao esta bem formulada. A quantidade quemede quao “aleatoria” e uma distribuicao de probabilidade chama-se entropia, e e definida como

H(X) = E[ln(f(X))] =

∫ +∞

−∞f(x) ln(f(x)) dx,

onde f e a fdp da va X. Queremos entao a fdp f que maximize tal quantidade. Formulada dessa forma,a pergunta esta incompleta. Para que haja unicidade na resposta, devemos fixar E[X] = µ e V(X) = σ2.Assim, pode se provar (usando ferramentas de Calculo das Variacoes) que a distribuicao desejada tem aseguinte fdp:

f(x) =1√

2πσ2e−(x−µ)

2/σ2

, para −∞ < x <∞.

Tal distribuicao e dita normal ou Gaussiana de media µ e variancia σ2, abreviado por X ∼ N(µ, σ2).Notas historicas e comentarios:

• Introduzida pela primeira vez por Abraham DeMoivre, em 1733, ao obter aproximacoes para bino-miais com n grande (Teorema Central do Limite, veremos no Capıtulo 8).

• Gauss a deduziu novamente, em 1809, para modelar erros de medicao em Astronomia e prever alocalizacao de entidades astronomicas (problema de Estatıstica).

• Modela muitos conjuntos de dados, de modo que, em meados do seculo XIX passou-se a achar“normal” dados terem essa distribuicao, daı o seu nome. Uma explicacao para isso e o TeoremaCentral do Limite.

• Sugerir leitura das notas historias no Ross, na secao 5.4.

54

Page 55: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

• Dificuldade de fazer contas analiticamente com a Gaussiana, por e−x2

nao ter primitiva em termosde funcoes elementares. Mas mesmo assim, usando artifıcios de Calculo III, podemos mostrar que∫ +∞

−∞e−x

2

dx =√π.

E importante notarmos que translacoes e reescalas de uma va Gaussiana ainda resultam em uma vaGaussiana. Mais precisamente, se X ∼ N(µ, σ2) e Y = aX + b, entao Y ∼ N(aµ + b, a2σ2). Paraprovarmos isso, calculemos a fpa de Y :

FY (y) = P(Y ≤ y)

= P(aX + b ≤ y)

= P(X ≤ y − b

a

)= FX

(y − ba

).

Portanto, para encontrar a fdp de Y derivamos FY :

fY (y) = F ′Y (y)

=d

dyFX

(y − ba

)= fX

(y − ba

)1

a

=1

a

1√2πσ2

e−((y−b)/a−µ)2/σ2

=1√

2πσ2a2e−(y−(aµ+b))

2/(a2σ2),

que e a fdp de uma Gaussiana de media aµ+ b e variancia a2σ2.Como consequencia disso, temos que Z = (X−µ)/σ tem distribuicao Gaussiana de media 0 e variancia

1, dita a distribuicao normal padrao. Para fazermos contas, temos tabelas de probabilidades de taldistribuicao, que contem valores numericos para a sua fpa, comumente denotada por Φ:

Φ(z) =

∫ z

−∞

1√2πe−x

2/2 dx.

A tabela contem somente valores positivos de z, pois pela simetria, temos que Φ(−z) = 1− Φ(z).

Teorema. Se X ∼ N(µ, σ2) entao E[X] = µ e V(X) = σ2.

Demonstracao. Considerar Z ∼ N(0, 1) e provar que E[Z] = 0, por substituicao simples. Analogamente,

V(Z) = E[Z2] = 1, integrando por partes com u = x e v′ = xe−x2/2. Dessa forma, X = σZ +µ, de modo

que o resultado desejado segue.

Fazer exemplo 4b (pagina 248) do Ross.

55

Page 56: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

5.4.1 Teorema Limite de DeMoivre-Laplace

Um importante resultado em Teoria de Probabilidades, conhecido como o Teorema Limite de DeMoivre-Laplace, diz que, quando n e grande, uma variavel aleatoria binomial com parametros n e p tem aproxi-madamente a mesma distribuicao que uma variavel aleatoria normal com media e variancia iguais aquelasda distribuicao binomial. Esse resultado foi provado originalmente por DeMoivre em 1733 para o casoespecial em que p = 1/2 e foi depois estendido por Laplace em 1812 para o caso de p qualquer. O teo-rema diz formalmente que se “padronizarmos” a distribuicao binomial primeiramente subtraindo destadistribuicao sua media np e entao dividindo o resultado por seu desvio padrao

√np(1− p), entao a fpa

dessa variavel aleatoria padronizada (que tem media 0 e variancia 1) convergira para a fpa da normalpadrao, a medida que n→∞. Mais precisamente,

Teorema (Teorema Limite de DeMoivre-Laplace). Se Sn representa a quantidade de sucessos que ocor-rem quando n tentativas independentes, cada uma com probabilidade p de sucesso, sao realizadas, entaopara a < b vale que

P

(a ≤ Sn − np√

np(1− p)≤ b

)→ Φ(b)− Φ(a),

quando n→∞.

O provaremos em um contexto mais geral no Capıtulo 8. Note que agora a Binomial pode seraproximada de duas formas distintas: por uma Poisson de parametro λ = np quando n e grande e p epequeno; e por uma Normal, que se pode mostrar ser uma boa aproximacao quando np(1− p) e grande(≥ 10 e suficiente). Isso nos da um indıcio de que a Poisson tambem pode ser aproximada por umaNormal. Voltaremos mais a frente nisso.

Exemplos:

• 4f, pag. 252

• 4h, pag. 253 (X ∼ Binom(100, 1/2), representando que cada uma das 100 pessoas tem probabilidade1/2 de estar abaixo do seu nıvel atual de colesterol apos a dieta)

5.5 Variavel aleatoria exponencial

Seja Y1 ∼ Poisson(λ). Para fixar as ideias, suponha que Y e a quantidade de partıculas emitidas porum material radioativo em 1s, onde λ e a quantidade media de partıculas radioativas emitidas em 1s.Suponha que uma partıcula foi emitida nesse exato instante, e seja X o tempo, em segundos, ate quea proxima partıcula seja emitida. Note que X e uma variavel aleatoria contınua, que so pode assumirvalores positivos. Para calcularmos P(X > x), notemos que nos proximos x segundos, nenhuma emissaopode ocorrer. Denote por Yx ∼ Poisson(λx) a quantidade de partıculas emitidas em x segundos. Assim,os eventos {X > x} e {Yx = 0} sao equivalentes, de modo que

P(X > x) = P(Yx = 0) = e−λx.

Portanto, a fpa de X e dada por

FX(x) = P(X ≤ x) = 1− P(X > x) = 1− e−λx, para x ≥ 0,

e podemos obter a sua fdp derivando:

fX(x) = F ′X(x) =

{λe−λx, para x ≥ 0

0, para x < 0.

Essa e dita a variavel aleatoria exponencial de parametro λ, fato denotado por X ∼ Exp(λ). Ela modela,dentre outros fenomenos, tempo entre ocorrencia de dois eventos, cuja quantidade e modelada por umaPoisson. Veremos outras aplicacoes mais a frente.

56

Page 57: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Intuitivamente temos que E[X] = 1/λ, pois se λ e a taxa media de ocorrencia do evento de interesse,entao ocorrem em media λ eventos por unidade de tempo, de modo que a quantidade de tempo entredois eventos consecutivos em media sera 1/λ. Provemos tal fato.

E[X] =

∫ ∞0

xλe−λx dx

= −xe−λx∣∣x=∞x=0

+

∫ ∞0

e−λx dx

=1

λ

∫ ∞0

λe−λx dx

=1

λ.

Analogamente, prova-se que V(X) = 1/λ2.

57

Page 58: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

A variavel aleatoria exponencial satisfaz a seguinte equacao

P(X > s+ t|X > t) = P(X > s), para todos s, t > 0,

dita a propriedade da perda de memoria. Se pensarmos em X como sendo o tempo de vida util de alguminstrumento, a equacao acima diz que a probabilidade do instrumento durar por pelo menos s+ t horas,dado que ele tenha durado t horas, e igual a probabilidade inicial de que ele dure por pelo menos s horas.Em outras palavras, se o instrumento tem a idade t, a distribuicao da quantidade de tempo restante queele durara e igual a distribuicao original de seu tempo de vida util (em outras palavras, e como se oinstrumento nao se “lembrasse” de que ja tenha sido usado por um tempo t). Tal equacao e equivalentea

P(X > s+ t;X > t)

P(X > t)=

P(X > s+ t)

P(X > t)= P(X > s) ⇐⇒ P(X > s+ t) = P(X > s)P(X > t).

• Provar a perda de memoria atraves dessa ultima equacao.

• Comentar que a exponencial e a unica distribuicao contınua que tem perda de memoria, e ageometrica e a unica discreta.

• Fazer Ex. 5d, pag. 259

5.5.1 Funcoes taxa de risco

Seja X uma va contınua, que interpretamos como sendo a vida util de algum item, e denote por FX efX a fpa e fdp de X, respectivamente. A funcao taxa de risco de X e definida como

λX(t) =fX(t)

1− FX(t).

Para interpretar λX , suponha que o item tenha existido por um tempo t e queremos saber a probabilidadede que ele dure por um tempo adicional dt. Ou seja, queremos calcular P(X ∈ (t, t + dt)|X > t), dadapor

P(X ∈ (t, t+ dt)|X > t) =P(X ∈ (t, t+ dt);X > t)

P(X > t)

=P(X ∈ (t, t+ dt))

P(X > t)

≈ FX(t)

1− FX(t)

= λX(t)dt.

Assim, λX(t) esta associada a probabilidade condicional de que um item com idade de t unidades apresentedefeito.

Se X e uma va exponencial de parametro b, pela perda de memoria, intuitivamente, deverıamos terque a sua funcao taxa de falha e constante. De fato, isso se comprova notando-se que

λX(t) =fX(t)

1− FX(t)

=be−bt

e−bt

= b.

A funcao taxa de falhas determina unicamente a distribuicao. De fato, note que, por definicao

λX(t) =fX(t)

1− FX(t)=

F ′X(t)

1− FX(t).

58

Page 59: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Integrando ambos os lados de 0 ate s, temos que

ln(1− FX(t)) = −∫ s

0

λX(t) dt+ k.

Tomando exponencial de ambos os lados, temos que

1− FX(t) = eke−∫ s0λX(t) dt.

Fazendo t = 0 temos que k = 0, pois a va X e sempre positiva. Dessa forma, temos que

FX(t) = 1− e−∫ s0λX(t) dt.

Dessa forma, a distribuicao da va X pode ser obtida especificando-se somente a sua funcao taxa de risco.Por exemplo, se a funcao taxa de risco e cada por λX(t) = a+ bt, entao a sua fpa e dada por

FX(t) = 1− e−at−bt2/2,

que derivando nos da

fX(t) = (a+ bt)e−(at+bt2/2), para t ≥ 0.

Quando a = 0, a fdp anterior e dita a funcao densidade de Rayleigh.Fazer Ex. 5f, pag. 262

59

Page 60: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

5.6 A variavel aleatoria de Cauchy

Suponha que uma caneta laser seja girada em torno do seu centro, que esta localizado a uma unidadede distancia do eixo x. Considere o ponto X no qual o laser intercepta o eixo x, no instante em que acaneta para de girar. Se o laser nao estiver apontando para o eixo x, repita o experimento. Note que oponto X e determinado pelo angulo θ entre a caneta e o eixo y, que esta uniformemente distribuıdo entre−π/2 e π/2. A fpa de X e dada por:

FX(x) = P(X ≤ x)

= P(tan(θ) ≤ x)

= P(θ ≤ arctan(x))

=1

2+

1

πarctan(x).

Note que, como θ ∈ (−π/2, π/2), temos que x pode ser qualquer numero real. Dessa forma, temos que

fX(x) = F ′X(x) =1

π(1 + x2), para −∞ < x < +∞.

Para ver como se calcula a derivada de arctan(x), veja a nota de rodape da pagina 267 do Ross. Essa e a fdpde uma variavel aleatoria de Cauchy. Tal distribuicao aparece em aplicacoes fısicas, como espectroscopiae hidrodinamica. Porem, ela tem o inconveniente de nao ter media definida! Fazer essa conta.

5.7 A distribuicao de uma funcao de uma variavel aleatoria

Se temos X uma va e definimos Y = g(X), a lei do estatıstico preguicoso nos ensina como calcular E[Y ]sem precisar da distribuicao de Y . Porem, se quisermos calcular de fato probabilidades de acordo comY , precisamos de sua distribuicao. Veremos duas maneiras de encontrar a distribuicao de Y a partir deX. Vamos nos fixar no caso contınuo, pois o discreto e mais trivial.

Explicar melhor a nocao de funcao de va atraves de um desenho.

Exemplo. Seja X uma va contınua e seja Y = X2. Encontremos a distribuicao de Y .

Resolucao. Primeiro, queremos encontrar a fpa de Y :

FX(y) = P(Y ≤ y)

= P(X2 ≤ y)

= P(−√y ≤ X ≤ √y)

= FX(√y)− FX(−√y).

Se X assume valores no intervalo (a, b), entao Y assume valores no intervalo (a2, b2), de modo que aexpressao acima e valida para y em tal intervalo. Portanto, para encontrarmos a fdp de Y derivamos asua fpa, para y ∈ (a2, b2):

fY (y) = F ′Y (y)

= fX(√y)

1

2√y

+ fX(−√y)1

2√y

=1

2√y

[fX(√y) + fX(−√y)].

60

Page 61: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Dessa forma, se no exemplo acima tivermos que X ∼ Unif(−1, 1), entao a fdp de Y e dada por

fY (y) =1

2√y, para 0 < y < 1.

Note que a fdp de Y nao e limitada perto de zero. Ilustrar isso com um desenho tambem.Com hipoteses adicionais, pode ser mais facil encontrar a distribuicao de g(X) atraves do Teorema

abaixo:

Teorema. Seja X uma variavel aleatoria contınua com fdp fX . Suponha que g seja uma funcao es-tritamente crescente ou estritamente decrescente e derivavel. Entao a variavel aleatoria Y definida porY = g(X) tem fdp dada por

fY (y) =

{fX(g−1(y))

∣∣∣ ddy g−1(y)∣∣∣ , se y = g(x), para algum x,

0, caso contrario.

Demonstracao. Para prova-lo, suponha que y = g(x), para algum x, e suponha tambem que g e crescente.Entao, com Y = g(X), temos que:

FY (y) = P(Y ≤ y)

= P(g(X) ≤ y)

= P(X ≤ g−1(y))

= FX(g−1(y)).

Derivando, temos que

fY (y) = fX(g−1(y))d

dyg−1(y),

que esta de acordo com o Teorema, pois supomos g crescente. O caso decrescente e analogo.

Ilustrar o Teorema com um desenho.

Exemplo. Um modelo popular para populacoes de organismos microscopicos em grandes ambientes e omodelo exponencial. No tempo 0, suponha que v organismos sao introduzidos em um grande tanque deagua, e seja X a sua taxa de crescimento. Apos um tempo t, predizemos uma populacao de tamanhoveXt. Assuma que X e uma va contınua, com fdp dada por

fX(x) =

{3(1− x)2, para 0 < x < 1

0, caso contrario.

Estamos interessados na distribuicao de Y = veXt, para valores conhecidos de v e t. Em particular, tomev = 10 e t = 5.

Resolucao. Nesse caso, a funcao g em questao e g(x) = 10e5x, e queremos a distribuicao de Y = g(X) =10e5X . Como X assume valores entre 0 e 1 e g e estritamente crescente, temos que Y assume valoreentre 10 e 10e5. A inversa de g e dada por g−1(y) = ln(y/10)/5, de modo que sua derivada e dada pord

dyg−1(y) = 1/5y. Dessa forma, pelo Teorema, temos que

fY (y) =

{3(1−ln(y/10)/5)2

5y , para 10 < y < 10e5

0, caso contrario.

61

Page 62: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6 Capıtulo 6 - Variaveis Aleatorias Conjuntamente Distribuıdas

6.1 FPA conjunta

Sejam X e Y variaveis aleatorias. Se quisermos informacoes probabilısticas sobre ambas conjuntamente,e razoavel considerarmos a sua fpa conjunta, dada por

F (x, y) = P(X ≤ x;Y ≤ y), para −∞ < x, y,<∞.

Tudo o que desejarmos saber sobre as variaveis aleatorias X e Y conjuntamente pode ser extraıdo da suafpa conjunta. Por exemplo, (fazer desenho e provar a relacao)

P(x1 < X ≤ x2; y1 < Y ≤ y2) = F (x2, y2) + F (x1, y1)− F (x1, y2)− F (x2, y1),

se x1 < x2 e y1 < y2. A partir da fpa conjunta tambem podemos recuperar as fpa individuais de X e Y ,ditas as fpa marginais:

FX(x) = P(X ≤ x)

= P(X ≤ x;Y <∞)

= P(

limy→∞

{X ≤ x;Y ≤ y})

= limy→∞

P (X ≤ x;Y ≤ y)

= limy→∞

F (x, y).

Analogamente, vale que FY (y) = limx→∞ F (x, y). Vejamos um exemplo:

Exemplo. Suponha que X e Y tomam valores no intervalo [0, 2], e que a sua fpa conjunta e dada por

F (x, y) =1

16xy(x+ y),

para valores de x e y em [0, 2]. Determine as suas fpa e fdp marginais.

Resolucao. Ver exemplo 3.4.14 na pagina 127 do deGroot & Schervish.

6.2 Variaveis aleatorias conjuntas discretas

Se X e Y sao discretas, entao dizemos que o par (X,Y ) e conjuntamente discreto. Nesse caso, conseguimosdefinir a sua funcao de probabilidade conjunta como

f(x, y) = P(X = x;Y = y),

e obtermos facilmente as suas funcoes de probabilidade marginais como

fX(x) = P(X = x) =∑y

f(x, y)

fY (y) = P(Y = y) =∑x

f(x, y).

• Ilustrar fp conjunta e obtencao de fp marginais com desenho.

• Fazer exemplo 1b, pag. 286, do Ross.

62

Page 63: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6.3 Variaveis aleatorias conjuntas contınuas

Dizemos que X e Y sao conjuntamente contınuo se existir uma funcao f(x, y) tal que, para todo sub-conjunto C do plano, vale que

P{(X,Y ) ∈ C} =

∫∫C

f(x, y) dxdy.

A funcao f e dita a funcao densidade de probabilidade conjunta de X e Y . Se A e B sao conjuntos denumeros reais, entao temos que

P(X ∈ A;Y ∈ B) =

∫B

∫A

f(x, y) dxdy.

Note que podemos obter a fpa conjunta de X e Y como

F (x, y) = P(X ≤ x;Y ≤ y)

∫ y

−∞

∫ x

−∞f(s, t) dsdt.

Pelo Teorema Fundamental do Calculo, temos que a fdp conjunta de X e Y e dada por

f(x, y) =∂2

∂x∂yF (x, y).

Exemplo. Refazer o exemplo 3.4.14, pag. 127, do deGroot & Schervish usando esse fato.

Finalmente, podemos obter as funcoes densidade de probabilidade marginais de X e Y a partir da fpaconjunta da seguinte forma:

P(X ∈ A) = P(X ∈ A;Y ∈ (−∞,+∞))

=

∫A

∫ +∞

−∞f(x, y) dxdy

=

∫A

fX(x) dx,

onde fX(x) =

∫ +∞

−∞f(x, y) dy. Similarmente, temos que fY (y) =

∫ +∞

−∞f(x, y) dx.

Exemplo. A fdp conjunta de X e Y e dada por

f(x, y) =

{2e−xe−2y, para 0 < x, y <∞0, caso contrario.

Calcule:

a) P(X > 1, Y < 1).

b) A fpa conjunta de X e Y .

c) P(X < a).

d) As fdp marginais de X e Y .

Resolucao. Fazer em sala.

63

Page 64: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6.4 Caso geral: n variaveis aleatorias conjuntas

Podemos considerar o caso geral de n variaveis aleatorias conjuntas, X1, . . . Xn, dito um vetor aleatorion-dimensional. Definimos a sua fpa como

F (x1, . . . , xn) = P(X1 ≤ x1, . . . , Xn ≤ xn),

e as definicoes de fdp ou fp conjunta e fdp ou fp marginais sao identicas ao caso bivariado.

6.5 Variaveis aleatorias independentes.

Dizemos que as va’s X e Y sao independentes se, para quaisquer conjuntos de numeros reais A e B temosque

P(X ∈ A;Y ∈ B) = P(X ∈ A)P(Y ∈ B).

Pode se mostrar que essa definicao e equivalente a podermos fatorar a fpa conjunta de X e Y como

F (x, y) = FX(x)FY (y).

No caso particular de X e Y serem conjuntamente discretas, e equivalente a fatorarmos a sua fp conjuntacomo

f(x, y) = P(X = x;Y = y) = P(X = x)P(Y = y), para todos x, y ∈ R

e no caso contınuo, a fatorarmos a sua fdp conjunta como

f(x, y) = fX(x)fY (y), para todos x, y ∈ R.

Em ambos os casos, podemos generalizar isso e fatorar a fp ou fdp como

f(x, y) = g(x)h(y), para todos x, y ∈ R,

onde g e h sao funcoes de x e y, respectivamente, nao necessariamente sendo as fp ou fdp marginais deX e Y .

A nocao de independencia, intuitivamente, diz que conhecer o valor que X (ou Y ) assume em nadainforma sobre o valor que Y (ou X) assume.

• Mostrar que as va’s do exemplo 1b, pag. 286, do Ross, nao sao independentes.

• Mostrar que as va’s cuja fdp conjunta e f(x, y) =

{2e−xe−2y, para 0 < x, y <∞0, caso contrario

sao indepen-

dentes.

• Mostrar que as va’s cuja fdp conjunta e f(x, y) =

{24xy, para x, y ≥ 0 e x+ y ≤ 1

0, caso contrarionao sao

independentes.

• Discutir se a partir das marginais e possıvel recuperar a conjunta.

O conceito de independencia pode ser generalizado para mais de duas va’s. Em geral, considereX1, . . . , Xn va’s. Dizemos que elas sao independentes se para quaisquer conjuntos de numeros reaisA1, . . . , An vale que

P(X1 ∈ A1, . . . , Xn ∈ An) =

n∏i=1

P(Xi ∈ Ai).

Valem todas as fatoracoes para fpa e fp ou fdp conjuntas.

64

Page 65: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6.6 Somas de variaveis aleatorias independentes

Muitas vezes queremos a distribuicao de X + Y a partir da distribuicao de X e Y , sob a hipotese deque X e Y sao independentes. Aqui enunciaremos somente alguns resultados mas nao os provaremos.Deixaremos isso para o Capıtulo 7, onde usaremos as funcoes geradoras de momentos para esse fim.

• Se X e Y tem distribuicao uniforme no intervalo [0, 1] e sao independentes, entao X + Y temdistribuicao cuja fdp e dada por

fX+Y (z) =

z, se 0 ≤ z ≤ 1

2− z, se 1 < z < 2

0, caso contrario.

Tal distribuicao e dita triangular.

• Se Xi ∼ N(µi, σ2i ) sao independentes, para i = 1, . . . , n, entao

n∑i=1

Xi ∼ N

(n∑i=1

µi,

n∑i=1

σ2i

).

• Se X e Y tem distribuicao de Poisson com parametros λ1 e λ2, respectivamente, e sao independentes,entao X + Y tem distribuicao de Poisson com parametro λ1 + λ2.

• Se X e Y tem distribuicao Binomial com parametros (n, p) e (m, p), respectivamente, e sao inde-pendentes, entao X + Y tem distribuicao Binomial com parametros (n+m, p).

Comentar da possıvel diferenca da distribuicao de 2X com X+Y , mesmo que X e Y tenham a mesmadistribuicao e sejam independentes. Enfatizar no caso particular da uniforme e Normal.

65

Page 66: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6.7 Distribuicoes condicionais: caso discreto

Considere o par aleatorio discreto (X,Y ), com fp conjunta denotada por p(x, y). Denote por pX e pYas respectivas fp marginais. Suponha que y denote o valor observado para Y . O que isso pode nosinformar sobre X? Qual a distribuicao condicional de X dado que observamos Y = y? Pela definicaoanteriormente vista, temos que

pX|Y (x|y) = P(X = x|Y = y)

=P(X = x;Y = y)

P(Y = y)

=p(x, y)

pY (y),

para todos os valores de y tais que pY (y) > 0. Similarmente, podemos ter a distribuicao condicional deY dado que X = x foi observado:

pY |X(y|x) = P(Y = y|X = x)

=P(X = x;Y = y)

P(X = x)

=p(x, y)

pX(x),

para todos os valores de x tais que pX(x) > 0.No caso particular em que X e Y sao independentes, temos, por exemplo,

pX|Y (x|y) = P(X = x|Y = y)

=P(X = x;Y = y)

P(Y = y)

=P(X = x)P(Y = y)

P(Y = y)

= P(X = x)

= pX(x),

corroborando a intuicao de que saber alguma informacao sobre Y em nada influencia em saber algo sobreX. Analogamente, vale que pY |X(y|x) = pY (y).

Exemplo. Suponha que a fp conjuna das va’s X e Y seja dada por

p(0, 0) = 0,4 p(0, 1) = 0,2 p(1, 0) = 0,1 p(1, 1) = 0,3.

Calcule a fp condicional de X dado que Y = 1.

Resolucao. Temos que:

• pY (1) =∑x

p(x, 1) = p(0, 1) + p(1, 1) = 0, 5

• pX|Y (0|1) =p(0, 1)

pY (1)=

2

5

• pX|Y (1|1) =p(1, 1)

pY (1)=

3

5

Exemplo. Se X e Y sao variaveis aleatorias de Poisson independentes com parametros λ1 e λ2, respec-tivamente, calcule a distribuicao condicional de X dado que X + Y = n.

Resolucao. Ver exemplo 4b, Ross, pag. 319.

66

Page 67: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

6.8 Distribuicoes condicionais: caso contınuo

Agora, sejam X e Y variaveis aleatorias conjuntamente contınuas, com fdp conjunta f e fdp marginais fXe fY , respectivamente. Se quisermos a distribuicao de X dado que y = y nao podemos mais considerara probabilidade P(Y = y), pois tal valor e zero, para todo y! Fazemos entao a seguinte definicao:

fX|Y (x|y) =f(x, y)

fY (y), para fY (y) > 0.

Para motivar, note que:

fX|Y (x|y) dx =f(x, y) dxdy

fY (y) dy

≈ P(x ≤ X ≤ x+ dx; y ≤ Y ≤ y + dy)

P(y ≤ Y ≤ y + dy)

= P(x ≤ X ≤ x+ dx|y ≤ Y ≤ y + dy),

de modo que fX|Y (x|y) de fato representa o que a nossa intuicao diz que deveria. Fazer desenho parailustrar! Se A ⊂ R, podemos calcular entao

P(X ∈ A|Y = y) =

∫A

fX|Y (x|y) dx,

e se A = (−∞, a], entao a fpa condicional de X dado que Y = y e definida por

FX|Y (a|y) = P(X ≤ a|Y = y)

∫ a

−∞fX|Y (x|y) dx.

Exemplo. Suponha que a fdp conjunta de X e Y seja dada por

f(x, y) =

{e−x/ye−y

y , para 0 < x, y <∞0, caso contrario.

Determine P(X > 1|Y = y).

Resolucao. Ross, ex. 5b, pag. 322.

No caso em que X e Y sao independentes, temos que

fX|Y (x|y) =f(x, y)

fY (y)=fX(x)fY (y)

fY (y)= fX(x).

67

Page 68: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

7 Capıtulo 7: Propriedades da Esperanca

7.1 Esperanca de funcoes de variaveis aleatorias

Temos a seguinte versao da Lei do Estatıstico Preguicoso:

Teorema. Seja g : R2 → R uma funcao de duas variaveis. Se X e Y sao conjuntamente discretas e temfp conjunta p(x, y), entao

E[g(X,Y )] =∑x,y

g(x, y)p(x, y).

Se x e Y sao conjuntamente contınuas e tem fdp conjunta f(x, y), entao

E[g(X,Y )] =

∫ +∞

−∞

∫ +∞

−∞g(x, y)f(x, y) dxdy.

Note que no caso particular em que g(x, y) = x+ y recuperamos o resultado ja conhecido:

E[X + Y ] =

∫ +∞

−∞

∫ +∞

−∞(x+ y)f(x, y) dxdy

=

∫ +∞

−∞

∫ +∞

−∞xf(x, y) dxdy +

∫ +∞

−∞

∫ +∞

−∞yf(x, y) dxdy

=

∫ +∞

−∞xfX(x) dx+

∫ +∞

−∞yfY (y) dy

= E[X] + E[Y ].

Tal resultado claramente se estende para n variaveis aleatorias:

E[X1 + . . . Xn] = E[X1] + · · ·+ E[Xn].

Exemplo. Um acidente ocorre em um ponto X uniformemente distribuıdo ao longo de uma estrada comextensao L. No momento do acidente, uma ambulancia esta no ponto Y , que tambem e uniformementedistribuıdo ao longo da estrada. Supondo que X e Y sejam independentes, determine a distancia esperadaentre a ambulancia e o local do acidente.

Resolucao. Ross, ex. 2a, pag. 357.

Ler Ross, ex. 2b e 2d, pags. 358 e 359.

Exemplo. Suponha que N pessoas joguem os seus chapeus no centro de uma sala. Os chapeus saomisturados e cada pessoa seleciona um deles aleatoriamente. A probabilidade de nenhuma pessoa pegar oproprio chapeu converge para 1/e ≈ 0,36788, quando N →∞. Determine o numero esperado de pessoasque selecionam o proprio chapeu.

Resolucao. Ross, ex. 2h, pag. 362.

Ler Ross, ex. 2o, pag. 370.

Exemplo. Um bosque com 52 arvores e arranjado de maneira circular. Se 15 esquilos vivem nessasarvores, mostre que existe um grupo de 7 arvores consecutivas que abrigam juntas pelo menos 3 esquilos.

Resolucao. Ross, ex. 2r, pag. 373.

68

Page 69: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

7.2 Covariancia e correlacao

Motivacao: medir grau de dependencia entre variaveis aleatorias. Comecemos com um resultado impor-tante:

Teorema. Se X e Y sao independentes, entao para quaisquer funcoes g e h vale que

E[g(X)h(Y )] = E[g(X)]E[h(Y )].

Demonstracao. Ross, prop. 4.1, pag. 384.

Definicao. A covariancia entre X e Y , denotada por Cov(X,Y ), e definida como

Cov(X,Y ) = E[(X − E[X])(Y − E[Y ])].

Fazer interpretacao do conceito (quanto X e Y estao acima e/ou abaixo da media conjuntamente);discutir problema de escala e unidade na qual e medida.

Expandindo o lado direito, temos a expressao alternativa

Cov(X,Y ) = E[XY ]− E[X]E[Y ].

Note que se X e Y sao independentes, entao Cov(X,Y ) = 0, porem a recıproca nao e verdadeira:

Exemplo. Seja X a variavel aleatoria que assume os valores 0, 1 e -1 com igual probabilidade, e

Y =

{0, se X 6= 0

1, se X = 0.

Claramente X e Y sao dependentes, mas Cov(X,Y ) = 0.

Resolucao. Ross, pag. 385.

Teorema. Algumas propriedades da covariancia sao:

i) Cov(X,Y ) = Cov(Y,X)

ii) Cov(X,X) = V(X)

iii) Cov(aX, Y ) = aCov(X,Y )

iv) Cov

n∑i=1

Xi,

m∑j=1

Yi

=

n∑i=1

m∑j=1

Cov(Xi, Yj).

Demonstracao. A afirmacao i) resulta da definicao; justificar ii) no quadro; iii) e iv) sao exercıcio.

E uma consequencia de ii) e iv) acima o seguinte fato:

V

(n∑i=1

Xi

)=

n∑i=1

V(Xi) + 2∑i<j

Cov(Xi, Xj).

Exemplo (deGroot & Schervish, exs. 4.6.1 e 4.6.2). Sejam X e Y as notas em provas orais e escritasde alunos de uma turma, respectivamente. A sua fdp conjunta e dada por

f(x, y) =

{2xy + 1/2, se 0 ≤ x, y ≤ 1

0, caso contrario.

Calcule a sua covariancia.

69

Page 70: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Resolucao. deGroot & Schervish, ex. 4.6.2, pag. 249.

Definicao. A correlacao entre X e Y , denotada por ρ(X,Y ) e definida como

ρ(X,Y ) =Cov(X,Y )√V(x)

√V(Y )

.

Teorema. Algumas propriedades da correlacao sao:

i) ρ(X,Y ) e uma quantidade adimensional

ii) −1 ≤ ρ(X,Y ) ≤ 1

iii) Se X e Y sao independentes, entao ρ(X,Y ) = 0

iv) |ρ(X,Y )| = 1 se e somente se existem constantes a 6= 0 e b ∈ R tais que Y = aX + b. Vale queρ(X,Y ) = 1 se e somente se a > 0; e ρ(X,Y ) = −1 se e somente se a < 0.

Explicar que mede somente correlacao linear (exemplo de X ∼ Unif(−1, 1) e Y = X2); correlacaoNAO implica causalidade.

Exemplo. No exemplo dos exames orais e escritos, calcule a correlacao.

Resolucao. deGroot & Schervish, ex. 4.6.3, pag. 251.

70

Page 71: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

7.3 Funcoes geradoras de momentos

Dada uma variavel aleatoria X, vimos que a sua fp ou fdp a caracterizam completamente, bem como asua fpa. Vejamos outra quantidade de interesse.

Definicao. Dada X uma variavel aleatoria, definimos a sua funcao geradora de momentos, abreviadapor fgm, como

ψX(t) = E[etX ].

Note que ψX(0) = E[e0] = 1, independente de quem seja a va X em questao. Para outros valores det 6= 0, pode ser que nao possamos calcular ψX(t).

Exemplo. Seja X ∼ Exp(λ). Calcule a sua fgm.

Resolucao. Temos que:

ψX(t) =

∫ ∞0

etxλe−λx dx = λ

∫ ∞0

e(t−λ)x dx.

Tal integral so e finita se t < λ, sendo nesse caso igual a ψX(t) =λ

λ− t.

A importancia das fgm vem do seguinte resultado:

Teorema. Seja X uma va tal que a sua fgm ψX(t) existe e e finita para valores de t em um pequenointervalo da forma (−ε, ε) em torno de zero. Entao para cada n > 0, o n-esimo momento de X existe, e

finito, e e dado por E[Xn] = ψ(n)X (0), a n-esima derivada de ψX calculada em zero.

Nao iremos provar tal resultado por ele fugir do contexto do curso, mas iremos nos convencer de suapropriedade de gerar momentos. Lembremos que podemos escrever

ex =

∞∑n=0

xn

n!= 1 + x+

x2

2!+x3

3!+ . . . .

Dessa forma, temos que

ψX(t) = E[etX ]

= E[1 +X +

(tX)2

2!+

(tX)3

3!+ . . .

]= 1 + E [X] + E

[(tX)2

2!

]+ E

[(tX)3

3!

]+ . . .

Dessa forma, derivando termo a termo, vale que:

ψ′X(t) = E[X] + E[

2tX2

2!

]+ E

[3t2X3

3!

]+ . . . ,

que quando calculado em zero nos da ψ′X(0) = E[X]. Analogamente, vale que:

ψ′′X(t) = E[

2X2

2!

]+ E

[6tX3

3!

]+ . . . ,

que quando calculado em zero nos da ψ′′X(0) = E[X2].

Exemplo. No exemplo da Exponencial acima, vemos facilmente que E[X] = 1. Podemos tambem calcularV(X) = ψ′′X(0)− ψ′X(0)2 = 1. Ver deGroot & Schervish, ex. 4.4.3, pag. 237.

71

Page 72: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Mostrar que para X va de Cauchy, entao ψX(t) so existe para t = 0.Alem disso, as fgm tem a propriedade de caracterizarem de modo unico a distribuicao de probabilidade

de uma va:

Teorema. Se as fgm’s de duas va’s X e Y sao finitas e coincidem para todos os valores de t ∈ (−ε, ε),entao X e Y tem a mesma distribuicao de probabilidade.

Finalmente, outro resultado util e o seguinte:

Teorema. Sejam X1, . . . , Xn va’s independentes, cujas respectivas fgm’s sao denotadas por ψ1, . . . , ψn.Seja Y = X1 + . . . Xn, cuja fgm denotamos por ψY . Entao, para cada valor de t onde cada ψi(t) e finita,vale que

ψY (t) =

n∏i=1

ψi(t).

Demonstracao. Ver deGroot & Schervish, Teo. 4.4.4, pag. 238.

Exemplo. Encontre a fgm de uma va de Bernoulli com parametro p.

Resolucao.ψX(t) = E[etX ] = etP(X = 1) + e0P(X = 0) = pet + 1− p, para t ∈ R.

Exemplo. Encontre a fgm de uma va Binomial com parametros n e p.

Resolucao. Se X ∼ Binom(n, p), entao podemos escrever X = X1 + · · · + Xn, onde cada Xi ∼ Bern(p),e sao independentes. Dessa forma, temos que

ψX(t) =

n∏i=1

(pet + 1− p) = (pet + 1− p)n, para t ∈ R.

Daı podemos tirar facilmente que E[X] = np, E[X2] = n(n− 1)p2 + np e V(X) = np(1− p).

Exemplo. Encontre a fgm de uma va de Poisson com parametro λ.

Resolucao. Ver Ross, ex. 7b, pag. 422.

Exemplo. Calcule a fgm de uma va Normal de parametros µ e σ2. Conclua que tais parametros sao,respectivamente, a media e a variancia.

Resolucao. Ver Ross, ex. 7d, pag. 423.

Podemos mostrar tambem que somas de binomiais, Poisson e normais independentes continuam namesma famılia, usando as fgm. Ver Ross, exs. 7f, 7g e 7h, pags. 426 e 427.

72

Page 73: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

8 Capıtulo 8 - Teoremas Limites

8.1 Algumas desigualdades importantes

Muitas vezes queremos calcular alguma probabilidade associada a alguma va, porem nem sempre temosacesso a distribuicao completa da va. Alem disso, muitas vezes o valor exato da probabilidade e umaexpressao pouco informativa, e de difıcil obtencao de um valor numerico. Nesses casos, podemos recorrer aalguma desigualdade para estimar a quantidade de interesse. Comecemos com a desigualdade de Markov,a mais fundamental de todas.

Teorema (Desigualdade de Markov). Se X e uma variavel aleatoria que assume apenas valores nao-negativos, entao para qualquer a > 0 vale que

P(X ≥ a) ≤ E[X]

a.

Demonstracao. Provemos no caso contınuo; no discreto, a prova e analoga. Seja fX(x) a fdp de X.Temos que:

E[X] =

∫ ∞0

xfX(x) dx

=

∫ a

0

xfX(x) dx+

∫ ∞a

xfX(x) dx

≥ 0 +

∫ ∞a

afX(x) dx

= aP(X ≥ a),

que reordenando, nos da que

P(X ≥ a) ≤ E[X]

a.

Como consequencia, temos:

Teorema (Desigualdade de Chebyshev). Se X e uma variavel aleatoria com media finita µ e varianciaσ2, entao, para qualquer valor k > 0 vale que

P(|X − µ| ≥ k) ≤ σ2

k2.

Demonstracao. Como (X − µ)2 e uma variavel aleatoria nao-negativa, podemos aplicar a desigualdadede Markov com a = k2 para obtermos

P((X − µ)2 ≥ k2) ≤ E[(X − µ)2]

k2.

Note que (X − µ)2 ≥ k2 se e somente se |X − µ| ≥ k, de modo que a equacao acima e equivalente a

P(|X − µ| ≥ k) ≤ E[(X − µ)2]

k2=σ2

k2.

Exemplo. Suponha que se saiba que o numero de itens produzidos por uma fabrica durante uma semanaseja uma variavel aleatoria com media 50.

73

Page 74: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

a) O que se pode dizer sobre a probabilidade de que a producao desta semana seja superior a 75 itens?

b) Se e sabido que a variancia da producao de uma semana e igual a 25, entao o que se pode dizersobre a probabilidade de que a producao desta semana esteja entre 40 e 60?

Resolucao. Seja X o numero de itens produzidos em uma semana.

a) Pela desigualdade de Markov, temos que:

P(X > 75) ≤ E[X]

75=

50

75=

2

3.

b) Pela desigualdade de Chebyshev, temos que:

P(|X − 50| ≥ 10) ≤ σ2

102=

25

100=

1

4,

de modo que

P(|X − 50| < 10) ≥ 1− 1

4=

3

4.

Note que a desigualdade de Chebyshev vale para qualquer variavel aleatoria X co media e varianciafinitas. Parece bom demais para ser verdade que a sua estimativa sempre esteja proxima do valorverdadeiro. De fato, temos o seguinte exemplo:

Exemplo. Se X ∼ Unif(0, 10), entao E[X] = 5 e V(X) = 25/3, de modo que, pela desigualdade deChebyshev, temos que

P(|X − 5| > 4) ≤ 25/3

42≈ 0,52.

Podemos calcular o valor exato, e verificamos que

P(|X − 5| > 4) = 0,20.

Entao, o limite dado pela desigualdade de Chebyshev e real, porem esta distante da probabilidade real.Similarmente, se X ∼ N(µ, σ2), entao a desigualdade de Chebyshev nos da que

P(|X − µ| > 2σ) ≤ σ2

4σ2=

1

4,

enquanto que a probabilidade real e dada por

P(|X − µ| > 2σ) = P(∣∣∣∣X − µσ

∣∣∣∣ > 2

)= 2[1− Φ(2)] ≈ 0,0456.

Exemplo. Um conjunto de 200 pessoas formadas por 100 homens e 100 mulheres e dividido aleatoria-mente em 100 pares. Forneca um limite superior para a probabilidade de que no maximo 30 desses paressejam formados por um homem e uma mulher.

Resolucao. Numere os homens arbitrariamente de 10 a 100, e para i = 1, 2, . . . , 100, defina

Xi =

{1, se o homem i forma um par com uma mulher

0, caso contrario.

74

Page 75: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

Dessa forma, se X e o numero de pares homem-mulher formados, podemos escrever X como

X =

100∑i=1

Xi.

Queremos estimar P(X ≤ 30), que independente de qual desigualdade usarmos, precisamos de E[X]. Noteque como o i-esimo homem tem a mesma probabilidade de formar um par com as demais 100 pessoas,das quais 100 sao mulheres, temos que

E[Xi] = P(Xi = 1) =100

199,

e portanto,

E[X] = E

[100∑i=1

Xi

]=

100∑i=1

E[Xi] = (100)100

199≈ 50,25.

Portanto, temos que

P(X ≤ 30) = P(X ≤ 50,25− 20,25) = P(X − 50,25 ≤ −20,25) ≤ P(|X − 50,25| ≥ 20,25) ≤ σ2

(20,25)2,

pela desigualdade de Chebyshev. Precisamos entao calcular σ2 = V(X). Note que as variaveis aleatoriasXi, para i = 1, 2, . . . , 100 nao sao independentes, de modo que

V(X) =

100∑i=1

V(Xi) + 2∑i<j

Cov(Xi, Xj) = 100V(Xi) + 2

(100

2

)(E[XiXj ]− E[Xi]E[Xj ]).

Temos entao que:

• V(Xi) = P(Xi = 1)(1− P(Xi = 1)) =100

199

99

199.

• Se i 6= j, temos que

E[XiXj ] = P(Xi = 1;Xj = 1)

= P(Xi = 1)P(Xj = 1|Xi = 1)

=100

199

99

197,

onde P(Xj = 1|Xi = 1) = 99/197 pois dado que o homem i forma um par com uma mulher,o homem k tem a mesma probabilidade de formar um par com qualquer uma das 197 pessoasrestantes, das quais 99 sao mulheres.

Voltando a formula da variancia, temos que:

V(X) = 100V(Xi) + 2

(100

2

)(E[XiXj ]− E[Xi]E[Xj ])

= 100100

199

99

199+ 2

(100

2

)[100

199

99

197−(

100

199

)2]

≈ 25,126.

Finalmente, voltando a desigualdade de Chebyshev, temos que

P(X ≤ 30) ≤ P(|X − 50,25| ≥ 20,25) ≤ σ2

(20,25)2=

25,126

(20,25)2≈ 0,061.

75

Page 76: C alculo das Probabilidades I - Notas de aula · C alculo das Probabilidades I - Notas de aula Hugo Carvalho 30 de Junho de 2018 Conteudo ... tic avel. Devemos estudar m ... A demonstra˘c~ao

8.2 O Teorema Central do Limite

Teorema. Seja X1, X2, . . . uma sequencia de variaveis aleatorias independentes e identicamente dis-tribuıdas, cada uma com media µ e variancia σ2. Entao, a distribuicao de

X1 + . . . Xn − nµσ√n

tende a distribuicao normal padrao quanto n→∞, ou seja, para a ∈ R vale que

P(X1 + . . . Xn − nµ

σ√n

≤ a)→ Φ(a),

quando n→∞.

• Ex. 3a, pag. 465, Ross

• Ex. 3b, pag. 468, Ross.

• Ex. 3e, pag. 470, Ross.

76