CAPÍTULO 8 Exercícios Resolvidos R8.1) Controle de · PDF fileLogo, esses são os valores de a e b que maximizam a função de verossimilhança L. Ou seja, e são os estimadores

CAPÍTULO 8

Exercícios Resolvidos

R8.1) Controle de Qualidade

Tem o selo do Inmetro?

Um fabricante de equipamentos eletrônicos vende resistores, em lotes de 500 unidades,

ao preço de 1500,00 u.m. o lote. O valor nominal da resistência elétrica desses

componentes é de 47 k e o seu custo de fabricação é de 2,00 u.m. a unidade. Admita

que o valor da resistência elétrica de um tal resistor na verdade se comporta como uma

variável aleatória com média e desvio padrão 1 k. Ocorre que os compradores

exigem que, antes de fechado um negócio, seja extraída do lote uma amostra aleatória

simples com n resistores, cujas resistências elétricas x1, x2, x3, ..., xn são medidas, e a

venda só se concretiza se

x 47 0,2 (em k).

Caso contrário, o lote é inutilizado.

(a) Que tamanho mínimo n da amostra o vendedor deve propor que seja utilizado, para

que o seu lucro esperado em cada lote seja de pelo menos 400,00 u.m., no caso de o seu

processo produtivo estar perfeitamente regulado, isto é, = 47k ?

(b) Usando o valor de n calculado em (a), qual o lucro esperado do vendedor em cada

lote, se = 46,9 k (ou seja, se há uma pequena desregulagem no processo)?

(c) E se = 46,8k?

Solução:

Lucro = Receita – Despesa, sendo que

contrário caso 0,

0,247x se 1500,Receita e Despesa = 10005002 .

Então

1000

n1

8,46

n1

2,4715001000$2,47x8,46P1500$)Lucro(E

(a) Se = 47, para que E(Lucro) $400, devemos ter

http://2.bp.blogspot.com/_1DQfDXh61bc/TD3O4Ee6wvI/AAAAAAAAAzA/ElEvUmK0BdE/s1600/Controle+de+qualidade.jpg

4001000 n0,2Φn0,2Φ 1500 .

Por outro lado, devido à simetria da curva Normal, temos

)a(1)a( , ou seja, 1)a(2)a()a( .

Então, 1500

10004001n2,02

, o que implica que o tamanho n da amostra

deve ser de pelo menos

2

1

30

295 84 resistores.

(b) Se = 46,9 e n = 84, então

.98,225$1000

841

9,468,46

841

9,462,471500)Lucro(E

(c) Se = 46,8 e n = 84, então

.19,250$1000

841

8,468,46

841

8,462,471500)Lucro(E

Ou seja, neste caso o nível da desregulagem já seria suficiente para gerar uma

expectativa de prejuízo.

R8.2) Gasto mensal das famílias com alimentação

Deseja-se estimar o gasto mensal médio com alimentação das famílias de uma

determinada cidade. O procedimento proposto consiste em entrevistar n = 100 famílias

e adotar a média aritmética X dos seus gastos mensais em alimentação como uma

estimativa do parâmetro de interesse. Consultando estatísticas de períodos anteriores,

verifica-se que o coeficiente de variação do gasto familiar mensal em alimentação nessa

cidade tem oscilado pouco ao longo do tempo em torno de 0,5. Assim sendo aqui ele

será considerado conhecido e igual a 0,5.

(a) Qual a probabilidade de que o erro relativo

X não exceda 5%?

(b) Calcule para que o erro relativo seja menor que com probabilidade 0,9.

(c) Qual ao menor valor de n necessário para que o erro relativo não exceda 5% com

probabilidade 0,9?

Obs.:

Neste problema você pode trabalhar como se a população da cidade fosse infinita.

Solução:

Sabemos que 0,5μ

σ , onde μ e σ são, respectivamente, a média e o desvio padrão

populacionais do consumo familiar mensal em alimentação.

Usando a aproximação dada pelo Teorema Central do Limite, temos:

μσ

nεZP

μσ

nε

nσ

μXPε

μ

μXPα1 .

Isso implica que

μσ

nεz

2α1

. (*)

(a) Substituindo em (*) os valores ε = 0,05 e n = 100, temos

15,0

10005,0

21

z , de onde se conclui que 68,01 .

Isso quer dizer que, se usarmos uma amostra com 100 famílias, há uma probabilidade

de 68% de que o erro relativo na estimativa do consumo médio mensal em alimentação

seja inferior a 5%.

(b) A partir da relação (*) deduz-se que n

μσz

ε 2α1

. Por outro lado:

90,01 implica que 64,12

1

z .

n = 100 e 0,5μ

σ

Logo 082,0100

5,064,1

ou 8,2%.

Novamente com uma amostra de 100 famílias, há uma probabilidade de 90% de que o

erro relativo na estimativa do consumo médio mensal em alimentação seja inferior a

8,2%.

(c) A partir da relação (*) obtemos também 2

22

2α1

ε

μσz

n

.

Substituindo nessa expressão 64,12

1

z e ε = 0,05, obtemos 269

05,0

5,064,1n

2

22

Logo, para que, com 90% de chance, o erro relativo de estimação seja menor que 5%,

temos que usar uma amostra com 269 famílias.

R8.3) Estabelecimentos hoteleiros nos municípios do Estado do Rio de

Janeiro

Queremos estimar o número médio µ de estabelecimentos hoteleiros por município do

Estado do Rio de Janeiro no ano de 2001, com base em uma amostra composta por 20

municípios.

Dois esquemas alternativos de amostragem devem ser comparados:

Esquema A:

Extrair da população de N = 98 municípios do Estado do RJ uma amostra aleatória com

n = 20 municípios e estimar µ pela média amostral do número de estabelecimentos

hoteleiros referente a esses 20 municípios. Então

Esquema B:

Aqui usaremos: o subscrito 1 para referência à sub-população dos N1 = 93 menores

municípios do estado; e o subscrito 2 para referência à sub-população dos N2 = 5

maiores municípios do estado (a julgar pela sua vocação hoteleira): Itatiaia, Búzios,

Parati, Angra dos Reis e Rio de Janeiro.

(a) Extrair uma amostra aleatória com n1 = 15 municípios entre os N1 = 93 menores

municípios do estado e estimar a média populacional µ1 pela média amostral do

número de estabelecimentos hoteleiros referente a esses 15 municípios.

(b) Apurar o número de estabelecimentos hoteleiros em cada um dos N2 = 5 maiores

municípios do estado. Calcular a média populacional µ2 do número de

estabelecimentos hoteleiros nesses 5 municípios. Neste caso obviamente não há erro

de estimação.

(c) Estimar µ a partir dos resultados em (a) e (b), usando como estimador

.

Sabe-se que:

A distribuição de freqüências do no de hotéis nos 93 menores municípios em 2001

era:

Número de hotéis Municípios

0 e 20 71

20 e 40 13

40 e 60 5

60 e 80 1

80 e 100 3

Total 93

O número de hotéis em cada um dos 5 “maiores” municípios em 2001 era o seguinte: Itatiaia 121

Armação dos Búzios 149

Angra dos Reis 160

Paraty 149

Rio de Janeiro 397

Qual dos dois esquemas amostrais é o mais preciso? Por que?

Solução:

Com base na tabela de freqüências aqui apresentada podemos obter aproximações

grosseiras para os parâmetros a seguir:

A média do número de hotéis entre os 93 menores municípios é

A variância do número de hotéis entre os 93 menores municípios é

A média do número de hotéis entre os 5 maiores municípios é

A variância do número de hotéis entre os 5 maiores municípios é

A média do número de hotéis entre todos os 98 municípios é

A variância do número de hotéis entre todos os 98 municípios é

2

Como ambos os estimadores

e

são não tendenciosos (Por que?), para compará-los

em termos de precisão, basta calcularmos suas variâncias.

Var(

) = 2

=

Por outro lado,

Concluímos, portanto, que o Esquema B é mais preciso que o Esquema A. Isto ocorre

porque a variabilidade do número de estabelecimentos hoteleiros é muito grande entre

os 5 maiores municípios do estado (Veja o valor de ). Assim, no Esquema B, ao

obrigar que todos esses 5 municípios estejam presentes entre os 20 considerados,

eliminamos do nosso processo de estimação uma fonte expressiva de variabilidade, o

que representa um ganho em termos de precisão.

R8.4) Proporções de casais com filhos gêmeos e com 2 ou mais filhos

Em uma determinada cidade é feita uma pesquisa demográfica em que se deseja estimar

a proporção P1 de casais com filhos gêmeos e a proporção P2 de casais com 2 ou mais

filhos. Acredita-se, com base em levantamentos anteriores, que 1% P1 5% e

35% P2 60%. Dimensione uma amostra aleatória simples que permita estimar

simultaneamente P1 e P2. As exigências em termos de precisão são de que:

no caso de P1, com probabilidade 0,95, o erro absoluto de estimação seja menor que

0,006, e,

no caso de P2, também com probabilidade 0,95, o erro absoluto de estimação seja

menor que 0,010.

Obs.: Para simplificar a solução, a população de casais dessa cidade será tratada como

se fosse infinita.

Solução:

Para resolver esse exercício, lembremo-nos do comportamento do produto p(1p), como

função de p: ele é igual a 0 para p = 0, cresce até atingir 0,25 quando p = 0,5, e depois

decresce novamente voltando a 0 quando p = 1.

No intervalo de variação correspondente a P1, a saber, entre 1% e 5%, essa função é

crescente. Por isso, se na expressão

)P1(P006,0

96,1n 11

2

1

,

substituirmos P1 por 0,05, aquele entre os seus valores possíveis que está mais próximo

de 0,5, obteremos o tamanho de amostra de 5069 casais, que garante o nível de precisão

especificado acima, para qualquer valor de P1 entre 1% e 5%.

No intervalo de variação correspondente a P2, a saber, entre 35% e 60%, essa função é

crescente até 50% quando atinge seu valor máximo e depois decresce. Por isso, se

substituirmos o valor P2 = 0,50 na expressão

)P1(P01,0

96,1n 22

2

2

, obteremos o tamanho de amostra de 9604 casais,

que garante o nível de precisão especificado acima, para qualquer valor de P2 entre 35%

e 60%.

Comparando os valores de n1 e n2, vemos que o tamanho de amostra de 9604 casais é

aquele que nos permite garantir o nível de precisão desejado em ambos os casos.

R8.5) Os EMV’s de a e b, no caso da Distribuição Uniforme[a,b]

Seja X1, X2,...,Xn uma amostra aleatória simples da distribuição Uniforme no

intervalo [a,b], onde a e b são constantes desconhecidas, tais que a < b.

Considere as v.a.’s:

Xmin = min(X1, X2,...,Xn) e Xmax = max(X1, X2,...,Xn).

Verifique que a = Xmin e b = Xmax são os estimadores de máxima verossimilhança

dos parâmetros a (limite mínimo) e b (limite máximo), respectivamente. E que,

portanto,

minmax XXΔ e 2

XXμ maxmin

são também os estimadores de máxima verossimilhança dos parâmetros

Δ = b – a (amplitude de variação) e μ = (a + b) / 2 (valor central), respectivamente.

Solução:

Já que a densidade de Xi é

, para cada i, a função de

verossimilhança pode ser escrita como

L(a,b) =

.

Nota: Observe que, na expressão acima,

É claro que o quociente

atinge o seu máximo quando o denominador é o

maior possível e isto ocorre para a = e b = . Logo, esses são os

valores de a e b que maximizam a função de verossimilhança L.

Ou seja, e são os estimadores de máxima verossimilhança de

a e b, respectivamente.

Conseqüentemente, com base na propriedade de invariância dos estimadores de máxima verossimilhança, podemos concluir que

Δ e 2

XXμ maxmin

são também estimadores de máxima verossimilhança de Δ e μ, respectivamente.

Exemplificando: No caso de uma amostra com n = 5 observações: 8, 9, 10, 11, 12 ,

teríamos = 12. O gráfico da função de verossimilhança seria então

o seguinte:

Vemos que a função de verossimilhança L(.,.):

é igual a

dentro do quadrante definido pelas desigualdades simultâneas a

e b

é nula quando o ponto (a,b) está fora desse quadrante.

R8.6) Distribuição Uniforme[a,b] – Propriedades dos estimadores (*) No Exercício anterior vimos que, dada uma amostra aleatória X1, X2,...,Xn da distribuição

Uniforme no intervalo [a,b], = Xmin e = Xmax são os estimadores de máxima

verossimilhança dos parâmetros a (limite mínimo) e b (limite máximo), respectivamente. Então, considerando cada um desses 4 parâmetros (a, b, Δ e μ) e seus respectivos estimadores

( a , b , Δ e μ ), o propósito aqui é responder às seguintes perguntas:

(a) O estimador é não tendencioso? (b) Qual o seu viés?

(c) Qual a sua variância?

(d) Qual o seu erro quadrático médio? É possível mostrar que as respostas são as seguintes:

Estimador Ñ tend.? Viés Variância EQM

a Não

b Não

Não

Sim 0

Note que, para grandes amostras, todos esses são bons estimadores, no sentido de que seus erros

quadráticos médios tendem a zero quando n cresce indefinidamente.

Esboce as linhas gerais dessas demonstrações.

Sugestão: Para determinar as funções de distribuição acumuladas de Xmin e de Xmax, lembre-se

que P(Xmax ≤ x) = P(Xi ≤ x, para todo i) e P(Xmin ≥ x) = P(Xi ≥ x, para todo i).

Por outro lado, para determinar a função de distribuição acumulada conjunta de Xmin e de Xmax,

verifique que:

P(Xmin x, Xmax ≤ y) = P(Xmax ≤ y) – P(Xmax ≤ y,Xmin >x).

Solução:

Consideraremos em mais detalhe somente a estimação do parâmetro b através de

b = Xmax. Se G é a função de distribuição acumulada de , então:

G(x) = P(Xmax x) = P(Xi ≤ x, para todo i) =

, se a x b,

(sendo G(x) = 0, se x < a e G(x) = 1, se x > b).

Conseqüentemente, se g é a função densidade de ,

g(x) =

, se a x b,

(sendo g(x) = 0, se x < a ou se x > b).

Daí,

Fazendo a mudança de variável x = a + (b–a) u, obtemos

. Logo,

(porque

e

).

Isso significa que é um estimador tendencioso de b e seu viés é B( ) =

.

Sabemos também que Var( ) = . Mas,

Fazendo novamente a mudança de variável x = a + (b–a) u, obtemos

(porque, além das duas integrais acima,

).

Var( ) =

Finalmente, EQM( ) = Var( ) + =

+

De maneira análoga, podemos provar que:

é um estimador tendencioso de a

B( ) =

Var( ) =

EQM( ) =

Para fazê-lo muitas vezes é útil usarmos as propriedades das funções Gama e Beta.

Quanto à estimação dos parâmetros Δ e μ, o único detalhe que vale a pena abordarmos,

já que ele foge ao padrão do raciocínio usado até aqui, é o seguinte: Para determinar as

variâncias de Δ e , precisamos também obter uma expressão para Cov( ). Esta, por

sua vez, decorre da função de distribuição acumulada conjunta Γ(.,.) de :

Γ(x,y) = P(Xmin x, Xmax ≤ y) = P(Xmax ≤ y) – P(Xmax ≤ y,Xmin >x) =

a partir da qual se obtem a densidade conjunta γ(.,.) de :

γ(x,y) =

Γ(x,y) =

.

Daí vem Cov( ) = =

“Minha mente se rebela diante da estagnação.

Dêem-me problemas, dêem-me trabalho, dêem-

me o criptograma mais abstruso, ou a análise

mais complicada, e eu estarei no meu próprio

ambiente. Mas eu abomino a rotina monótona

da existência. Eu imploro pela exaltação

mental.”

Arthur Conan Doyle, escritor

R8.7) Simulando a estimação dos parâmetros da Distribuição Uniforme

Gere, por simulação, m = 100 amostras independentes da distribuição Uniforme no

intervalo [a,b], sendo a = 8 e b = 17, cada uma delas contendo n = 20 observações.

(a) Para cada uma dessas m=100 amostras, obtenha as respectivas estimativas de a e b.

(b) Faça histogramas para e , usando as 100 estimativas obtidas de cada um dos

parâmetros a e b.

(c) Use as 100 estimativas de a para estimar o valor esperado, o viés, a variância e o

erro quadrático médio de . Faça o mesmo para .

(d) As conclusões obtidas confirmam o que os resultados teóricos do Exercício anterior

nos levariam a esperar?

Solução:

Cada uma dessas 100 amostras é um conjunto: x1, x2, ..., x20, onde xi = (1–ui) a + ui b, (*)

sendo as ui’s 20 observações geradas a partir da U[0;1].

(a) Para cada uma dessas amostras, = min xi e = max xi. Temos então:

100 observações de : 1 2 ... 100

100 observações de : 1 2 ... 100

(b) Usemos as 100 observações de para fazer um histograma de e

as 100 observações de para fazer um histograma de .

(c) A estimativa de E( é

= 8,34.

A estimativa de B( é E( – a = E( – 8= 0,34.

A estimativa de Var( é

= 0,1124.

A estimativa de EQM( é Var( + (B( 2

= 0,2279

Analogamente para :

E( ⇒ 16,56

B( ⇒ – 0,44

Var( ⇒ 0,1816

EQM( ) ⇒ 0,3783

(d) Calculando essas mesmas medidas através das expressões que foram demonstradas no Exercício anterior, obtemos:

= 0,4286

Var(

= 0,1670

EQM(

= 0,3506

= – 0,4286

Var(

= 0,1670

= 0,3506

Comparando os resultados obtidos por simulação com os seus correspondentes valores

teóricos, vemos que há uma coerência razoável entre eles.

R8.8) Movimento de partículas - Estimação de Densidade (*)

Seja X1,...,Xn uma amostra aleatória de um modelo probabilístico com densidade f,

que descreve o movimento de partículas de determinado tipo. Suponhamos que a

forma analítica dessa função f é desconhecida. Estamos, portanto, diante de um

problema não paramétrico. Dado um número real x, o estimador de Rosenblat do

valor f(x) dessa função de densidade f no ponto x é

, (I)

onde Δ > 0 é uma constante a ser especificada.

Mostre que, à medida que Δ decresce para zero:

a) o viés de estimação de também decresce para zero.

b) a variância de cresce indefinidamente.

c) É possível concluir de (a) e (b) que existe um Δ ótimo em termos da

minimização do erro quadrático médio de ?

Esclarecimento: Observe que na expressão acima foi usado um símbolo do tipo

IA(x) para representar o valor da função indicador de A no ponto x, ou seja,

Sendo assim, o somatório acima corresponde simplesmente ao número de

observações Xi pertencentes ao intervalo

.

Solução:

(a) A partir da expressão (I), que define o estimador , podemos deduzir que

.

Por outro lado, a v.a.

tem distribuição de Bernoulli(p), onde

p =

, e daí decorre que

.

Portanto,

.

,

onde F é a FDA comum às Xi’s.

Mas sabemos também que

.

Conseqüentemente,

, cqd.

(b)

.

Aplicando propriedades da variância, obtemos:

Por outro lado, como a v.a.

tem distribuição de Bernoulli(p),

onde p =

, temos

.

Então,

Ora, à medida que tende a zero,

e

, o que

acarreta que

.

(c) O item (a) sugere que à medida que Δ cresce, o viés do estimador também cresce.

Por outro lado, o item (b) sugere que à medida que Δ cresce, a variância do

estimador decresce. Portanto, os dois itens em conjunto nos levam a crer que deve

existir um valor ótimo para Δ, se o nosso objetivo for minimizar o erro quadr tico

médio de .

Exercícios propostos

P8.1) Estimando a população de uma área

Uma amostra aleatória de 30 famílias foi selecionada de uma população de 14361

famílias residentes em uma determinada área urbana. O número de pessoas em cada

família da amostra é:

4 2 6 4 3 2 3 6 4 5 5 2 3 4 5 1 2 5 4 3 2 3 2 5 4 2 1 5 2 5

Estimar o número total de pessoas na área e calcular a probabilidade de que essa

estimativa esteja a 20% do valor correto.

P8.2) Tensão de ruptura de implantes mamários

Considere novamente os dados do exercício P7.4 relativos à tensão de ruptura de

implantes mamários fabricados com gel de Silicone:

72,2 80,1 70,4 67,8 70,9 72,1 75,1 73,0 59,4 77,2

65,1 66,5 64,1 79,0 70,6 70,3 63,1 64,4 74,9 75,3

Admitindo que essa variável segue uma distribuição Normal:

(a) Qual a probabilidade de que o erro absoluto cometido na estimação da sua média

populacional µ com base nessa amostra seja inferior a 2 unidades?

(b) Qual deveria ser o tamanho de uma nova amostra para que o coeficiente de

variação do estimador de µ fosse menor que 1%?

P8.3) Dimensionamento de amostra para estimação da média populacional

Usando os mesmos dados do exercício P7.15, isto é, 9,5 11,4 7,2 10,0 9,4 8,2 6,4 10,9 7,6 9,5 10,7 9,9 8,8 8,6 9,9

porém admitindo que a média populacional µ é desconhecida, dimensione uma nova

amostra dessa população que nos permita estimar µ de forma que o erro absoluto de

estimação seja menor que 0,5 com probabilidade 98%:

(a) Se o desvio padrão populacional é conhecido e igual a 2;

(b) Se é desconhecido.

P8.4) Algoritmo para seleção de uma amostra aleatória de tamanho fixo

No Exercício Resolvido R6.5 foi apresentado um algoritmo para a seleção de uma

amostra aleatória com n elementos de uma população de tamanho N. Porém esse

algoritmo só nos permite garantir que, se N for grande, o tamanho da amostra resultante

será aproximadamente o n desejado. O fluxograma a seguir se refere a um novo

algoritmo para selecionar, de uma população de tamanho N, uma amostra aleatória com

exatamente n elementos. Para isso será utilizado um gerador de números aleatórios que

permite simular uma seqüência de sorteios independentes a partir da distribuição

uniforme no intervalo [0;1].

Obs.: Note que neste algoritmo i representa um contador dos registros da população,

enquanto que s representa um contador dos registros selecionados para fazer parte da

amostra.

Considere o caso particular em que N = 5 e n = 2.

Mostre que, ao utilizarmos um tal algoritmo, podemos garantir que:

a. Todos os elementos da população tem a mesma chance n/N de serem

selecionados para serem incluídos na amostra.

b. A amostra resultante terá obrigatoriamente n elementos.

Obs.: Na realidade essas duas propriedades são válidas para quaisquer inteiros positivos

N e n, desde que 1 ≤ n ≤ N.

“Tradicionalmente, a amostra é

sempre melhor do que o estoque que

você entrega para a loja.”

Calvin Klein, estilista

P8.5) Abaixo assinado Um abaixo assinado é feito em uma determinada municipalidade para pedir à autoridade

competente que seja realizada uma grande obra de interesse público. As assinaturas foram

coletadas em 600 folhas. Para obter uma estimativa rápida do número total de assinaturas coletadas, foram contadas as assinaturas que constam em 25 folhas escolhidas ao acaso, tendo-

se obtido valores x1, x2, ... , x25 tais que

728x i e 27185x 2

i

Use os resultados obtidos a partir dessa primeira amostragem para dimensionar uma outra amostra aleatória que permita estimar o número total de assinaturas com um erro menor que

1000 com probabilidade 95%.

P8.6) Custos de amostragem Queremos estimar a média populacional µ de uma determinada variável através da sua média

amostral A decisão a ser tomada quanto ao tamanho n da amostra implica em minimizar o

custo total de amostragem, que é igual à soma de duas parcelas:

O custo da coleta de dados: a + bn

O custo devido à falta de precisão na estimação: c.E

onde a, b e c são constantes positivas.

(a) Expresse o tamanho ótimo da amostra em função das constantes a, b e c e do desvio padrão

populacional .

(b) Calcule o valor do n ótimo no caso em que:

A variável x é um peso, medido em gramas a = R$500,00 é o custo fixo da amostragem

b = R$20,00 é o custo por unidade amostrada

c = R$50,00/g é o custo da imprecisão na estimação de µ = 800g é o desvio padrão populacional de X.

Obs.: Para podermos usar as ferramentas do Cálculo Diferencial, aqui o tamanho n da

amostra deverá ser tratado como se pudesse assumir qualquer valor real, desde que positivo.

(c) Usando os valores de a, b, c e do item (b), construa um gr fico onde:

no eixo horizontal estará o tamanho n da amostra

no eixo vertical estarão os custos (em reais)

o custo da coleta de dados como função de n será representado por uma curva

o custo devido à imprecisão como função de n será representado por outra curva

o custo total como função de n será representado por uma terceira curva

possamos ver que o custo total é mínimo para n igual ao n ótimo calculado

Obs.: Aqui você pode supor que a amostra é suficientemente grande para que seja aplicável o

Teorema Central do Limite.

P8.7) Por que S é um estimador tendencioso de σ?

Na teoria deste capítulo, foi feita afirmação de que o desvio padrão amostral

é um estimador tendencioso do desvio padrão populacional .

(a) Por que isso é verdade?

(b) É possível afirmar que o viés B(S) é sempre negativo? Ou que ele é sempre

positivo? Por que?

Sugestão:

Lembre-se que 0 Var(S) = E(S2) – e que S

2 é um estimador não tendencioso

de 2.

P8.8) Preenchendo lacunas

Complete as lacunas na frase a seguir para que a afirmação fique correta, usando

somente uma vez cada um dos seguintes termos: “amostra”, “população”, “média”,

“variância”, “vari vel” e “raiz quadrada”.

No processo de obtenção de uma amostra aleatória de determinada

................................, o coeficiente de variação na ................................ da média da

amostra é igual ao quociente entre a raiz quadrada da média na população da

................................ da amostra e o produto da ................................ do tamanho da

amostra pela ................................ na população da média da ................................

P8.9) Lasers semicondutores

Lasers semicondutores usados em produtos óticos de gravação prestam-se tanto para

operações de leitura como para operações de escrita. Estas últimas requerem níveis mais

altos de potência, o que tende a reduzir a vida útil do laser. Quando a finalidade

principal é realizar cópias de discos magnéticos de alta velocidade, o laser,

fundamentalmente, escreve. Por outro lado, quando a finalidade principal é

armazenagem, o laser gasta aproximadamente a mesma quantidade de tempo na leitura

e na escrita. Preocupado com a questão da durabilidade da sua produção, um fabricante

de lasers deseja realizar uma pesquisa por amostragem junto à sua clientela, para

estimar a proporção p dos seus produtos que são usados para realizar cópias.

(a) Se a intenção é estimar p com um erro absoluto inferior a 0,05 com

probabilidade 95%, qual deve ser o tamanho da amostra?

(b) Sob as mesmas condições do item (a), calcule o tamanho da amostra a ser

utilizada, se o fabricante sabe que 0,15 p 0,30.

P8.10) Será que a amostra de empresas é representativa?

Visando conduzir uma pesquisa sobre o setor empresarial de determinado país, foi

extraída uma amostra aleatória com n = 1000 empresas, a partir de um cadastro onde

constam todas as empresas ali sediadas. Para que essa amostra possa ser considerada

representativa, os diversos segmentos do setor empresarial, enumerados a seguir, devem

estar presentes na amostra aproximadamente nas mesmas proporções em que eles estão

presentes no universo. Sabe-se que, na população de todas as empresas do país,

Quanto ao setor de atividade econômica:

25% delas dedicam-se principalmente ao ramo industrial;

45% delas dedicam-se principalmente ao ramo comercial;

30% delas dedicam-se principalmente ao ramo de serviços;

Quanto à origem do seu capital:

20% são empresas públicas;

50% são empresas privadas nacionais;

30% são empresas multinacionais;

Quanto ao tamanho da empresa:

10% são de grande porte;

30% são de médio porte;

60% são de pequeno porte.

(a) Mostre que, para cada um dos 9 segmentos acima, se a constante pj é a proporção de

empresas do segmento j na população e a variável aleatória jp é a proporção de

empresas desse segmento na amostra, então jj p)pE( e n

)p(1p)pVar(

jj

j

.

(b) Para cada j, j = 1,2,...,9, determine um intervalo Ij = (pj – Δj; pj + Δj) tal que

P[ jp Ij] = 0,95.

(c) Calcule CVmax, o maior de todos os coeficientes de variação dos jp , ou seja,

CVmax = max 1≤j≤9 )pE(

)pDP(

j

j.

Obs.: Intuitivamente, podemos dizer que, quanto mais próximo jp estiver de pj para

todo j, maior será a representatividade da amostra. Isso é exatamente o que acontece

quanto menores forem as amplitudes dos intervalos Ij’s e quanto menor for CVmax.

Sugestão: Cada jp pode ser expresso como o quociente entre uma binomial

(aproximadamente, uma Normal) e o tamanho da amostra.

P8.11) Dimensionamento de amostra para estimação simultânea de parâmetros

Em um determinado país há um total de 5 milhões de empresas. Através de um processo

de amostragem deseja-se estimar simultaneamente o número total de empregados dessas

empresas (com um erro absoluto menor que 3 x 106) e a proporção dessas empresas que

tiveram prejuízo financeiro no ano anterior (com um erro relativo menor que 10%),

sendo que em ambos os casos o erro máximo acima especificado não deve ser

ultrapassado com probabilidade 0,99. A partir de estimativas anteriores sabe-se que o

número médio de empregados é da ordem de 30 e o coeficiente de variação dessa

variável (número de empregados por empresa) é da ordem de 1,6. Além disso, sabe-se

que a proporção de empresas que tiveram prejuízo no ano anterior está entre 2% e 8%.

Dimensione uma amostra aleatória simples que satisfaça simultaneamente ambas as

especificações de precisão acima.

P8.12) Estimação de covariância Mostre que se (X1, Y1), ..., (Xn,Yn) são n vetores aleatórios bivariados tais que

contrário caso 0,

ji se C,)

jY,

iCov(X

então

n

1iYiYXiX

1n

1 é um estimador não tendencioso de C, ou seja, a

covariância amostral é um estimador não tendencioso da covariância populacional.

P8.13) Proporção de peças não conformes de uma linha de produção

Admita que p é a proporção de peças não conformes de uma linha de produção, isto é,

peças que não atendem às especificações fornecidas pelo fabricante. Queremos estimar

o parâmetro p com base em uma amostra aleatória de n peças dessa linha de produção.

Temos então n v.a.´s iid X1, X2, ..., Xn que seguem uma lei de probabilidade de

Bernoulli(p).

(a) Obtenha o estimador de máxima verossimilhança de p.

Sugestão: Para isso, note que P(Xi = x) = px(1 – p)

1 – x, onde x = 0 ou x = 1,

para todo i. Em seguida, monte a função de verossimilhança e maximize o seu

logaritmo neperiano.

(b) Verifique que, entre os estimadores não tendenciosos e lineares de p (ou seja,

estimadores da forma , onde os ci são constantes a determinar), o

estimador de máxima verossimilhança obtido no item (a) é aquele que possui a

menor variância.

Sugestão: Use multiplicadores de Lagrange.

P8.14) Inundações em um rio

(a) Mostre que se X1, X2,...,Xn é uma amostra aleatória do modelo de Laplace com

parâmetros m e T (onde T > 0), definido pela densidade

, para todo x real,

os EMV’s de m e T são = mediana(X1,X2,...,Xn) e

.

Sugestão: Faça um gráfico da função de verossimilhança.

(b) Em seu artigo Interval Estimation for the two-parameter double exponential

distribution, Technometrics, 1973, Bain e Englehart reportam o seguinte conjunto

de dados sobre diferenças nos níveis de inundação entre estações em um rio:

1,96 1,97 3,6 3,8 4,79 5,66 5,76 5,78 6,27 6,3 6,76

7,65 7,84 7,99 8,51 9,18 10,13 10,24 10,25 10,43 11,45 11,48

11,75 11,81 12,34 12,78 13,06 13,29 13,98 14,18 14,4 16,22 17,06

Admitindo que o modelo de Laplace descreve adequadamente este fenômeno,

obtenha, a partir dos dados, as estimativas de máxima verossimilhança para m e T.

P8.15) Moléculas em movimento segundo a distribuição de Maxwell

Conforme foi visto no Exercício R3.5, a densidade da velocidade absoluta de uma

molécula é dada pela distribuição de Maxwell

, para x > 0 e f(x) = 0, para x ≤ 0,

sendo α uma constante. Se as v.a.’s iid X1, …, Xn tem distribuição de Maxwell, obtenha

o estimador de m xima verossimilhança do parâmetro α.

P8.16) Pesos de recém-nascidos

Use como a sua população de interesse, os pesos em kg de N = 5 recém-nascidos:

2,3 2,5 3,0 3,5 4,0.

(a) Calcule a média μ e a variância 2 populacionais.

(b) Obtenha todas as 10 possíveis amostras de tamanho n = 2.

(c) Calcule a média amostral x para cada uma delas.

(d) Use esses valores para confirmar a validade das expressões μ)xE( e

N

1

n

1σ)xVar( 2

neste caso.

P8.17) Comparando estimadores em termos de precisão

Considere novamente o modelo Uniforme no intervalo [a,b], onde a e b são parâmetros

desconhecidos, sendo a < b. Vimos no Exercício Resolvido R8.5 que, se X1, ..., Xn é

uma amostra aleatória desse modelo, então

é um estimador da média populacional

. Por outro lado, sabemos que a média

amostral é também um estimador de µ.

(a) Expresse o erro quadrático médio (EQM) de como estimador de µ, em função

dos parâmetros a e b, e do tamanho n da amostra.

(b) Para que valores de n, é um estimador mais preciso do que em termos de

erro quadrático médio? Por que?

P8.18) Filtros passa-faixa

Os filtros passa-faixa (band-pass filters) são utilizados em diversos tipos de aplicações

que envolvem a seleção de sinais de determinadas freqüências. Alguns exemplos

seriam:

o reconhecimento de um sinal de uma única freqüência, em um sistema de

controle remoto;

a seleção de uma faixa completa de sinais, em um sistema de telefonia ou de

telecomunicações.

O filtro passa-faixa transmite a faixa de freqüências para a qual foi projetado,

bloqueando sinais de freqüências inferiores e superiores aos limites dessa faixa.

Suponha que, para um determinado filtro passa-faixa, não sabemos exatamente como

ele funciona. Ou seja, esse filtro é como uma “caixa preta” que só deixa passar sinais de

determinadas freqüências, mas gostaríamos de obter um modelo probabilístico que

descrevesse o seu comportamento.

Para isso foi obtida uma amostra com n=100 sinais que esse filtro deixou passar. Suas

freqüências (em kHz) foram as seguintes:

9866 10223 9713 9926 9567 10441 9971 9730 10463 10276

10164 10423 10122 10252 10062 9862 9821 9843 10335 10444

9693 10423 9731 10271 10140 9604 9551 9977 9775 9616

10054 9772 9743 10187 10331 10273 9707 9574 9979 9784

10368 9974 9692 10014 10041 9734 10170 10492 10283 10398

10382 9658 10324 10177 9986 10421 9992 10209 9680 9864

10223 9615 9544 10315 9520 9689 9722 9694 10444 10128

10255 10419 9693 9926 10331 10108 10338 9805 10055 10280

9915 10335 9911 9656 9851 10022 10316 9586 10009 10421

10082 9808 10023 10086 9674 9858 9525 9548 9623 10168

(a) Use esses dados para obter um histograma da variável freqüência do sinal, no

qual as classes a serem consideradas são: [9500 → 9700), [9700 → 9900),

[9900 → 10100), [10100; 10300), [10300 → 10500). A partir da análise do

aspecto visual da figura, que modelo probabilístico lhe parece ser o mais

adequado? Por que?

(b) Que procedimento seria o mais indicado para estimar os parâmetros desse

modelo?

(c) Quais seriam as suas estimativas dos parâmetros desse modelo a partir dos dados

disponíveis?

(d) Que conclusões podem ser extraídas dessa análise e quão confiáveis elas lhe

parecem ser? Por que?

Sugestão: Verifique se entre os assuntos abordados nos exercícios resolvidos deste

capítulo você é capaz de encontrar subsídios para ajudá-lo a raciocinar neste caso.

Documents

CAPÍTULO 8 Exercícios Resolvidos R8.1) Controle de · PDF fileLogo, esses são os valores de a e b que maximizam a função de verossimilhança L. Ou seja, e são os estimadores