Upload
duongquynh
View
227
Download
2
Embed Size (px)
Citation preview
CAPÍTULO 8
Exercícios Resolvidos
R8.1) Controle de Qualidade
Tem o selo do Inmetro?
Um fabricante de equipamentos eletrônicos vende resistores, em lotes de 500 unidades,
ao preço de 1500,00 u.m. o lote. O valor nominal da resistência elétrica desses
componentes é de 47 k e o seu custo de fabricação é de 2,00 u.m. a unidade. Admita
que o valor da resistência elétrica de um tal resistor na verdade se comporta como uma
variável aleatória com média e desvio padrão 1 k. Ocorre que os compradores
exigem que, antes de fechado um negócio, seja extraída do lote uma amostra aleatória
simples com n resistores, cujas resistências elétricas x1, x2, x3, ..., xn são medidas, e a
venda só se concretiza se
x 47 0,2 (em k).
Caso contrário, o lote é inutilizado.
(a) Que tamanho mínimo n da amostra o vendedor deve propor que seja utilizado, para
que o seu lucro esperado em cada lote seja de pelo menos 400,00 u.m., no caso de o seu
processo produtivo estar perfeitamente regulado, isto é, = 47k ?
(b) Usando o valor de n calculado em (a), qual o lucro esperado do vendedor em cada
lote, se = 46,9 k (ou seja, se há uma pequena desregulagem no processo)?
(c) E se = 46,8k?
Solução:
Lucro = Receita – Despesa, sendo que
contrário caso 0,
0,247x se 1500,Receita e Despesa = 10005002 .
Então
1000
n1
8,46
n1
2,4715001000$2,47x8,46P1500$)Lucro(E
(a) Se = 47, para que E(Lucro) $400, devemos ter
4001000 n0,2Φn0,2Φ 1500 .
Por outro lado, devido à simetria da curva Normal, temos
)a(1)a( , ou seja, 1)a(2)a()a( .
Então, 1500
10004001n2,02
, o que implica que o tamanho n da amostra
deve ser de pelo menos
2
1
30
295 84 resistores.
(b) Se = 46,9 e n = 84, então
.98,225$1000
841
9,468,46
841
9,462,471500)Lucro(E
(c) Se = 46,8 e n = 84, então
.19,250$1000
841
8,468,46
841
8,462,471500)Lucro(E
Ou seja, neste caso o nível da desregulagem já seria suficiente para gerar uma
expectativa de prejuízo.
R8.2) Gasto mensal das famílias com alimentação
Deseja-se estimar o gasto mensal médio com alimentação das famílias de uma
determinada cidade. O procedimento proposto consiste em entrevistar n = 100 famílias
e adotar a média aritmética X dos seus gastos mensais em alimentação como uma
estimativa do parâmetro de interesse. Consultando estatísticas de períodos anteriores,
verifica-se que o coeficiente de variação do gasto familiar mensal em alimentação nessa
cidade tem oscilado pouco ao longo do tempo em torno de 0,5. Assim sendo aqui ele
será considerado conhecido e igual a 0,5.
(a) Qual a probabilidade de que o erro relativo
X não exceda 5%?
(b) Calcule para que o erro relativo seja menor que com probabilidade 0,9.
(c) Qual ao menor valor de n necessário para que o erro relativo não exceda 5% com
probabilidade 0,9?
Obs.:
Neste problema você pode trabalhar como se a população da cidade fosse infinita.
Solução:
Sabemos que 0,5μ
σ , onde μ e σ são, respectivamente, a média e o desvio padrão
populacionais do consumo familiar mensal em alimentação.
Usando a aproximação dada pelo Teorema Central do Limite, temos:
μσ
nεZP
μσ
nε
nσ
μXPε
μ
μXPα1 .
Isso implica que
μσ
nεz
2α1
. (*)
(a) Substituindo em (*) os valores ε = 0,05 e n = 100, temos
15,0
10005,0
21
z , de onde se conclui que 68,01 .
Isso quer dizer que, se usarmos uma amostra com 100 famílias, há uma probabilidade
de 68% de que o erro relativo na estimativa do consumo médio mensal em alimentação
seja inferior a 5%.
(b) A partir da relação (*) deduz-se que n
μσz
ε 2α1
. Por outro lado:
90,01 implica que 64,12
1
z .
n = 100 e 0,5μ
σ
Logo 082,0100
5,064,1
ou 8,2%.
Novamente com uma amostra de 100 famílias, há uma probabilidade de 90% de que o
erro relativo na estimativa do consumo médio mensal em alimentação seja inferior a
8,2%.
(c) A partir da relação (*) obtemos também 2
22
2α1
ε
μσz
n
.
Substituindo nessa expressão 64,12
1
z e ε = 0,05, obtemos 269
05,0
5,064,1n
2
22
Logo, para que, com 90% de chance, o erro relativo de estimação seja menor que 5%,
temos que usar uma amostra com 269 famílias.
R8.3) Estabelecimentos hoteleiros nos municípios do Estado do Rio de
Janeiro
Queremos estimar o número médio µ de estabelecimentos hoteleiros por município do
Estado do Rio de Janeiro no ano de 2001, com base em uma amostra composta por 20
municípios.
Dois esquemas alternativos de amostragem devem ser comparados:
Esquema A:
Extrair da população de N = 98 municípios do Estado do RJ uma amostra aleatória com
n = 20 municípios e estimar µ pela média amostral do número de estabelecimentos
hoteleiros referente a esses 20 municípios. Então
Esquema B:
Aqui usaremos: o subscrito 1 para referência à sub-população dos N1 = 93 menores
municípios do estado; e o subscrito 2 para referência à sub-população dos N2 = 5
maiores municípios do estado (a julgar pela sua vocação hoteleira): Itatiaia, Búzios,
Parati, Angra dos Reis e Rio de Janeiro.
(a) Extrair uma amostra aleatória com n1 = 15 municípios entre os N1 = 93 menores
municípios do estado e estimar a média populacional µ1 pela média amostral do
número de estabelecimentos hoteleiros referente a esses 15 municípios.
(b) Apurar o número de estabelecimentos hoteleiros em cada um dos N2 = 5 maiores
municípios do estado. Calcular a média populacional µ2 do número de
estabelecimentos hoteleiros nesses 5 municípios. Neste caso obviamente não há erro
de estimação.
(c) Estimar µ a partir dos resultados em (a) e (b), usando como estimador
.
Sabe-se que:
A distribuição de freqüências do no de hotéis nos 93 menores municípios em 2001
era:
Número de hotéis Municípios
0 e 20 71
20 e 40 13
40 e 60 5
60 e 80 1
80 e 100 3
Total 93
O número de hotéis em cada um dos 5 “maiores” municípios em 2001 era o seguinte: Itatiaia 121
Armação dos Búzios 149
Angra dos Reis 160
Paraty 149
Rio de Janeiro 397
Qual dos dois esquemas amostrais é o mais preciso? Por que?
Solução:
Com base na tabela de freqüências aqui apresentada podemos obter aproximações
grosseiras para os parâmetros a seguir:
A média do número de hotéis entre os 93 menores municípios é
A variância do número de hotéis entre os 93 menores municípios é
A média do número de hotéis entre os 5 maiores municípios é
A variância do número de hotéis entre os 5 maiores municípios é
A média do número de hotéis entre todos os 98 municípios é
A variância do número de hotéis entre todos os 98 municípios é
2
Como ambos os estimadores
e
são não tendenciosos (Por que?), para compará-los
em termos de precisão, basta calcularmos suas variâncias.
Var(
) = 2
=
Por outro lado,
Concluímos, portanto, que o Esquema B é mais preciso que o Esquema A. Isto ocorre
porque a variabilidade do número de estabelecimentos hoteleiros é muito grande entre
os 5 maiores municípios do estado (Veja o valor de ). Assim, no Esquema B, ao
obrigar que todos esses 5 municípios estejam presentes entre os 20 considerados,
eliminamos do nosso processo de estimação uma fonte expressiva de variabilidade, o
que representa um ganho em termos de precisão.
R8.4) Proporções de casais com filhos gêmeos e com 2 ou mais filhos
Em uma determinada cidade é feita uma pesquisa demográfica em que se deseja estimar
a proporção P1 de casais com filhos gêmeos e a proporção P2 de casais com 2 ou mais
filhos. Acredita-se, com base em levantamentos anteriores, que 1% P1 5% e
35% P2 60%. Dimensione uma amostra aleatória simples que permita estimar
simultaneamente P1 e P2. As exigências em termos de precisão são de que:
no caso de P1, com probabilidade 0,95, o erro absoluto de estimação seja menor que
0,006, e,
no caso de P2, também com probabilidade 0,95, o erro absoluto de estimação seja
menor que 0,010.
Obs.: Para simplificar a solução, a população de casais dessa cidade será tratada como
se fosse infinita.
Solução:
Para resolver esse exercício, lembremo-nos do comportamento do produto p(1p), como
função de p: ele é igual a 0 para p = 0, cresce até atingir 0,25 quando p = 0,5, e depois
decresce novamente voltando a 0 quando p = 1.
No intervalo de variação correspondente a P1, a saber, entre 1% e 5%, essa função é
crescente. Por isso, se na expressão
)P1(P006,0
96,1n 11
2
1
,
substituirmos P1 por 0,05, aquele entre os seus valores possíveis que está mais próximo
de 0,5, obteremos o tamanho de amostra de 5069 casais, que garante o nível de precisão
especificado acima, para qualquer valor de P1 entre 1% e 5%.
No intervalo de variação correspondente a P2, a saber, entre 35% e 60%, essa função é
crescente até 50% quando atinge seu valor máximo e depois decresce. Por isso, se
substituirmos o valor P2 = 0,50 na expressão
)P1(P01,0
96,1n 22
2
2
, obteremos o tamanho de amostra de 9604 casais,
que garante o nível de precisão especificado acima, para qualquer valor de P2 entre 35%
e 60%.
Comparando os valores de n1 e n2, vemos que o tamanho de amostra de 9604 casais é
aquele que nos permite garantir o nível de precisão desejado em ambos os casos.
R8.5) Os EMV’s de a e b, no caso da Distribuição Uniforme[a,b]
Seja X1, X2,...,Xn uma amostra aleatória simples da distribuição Uniforme no
intervalo [a,b], onde a e b são constantes desconhecidas, tais que a < b.
Considere as v.a.’s:
Xmin = min(X1, X2,...,Xn) e Xmax = max(X1, X2,...,Xn).
Verifique que a = Xmin e b = Xmax são os estimadores de máxima verossimilhança
dos parâmetros a (limite mínimo) e b (limite máximo), respectivamente. E que,
portanto,
minmax XXΔ e 2
XXμ maxmin
são também os estimadores de máxima verossimilhança dos parâmetros
Δ = b – a (amplitude de variação) e μ = (a + b) / 2 (valor central), respectivamente.
Solução:
Já que a densidade de Xi é
, para cada i, a função de
verossimilhança pode ser escrita como
L(a,b) =
.
Nota: Observe que, na expressão acima,
É claro que o quociente
atinge o seu máximo quando o denominador é o
maior possível e isto ocorre para a = e b = . Logo, esses são os
valores de a e b que maximizam a função de verossimilhança L.
Ou seja, e são os estimadores de máxima verossimilhança de
a e b, respectivamente.
Conseqüentemente, com base na propriedade de invariância dos estimadores de máxima verossimilhança, podemos concluir que
Δ e 2
XXμ maxmin
são também estimadores de máxima verossimilhança de Δ e μ, respectivamente.
Exemplificando: No caso de uma amostra com n = 5 observações: 8, 9, 10, 11, 12 ,
teríamos = 12. O gráfico da função de verossimilhança seria então
o seguinte:
Vemos que a função de verossimilhança L(.,.):
é igual a
dentro do quadrante definido pelas desigualdades simultâneas a
e b
é nula quando o ponto (a,b) está fora desse quadrante.
R8.6) Distribuição Uniforme[a,b] – Propriedades dos estimadores (*) No Exercício anterior vimos que, dada uma amostra aleatória X1, X2,...,Xn da distribuição
Uniforme no intervalo [a,b], = Xmin e = Xmax são os estimadores de máxima
verossimilhança dos parâmetros a (limite mínimo) e b (limite máximo), respectivamente. Então, considerando cada um desses 4 parâmetros (a, b, Δ e μ) e seus respectivos estimadores
( a , b , Δ e μ ), o propósito aqui é responder às seguintes perguntas:
(a) O estimador é não tendencioso? (b) Qual o seu viés?
(c) Qual a sua variância?
(d) Qual o seu erro quadrático médio? É possível mostrar que as respostas são as seguintes:
Estimador Ñ tend.? Viés Variância EQM
a Não
b Não
Não
Sim 0
Note que, para grandes amostras, todos esses são bons estimadores, no sentido de que seus erros
quadráticos médios tendem a zero quando n cresce indefinidamente.
Esboce as linhas gerais dessas demonstrações.
Sugestão: Para determinar as funções de distribuição acumuladas de Xmin e de Xmax, lembre-se
que P(Xmax ≤ x) = P(Xi ≤ x, para todo i) e P(Xmin ≥ x) = P(Xi ≥ x, para todo i).
Por outro lado, para determinar a função de distribuição acumulada conjunta de Xmin e de Xmax,
verifique que:
P(Xmin x, Xmax ≤ y) = P(Xmax ≤ y) – P(Xmax ≤ y,Xmin >x).
Solução:
Consideraremos em mais detalhe somente a estimação do parâmetro b através de
b = Xmax. Se G é a função de distribuição acumulada de , então:
G(x) = P(Xmax x) = P(Xi ≤ x, para todo i) =
, se a x b,
(sendo G(x) = 0, se x < a e G(x) = 1, se x > b).
Conseqüentemente, se g é a função densidade de ,
g(x) =
, se a x b,
(sendo g(x) = 0, se x < a ou se x > b).
Daí,
Fazendo a mudança de variável x = a + (b–a) u, obtemos
. Logo,
(porque
e
).
Isso significa que é um estimador tendencioso de b e seu viés é B( ) =
.
Sabemos também que Var( ) = . Mas,
Fazendo novamente a mudança de variável x = a + (b–a) u, obtemos
(porque, além das duas integrais acima,
).
Var( ) =
Finalmente, EQM( ) = Var( ) + =
+
De maneira análoga, podemos provar que:
é um estimador tendencioso de a
B( ) =
Var( ) =
EQM( ) =
Para fazê-lo muitas vezes é útil usarmos as propriedades das funções Gama e Beta.
Quanto à estimação dos parâmetros Δ e μ, o único detalhe que vale a pena abordarmos,
já que ele foge ao padrão do raciocínio usado até aqui, é o seguinte: Para determinar as
variâncias de Δ e , precisamos também obter uma expressão para Cov( ). Esta, por
sua vez, decorre da função de distribuição acumulada conjunta Γ(.,.) de :
Γ(x,y) = P(Xmin x, Xmax ≤ y) = P(Xmax ≤ y) – P(Xmax ≤ y,Xmin >x) =
a partir da qual se obtem a densidade conjunta γ(.,.) de :
γ(x,y) =
Γ(x,y) =
.
Daí vem Cov( ) = =
“Minha mente se rebela diante da estagnação.
Dêem-me problemas, dêem-me trabalho, dêem-
me o criptograma mais abstruso, ou a análise
mais complicada, e eu estarei no meu próprio
ambiente. Mas eu abomino a rotina monótona
da existência. Eu imploro pela exaltação
mental.”
Arthur Conan Doyle, escritor
R8.7) Simulando a estimação dos parâmetros da Distribuição Uniforme
Gere, por simulação, m = 100 amostras independentes da distribuição Uniforme no
intervalo [a,b], sendo a = 8 e b = 17, cada uma delas contendo n = 20 observações.
(a) Para cada uma dessas m=100 amostras, obtenha as respectivas estimativas de a e b.
(b) Faça histogramas para e , usando as 100 estimativas obtidas de cada um dos
parâmetros a e b.
(c) Use as 100 estimativas de a para estimar o valor esperado, o viés, a variância e o
erro quadrático médio de . Faça o mesmo para .
(d) As conclusões obtidas confirmam o que os resultados teóricos do Exercício anterior
nos levariam a esperar?
Solução:
Cada uma dessas 100 amostras é um conjunto: x1, x2, ..., x20, onde xi = (1–ui) a + ui b, (*)
sendo as ui’s 20 observações geradas a partir da U[0;1].
(a) Para cada uma dessas amostras, = min xi e = max xi. Temos então:
100 observações de : 1 2 ... 100
100 observações de : 1 2 ... 100
(b) Usemos as 100 observações de para fazer um histograma de e
as 100 observações de para fazer um histograma de .
(c) A estimativa de E( é
= 8,34.
A estimativa de B( é E( – a = E( – 8= 0,34.
A estimativa de Var( é
= 0,1124.
A estimativa de EQM( é Var( + (B( 2
= 0,2279
Analogamente para :
E( ⇒ 16,56
B( ⇒ – 0,44
Var( ⇒ 0,1816
EQM( ) ⇒ 0,3783
(d) Calculando essas mesmas medidas através das expressões que foram demonstradas no Exercício anterior, obtemos:
= 0,4286
Var(
= 0,1670
EQM(
= 0,3506
= – 0,4286
Var(
= 0,1670
= 0,3506
Comparando os resultados obtidos por simulação com os seus correspondentes valores
teóricos, vemos que há uma coerência razoável entre eles.
R8.8) Movimento de partículas - Estimação de Densidade (*)
Seja X1,...,Xn uma amostra aleatória de um modelo probabilístico com densidade f,
que descreve o movimento de partículas de determinado tipo. Suponhamos que a
forma analítica dessa função f é desconhecida. Estamos, portanto, diante de um
problema não paramétrico. Dado um número real x, o estimador de Rosenblat do
valor f(x) dessa função de densidade f no ponto x é
, (I)
onde Δ > 0 é uma constante a ser especificada.
Mostre que, à medida que Δ decresce para zero:
a) o viés de estimação de também decresce para zero.
b) a variância de cresce indefinidamente.
c) É possível concluir de (a) e (b) que existe um Δ ótimo em termos da
minimização do erro quadrático médio de ?
Esclarecimento: Observe que na expressão acima foi usado um símbolo do tipo
IA(x) para representar o valor da função indicador de A no ponto x, ou seja,
Sendo assim, o somatório acima corresponde simplesmente ao número de
observações Xi pertencentes ao intervalo
.
Solução:
(a) A partir da expressão (I), que define o estimador , podemos deduzir que
.
Por outro lado, a v.a.
tem distribuição de Bernoulli(p), onde
p =
, e daí decorre que
.
Portanto,
.
,
onde F é a FDA comum às Xi’s.
Mas sabemos também que
.
Conseqüentemente,
, cqd.
(b)
.
Aplicando propriedades da variância, obtemos:
Por outro lado, como a v.a.
tem distribuição de Bernoulli(p),
onde p =
, temos
.
Então,
Ora, à medida que tende a zero,
e
, o que
acarreta que
.
(c) O item (a) sugere que à medida que Δ cresce, o viés do estimador também cresce.
Por outro lado, o item (b) sugere que à medida que Δ cresce, a variância do
estimador decresce. Portanto, os dois itens em conjunto nos levam a crer que deve
existir um valor ótimo para Δ, se o nosso objetivo for minimizar o erro quadr tico
médio de .
Exercícios propostos
P8.1) Estimando a população de uma área
Uma amostra aleatória de 30 famílias foi selecionada de uma população de 14361
famílias residentes em uma determinada área urbana. O número de pessoas em cada
família da amostra é:
4 2 6 4 3 2 3 6 4 5 5 2 3 4 5 1 2 5 4 3 2 3 2 5 4 2 1 5 2 5
Estimar o número total de pessoas na área e calcular a probabilidade de que essa
estimativa esteja a 20% do valor correto.
P8.2) Tensão de ruptura de implantes mamários
Considere novamente os dados do exercício P7.4 relativos à tensão de ruptura de
implantes mamários fabricados com gel de Silicone:
72,2 80,1 70,4 67,8 70,9 72,1 75,1 73,0 59,4 77,2
65,1 66,5 64,1 79,0 70,6 70,3 63,1 64,4 74,9 75,3
Admitindo que essa variável segue uma distribuição Normal:
(a) Qual a probabilidade de que o erro absoluto cometido na estimação da sua média
populacional µ com base nessa amostra seja inferior a 2 unidades?
(b) Qual deveria ser o tamanho de uma nova amostra para que o coeficiente de
variação do estimador de µ fosse menor que 1%?
P8.3) Dimensionamento de amostra para estimação da média populacional
Usando os mesmos dados do exercício P7.15, isto é, 9,5 11,4 7,2 10,0 9,4 8,2 6,4 10,9 7,6 9,5 10,7 9,9 8,8 8,6 9,9
porém admitindo que a média populacional µ é desconhecida, dimensione uma nova
amostra dessa população que nos permita estimar µ de forma que o erro absoluto de
estimação seja menor que 0,5 com probabilidade 98%:
(a) Se o desvio padrão populacional é conhecido e igual a 2;
(b) Se é desconhecido.
P8.4) Algoritmo para seleção de uma amostra aleatória de tamanho fixo
No Exercício Resolvido R6.5 foi apresentado um algoritmo para a seleção de uma
amostra aleatória com n elementos de uma população de tamanho N. Porém esse
algoritmo só nos permite garantir que, se N for grande, o tamanho da amostra resultante
será aproximadamente o n desejado. O fluxograma a seguir se refere a um novo
algoritmo para selecionar, de uma população de tamanho N, uma amostra aleatória com
exatamente n elementos. Para isso será utilizado um gerador de números aleatórios que
permite simular uma seqüência de sorteios independentes a partir da distribuição
uniforme no intervalo [0;1].
Obs.: Note que neste algoritmo i representa um contador dos registros da população,
enquanto que s representa um contador dos registros selecionados para fazer parte da
amostra.
Considere o caso particular em que N = 5 e n = 2.
Mostre que, ao utilizarmos um tal algoritmo, podemos garantir que:
a. Todos os elementos da população tem a mesma chance n/N de serem
selecionados para serem incluídos na amostra.
b. A amostra resultante terá obrigatoriamente n elementos.
Obs.: Na realidade essas duas propriedades são válidas para quaisquer inteiros positivos
N e n, desde que 1 ≤ n ≤ N.
“Tradicionalmente, a amostra é
sempre melhor do que o estoque que
você entrega para a loja.”
Calvin Klein, estilista
P8.5) Abaixo assinado Um abaixo assinado é feito em uma determinada municipalidade para pedir à autoridade
competente que seja realizada uma grande obra de interesse público. As assinaturas foram
coletadas em 600 folhas. Para obter uma estimativa rápida do número total de assinaturas coletadas, foram contadas as assinaturas que constam em 25 folhas escolhidas ao acaso, tendo-
se obtido valores x1, x2, ... , x25 tais que
728x i e 27185x 2
i
Use os resultados obtidos a partir dessa primeira amostragem para dimensionar uma outra amostra aleatória que permita estimar o número total de assinaturas com um erro menor que
1000 com probabilidade 95%.
P8.6) Custos de amostragem Queremos estimar a média populacional µ de uma determinada variável através da sua média
amostral A decisão a ser tomada quanto ao tamanho n da amostra implica em minimizar o
custo total de amostragem, que é igual à soma de duas parcelas:
O custo da coleta de dados: a + bn
O custo devido à falta de precisão na estimação: c.E
onde a, b e c são constantes positivas.
(a) Expresse o tamanho ótimo da amostra em função das constantes a, b e c e do desvio padrão
populacional .
(b) Calcule o valor do n ótimo no caso em que:
A variável x é um peso, medido em gramas a = R$500,00 é o custo fixo da amostragem
b = R$20,00 é o custo por unidade amostrada
c = R$50,00/g é o custo da imprecisão na estimação de µ = 800g é o desvio padrão populacional de X.
Obs.: Para podermos usar as ferramentas do Cálculo Diferencial, aqui o tamanho n da
amostra deverá ser tratado como se pudesse assumir qualquer valor real, desde que positivo.
(c) Usando os valores de a, b, c e do item (b), construa um gr fico onde:
no eixo horizontal estará o tamanho n da amostra
no eixo vertical estarão os custos (em reais)
o custo da coleta de dados como função de n será representado por uma curva
o custo devido à imprecisão como função de n será representado por outra curva
o custo total como função de n será representado por uma terceira curva
possamos ver que o custo total é mínimo para n igual ao n ótimo calculado
Obs.: Aqui você pode supor que a amostra é suficientemente grande para que seja aplicável o
Teorema Central do Limite.
P8.7) Por que S é um estimador tendencioso de σ?
Na teoria deste capítulo, foi feita afirmação de que o desvio padrão amostral
é um estimador tendencioso do desvio padrão populacional .
(a) Por que isso é verdade?
(b) É possível afirmar que o viés B(S) é sempre negativo? Ou que ele é sempre
positivo? Por que?
Sugestão:
Lembre-se que 0 Var(S) = E(S2) – e que S
2 é um estimador não tendencioso
de 2.
P8.8) Preenchendo lacunas
Complete as lacunas na frase a seguir para que a afirmação fique correta, usando
somente uma vez cada um dos seguintes termos: “amostra”, “população”, “média”,
“variância”, “vari vel” e “raiz quadrada”.
No processo de obtenção de uma amostra aleatória de determinada
................................, o coeficiente de variação na ................................ da média da
amostra é igual ao quociente entre a raiz quadrada da média na população da
................................ da amostra e o produto da ................................ do tamanho da
amostra pela ................................ na população da média da ................................
P8.9) Lasers semicondutores
Lasers semicondutores usados em produtos óticos de gravação prestam-se tanto para
operações de leitura como para operações de escrita. Estas últimas requerem níveis mais
altos de potência, o que tende a reduzir a vida útil do laser. Quando a finalidade
principal é realizar cópias de discos magnéticos de alta velocidade, o laser,
fundamentalmente, escreve. Por outro lado, quando a finalidade principal é
armazenagem, o laser gasta aproximadamente a mesma quantidade de tempo na leitura
e na escrita. Preocupado com a questão da durabilidade da sua produção, um fabricante
de lasers deseja realizar uma pesquisa por amostragem junto à sua clientela, para
estimar a proporção p dos seus produtos que são usados para realizar cópias.
(a) Se a intenção é estimar p com um erro absoluto inferior a 0,05 com
probabilidade 95%, qual deve ser o tamanho da amostra?
(b) Sob as mesmas condições do item (a), calcule o tamanho da amostra a ser
utilizada, se o fabricante sabe que 0,15 p 0,30.
P8.10) Será que a amostra de empresas é representativa?
Visando conduzir uma pesquisa sobre o setor empresarial de determinado país, foi
extraída uma amostra aleatória com n = 1000 empresas, a partir de um cadastro onde
constam todas as empresas ali sediadas. Para que essa amostra possa ser considerada
representativa, os diversos segmentos do setor empresarial, enumerados a seguir, devem
estar presentes na amostra aproximadamente nas mesmas proporções em que eles estão
presentes no universo. Sabe-se que, na população de todas as empresas do país,
Quanto ao setor de atividade econômica:
25% delas dedicam-se principalmente ao ramo industrial;
45% delas dedicam-se principalmente ao ramo comercial;
30% delas dedicam-se principalmente ao ramo de serviços;
Quanto à origem do seu capital:
20% são empresas públicas;
50% são empresas privadas nacionais;
30% são empresas multinacionais;
Quanto ao tamanho da empresa:
10% são de grande porte;
30% são de médio porte;
60% são de pequeno porte.
(a) Mostre que, para cada um dos 9 segmentos acima, se a constante pj é a proporção de
empresas do segmento j na população e a variável aleatória jp é a proporção de
empresas desse segmento na amostra, então jj p)pE( e n
)p(1p)pVar(
jj
j
.
(b) Para cada j, j = 1,2,...,9, determine um intervalo Ij = (pj – Δj; pj + Δj) tal que
P[ jp Ij] = 0,95.
(c) Calcule CVmax, o maior de todos os coeficientes de variação dos jp , ou seja,
CVmax = max 1≤j≤9 )pE(
)pDP(
j
j.
Obs.: Intuitivamente, podemos dizer que, quanto mais próximo jp estiver de pj para
todo j, maior será a representatividade da amostra. Isso é exatamente o que acontece
quanto menores forem as amplitudes dos intervalos Ij’s e quanto menor for CVmax.
Sugestão: Cada jp pode ser expresso como o quociente entre uma binomial
(aproximadamente, uma Normal) e o tamanho da amostra.
P8.11) Dimensionamento de amostra para estimação simultânea de parâmetros
Em um determinado país há um total de 5 milhões de empresas. Através de um processo
de amostragem deseja-se estimar simultaneamente o número total de empregados dessas
empresas (com um erro absoluto menor que 3 x 106) e a proporção dessas empresas que
tiveram prejuízo financeiro no ano anterior (com um erro relativo menor que 10%),
sendo que em ambos os casos o erro máximo acima especificado não deve ser
ultrapassado com probabilidade 0,99. A partir de estimativas anteriores sabe-se que o
número médio de empregados é da ordem de 30 e o coeficiente de variação dessa
variável (número de empregados por empresa) é da ordem de 1,6. Além disso, sabe-se
que a proporção de empresas que tiveram prejuízo no ano anterior está entre 2% e 8%.
Dimensione uma amostra aleatória simples que satisfaça simultaneamente ambas as
especificações de precisão acima.
P8.12) Estimação de covariância Mostre que se (X1, Y1), ..., (Xn,Yn) são n vetores aleatórios bivariados tais que
contrário caso 0,
ji se C,)
jY,
iCov(X
então
n
1iYiYXiX
1n
1 é um estimador não tendencioso de C, ou seja, a
covariância amostral é um estimador não tendencioso da covariância populacional.
P8.13) Proporção de peças não conformes de uma linha de produção
Admita que p é a proporção de peças não conformes de uma linha de produção, isto é,
peças que não atendem às especificações fornecidas pelo fabricante. Queremos estimar
o parâmetro p com base em uma amostra aleatória de n peças dessa linha de produção.
Temos então n v.a.´s iid X1, X2, ..., Xn que seguem uma lei de probabilidade de
Bernoulli(p).
(a) Obtenha o estimador de máxima verossimilhança de p.
Sugestão: Para isso, note que P(Xi = x) = px(1 – p)
1 – x, onde x = 0 ou x = 1,
para todo i. Em seguida, monte a função de verossimilhança e maximize o seu
logaritmo neperiano.
(b) Verifique que, entre os estimadores não tendenciosos e lineares de p (ou seja,
estimadores da forma , onde os ci são constantes a determinar), o
estimador de máxima verossimilhança obtido no item (a) é aquele que possui a
menor variância.
Sugestão: Use multiplicadores de Lagrange.
P8.14) Inundações em um rio
(a) Mostre que se X1, X2,...,Xn é uma amostra aleatória do modelo de Laplace com
parâmetros m e T (onde T > 0), definido pela densidade
, para todo x real,
os EMV’s de m e T são = mediana(X1,X2,...,Xn) e
.
Sugestão: Faça um gráfico da função de verossimilhança.
(b) Em seu artigo Interval Estimation for the two-parameter double exponential
distribution, Technometrics, 1973, Bain e Englehart reportam o seguinte conjunto
de dados sobre diferenças nos níveis de inundação entre estações em um rio:
1,96 1,97 3,6 3,8 4,79 5,66 5,76 5,78 6,27 6,3 6,76
7,65 7,84 7,99 8,51 9,18 10,13 10,24 10,25 10,43 11,45 11,48
11,75 11,81 12,34 12,78 13,06 13,29 13,98 14,18 14,4 16,22 17,06
Admitindo que o modelo de Laplace descreve adequadamente este fenômeno,
obtenha, a partir dos dados, as estimativas de máxima verossimilhança para m e T.
P8.15) Moléculas em movimento segundo a distribuição de Maxwell
Conforme foi visto no Exercício R3.5, a densidade da velocidade absoluta de uma
molécula é dada pela distribuição de Maxwell
, para x > 0 e f(x) = 0, para x ≤ 0,
sendo α uma constante. Se as v.a.’s iid X1, …, Xn tem distribuição de Maxwell, obtenha
o estimador de m xima verossimilhança do parâmetro α.
P8.16) Pesos de recém-nascidos
Use como a sua população de interesse, os pesos em kg de N = 5 recém-nascidos:
2,3 2,5 3,0 3,5 4,0.
(a) Calcule a média μ e a variância 2 populacionais.
(b) Obtenha todas as 10 possíveis amostras de tamanho n = 2.
(c) Calcule a média amostral x para cada uma delas.
(d) Use esses valores para confirmar a validade das expressões μ)xE( e
N
1
n
1σ)xVar( 2
neste caso.
P8.17) Comparando estimadores em termos de precisão
Considere novamente o modelo Uniforme no intervalo [a,b], onde a e b são parâmetros
desconhecidos, sendo a < b. Vimos no Exercício Resolvido R8.5 que, se X1, ..., Xn é
uma amostra aleatória desse modelo, então
é um estimador da média populacional
. Por outro lado, sabemos que a média
amostral é também um estimador de µ.
(a) Expresse o erro quadrático médio (EQM) de como estimador de µ, em função
dos parâmetros a e b, e do tamanho n da amostra.
(b) Para que valores de n, é um estimador mais preciso do que em termos de
erro quadrático médio? Por que?
P8.18) Filtros passa-faixa
Os filtros passa-faixa (band-pass filters) são utilizados em diversos tipos de aplicações
que envolvem a seleção de sinais de determinadas freqüências. Alguns exemplos
seriam:
o reconhecimento de um sinal de uma única freqüência, em um sistema de
controle remoto;
a seleção de uma faixa completa de sinais, em um sistema de telefonia ou de
telecomunicações.
O filtro passa-faixa transmite a faixa de freqüências para a qual foi projetado,
bloqueando sinais de freqüências inferiores e superiores aos limites dessa faixa.
Suponha que, para um determinado filtro passa-faixa, não sabemos exatamente como
ele funciona. Ou seja, esse filtro é como uma “caixa preta” que só deixa passar sinais de
determinadas freqüências, mas gostaríamos de obter um modelo probabilístico que
descrevesse o seu comportamento.
Para isso foi obtida uma amostra com n=100 sinais que esse filtro deixou passar. Suas
freqüências (em kHz) foram as seguintes:
9866 10223 9713 9926 9567 10441 9971 9730 10463 10276
10164 10423 10122 10252 10062 9862 9821 9843 10335 10444
9693 10423 9731 10271 10140 9604 9551 9977 9775 9616
10054 9772 9743 10187 10331 10273 9707 9574 9979 9784
10368 9974 9692 10014 10041 9734 10170 10492 10283 10398
10382 9658 10324 10177 9986 10421 9992 10209 9680 9864
10223 9615 9544 10315 9520 9689 9722 9694 10444 10128
10255 10419 9693 9926 10331 10108 10338 9805 10055 10280
9915 10335 9911 9656 9851 10022 10316 9586 10009 10421
10082 9808 10023 10086 9674 9858 9525 9548 9623 10168
(a) Use esses dados para obter um histograma da variável freqüência do sinal, no
qual as classes a serem consideradas são: [9500 → 9700), [9700 → 9900),
[9900 → 10100), [10100; 10300), [10300 → 10500). A partir da análise do
aspecto visual da figura, que modelo probabilístico lhe parece ser o mais
adequado? Por que?
(b) Que procedimento seria o mais indicado para estimar os parâmetros desse
modelo?
(c) Quais seriam as suas estimativas dos parâmetros desse modelo a partir dos dados
disponíveis?
(d) Que conclusões podem ser extraídas dessa análise e quão confiáveis elas lhe
parecem ser? Por que?
Sugestão: Verifique se entre os assuntos abordados nos exercícios resolvidos deste
capítulo você é capaz de encontrar subsídios para ajudá-lo a raciocinar neste caso.