20
Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1/20 /20 Sessão Prática 4: Amostragem Mestrado Integrado em Engenharia Civil Disciplina: TRANSPORTES Prof. Responsável: José Manuel Viegas Sessão Prática 4: Amostragem

Disciplina: TRANSPORTES Amostragem · Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 3/20 Sessão Prática 4: Amostragem Distribuição

  • Upload
    lyxuyen

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 11/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Mestrado Integrado em Engenharia Civil

Disciplina: TRANSPORTESProf. Responsável: José Manuel Viegas

Sessão Prática 4: Amostragem

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 22/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (I)Noções básicas (I)

Distribuição da Média Amostral Para uma variável X, representativa de uma população e para amostras de

dimensão n, a média amostral é definida por:

Supondo que X1,…, Xn são variáveis independentes e seguem distribuição normal com valor esperado e variância 2.

Valor esperado da Média Amostral é:

Variância da Média Amostral é:

Z segue distribuição normal com média 0 e variância 1:

XXXEXE

nσµXZ

x

x

n

1iiX

n1X

2x

2

n1Xvar

n1Xvar

X

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 33/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (II)Noções básicas (II)

A distribuição t-student surge quando o desvio padrão é desconhecido e tem de ser estimado a partir dos dados da amostra.

Variância da amostra:

T segue uma distribuição t-student com n-1 graus de liberdade:

Para dimensões de amostras muito grandes (n), a varíavel T tende para seguir uma distribuição Normal.

2n

1ii

2x )X(X

1n1S

nsµXT

x

x

Campos de aplicação:

Estimar o intervalo de confiança do valor esperado de uma distribuição normal quando a dimensão da amostra é pequena.

Avaliar a significância estatística da igualdade da média de duas amostras.

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 44/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (III)Noções básicas (III)

Fig.1 – Função densidade probabilidade

Fig.2 – Função distribuição

t�

t�

k = GL = Graus de Liberdade

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 55/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (IV)Noções básicas (IV)

A tabela seguinte lista alguns valores da distribuição t-student com GL graus de liberdade e diferentes graus de confiança:

GL

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 66/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (V)Noções básicas (V)

Intervalo de confiança para o valor esperado. Amostra de pequena dimensão, População Normal(Em amostras de pequena dimensão não se aproxima de S)

Grau de confiança 1-

Definir a de tal forma que

Intervalo de confiança:

a também pode ser representado por

1

nSaXµ

nSaXP1a

nSµXaP X

XX

X

X

nSaX;

nSaX XX

GL;2t

2)aT(P1)aTa(P

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 77/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Distribuição tDistribuição t--studentstudentNoções básicas (VI)Noções básicas (VI)

Intervalo de confiança para a diferença entre valores esperados Amostra de pequena dimensão, População Normal

Duas populações A e B com valores esperados A e B e variâncias A2 e B

2. Admita-se que a partir destas populações se obtiveram amostras independentes de dimensão nAe nB, com base nas quais se calcularam os estimadores dos valores esperados, , e das variâncias SA

2 e SB2.

A variável T segue uma distribuição t-student com GL = nA + nB - 2

Intervalo de confiança:

B

2B

A

2A

GL,2BA

B

2B

A

2A

GL,2BA

nS

nStXX;

nS

nStXX

BA XeX

AX

B

2B

A

2A

BABA

nS

nS

µµXXT

)/,( 2AAA nSN )/,( 2

BBB nSN BX

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 88/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Amostragem aleatória simplesAmostragem aleatória simplesDimensionamento (I)

As grandezas calculadas a partir de amostras são apenas estimativas. Há que ter sempre presente as respectivas margens de erro.

Margem de erro absoluto () ou Semi-largura do intervalo de confiança (SLIC)

Para população infinita:

Com correcção de população finita:

onde,t/2 – abcissa correspondente ao grau de confiança (1-) na lei t-studentx – estimativa do desvio padrão da populaçãon – dimensão da amostraN – dimensão da população

nt x

2

NnN

nt x

2

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 99/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Amostragem aleatória simplesAmostragem aleatória simplesDimensionamento (II)

Erro relativo () – esta formulação permite uma interpretação independente da variância da variável a estimar.

A dimensão da amostra (n) necessária para um erro absoluto pretendido (considerando um população infinita):

2x

2tn

NnN

n1t

2x

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1010/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Amostragem aleatória simplesAmostragem aleatória simplesDimensionamento (III)

Frequentemente não há uma ideia clara sobre o erro relativo pretendido por não ser evidente quanto vale/custa a ignorância associada a esse erro. A decisão deve ser tomada considerando o custo da falta de informação (C1) e o custo de aquisição de informação (C2).

A dimensão óptima da amostra é conseguida através do valor mínimo do custo total (CT).

A dimensão da amostra cresce com o custo do erro e desvio padrão da variável base e decresce com o custo de aquisição de informação (inquéritos, contagens).

32

2

x2

1

2x

21 c2

tcn0

dndCTCTMinnc

ntcCT

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1111/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Enunciado

Pretende-se estimar o número de veículos rodoviários pesados que entram diariamente em Lisboa entre as 7 e as 10h, num conjunto de 6 eixos principais. Esse conjunto de eixos tem uma capacidade horária global por sentido de cerca de 30000 veículos por hora. Admite-se que a percentagem de veículos pesados no tráfego nesses eixos e período horário seja entre 4 e 6%, e que a estimativa do desvio padrão é 250.

a) Qual o número de dias de observação necessário para estimar o valor pretendido com um erro não superior a 200 veículos/dia?

b) Um técnico ligado ao sector afirma que os tráfegos pesados às segundas-feiras são marcadamente diferentes dos ocorridos nos outros dias úteis, pelo que deveriam ser estimados separadamente. Admita que tinham sido feitas observações em todos os dias úteis de 2 semanas, com os seguintes resultados:

Indicador 2ªf Outros dias úteis

Nobs 2 8

Média 4640 4360

Desvio padrão 290 235

Pode afirmar-se que as médias do número de veículos pesados são, no geral, iguais às segundas-feiras e nos outros dias úteis?

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1212/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

a) Fórmulas relevantes:

Dados:

Capacidade global dos 6 eixos 30.000 veículos/hora

% de veículos pesados mín. 4% 1.200 veíc. pes./horamáx. 6% 1.800 veíc. pes./hora

No intervalo das 7-10h mín. 3.600 veículos pesadosmáx. 5.400 veículos pesados

Estimativa do desvio padrão x 250 veíc. pes./dia

Erro máximo admitido 200 veíc. pes./dia

nt x

2

2x

2tn

(1) (2)

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1313/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Definição do grau de confiança:O grau de confiança corresponde à probabilidade de o verdadeiro valor da média se situar dentro do intervalo de confiança que vai ser calculado. Ainda que o mais habitual seja trabalhar-se com 95%, pode admitir-se que, face ao vasto conjunto de factores que pode fazer variar os volumes de tráfego, não necessitemos nestes casos de uma tal precisão, descendo até aos 80%.

Dimensionamento da amostra:Como o valor de t/2 (abcissa correspondente ao grau de confiança pretendido na lei de t-student) depende do número de graus de liberdade (n-1), a fórmula (2) tem de ser resolvida por um processo iterativo.

Sendo a distribuição t-Student simétrica em relação à média, a um grau de confiança de 80% correspondem duas caudas de 10% cada, pelo que a abcissa do lado do erro positivo deve ser procurada no percentil 90. Algumas tabelas têm como entrada o valor 10%.

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1414/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

1ª Iteração (n = )Iniciaremos o processo considerando n = , ou seja, admitindo que temos uma distribuição Normal.

Com recurso à tabela da Normal Padronizada

Logo,

2ª Iteração (n = 3)

Consultando agora a tabela de probabilidades associada à cauda direita da distribuição t-student com grau de liberdade 2 (n-1).

282,1t9,0)tZ(P ,2,2

357,2200250282,1n

2

normal

656,5200250886,1n886,1t

2

2%,10

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1515/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Iterações seguintes

1715

250533,1533,1t,5n

2

3ª Iteração

Ensaio com dimensão 6

t10%,5 1,476

Dimensão da amostra (n) 3,40 4

4ª Iteração

Ensaio com dimensão 4

t10%,3 1,638

Dimensão da amostra (n) 4,19 5

5ª Iteração

Ensaio com dimensão 5

t10%,4 1,533

Dimensão da amostra (n) 3,67 4

Verifica-se assim que com o valor de t associado a uma amostra de 5 se poderia usar uma amostra 4, mas com o t correspondente a esta implica a dimensão de amostra 5. Dever-se-á optar pela dimensão cujo erro correspondente resultar não superior a 200 veículos pesados por dia.

2054

250638,1638,1t,4n

2

CONCLUSÃO: Com a dimensão de amostra 5 o erro máximo de estimação da média é de 171 veículos, para o grau de confiança 80%, sendo portanto inferior ao máximo admissível.

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1616/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Grau de confiança de 95%

1929

250306,2306,2t,9n

2

1ª Iteração

Ensaio com dimensão

t2,5%, 1,960

Dimensão da amostra (n) 6,003 7

3ª Iteração

Ensaio com dimensão 11

t2,5%,10 2,228

Dimensão da amostra (n) 7,76 8

5ª Iteração

Ensaio com dimensão 9

t2,5%,8 2,306

Dimensão da amostra (n) 8,31 9

2098

250365,2638,1t,8n

2

CONCLUSÃO: Com a dimensão de amostra 9 o erro máximo de estimação da média é de 192 veículos, para o grau de confiança 95%, sendo portanto inferior ao máximo admissível.

2ª Iteração

Ensaio com dimensão 7

t2,5%,6 2,571

Dimensão da amostra (n) 10,33 11

4ª Iteração

Ensaio com dimensão 8

t2,5%,7 2,365

Dimensão da amostra (n) 8,74 9

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1717/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

b) Dados:

X1 – veículos pesados que entram diariamente às segundas-feiras X2 – veículos pesados que entram diariamente nos restantes dias úteis

X1 N(1, 1) e X2 N(2, 2)

Da amostra da população 1:

Da amostra da população 2:

Se X1 e X2 seguem distribuição Normal, sendo Y = X1 - X2, então Y N(y, y)

2ne290se4640x 111

8ne235se4360x 222

221s489538

2352

290ns

nssss

28043604640xx

Y

22

2

22

1

212

X2X

2Y

21YY

21

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1818/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Teste de Hipóteses:

Pretende-se testar se as médias das duas populações X1 e X2 são iguais, ou seja, pretende-se saber se o valor esperado de Y é nulo (y=0), sendo y= 1- 2

H0: y=0H1: y≠0

Tratando-se de amostras de pequena dimensão segue uma

distribuição t-student (t/2,GL), onde GL=n1+n2-2 e depende do grau de confiança assumido na estimativa de y.

Vamos determinar os intervalos de confiança para graus de confiança de 80% e 95%.

Y

YYT

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 1919/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Intervalos de confiança

Grau de Liberdade = 2+8-2= 8

Erro absoluto (SLIC) onde e n=2+8=10

Limite Inferior do intervalo de confiança

Limite superior do intervalo de confiança

Grau de confiança

Grau de Liberdade (t/2,GL) Limite inferior Int.

ConfLimite superior Int.

Conf

80% 8 1,397 308,7 -28,7 588,7

95% 8 2,306 509,6 -229,6 789,6

Y2B

2B

A

2A

2St

nS

nSt

y

y

221SY

CONCLUSÃO: Como se pode observar, em ambos os casos, graus de confiança de 80% e 95%, o valor 0 pertence ao intervalo de confiança, logo não se deve rejeitar a hipótese de que as médias das duas amostras são iguais, ou seja, o tráfego de pesados à segunda-feira não é suficientemente diferente do que ocorre nos outros dias.

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.1 – Resolução

Instituto Superior Técnico / Mestrado Integrado Engª Civil – Transportes – Aulas Práticas 2020/20/20

Sess

ão P

rátic

a 4:

Am

ostr

agem

Para efeito de bom dimensionamento dos tempos de ciclo em exploração, pretende-se avaliar o tempo adequado de paragem do metropolitano em cada estação, em função do seu número de embarques e desembarques por hora. Esses volumes podem ser observados para as estações existentes e modelados para novas estações.

Um conjunto de observações já com alguns anos permite considerar adequado que o conjunto de estações e horas de serviço seja agrupado em três classes (tráfego intenso, médio e moderado), com tempos médios em torno dos 25 seg., 18 seg. e 12 seg.. Sabe-se que a variabilidade relativa dos tempos de embarque e desembarque é maior nas situações de tráfego intenso, para os quais valores de 8 seg. acima da média são relativamente frequentes (considere que “relativamente frequentes” corresponde a 40% das situações).

Qual o número de observações (paragens de comboios em estações) a fazer em cada uma dessas classes de intensidade de tráfego se se quiser estimar o tempo médio e o intervalo de confiança desse estimador com uma margem de erro não superior a 3 seg.?

Amostragem aleatória simplesAmostragem aleatória simplesExercício 4.2 – Enunciado