Planejamento e Otimização de Experimentos...Intervalo de confiança para a média populacional a...

Preview:

Citation preview

Planejamento e Otimização

de Experimentos

Um Pouco de Estatística

Prof. Dr. Anselmo E de Oliveira

anselmo.quimica.ufg.br

anselmo.disciplinas@gmail.com

Populações, Amostras e Distribuições

População

Amostra

aleatória

representativa

Distribuições

Normal

t de Student

F

2

Não paramétricas

Populações, Amostras e Distribuições

Com quantos grãos se faz uma feijoada?

depende do tamanho da feijoada

receita: 1 kg de feijão

Quantos grãos existem em 1 kg de feijão?

Populações, Amostras e Distribuições

contar todos os caroços abordagem estatística

descobrir o peso de um caroço e dividir 1.000 g por esse valor

caroços/kg

caroços/kg

os pesos dos caroços não são idênticos

os pesos dos caroços variam de modo imprevisível

Populações, Amostras e Distribuições

deve haver limite para as massas dos caroços

0 g < mc < 1 kg

mc não deve flutuar muito

População

- conjunto de todos os valores possíveis

- conjunto dos pesos individuais de todos os caroços do pacote

Populações, Amostras e Distribuições

Obter uma estimativa a partir de uma amostra da população

Amostra

representativa

aleatória

Populações, Amostras e Distribuições

Como deve ser feita a amostragem em um saco de feijão?

a chance de um caroço de feijão ser pesado

deve ser exatamente a mesma para todos os caroços pesar e colocar novamente no saco

a hipótese da aleatoriedade deve ser obedecida

Histograma Pesos de 140 caroços extraídos aleatoriamente de um pacote de 1 kg de feijão preto (em gramas)

flutuação restrita

maior = 0,3043 g

menor = 0,1188 g

maioria 0,20 g

Populações, Amostras e Distribuições

Ocorrência

número de caroços em um dado intervalo

Frequência/Frequência Relativa

número de caroços em um dado intervalo dividido pelo número total de caroços.

8,6% dos pesos medidos estão entre 0,18 e 0,19 g

Histograma de frequência

• peso x frequência

• facilidade da representação gráfica

• concentração em torno de 0,20 g

• diminuição progressiva quando se afasta de 0,20 g

• simetria na distribuição.

Populações, Amostras e Distribuições

Média Amostral

𝑥 =1

𝑁 𝑥𝑖

𝑁

𝑖

= 0,2024 𝑔

Desvio 𝑑𝑖 = 𝑥𝑖 − 𝑥

Variância Amostral

𝑉 𝑥 =1

𝑁 − 1 𝑑𝑖

2

𝑁

𝑖

= 0,0132 𝑔2

Desvio Padrão Amostral

𝑠𝑥 = 𝑉 𝑥 = 0,0363 g

essa média calculada está em concordância com o histograma dos pesos

Populações, Amostras e Distribuições

Exemplo

Um desvio padrão

0,2024 ± 0,0363 g [0,1661 g, 0,2387 g]

66 % da área total do histograma

96,8 % da área total do histograma

Dois desvios padrão

0,2024 ± 0,0726 g [0,1298 g, 0,2750 g]

𝑠𝑥 = 0,0363 g 𝑥 = 0,2024 g

Populações, Amostras e Distribuições

66% da área

96,8% da área

Populações, Amostras e Distribuições

Estimativas Amostrais

𝑥 e s

Modelo Estatístico

Distribuição Normal, ou Gaussiana

Parâmetros Populacionais

e

Distribuição Normal

Distribuição Normal

Distribuição Normal: sempre?

Medidas de condutividade realizadas em um poço d’água em um ano Condutividade (S/cm)

9,43 Bloco Freqüência 49,00 10 1 116,80 33 4 111,80 56 1 28,40 79 0

120,40 101 0 116,80 124 12 111,80

28,40

120,40

116,80

111,80

28,40

120,40

116,80

111,80

28,40

114,20

média 86,77 desv pad 42,91

0

2

4

6

8

10

12

14

10 33 56 79 101 124 Mais

Fre

ên

cia

Bloco

Histograma

Distribuição Log-Normal

A sample of data from a log-normal distribution 914.9 1568.3 50.5 94.1 199.5 23.8 70.5 213.1

44.1 331.7 139.3 115.6 38.4 357.1 725.9 253.2

905.6 155.4 138.1 95.2 75.2 275.0 401.1 653.8

390.8 483.5 62.6 128.5 81.5 218.5 308.2 41.2

60.3 506.9 221.8 112.5 93.7 199.3 210.6 39.2

0

5

10

15

20

25

30

244.8 465.8 686.8 907.8 1128.8 1349.8 1570.8 Mais

Fre

ên

cia

Média = 275.0

Distribuição Log-Normal

Média = 2.2267

0

1

2

3

4

5

6

7

8

9

10

Fre

ên

cia

Probabilidade de Ocorrência

Distribuição normal da variável aleatória

𝑥 ≈ 𝑁 𝜇, 𝜎2

𝑧 ≈ 𝑁 0,1

a b

𝑝 𝑎 < 𝑥 < 𝑏 = 𝑝 𝑎 ≤ 𝑥 ≤ 𝑏 =

𝑓 𝑥 𝑑𝑥𝑏

𝑎

Probabilidade de Ocorrência

Probabilidade de Ocorrência

Probabilidade de Ocorrência

Qual a probabilidade de ocorrência de um evento em um dado intervalo?

Se uma amostra se distribui normalmente, pode-se utilizar a Distribuição Normal para fazer inferências

exemplo da feijoada:

área total do histograma área total para variável aleatória

66,6% 68,3%

96,8% 95,4%

100% 99,7%

boa concordância

Probabilidade de Ocorrência

xz

2,Nx 1,0Nz

z representa o afastamento de x em relação à média populacional, , medido em desvios padrão,

Na prática, não é necessário calcular uma integral faz-se uma padronização da variável aleatória x, de média e variância 2

Probabilidade de Ocorrência

Exemplo Padronizar os resultados de uma análise laboratorial calculando,

por exemplo, uma concentração – ou qualquer outra propriedade que esteja sendo avaliada –, cujo resultado esteja 2,5 desvios padrão acima da média

xz zx 5,2z

5,2x

Probabilidade de Ocorrência

P(1-q), q = confiança

P() = 0,05 ou 5%

P(0,05) q = 0,95 = 95 %

P(0,05) representa uma confiança de 95 %

1 em 20

P < 0,05

q incerteza e vice-versa P(0,05) representa uma confiança menor (incerteza maior)

que P(0,01)

Probabilidade de Ocorrência

z = 1,96

fração da área total sob a curva que está localizada à direita de z = 1,96

P(0,025)

como a curva é simétrica, essa área é idêntica à esquerda de z = 1,96

a soma das duas caudas representa 5% da área total

os 95% restantes estão entre [1,96; 1,96]

31,12 z

31,162,0 zP

Probabilidade de Ocorrência

Considere um população com média 0,2024 e desvio 0,0363. Qual a probabilidade de encontrar valores entre 0,18 e 0,25?

21 xxxP

1z 2z

21 zzzP

62,01 z

𝑧1 =0,18 − 0,2024

0,0363 𝑧2 =

0,25 − 0,2024

0,0363 𝑧 =

𝑥 − 𝜇

𝜎

𝑥1 = 0,18

𝑥2 = 0,25

Probabilidade de Ocorrência

Área Correspondente a P(-0,62 < z < 1,31)

-0,62 1,31

Probabilidade de Ocorrência

A probabilidade de ocorrência do evento será, então, toda a área da curva (100%) menos a área hachuriada

-0,62 1,31

1,0 P(0,62 < z < 1,31)

31,162,00,1 zP

0,1 2676,0 0951,0

6373,0

Conclusão: 63,73% dos valores devem estar entre 0,18 e 0,25

standard normal distribution

Limite de Confiança,

Distribuição Normal

Distribuição t de Student

Amostragem Aleatória

Desvio Padrão da Média

graus de liberdade (df) = 𝑁 − 1

𝜆 = 𝑡𝜈𝑠

𝑁

Amostragem Aleatória

Intervalo de Confiança para a média

Distribuição Normal

Distribuição t de Student

𝑥 − 𝑡𝜈𝑠

𝑁< 𝜇 < 𝑥 + 𝑡𝜈

𝑠

𝑁

Amostragem Aleatória

Quando o número de graus de liberdade do desvio padrão é maior do que 30, utiliza-se a distribuição Normal.

Amostragem Aleatória

Tomando como base o peso de um caroço, escolhido aleatoriamente, mc = 0,1188 g, e usando a distribuição normal

N = 1 𝑥 = 0,1188

p(0,05) ⇒ z = 1,96

supondo = 0,0363 g (valor amostral, s, 140 caroços)

intervalo de confiança para a média populacional a partir de uma observação

Amostragem Aleatória

Intervalo de confiança para a média populacional a partir da distribuição normal

Com quantos grãos se faz uma feijoada?

Logo, com 95% de confiança, nossa feijoada deve conter entre 4.798 e 5.092 caroços

N = 140

s = 0 ,0363

z = 1,96, com 95% de confiança

= 0,2024 g

Amostragem Aleatória

Usando a distribuição t

N = 10

s = 0 ,0423

𝑡𝜈 = ?, com 95% de confiança

= 0,1887 g

Com quantos grãos se faz uma feijoada?

𝑥 − 𝑡𝜈𝑠

𝑁< 𝜇 < 𝑥 + 𝑡𝜈

𝑠

𝑁

Amostragem Aleatória

t9 = 2,262 P(0,025)

como a curva é simétrica: P(20,025) = P(0,05)

ou 95% de confiança

Amostragem Aleatória

Usando a distribuição t

Com quantos grãos se faz uma feijoada? N = 10 caroços

s = 0,0423 g

t9 = 2,262 (95% de confiança)

= 0,1887 g Logo, com 95% de confiança, nossa feijoada deve conter entre 4.566 e 6.313 caroços

𝑥 − 𝑡𝜈𝑠

𝑁< 𝜇 < 𝑥 + 𝑡𝜈

𝑠

𝑁

Amostragem Aleatória

Comparação entre a distribuição normal e a distribuição t, com 95% de confiança

Distribuição Normal (N = 140)

Distribuição t de Student, com 9 graus de liberdade

obs: o intervalo de confiança varia conforme o inverso de 𝑁

4.798 < 𝑛𝑐 < 5.052

4.566 < 𝑛𝑐 < 6.313

0,1964 𝑔 < 𝜇 < 0,2084 g

0,1584 𝑔 < 𝜇 < 0,2190 g

Apresentação dos resultados

intervalo de confiança pode ser usado como teste para avaliação de erro sistemático

𝝁 = 𝒙 ± 𝝀 𝟗𝟓% 𝜆 = 𝑡𝜈

𝑠

𝑁

Teste com Intervalo de confiança

A escala de absorvância de um espectrofotômetro é testada em um comprimento de onda particular com uma solução padrão, que tem uma absorvância de 0,470. 10 medidas da absorvância com um espectrofotômetro fornecem um valor médio de 0,461, e um desvio padrão de 0,003. Encontre o intervalo de confiança para a absorvância média medida pelo espectrofotômetro, e então decida se há erro sistemático presente.

?

𝜇 = 𝑥 ± 𝜆

𝜇 = 𝑥 ± 𝑡𝜈𝑠

𝑁

1 - 0,05 = 95%

1 - 0,025 = 97,5%

Uma cauda

Intervalo de Confiança

Duas caudas

1 – 2*0,05 = 90% 1 – 2*0,025 = 95%

confiança

Como o intervalo de confiança não inclui a absorvância conhecida de 0,470, tudo indica que há um erro sistemático

Teste com Intervalo de confiança

𝜇 = 𝑥 ± 𝑡𝜈𝑠

𝑁

𝑥 = 0,461 𝑠 = 0,003 𝑡9 = 2,262 𝑁 = 10

𝜇 = 0,461 ± 2,2620,003

10

𝜇 = 0,461 ± 0,002

Tamanho da Amostra

Distribuição Normal

Distribuição t de Student

precisão L

𝜇 ± 𝑧𝜎

𝑁

𝑥 ± 𝑡𝜈𝑠

𝑁

Tamanho da Amostra

Tamanho da Amostra

Uma precisão de 0,1%, significa L = 0,1%

2

L

zN

Distribuição Normal

Distribuição t de Student 𝑁 >𝑡𝜈𝑠

𝐿

2

Tamanho da Amostra

Após 20 titulações o desvio padrão obtido foi 0,1509%. Qual o número mínimo de titulações para estimar a concentração média, dentro de uma precisão de 0,1%?

𝑁 ≥𝑡𝜈𝑠

𝐿

2

Pontos de probabilidade da distribuição t com graus de liberdade

Tamanho da Amostra

10 titulações são necessárias para estimar a concentração, com 95% de confiança

Tamanho da Amostra

As estimativas também podem ser feitas a partir de uma série histórica

Calcule N para = 0,5%

L = 0,2%

z(95%) = 1,96

O INMETRO exige, no mínimo, 07 medidas para um padrão

N ≥𝑧𝜎

𝐿

2

≥1,96 × 0,5

0,2

2

≥ 24

Testes de Significância

Comparando com um valor de referência

Teor de ácido acético no vinagre deve ser de 4%

Procedimento: titulação com base

Três titulações resultaram em 3,91; 4,01 e 3,61%

𝑥 =? 𝑠 =?

Testes de Significância

Média e Desvio padrão (N=3)

Intervalo de confiança (distribuição t de Student)

t = t3-1 = t2 = 4,30 com 95% de confiança, ou p(0,05)

3

2082,0

3

2082,0 30,4843,330,4843,3

%36,4%32,3 •O intervalo de confiança contém o valor de referência (4%)

•O lote está dentro da especificação

𝑥 = 3,843% 𝑠 = 0,2082%

𝑥 − 𝑡𝜈𝑠

𝑁< 𝜇 < 𝑥 + 𝑡𝜈

𝑠

𝑁

Testes de Significância

Mais cinco titulações

t = t8-1 = t7 = 2,365 com 95% de confiança, ou p(0,05)

%93,3%71,3 •O intervalo de confiança não contém o valor de referência, 4 %

•O lote está fora da especificação

Logo, existe evidência, com 95% de confiança, que o teor médio de ácido acético no lote de vinagre é inferior a 4%

𝑥 = 3,818% 𝑠 = 0,1286%

Testes de Significância

Comparando Dois Tratamentos

Comparando Duas Médias

Comparações Emparelhadas

Comparando Duas Variâncias

Testes de Significância

Comparando Duas Médias

Hipótese Nula

𝜇𝐴 = 𝜇𝐵 ↔ 𝜇𝐴 − 𝜇𝐵 = 0

Verificar se o intervalo de confiança contém o zero

Médias para os métodos A e B, de acordo com a

distribuição t de Student

𝜇𝐴 = 𝑥 𝐴 ± 𝑡𝜈𝐴𝑠𝐴

𝑁𝐴 𝜇𝐵 = 𝑥 𝐵 ± 𝑡𝜈𝐵

𝑠𝐵

𝑁𝐵

Testes de Significância

11

11 22

BA

BBAA

NN

sNsNs

nesse caso, admite-se que sA2 e sB

2 são estimativas da mesma variância populacional

𝜇𝐴 − 𝜇𝐵 = 𝑥 𝐴 − 𝑥 𝐵 ± 𝑡𝜈𝑠1

𝑁𝐴+1

𝑁𝐵

𝜈 = 𝜈𝐴 + 𝜈𝐵 = 𝑁𝐴 − 1 + 𝑁𝐵 − 1 = 𝑁𝐴 + 𝑁𝐵 − 2

Testes de Significância

Dois métodos para a determinação de boro em plantas apresentam os seguintes resultados, após 10 determinações de cada método:

Espectrofotométrico

média = 28,0 g/g; desvio padrão = 0,3 g/g

Flurimétrico

média = 26,25 g/g; desvio padrão = 0,23 g/g

Esses dois métodos apresentam médias que diferem significativamente?

Testes de Significância

FE

FEFENN

stxx11

0,2825,26 10

11

11 22

FE

FFEE

NN

sNsNs

223,0

23,0

= 2 x (N-1) = 2 x (10-1) = 18

𝑡18 =?P(0.05) 𝑡18 = 2.101 𝑃 0.05

Testes de Significância

Intervalo para as diferenças das médias, com 95 % de confiança

Como o intervalo de confiança não inclui o zero, as duas médias diferem significativamente.

Testes de Significância

Quando a suposição que os desvios padrão são iguais não é válida

11

22

22

222

B

B

B

A

A

A

B

B

A

A

N

Ns

N

Ns

Ns

Ns

e deve ser arredondado ao número inteiro mais próximo.

Testes de Significância

Comparações Emparelhadas

Amostra 1: Técnico A, N ensaios

Amostra 2: Técnico B, N ensaios

Hipótese Nula: 1 = 2

Pergunta: Existe diferença sistemática entre os dois técnicos?

(diferença na maneira de se realizar a análise química)

Testes de Significância

BiAii xxd

N

i

id dN

s 2

1

1

• Desvio

• Desvio Padrão

• Média dos Desvios

N

i

idN

d1

Se não existe diferença analítica entre o técnico A e o técnico B, a hipótese nula é verdadeira.

𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈𝑠𝑑

𝑁

Testes de Significância

Teste t pareado

𝑑𝑖 = 1.48; 0.66; 0.24; 0.21; −0.10; −0.61; −0.10; 0.09; −0.07; −0.21

𝑑 = 0.159 𝑠𝑑 = 0.57

𝑡9 = 2.262 𝑃 0.05

𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈𝑠𝑑

𝑁

𝜇𝐴 − 𝜇𝐵 = 0.159 ± 2.2620.57

10

= 0.159 ± 0.408

𝑡9 =?P(0.05)

Como o intervalo de confiança inclui o zero, as duas médias não diferem significativamente.

Testes de Significância

Comparando Duas Variâncias

Método A

Método B

Pergunta: Existe diferença significativa entre os dois métodos?

(um dos métodos é mais preciso que o outro)

Testes de Significância

Hipótese Nula: 22

BA ss

Teste F 𝐹 =𝑠𝐴2

𝑠𝐵2

Testes de Significância

Uma ou Duas Caudas?

Teste com duas caudas

diferenças entre médias em ambas direções

diferença entre um valor experimental e um valor de referência independentemente do sinal da diferença

Teste com uma cauda um resultado é maior (ou menor) que o outro

Testes de Significância

Outliers

Dixon´s Q-test: the data point are ranked and the difference between a suspected outlier and the observation closest to it is compared to the total range of measurements: Q-value;

If the calculated Q-value exceeds the critical value of Q, from tables, this point may therefore be rejected from subsequent analysis.

Testes de Significância

- Ex: 𝑄 =1056−1012

1056−990= 0.67

n = 10

Table of critical values for Dixon's Q-test at P=0.05: 0.466

Qcalc > Qtab 1056 may be rejected from subsequent analysis

Recommended