Upload
phungdan
View
214
Download
0
Embed Size (px)
Citation preview
Testes de Hipoteses sobre a media: Varias
Amostras
Na aula de hoje veremos como comparar mais
de duas populacoes, baseados em dados forneci-
dos por amostras dessas populacoes.
A Analise de Variancia (ANOVA) e uma tecnica
usada em Estatıstica para este fim e requer
que a variavel sob analise tenha distribuicao
normal.
Uma versao nao parametrica para a compara-
cao de varias populacoes e o teste de Kruskal-
Wallis que tambem sera apresentado na aula
de hoje.
1
EXEMPLO 1: (ALCOOL E HABILIDADE DE
DIRIGIR)
Trinta e seis (36) pessoas participaram de um
experimento para descobrir os efeitos do alcool
na habilidade de dirigir. Elas foram aleato-
riamente associadas a uma de tres condicoes:
placebo, pouco alcool e muito alcool. A bebida
nao-alcoolica parecia e tinha o mesmo gosto
das demais. Os participantes foram pesados e
tomaram a quantidade apropriada de bebida.
Observe que temos uma situacao de amostras
independentes (interparticipantes), pois os gru-
pos sao diferentes. Uma hora apos beber, os
participantes dirigiram em um simulador du-
rante 10 minutos e o numero de erros que eles
cometeram foi automaticamente registrado por
um computador.
Os dados obtidos estao na tabela a seguir.
2
Placebo Pouco Alcool Muito Alcool5 5 8
10 7 107 9 83 8 95 2 117 5 15
11 6 72 6 113 4 85 4 86 8 176 10 11
x = 5,83 x = 6,17 x = 10,25s = 2,69 s = 2,33 s = 3,05
Ha diferenca significativa entre am medias dos
diferentes grupos (placebo, pouco alcool e mui-
to alcool)?
Em caso afirmativo, a diferenca esta presente
entre todos os grupos ou em apenas um em
relacao aos demais?
3
Analise Exploratoria dos dados: a seguir apre-
senta-se um box-plot(grafico caixa) dos resul-
tados para cada grupo.
4
Na ANOVA a um fator com amostras indepen-
dentes, os dados podem ser representados da
seguinte forma
cond. 1 cond. 2 ... cond. ay11 y12 ... y1ay21 y22 ... y2a
... ... ... ...yn11 yn22 ... ynaa
Como as amostras sao independentes, elas po-
dem ter tamanhos diferentes.
a representa o numero de condicoes diferentes.
nj representa o numero de observacoes sob a
j-esima condicao, j = 1,2, ..., a
yij representa a i-esima observacao sob a j-
esima condicao, i = 1,2, ..., nj e j = 1,2, ..., a.
5
O nome em Estatıstica para um experimento
com essa cofiguracao e experimento a um
fator completamente aleatorizado.
No Bioestat a funcao apropriada para esse caso
esta em
Estatısticas,
Analise da Variancia,
ANOVA:um criterio.
6
Um teste de hipoteses apropriado aqui e{H0 : µ1 = µ2 = ... = µaH1 : pelo menos uma das medias e diferente das demais
µj corresponde a media do j-esimo grupo. Neste
exemplo temos tres grupos tal que j = 1,2,3.
A tecnica que iremos trabalhar, Analise de Va-
riancia (ANOVA) requer que as amostras pro-
venham de populacoes normais com variancias
iguais.
O Bioestat tem testes que verificam a norma-
lidade.
A ANOVA busca por diferencas entre as medias
dos grupos. Quando as medias sao bem dife-
rentes, dizemos que existe um alto grau de
variacao entre condicoes.
Se nao existirem diferencas entre as medias dos
grupos, nao existira variacao entre as condicoes.
7
Variancia entre grupos: corresponde a variacao
devida as condicoes que definem os grupos.
Variancia intra-grupos: corresponde a variacao
dentro de cada grupo.
Na ANOVA a um fator com amostras inde-
pendentes a variacao total e decomposta em
duas parcelas correspondentes a variacao entre
grupos e a variacao intra-grupos.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQdentro︸ ︷︷ ︸variacao dentro dos grupos
Se a hipotese nula de que todas as medias sao iguais,isto e, de que nao ha variacao entre grupos, e ver-dadeira, segue que a variacao dentro dos grupos tendea ser igual a variacao total.
8
Notacao: SQTot: variacao total, SQentre: va-riacao entre grupos e SQdentro: variacao intragrupos.
QMTot =SQTotN − 1
: e uma media da variacao to-
tal.
N e o numero total de observacoes no pro-blema. No exemplo que estamos considerandoN = 3× 12 = 36.
QMentre =SQentre
a− 1: e uma media da variacao
entre grupos, chamada quadrado medio entregrupos.
a e o numero de grupos (condicoes) no pro-blema. No exemplo que estamos considerandoa = 3.
QMdentro =SQdentroN − a
: e uma media da variacao
intra grupos, chamada quadrado medio intragrupos.
9
A estatıstica do teste realizado pela ANOVA
e dada pela razao dos quadrados medios entre
grupos e intra grupos, a saber,
F =QMentre
QMdentro.
Se a hipotese nula e verdadeira, e possıvel mos-
trar que a estatıstica F tem uma distribuicao F
de Snedecor com a− 1 e N − a graus de liber-
dade no numerador e denominador, respecti-
vamente.
Se a hipotese nula e verdadeira, espera-se que
a razao entre os quadrados medios entre e den-
tro dos grupos seja pequena. Em geral, re-
jeitaremos H0 quando os valores amostrais de
F forem grandes.
10
A Distribuicao F de Snedecor
A distribuicao F esta definida para valores po-
sitivos e apresenta assimetria positiva. A seguir
veja um grafico da densidade F com 4 e 2 graus
de liberdade.
11
Usando um nıvel de significancia α, a Regiao
Crıtica do teste da ANOVA sera a cauda su-
perior da distribuicao Fa−1,N−a de area α.
12
Na ANOVA e comum apresentar os resultados
usando uma tabela chamada tabela ANOVA.
Esta tabela contem as seguintes informacoes:
fontes de variacao, graus de liberdade, quadra-
dos medios e a razao F .
fonte devariacao SQ gl QM Fentregrupos SQentre a− 1 QMentre F = QMentre
QMdentro
dentro dosgrupos (residual) SQdentro N − a QMdentro
total SQTot N − 1
QMentre =SQentre
a− 1, QMDentro =
SQdentro
N − a
Se o valor de F for grande, H0 sera rejeitada.
13
Uma outra medida que tambem decorre da
analise de variancia e a chamada porcenta-
gem da variacao total explicada pelo fator
sob consideracao.
Vimos que
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQdentro︸ ︷︷ ︸variacao dentro dos grupos
Essa equacao leva a seguinte definicao
R2 =SQentre
SQTot
Observe que R2 esta entre 0 e 1. Quanto
maior for o valor de R2, mais o fator explica a
variacao dos dados no problema.
14
O Bioestat tem a funcao ANOVA. No caso do
exemplo apresentado devemos escolher:
Estatısticas, Analise da Variancia, ANOVA: um
criterio.
O quadro a seguir mostra a saıda do Bioestat
para os dados do exemplo sob consideracao.
15
Do quadro anterior podemos ver que o p-valordo teste ANOVA e muito pequeno (menor que0,001), indicando que esses dados trazem evi-dencia muito forte contra a hipotese nula deque as medias sob as diferentes condicoes saoiguais. Observe que o valor da estatıstica deteste F tambem e grande.
Logo, devemos rejeitar H0 em favor da hipotesealternativa de que pelo menos uma das mediase diferente das demais.
Se a hipotese nula, medias iguais, for rejeitada,significa que ha evidencia de que existem dife-rencas nas medias de tratamento.
Observe que a hipotese alternativa e bastantevaga: pelo menos uma media e diferente dasdemais.
A diferenca existente nao e especificada porH1.
16
Dado que rejeitamos H0, sera importante saber,
por exemplo, se as medias sao duas a duas
diferentes entre si, ou se uma delas e diferente
das demais, ou outras possibilidades contem-
pladas por H1.
Existem varios testes de comparacao das me-
dias duas a duas, no caso de rejeicao de H0
na ANOVA. Vamos apresentar aqui o teste de
Tukey.
17
Comparacoes de pares de medias de trata-mento
Vamos ver a seguir o metodo de Tukey desig-nado para este tipo de comparacao:
{H0 : µi = µk, ∀i 6= kH1 : pelo menos um par de medias e desigual
.
Teste de Tukey (1953): Procedimento parao qual o nıvel de significancia global e exata-mente α, quando os tamanhos amostrais saoiguais e no maximo α, quando os tamanhossao desiguais.
Este procedimento tambem pode ser usadopara construir intervalos de confianca sobreas diferencas de todos os pares de medias.Para estes intervalos, o nıvel de confianca si-multaneo e 100(1−α)% para amostras de tama-nhos iguais e pelo menos 100(1 − α)% paraamostras de tamanhos desiguais.
18
O procedimento de Tukey usa a distribuicao
da estatıstica de variacao “studentizada”
q =ymax − ymin√QMdentro/n
,
com ymax e ymin a maior e a menor entre as
medias de tratamento.
Para tamanhos amostrais iguais, o teste de
Tukey declara que duas medias sao significa-
tivamente diferentes se o valor absoluto da
diferenca amostral excede
Tα = qα(a,N − a)
√QMdentro
n.
Valores de qα(a,N−a) sao tabulados em textos
especializados de Estatıstica e tambem estao
disponıveis em programas computacionais.
19
Atencao: E possıvel ocorrer a seguinte situacao:
(i) rejeita-se H0 via ANOVA.
(ii) nao sao encontradas diferencas significa-
tivas quando se comparam as medias duas a
duas.
Esta situacao tem uma explicacao, pois o teste
F e um teste simultaneo de todos as com-
paracoes possıveis e nao apenas das medias
duas a duas.
Se isso ococrrer significa que o contraste signi-
ficativo nao sera uma comparacao simples de
duas medias.
20
Rodando as comparacoes, via teste de Tukey,
dos pares de medias dos diferentes grupos para
o problema sob estudo no Bioestat obtemos o
seguinte quadro:
21
Pela saıda no Bioestat podemos concluir que a
media sob a condicao muito alcool e significati-
vamente diferente das outras duas medias, mas
as medias sob as condicoes placebo e pouco
alcool nao sao significativamente diferentes.
Na saıda do programa temos um resumo da
tabela ANOVA, as medias amostrais em cada
grupo e as linhas comparando os pares de me-
dias duas a duas.
ns representa nao significativo.
Assim, as medias sob placebo e pouco alcool
nao sao significativamente diferentes.
Observe tambem, pelo quadro anterior, que
R2 =145,167
145,167 + 241,583' 0,375 ou 37,5%.
22
EXEMPLO 2: Um laboratorio farmaceutico
deseja investigar a bioatividade de uma nova
droga. Um experimento a um fator comple-
tamente aleatorizado foi conduzido com tres
nıveis de dosagem da droga, e os resultados
obtidos estao na tabela a seguir.
20 g 30 g 40 g24 37 4228 44 4737 31 5230 35 38
(a) Ha evidencias para indicar que os nıveis
de dosagem afetam a bioatividade? Use α =
0,05.
(b) Se a sua resposta foi afirmativa, faca com-
paracoes entre os pares de media. Que con-
clusoes voce pode tirar?
24
Saıda do Bioestat:
FV gl SQ QM F p-valordose 2 450.7 225.33 7.036 0.0145 *Residuals 9 288.2 32.03
Concluımos, ao nıvel de significancia de 5% que haefeito de dosagem na bioatividade.
A porcentagem da variacao total explicada pela dosageme dada por 450,7
450,7+288,2' 0,61 ou 61%.
25
(b) Vamos usar o prodedimento de Tukey para
comparar as medias duas a duas.
Saıda do Bioestat:
diferenca p-valor30-20 7 0.240340-20 15 0.011440-30 8 0.1680
Observa-se que a diferenca existe entre a dosa-
gem menor e a dosagem maior.
Entre dosagens consecutivas, a diferenca nao
e significativa.
26
Alem disso, pelos efeitos estimados, concluımos
que maior e a dosagem, maior sera a bioativi-
dade.
27
Amostras relacionadas: experimento intrapar-
ticipantes: Como fica?
Em Estatıstica o nome usado para esse tipo
de situacao e Experimento a um fator em
Blocos Completos Aleatorizados.
No Bioestat usa-se a seguinte funcao para esse
caso: Estatisticas, Analise da Variancia, ANO-
VA:dois criterios.
Suponha agora que no experimento do exem-
plo anterior participam apenas 12 pessoas e
que em intervalos de tempo espacados elas se-
jam submetidas, em ordem aleatoria, a cada
uma das condicoes: placebo, pouco alcool e
muito alcool. Ou seja, agora sao as mesmas
pessoas que sao observadas sob cada condicao.
28
Nesse caso as amostras nao sao independentes
e alem da variacao entre grupos e dentro do
grupos, passamos a poder medir uma variacao
inerente a cada participante (variacao de linha,
tambem chamada variacao devido aos blocos).
Observe que agora as amostras sob cada con-
dicao terao tamanhos iguais.
Na ANOVA a um fator com amostras rela-
cionadas(medidas repetidas), os dados podem
ser representados da seguinte forma
cond. 1 cond. 2 ... cond. ay11 y12 ... y1ay21 y22 ... y2a
... ... ... ...yn1 yn2 ... yna
Como as amostras sao as mesmas, elas tem
tamanhos iguais.
29
cond. 1 cond. 2 ... cond. ay11 y12 ... y1ay21 y22 ... y2a
... ... ... ...yn1 yn2 ... yna
a representa o numero de condicoes diferentes.
n representa o numero de observacoes sob cada
condicao.
N = an e o numero total de observacoes.
yij representa a i-esima observacao sob a j-
esima condicao, i = 1,2, ..., n e j = 1,2, ..., a.
30
Na ANOVA a um fator com amostras rela-
cionadas a variacao total e decomposta em
tres parcelas correspondentes a variacao entre
grupos, a variacao inerente a cada participante
(variacao dos blocos) e a variacao residual.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQBl︸︷︷︸variacao do indivıduo
+ SQres︸ ︷︷ ︸variacao residual
Notacao: SQTot: variacao total, SQentre: variacao entre grupos,SQBl - variacao nos blocos (individual) e SQdentro: variacao residual(dentro de cada grupo).
QMTot =SQTot
N − 1: e uma media da variacao total.
N e o numero total de observacoes no problema.
QMentre =SQentre
a− 1: e uma media da variacao entre grupos, chamada
quadrado medio entre grupos.
a e o numero de grupos (condicoes) no problema.
QMBl =SQBl
n− 1: e uma media da variacao dos blocos, chamada
quadrado medio dos blocos.
n e o numero de observacoes (igual) sob cada condicao.
QMdentro =SQdentro
(a− 1)(n− 1): e uma media da variacao residual, chamada
quadrado medio residual ou intra grupos.
31
A estatıstica do teste realizado pela ANOVA
nesse caso e dada pela razao dos quadrados
medios entre grupos e residual, a saber,
F =QMentre
QMdentro.
Se a hipotese nula e verdadeira, e possıvel mos-
trar que a estatıstica F tem uma distribuicao
F de Snedecor com a−1 e (a−1)(n−1) graus
de liberdade no numerador e denominador, re-
spectivamente.
Se a hipotese nula e verdadeira, espera-se que
a razao entre os quadrados medios entre e den-
tro dos grupos seja pequena. Em geral, re-
jeitaremos H0 quando os valores amostrais de
F forem grandes.
32
A tabvela ANOVA correspondente a esse caso
e dada por
fonte devariacao SQ gl QM F
entregrupos SQentre a− 1 QMentre F = QMentre
QMdentro
blocos(individual) SQBl n− 1 QMBl
dentro dosgrupos
(residual) SQdentro (a− 1)(n− 1) QMdentro
total SQTot N − 1
QMentre =SQentre
a− 1, QMDentro =
SQdentro
(a− 1)(n− 1)
Se o valor de F for grande, H0 sera rejeitada.
O Bioestat tem essa funcao.
Estatısticas, Analise da Variancia, ANOVA: dois criterios.
33
O quadro a seguir mostra a saıda do Bioestat
para os dados do exemplo sob consideracao.
Podemos perceber que o teste ANOVA rejeita
H0, pois o p-valor e muito pequeno. Logo,
faz sentido realizar as comparacoes de medias
duas a duas.
34
Cuidado: toda vez que as medidas forem repeti-
das para as mesmas unidades amostrais e fun-
damental rodar a ANOVA a dois criterios, pois
caso contrario a variacao dentro dos grupos
podera ficar inflacionada acarretando na nao
rejeicao de H0 um maior numero de vezes por
conta da variacao residual inflacionada, ou seja,
aumentando a chance de cometer o erro tipo
II.
Se as amostras forem relacionadas, ou seja, se
for um experimento intra-participantes, rode o
a ANOVA a dois criterios.
36
Vamos agora apresentar um metodo nao-para-
metrico para a analise de variancia (ANOVA):
O teste de Kruskal-Wallis
Em situacoes nas quais a suposicao de nor-
malidade nao e justificada, existe um procedi-
mento alternativo ao teste F da ANOVA que
nao depende desta suposicao. Um procedi-
mento desse tipo foi desenvolvido por Kruskal
e Wallis em 1952.
Neste teste, H0 corresponde a hipotese de que
os a tratamentos (grupos ou condicoes) sao
identicos versus a alternativa de que algum
tratamento (grupo ou condicao) gera observa-
coes que sao maiores que as outras geradas pe-
los outros tratamentos (grupos ou condicoes).
37
Como este procedimento e designado para ser
sensıvel para testar diferencas em medias, al-
gumas vezes e conveniente pensar no teste de
Kruskal-Wallis como um teste para a igualdade
de medias de tratamento (grupo ou condicao).
Este teste e uma alternativa nao-parametrica
a ANOVA usual.
Passos no teste Kruskal-Wallis
P1) Designe postos rij as observacoes yij em
ordem crescente das observacoes. Em caso
de empate, designe as observacoes empatadas
a media dos postos correspondentes caso nao
houvesse empate.
yij representa a i-esima observacao do j-esimo
grupo.
38
P2) Calcule a soma dos postos para cada trata-mento (grupo ou condicao), a saber, ri. =ni∑j=1
rij, i = 1,2, ..., a.
P3) Calcule a estatıstica de teste H dada por
H = 1S2
{N
a∑i=1
(Ri. − R..)2
}= 1
S2
[a∑
i=1
R2i.
ni−N(N + 1)2
4
]
com ni o numero de observacoes no i-esimotratamento (grupo), N o numero total de replicacoes,e
S2 = 1N−1
a∑i=1
n∑j=1
(Rij−R..)2 =1
N − 1
a∑i=1
ni∑j=1
R2ij −
N(N + 1)2
4
.Observe que S2 e a variancia amostral dos pos-tos. Se nao existem empates,
S2 = N(N+1)/12 e a estatıstica de teste sim-plifica para
H =12
N(N + 1)
a∑i=1
R2i.
ni− 3(N + 1).
39
Quando o numero de empates e moderado,
havera pouca diferenca entre as duas expres-
soes para H e a forma mais simples pode ser
usada. Se os ni’s sao razoavelmente grandes,
digamos ni ≥ 5, ∀ i, a distribuicao de H e
aproximadamente uma Qui-quadrado com a−1
graus de liberdade sob H0.
Portanto, a regiao crıtica do teste a um nıvel
α de significancia, sera dada por
H ≥ χ2(1−α),a−1.
O p-valor tambem pode ser usado.
:) Calma: o Bioestat contem esse teste e
voce nao precisara se preocupar em designar
postos e calcular a estatıstica H.
40
Vamos rodar o teste proposto por Kruskal-
Wallis no Bioestat.
Estatısticas seguido de Analise da Variancia
seguido de Kruskal-Wallis.
Indique as colunas contendo os dados e exe-
cute para obter
Como podemos ver o p-valor e pequeno, in-
dicando que os dados trazem evidencia muito
forte contra H0.
41
Novamente, como H0 e rejeitada, faz sentido
em comparar os pares de medias duas a duas.
No Bioestat ha dois testes disponıveis: Dunn
e Student-Newman-Keuls.
Rodando o procedimento porposto por Dunn
obtem-se
42