Upload
trandien
View
215
Download
0
Embed Size (px)
Citation preview
Lane Alencar - Planejamento e Pesquisa 1 - 2012 1
Planejamento e Pesquisa 1 -Análise de variância
Um Fator
Lane Alencar - Planejamento e Pesquisa 1 - 2012 2
Durabilidade de 4 tipos de carpetes: exh_aov.mtw� Eu tinha 4 tipos de carpetes e coloquei cada tipo em quatro casas
(um tipo em cada casa). Após 60 dias foi medida a durabilidade.� Variável resposta: durabilidade� Fator: Carpete� 4 Níveis do fator� 4 Réplicas� Objetivo: comparar a durabilidade dos 4 tipos de carpetes
Lane Alencar - Planejamento e Pesquisa 1 - 2012 3
E se tiver mais que dois grupos?
� A análise de variâncias (ANOVA) é apropriada para esse tipo de experimento
� A ANOVA foi desenvolvida por Fisher nos anos 20, e aplicada iniciamente em experimentos agrícolas
� Agora tem diversas aplicações
Lane Alencar - Planejamento e Pesquisa 1 - 2012 4
Caracterização do problema
� Em geral, tenho níveis do fator (variável explicativa categórica), ou tratamentos, e n réplicas, sendo que as unidades amostrais que receberão cada tratamento não são escolhidas em função de cada tratamento: Planejamento completamente aleatorizado (completely randomized design)
� N = total de observações
� Consideraremos efeitos fixos, efeitos aleatórios serão considerados posteriormente
� Objetivo inicial: Testar a igualdade das distribuições da variável resposta nos vários tratamentos
� Assumindo distribuição normal, independência e homocedasticidade para a variável resposta observada nas várias unidades amostrais, o objetivo torna-se:
� Objetivo: Testar a igualdade das médias da variável resposta nos vários tratamentos
Lane Alencar - Planejamento e Pesquisa 1 - 2012 5
Dados
� yij corresponde à variável resposta do tratamento i e unidade amostral j.
� Esse formato para os dados é chamado de wide (ou unstacked) em alguns programas.
� Se todas as variáveis respostas yij estivessem na mesma coluna, poderíamos ter uma segunda coluna indicando qual o tratamento correspondente a cada yij.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 6
4321
20
15
10
Carpete
Dur
abili
dade
Qual carpete você compraria?
Por enquanto iremos assumir homocedasticidade, o que não parece valer nesse exemplo.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 7
An Example (See pg. 62)
� Mudando a potência muda a taxa em média?
� Qual o nível de potência ótimo?
Lane Alencar - Planejamento e Pesquisa 1 - 2012 8
Lay-out dos dados
� Em geral, tenho níveis do fator (variável explicativa categórica), ou tratamentos, e n réplicas, sendo que as unidades que receberão cada tratamento não são escolhidas em função de cada tratamento: Planejamento completamente aleatorizado (completely randomized design)
� N = total de observações
� Consideraremos efeitos fixos, efeitos aleatórios serão considerados posteriormente
� Objetivo: Testar a igualdade das médias da variável resposta nos vários tratamentos
Lane Alencar - Planejamento e Pesquisa 1 - 2012 9
Análise de variância
� O nome vem da partição da variabilidade total da variável resposta em componentes de acordo com o modelo proposto
� O modelo básico para um fator é
� sendo µi a média de cada tratamento e eij os erros experimentais.
� Assumiremos que os erros são independentes e eij~N(0,σ2)
=
=+=
i
ijiijnj
riey
,...,1
,...,1,µ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 10
Análise Descritiva
� O que fazer descritivamente para responder ao objetivo inicial?
� Como fica no exemplo?
Lane Alencar - Planejamento e Pesquisa 1 - 2012 11
Potência
Lane Alencar - Planejamento e Pesquisa 1 - 2012 12
Modelos – Parametrizações
� Para os r níveis do fator de interesse e para as ni
observaçoes de cada nível, temos o modelo de médias
� De modo equivalente, podemos definir o modelo de desvios médios
� Qual a interpretação dos parâmetros? Esse modelo é identificável?
ijiij ey += µ
ijiij ey ++= τµ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 13
Modelos – Parametrizações
� Podemos escolher um dos r níveis do fator como sendo uma categoria de referência. Por exemplo escolhendo a categoria 1 obtemos
≠+∆+
=+=
1,
1,
1
1
ie
iey
iji
ij
ij µ
µ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 14
Notação
.
..
1
. ,i
ii
n
j
ijin
yyyy
i
==∑=
N
yyyy
a
i
n
j
ij
i
....
1 1
.. , ==∑∑= =
Para i=1,.., a, j=1,…,ni e N= total de observações
Lane Alencar - Planejamento e Pesquisa 1 - 2012 15
Estimação
� O modelo básico para um fator é
� sendo µi a média de cada tratamento e eij os erros experimentais.
� Assumiremos que os erros são independentes e eij~N(0,σ2)
� Quais métodos de estimação podemos utilizar?� Qual os estimadores dos parâmetros?
=
=+=
i
ijiijnj
riey
,...,1
,...,1,µ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 16
Análise de Variância� Variabilidade Total é medida como a soma de
� Note que:� O particionamento (pg. 692) é:
...... yyyyyy iiijij −+−=−
entre dentro dos tratamentos
( ) ( ) ( )
SSESStratSST
yyyynyyr
i
n
j
iij
r
i
ii
r
i
n
j
ij
ii
+=
−+−=− ∑∑∑∑∑= === = 1 1
2
.
1
2
...
1 1
2
..
( )∑∑= =
−=r
i
n
j
ij
i
yySST1 1
2
..
Lane Alencar - Planejamento e Pesquisa 1 - 2012 17
Graus de liberdade (posto)
� gltotal= N-1� Há N diferenças, mas 1 grau é perdido dado que
� gltrat=r-1, a desvios com
� glerro= N-r, pois para cada i temos
correspondendo a ni-1 graus, logo temosn1-1 + ... + nr-1 = N-r
( ) 01 1
.. =−∑∑= =
a
i
n
j
ij
i
yy
( )∑=
=−r
i
ii yyn1
... 0
( )∑=
−in
j
iij yy1
2
.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 18
Análise de Variância
SSESStratSST +=
� Um alto (baixo) valor de SStrat reflete grandes (pequenas) diferenças entre as médias dos tratamentos
� As hipóteses são
diferença alguma menos ao há:
...:
1
210
H
H rµµµ ===
Lane Alencar - Planejamento e Pesquisa 1 - 2012 19
Análise de Variância
� Enquanto as somas de quadrados não podem ser diretamente comparadas, os quadrados médios podem.
� O quadrado médio é a soma de quadrados dividida pelo correspondente graus de liberdade:
rN
SSMS
r
SSMS
rNrN
glglgl
erroerro
trattrat
errotrattotal
−=
−=
−+−=−
+=
,1
11
Lane Alencar - Planejamento e Pesquisa 1 - 2012 20
Útil
( ) ∑∑∑== =
−=−=r
i
ii
r
i
n
j
iij snyySSEi
1
2
1 1
2)1(
� Um estimador não viesado para a variância σ2
é
pg. 696
( )
rN
yy
rN
SSEMSE
r
i
n
j
iij
i
−
−
=−
=
∑∑= =1 1
2
Lane Alencar - Planejamento e Pesquisa 1 - 2012 21
Útil
Detalhes na pg. 696
( )1
)( 2
.2
−
−+=∑
r
nMSTRE
ii µµσ
N
n ii∑=
µµ.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 22
Tabela de Análise de Variância
� Altos valores de F indicam diferenças entre as médias.� Como realizar o teste?
Fonte de variaçãoSoma de quadrados
Graus de liberdade
Quadrado médio F
Entre tratamentos SStrat r-1 MStrat F=MStrat/MSEErro SSE N-r MSETotal SST N-1
Lane Alencar - Planejamento e Pesquisa 1 - 2012 23
Resultados
� As somas de quadrados apresentadas podem ser escritas de modo matricial como Formas quadráticas. Utilizando os resultados apresentados, por exemplo em Searle, temos que:
2
2
2
2
~
,~
erro
trat
gl
gl
SSE
sobSStrat
χσ
χσ
0H
MStrat e MSE são independentes
Lane Alencar - Planejamento e Pesquisa 1 - 2012 24
Resultados
� Utilizando os resultados anteriores, temos que
� Sob H1, obtemos uma distribuição F não central.
errotrat glglF
H
MSE
MStratF ,
0
~=
Lane Alencar - Planejamento e Pesquisa 1 - 2012 25
Tabela de Análise de Variância
� Assim, rejeitamos H0 se F>Fαααα,gltrat,glerro
Fonte de variaçãoSoma de quadrados
Graus de liberdade
Quadrado médio F
Entre tratamentos SStrat a-1 MStrat F=MStrat/MSEErro SSE N-a MSETotal SST N-1
Lane Alencar - Planejamento e Pesquisa 1 - 2012 26
Exemplo: Etch
Lane Alencar - Planejamento e Pesquisa 1 - 2012 27
Distribuição de F sob H0
Lane Alencar - Planejamento e Pesquisa 1 - 2012 28
Suposições do modelo
É importante checar a validade da� Normalidade� Homocedasticidade� Independência� Se o modelo ajustado está de acordo com os
dados: omissão de variáveis relevantes, presença de valores discrepantes
Lane Alencar - Planejamento e Pesquisa 1 - 2012 29
Model Adequacy Checking in the ANOVA
� Resíduos
� Gráfico QQ� pk= (k-0,5)/N� Procurar quantis pk na
dist normal.� Bussab e Morettin
(2011)
.
ˆˆ
iij
iijij
yy
ye
−
−= µ
-2 -1 0 1 2-2
0-1
00
1020
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Lane Alencar - Planejamento e Pesquisa 1 - 2012 30
Outros gráficos
Lane Alencar - Planejamento e Pesquisa 1 - 2012 31
Mais diagnósticos
� Resíduos padronizados
Lane Alencar - Planejamento e Pesquisa 1 - 2012 32
Teste de Barttlet� Assume que as r amostras são independentes e
normalmente distribuídas.
� Teste de Barttlet
2
r
2
2
2
10 :H σσσ === K
−−
−−+
−−−
=
∑
∑
=
=
r
i Ti
r
i
iiT
rnnr
SnMSErn
1
1
2
1
1
1
)1(3
11
)ln()1()ln()(
B2
1
0
~
H
B −rχ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 33
Teste de Levene
� O teste de Barttlet assume normalidadedos dados. Uma alternativa, que nãoprecisa dessa suposicão é o teste de Levene Modificado.
� Utiliza as medianas em cada grupo.
Teste de Levene
�
� O teste de Levene (1960) se inspira em uma ANOVA para os desvios absolutos
Lane Alencar - Planejamento e Pesquisa 1 - 2012 34
2
r
2
2
2
10 :H σσσ === K
.iijij YYz −=
( )
( ) 0,1
,
H sob ~10 rNr
ji
iij
i
ii
F
rN
zz
r
zzn
L −−
−
−−
−
=∑
∑i
n
j
ij
i n
z
z
i
∑== 1
N
z
z
r
i
n
j
ij
i
∑∑= == 1 1
Lane Alencar - Planejamento e Pesquisa 1 - 2012 35
Outros testes de igualdade de variâncias …
� Teste F para duas populaçõesindependentes.
� Teste de Brown-Forsythe� Pesquisar em Parra-Frutos, I. 2009. The
behaviour of the modified Levene’s test when data are not normally distributed. Comput Stat (2009) 24:671–693.
� DOI 10.1007/s00180-009-0154-z
Lane Alencar - Planejamento e Pesquisa 1 - 2012 36
Quando as suposições não são válidas
� No caso de outliers > investigar o dado� Faltando variáveis explicativas > fácil
Lane Alencar - Planejamento e Pesquisa 1 - 2012 37
Heterocedasticidade
� Quando ni=n, o efeito da heterocedasticidade no teste F é menor.
� Modelos com fator aleatório apresenta sérios problemas com heterocedasticidade, mesmo com ni=n.
� Melhor utilizar testes que não assumem homocedasticidade, como os não paramétricos e ajuste de modelos heterocedásticos.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 38
Não normalidade
� O teste F é pouco afetado.� O nível de significância será um pouco maior
que o especificado.� Com efeito aleatório, há maiores problemas.� Os testes não paramétricos não exigem
normalidade, mas em geral precisam de grandes amostras.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 39
Estimação dos efeitos
� A partir do modelo
� O estimador de µi é
� implica
=
=+=
i
ijiijnj
rieY
,...,1
,...,1,µ
( )iijYE µ= ( ) iiYE µ=.
( )i
in
YVar2
.
σ=
iY
Lane Alencar - Planejamento e Pesquisa 1 - 2012 40
Comparações de Médias
� Assuma que a análise de resíduos é satisfatória
� Testamos a igualdade das médias � Se a hipótese foi rejeitada, não sabemos
quais médias são diferentes� Para determinar quais médias diferem
entre si, temos um problema decomparações múltiplas
Lane Alencar - Planejamento e Pesquisa 1 - 2012 41
Contrastes
0:
0:
:
:
431
430
431
430
≠−
=−⇔
≠
=
µµ
µµ
µµ
µµ
H
H
H
H
0:
0:
:
:
43211
43210
43211
43210
≠−−+
=−−+⇔
+≠+
+=+
µµµµ
µµµµ
µµµµ
µµµµ
H
H
H
H
Igualdade das taxas médias para as 2 maiores potências
Igualdade das taxas médias das 2 menores e das 2 maiores potências
Lane Alencar - Planejamento e Pesquisa 1 - 2012 42
Contrastes
� Para as constantes c1,…ca, que somam zero, as hipóteses podem ser escritas usando os contrastes L
� Estimador� Devido à
independência
∑
∑
=
=
≠=
==
r
i
ii
r
i
ii
cLH
cLH
1
1
1
0
0:
0:
µ
µ
∑=
=r
i
ii ycL1
.ˆ
∑=
=r
i i
i
n
cLVar
1
22)ˆ( σ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 43
Contrastes
� Estimador
� Estimador da Var
� Tem distribuição t-Student com N-r graus de liberdade
∑=
=r
i
ii ycL1
.ˆ
∑=
=r
i i
i
n
cMSELraV
1
2
)ˆ(ˆ
∑
∑
=
=
−
=−
=r
i i
i
r
i
ii
n
cMSE
Lyc
LraV
LLt
1
2
1
.
0
)ˆ(ˆ
ˆ
Lane Alencar - Planejamento e Pesquisa 1 - 2012 44
Teste e intervalo de confiança
� Se H0 é verdadeira
rNr
i i
i
r
i
ii
t
n
cMSE
yc
t −
=
=
∑
∑= ~
1
2
1
.
0
Lane Alencar - Planejamento e Pesquisa 1 - 2012 45
Comparações múltiplas
� O coeficiente de confiança γ=1-α se refere a um só intervalo e não a vários.
� Podemos estar interessados em todas as comparações 2 a 2, ou por exemplo, para a=4, somente entre µ1 e µ2, µ1 e µ3 e µ1 e µ4.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 46
Método de Tukey
� Quando estamos interessados em todas as comparações 2 a 2.
� Quando todos os grupos tem n observações, o coeficiente de confiança conjunto será γ=1-α. Quando os tamanhos diferem o γ será maior, ou seja, é um procedimento conservativo.
Lane Alencar - Planejamento e Pesquisa 1 - 2012 47
Distribuição Studentized range
� Sejam Y1,...,Yr observações independentes da distribuição N(µ,σ2).
� w=max{Yi}-min{Yi},� s2 estimador de σ2 correspondente a v graus de
liberdade� q é chamado de studentized range
� A distribuição de q encontra-se em tabelas por exemplo em Neter et al. (1996).
s
wv)q(r, =
Lane Alencar - Planejamento e Pesquisa 1 - 2012 48
Método de Tukey
� O intervalo para Di=µi-µk, para i e k diferentes, é
..ˆ
ki YYD −=
,}ˆ{ˆˆ
DarVTD m
+=
ki nnMSEDarV
11}ˆ{ˆ
);;1(2
1aNrqT −−= α
Lane Alencar - Planejamento e Pesquisa 1 - 2012 49
Outros Métodos
� Em sala
Lane Alencar - Planejamento e Pesquisa 1 - 2012 50
Why Does the ANOVA Work?
2 2
1 0 ( 1)2 2
0
We are sampling from normal populations, so
if is true, and
Cochran's theorem gives the independence of
these two chi-square random variables
/(So
Treamtents Ea a n
Treatments
SS SSH
SSF
χ χσ σ
− −
=
� �
2
11, ( 1)2
( 1)
2
2 21
1) /( 1)
/[ ( 1)] /[ ( 1)]
Finally, ( ) and ( )1
Therefore an upper-tail test is appropriate.
aa a n
E a n
n
i
iTreatments E
a aF
SS a n a n
n
E MS E MSa
F
χ
χ
τ
σ σ
−− −
−
=
− −
− −
= + =−
∑
� �