41
MÉTODOS ESTATÍSTICOS E DELINEAMENTO EXPERIMENTAL TESTES NÃO PARAMÉTRICOS Armando Mateus Ferreira

Testes Nao Parametricos

Embed Size (px)

Citation preview

Page 1: Testes Nao Parametricos

MÉTODOS ESTATÍSTICOS E DELINEAMENTO EXPERIMENTAL

TESTES NÃO PARAMÉTRICOS

Armando Mateus Ferreira

Page 2: Testes Nao Parametricos

1

Índice

1 Introdução................................................................................................................. 2 2 Testes de Aleatoriedade............................................................................................ 3

2.1 Teste das sequências (runs) .............................................................................. 3 3 Testes de localização ................................................................................................ 7

3.1 Teste do sinal (sign).......................................................................................... 8 3.2 Teste de Wilcoxon (Wilcoxon signed rank) ................................................... 12 3.3 Teste de Wilcoxon para duas amostras emparelhadas.................................... 17 3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras................................. 19

3.4.1 Aproximação do teste Mann-Whitney-Wilcoxon à distribuição normal 22 4 Análise de variância ............................................................................................... 25

4.1 Teste de Kruskal-Wallis ................................................................................. 26 A estatística de teste é: ........................................................................................... 27

4.2 Teste de Friedman .......................................................................................... 33 5 Coeficiente de correlação de Spearman.................................................................. 36

Page 3: Testes Nao Parametricos

2

TESTES NÃO PARAMÉTRICOS

1 Introdução Os testes de hipótese recebem a designação de testes paramétricos se satisfazem simultaneamente as seguintes duas condições:

• Os testes incidem explicitamente sobre um parâmetro de uma ou mais populações (por exemplo, sobre a média ou valor esperado, ou sobre a variância);

• A distribuição de probabilidades da estatística de teste pressupõe uma forma particular das distribuições populacionais de onde as amostras foram recolhidas. Por exemplo, a distribuição da estatística de teste do teste t-Student para comparar as médias de duas amostras pressupõe que as amostras foram retiradas de uma população que se distribui segundo uma função de probabilidades Normal, e além disso pressupõe também que as variâncias das duas amostras são homogéneas1.

• Os erros ou resíduos iε (tal que i ix μ ε= + ) têm distribuição normal; • Os erros ou resíduos iε têm variância finita e constante 2σ ; • Os erros ou resíduos iε são independentes.

Assim, se algum destes pressupostos é violado, então os testes tradicionais vistos anteriormente não têm rigor estatístico, e deverão ser evitados, e em sua substituição dever-se-ão utilizar testes que não exigem o cumprimento de tais pressupostos. Estes testes designam-se por testes não paramétricos. Os testes não paramétricos não estão condicionados por qualquer distribuição de probabilidades dos dados em análise, sendo também designados por “distribution-free tests”. Tal como não é estatisticamente rigorosa a utilização de testes paramétricos quando não se cumprem os pressupostos necessários, também deverá ser evitada a utilização dos testes não paramétricos em situações em que prevalecem as condições de utilização dos testes paramétricos, pois estes (paramétricos) são mais potentes que os testes não paramétricos. Trate-se de um teste paramétrico ou não paramétrico, para lá dos pressupostos acima referidos, qualquer teste de hipóteses só tem validade estatística se as amostras sobre as que estão a ser aplicados forem aleatórias. Assim, dentro dos testes não paramétricos, veremos alguns que se aplicam para verificar a aleatoriedade das amostras.

1 A fórmula de Welsh para calcular os graus de liberdade do teste de comparação de duas amostras cujas variâncias não são homogéneas resulta se a violação deste pressuposto não é muito acentuada. Se as variâncias são muito diferentes, é preferível usar um teste não paramétrico.

Page 4: Testes Nao Parametricos

3

Para verificar a forma de distribuição das populações, a fim de se decidir pela utilização de um teste paramétrico ou por um teste não paramétrico, podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funções de distribuição de probabilidades, tais como o teste do qui-quadrado, o teste de Kolmogorov-Smirnov, teste de Shapiro-Wilk. A maioria dos programas estatísticos têm estes testes implementados.

2 Testes de Aleatoriedade Imagine-se que em vinte lançamentos de uma moeda ao ar, se observa a seguinte sequência alternada da face saída: cara-coroa-cara-coroa-cara-coroa-cara-coroa-etc, sempre com a mesma regularidade. Facilmente se percebe que este resultado não é aleatório. O que é insólito neste resultado não é o facto de se terem registado 10 caras e 10 coroas, mas sim o facto de as faces terem saído sempre de modo alternado. Em geral, a não aleatoriedade pode ocorrer de muitas formas: misturas de populações com diferentes médias ou diferentes variâncias, correlação positiva ou negativa entre observações sucessivas, periodicidade, etc. Nos gráficos seguintes esquematizam-se algumas situações de não aleatoriedade.

2.1 Teste das sequências (runs) Este teste aplica-se em conjuntos de observações classificadas dicotomicamente (geralmente 0 ou 1, que podem ser as codificações de variáveis não numéricas). Contudo, a amostra em análise pode ser uma amostra contínua, mas devendo classificar-se neste caso cada uma das observações por um critério dicotómico. Por exemplo, pode

Distribuição aleatória Observações correlacionadas positivamente

Observações correlacionadas negativamente Observações provenientes de duas populações

Page 5: Testes Nao Parametricos

4

usar-se o teste das sequências para testar se as observações se distribuem aleatoriamente abaixo (codificado com 0) ou acima (codificado com 1) de um valor médio ou de um valor mediano. Define-se por sequência um conjunto de observações idênticas (por exemplo, 1,1,1,...) que é precedido ou sucedido por um conjunto de observações de outro tipo (por exemplo, 0,0,...). Cada um destes conjuntos pode conter uma só observação. Por exemplo, o conjunto de observações 0,1,1,0,1,0,1,1 contém 8 observações e 6 sequências ou runs. Em geral, uma amostra de dimensão N (com 0N observações codificadas com o valor 0 e 1N observações codificadas com o valor 1), apresentará r N≤ sequências. O teste de hipóteses é:

0 :H A amostra é aleatória 1 :H A amostra não é aleatória A estatística do teste baseia-se no número de sequências contidas na amostra (geralmente designado por R). Geralmente o teste é bilateral: rejeita-se a hipótese nula quando há poucas sequências diferentes (esta situação levada a extrema, conduziria a uma única sequência, ou a duas sequências, que equivaleria à mistura de duas populações); também se rejeita a hipótese nula quando há muitas sequências diferentes: na situação extrema haveria tantas sequências quantas as observações, o que significa que a seguir a uma observação codificada com 0, viria obrigatoriamente uma observação codificada com 1. Por exemplo, se na amostra 10, 10, 10, 15, 15, 15 codificarmos as observações da seguinte forma: 0, para observações abaixo da mediana; 1 para observações acima da mediana; conclui-se que existem apenas 2 sequências, o que eventualmente é um sinal de não aleatoriedade. Existem tabelas para a distribuição do número de sequências, em função do número de observações em cada uma das duas categorias em que amostra é clasificada. Admitindo que a hipótese nula é verdadeira (amostra aleatória), a distribuição de R pode ser aproximada pela distribuição Normal com parâmetros:

2. . 1A BR

N NN

μ = +

( )( )2

2. . . 2. .. 1

A B A BR

N N N N NN N

σ−

=−

Nestas condições, a estatística de teste é:

Page 6: Testes Nao Parametricos

5

( )~ 0,1R

R

RZ μσ−

= N

Exemplo 1: Em 25N = lançamentos sucessivos de uma moeda ao ar registaram-se os seguintes resultados (em que E representa a saída de Cara e C a saída de Coroa):

E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C Pretende-se verificar se a amostra é aleatória.

0 :H A amostra é aleatória 1 :H A amostra não é aleatória

1411

16

E

C

NNR

==

=

Na tabela de distribuição do número de sequências, para 11CN = e 14EN = , e para

5%α = , os números críticos de sequências são 8 e 19, isto é, a região crítica é para 8 19R R< >∪ e a região de aceitação é para 8 19R≤ ≤ . Como 16R = , conclui-se que

se deve aceitar a hipótese nula. Fazendo a aproximação à normal, teríamos:

2. . 2 14 111 1 13.3225

A BR

N NN

μ × ×= + = + =

( )( )

( )2 2

2. . . 2. . 2 14 11 2 14 11 252.4106

. 1 25 24A B A B

R

N N N N NN N

σ− × × × × × −

= = =− ×

A estatística de teste é então:

16 13.32 1.11182.4106

R

R

RZ μσ− −

= = =

Decisão: Fixando um nível de significância, por exemplo 5%α = , e admitindo que o teste é de natureza bilateral (o que corresponde a que R pode afastar-se de Rμ em ambos os sentidos), o valor crítico é 0.05 1.96= ±Z ; como 0.051.1118 1.96Z = < =Z , conclui-se que não se deve rejeitar a hipótese de que a amostra é aleatória. A mesma decisão pode ser tomada estimando o valor de probabilidade limite:

( ) ( )Pr Pr 1.1118 0.2662calcp value Zα α− = < = < =Z Z , pelo que se aceita 0H .

Page 7: Testes Nao Parametricos

6

Exemplo 2: Na tabela seguinte apresentam-se o peso à nascença (PN) e o peso aos 45 dias (P45) de um lote de 30 borregos; a variável RESIDUOS contém os resíduos da equação de regressão 45 2.79 2.54P PN= + × :

Pretende-se verificar se os resíduos se distribuem aleatoriamente em torno do valor zero (que é um dos pressupostos da regressão linear). Isto é:

0 :H Os resíduos distribuem-se aleatoriamente em torno de 0

1 :H Os resíduos não se distribuem aleatoriamente em torno de 0 Para efectuar o teste das sequências, temos de classificar cada um dos resíduos numa variável dicotómica: 0, se o resíduo é inferior a zero; 1, caso contrário (coluna GRUPO). Note-se que a amostra está ordenada em termos da variável PN.

PN P45 RESIDUOS GRUPO1.2 9.62 3.782 11.2 4.20 -1.638 01.4 6.74 0.394 11.6 7.69 0.836 12.0 6.20 -1.670 02.0 8.63 0.760 12.0 7.46 -0.410 02.2 7.21 -1.168 02.2 8.39 0.012 12.4 7.11 -1.776 02.4 8.00 -0.886 02.4 8.49 -0.396 02.6 9.35 -0.044 02.6 10.71 1.316 12.8 9.69 -0.212 03.0 10.42 0.010 13.0 10.71 0.300 13.0 11.40 0.990 13.2 13.67 2.752 13.2 12.64 1.722 13.2 6.91 -4.008 03.2 7.70 -3.218 03.4 11.33 -0.096 03.4 12.00 0.574 13.6 11.12 -0.814 03.6 10.91 -1.024 03.8 14.18 1.738 13.8 13.50 1.058 14.0 14.00 1.050 14.2 13.64 0.182 1

Page 8: Testes Nao Parametricos

7

A partir do quadro anterior, calcula-se:

0

1

1416

15

NNR

===

Na tabela de distribuição do número de sequências, para 0 14N = e 1 16N = , e para

5%α = , os números críticos de sequências são 10 e 22, isto é, a região crítica é para 10 22R R< ∪ > e a região de aceitação é para 10 22R≤ ≤ . Como 15R = , conclui-se

que se deve aceitar a hipótese nula. Fazendo a aproximação à normal, teríamos:

2. . 2 14 161 1 15.933330

A BR

N NN

μ × ×= + = + =

( )( )

( )2 2

2. . . 2. . 2 14 16 2 14 16 302.6786

. 1 30 29A B A B

R

N N N N NN N

σ− × × × × × −

= = =− ×

A estatística de teste é então:

15 15.9333 0.34842.6786

R

R

RZ μσ− −

= = = −

Decisão: Fixando um nível de significância, por exemplo 5%α = , e admitindo que o teste é de natureza bilateral (o que corresponde a que R pode afastar-se de Rμ em ambos os sentidos), o valor crítico é 0.05 1.96= ±Z ; como 0.050.3484 1.96Z = − < =Z , conclui-se que não se deve rejeitar a hipótese de que a amostra é aleatória. A probabilidade limite é 0.7275p value− = , pelo que se deverá aceitar a hipótese nula com um nível de significância de 0.7275.

3 Testes de localização O valor esperado, esperança matemática ou média μ é o parâmetro de localização mais frequentemente utilizado em inferência estatística. No entanto, a mediana populacional

(vamos representá-la por ~μ ), que corresponde também a um valor central das

distribuições, pode constituir uma alternativa à média, uma vez que:

• É menos influenciada por valores extremos (consideremos a seguinte amostra, com 5 observações: 2, 13, 13, 14, 15; a média é 11.4, enquanto que a mediana é

Page 9: Testes Nao Parametricos

8

13; o valor extremo 2, muito afastado do contexto das restantes, afecta bastante a média, causando um enviezamento deste parâmetro; a mediana não é afectada);

• Quando as distribuições são assimétrica, a mediana situa-se numa posição mais

próxima do valor mais observado, podendo por isso ter mais sentido como medida da tendência central;

• Quando as distribuições são simétricas, a mediana populacional e a média ou

valor esperado coincidem, possuindo assim o mesmo mérito como medida de tendência central.

Alguns testes não paramétricos acerca de um parâmetro de localização utilizam a mediana como esse parâmetro. Estes testes constituem uma alternativa aos testes paramétricos acerca da média.

3.1 Teste do sinal (sign) O teste do sinal desenvolve-se com base em amostras aleatórias provenientes de populações contínuas. Na hipótese nula admite-se que a mediana populacional possui

um determinado valor particular, ~

0μ :

~ ~ ~ ~

0 0 1 0: :H Hμ μ μ μ= ≠

(note-se que a hipótese alternativa pode ser unilateral, ~ ~

0μ μ> ou ~ ~

0μ μ< ).

A estatística de teste é Y = número de observações abaixo (ou acima) de ~

0μ . Se a hipótese nula for verdadeira e a amostra for aleatória, o número de observações

com valor inferior (ou superior) a ~

0μ é uma variável aleatória binomial com parâmetro 0.5p = . Então, o teste de hipótese é equivalente a testar:

0 1: 0.5 : 0.5H p H p= ≠

(tratando-se de um teste unilateral, a hipótese alternativa será 1 : 0.5H p < ou

1 : 0.5H p > ). Os valores críticos para estabelecer a região de aceitação e a região crítica são obtidos pelo cálculo das probabilidades de função binomial. Se o teste é bilateral, pretende-se estabelecer a região crítica:

( ) ( ) ( )0

Pr 0.5 ; ;ci

i s

ks

Y N

c ck k Y

Y Y Y Y p Bi N p Bi N p= =

≤ ∪ ≥ = = +∑ ∑

Page 10: Testes Nao Parametricos

9

em que icY e

scY são respectivamente os valores de Y = número de observações abaixo

(ou acima) de ~

0μ correspondentes a uma probabilidade α (nível de significância), e

( );ks

N

k YBi N p

=∑ é a probabilidade binomial acumulada (correspondente a 2

α na cauda

superior da distribuição). Note-se que icY e

scY são simétricos em relação a ~

0μ . O nome do teste (sinal ou sign) provém de, ao fazer os cálculos, se registavam

tradicionalmente por – ou por + as observações inferiores ou superiores a~

0μ . Este teste tem a vantagem de poder aplicar-se a dados de tipo dicotómico que não podem registar-se numa escala numérica, mas que podem representar mediante respostas negativas ou positivas. Por exemplo, pode ser usada em ensaios em que se registam resultados qualitativos do tipo “fracasso” ou “êxito”. Exemplo: Admita-se que a produção mediana de leite (em ordenha, após retirar borregos) de um determinado rebanho de ovelhas Merino da Beira Baixa é de 60 litros/animal e ano. Numa amostra de 12 ovelhas retiradas desse rebanho obtiveram-se as seguintes produções por animal e ano:

44.0; 46.6; 48.2; 51.8; 60.3; 61.7; 63.6; 72.7; 77.4; 82.4; 96.1; 105.6 Pretende-se verificar:

~ ~

0 1: 60 : 60H Hμ μ= ≠ A hipótese nula estabelece que a produção mediana é de 60 litros; se esta hipótese é verdadeira, 50% do rebanho terá uma produção inferior (e 50% terá uma produção superior a 60 l); isto é, o anterior teste pode escrever-se como:

0 1: 0.5 : 0.5H p H p= ≠ Nestas condições, se o tamanho da população for muito grande em relação à amostra, o número de animais com produção inferior a 60 l numa amostra de 12 animais, segue uma distribuição binomial ( )12;0.5Β . No exemplo, Y=4 (número de animais com produção inferior a 60). No gráfico seguinte apresentam-se as probabilidades de acontecerem 0, 1, 2, ..., 12 sucessos numa prova de Bernoulli com 0.5p = (cada uma destas probabilidades é dada

pela expressão: ( )( ) ( )Pr ; 1 N kN kkk B N p C p p −= − ).

Page 11: Testes Nao Parametricos

10

Assim, para um nível de significância 5%α = , e sendo o teste bilateral, a hipótese nula seria rejeitada se na amostra ocorrerem menos de 3 ou mais de 9 animais com produção inferior a 60 l.

Este valor (ou quantil da distribuição binomial) pode ser calculado com a função ( ). ; ;CRIT BINOM N p α :

(como se trata de um teste bilateral, o quantil que define o limite superior da região de aceitação calcula-se colocando-o à mesma distância que separa o quantil inferior e a média). A decisão do teste também se pode efectuar, calculando a probabilidade limite (que geralmente todos os programas estatísticos apresentam nos testes de hipótese). Na folha de cálculo Excel, a função ( ); ; ;DISTRBINOM k N p cumulativo calcula a função de distribuição cumulativa de probabilidades binomial, até a k sucessos:

0.00

02

0.00

29

0.01

61 0.05

37

0.12

08

0.19

34 0.22

56

0.19

34

0.12

08

0.05

37

0.01

61

0.00

29

0.00

02

0 1 2 3 4 5 6 7 8 9 10 11 12

Nº animais com produção < 60

RejeiçãoRejeição

Page 12: Testes Nao Parametricos

11

Tratando-se de um teste bilateral, a probabilidade limite será dupla desta (isto é,

2 0.19385 0.3877p value− = × = ). Se o tamanho da amostra é muito grande, o cálculo das probabilidades da função binomial pode ser aproximado pela função de distribuição normal estandardizada, sendo:

~.N pμ =

( ). . 1N p pσ = −

e estatística de teste é:

( )( )

0.5 0.5.

. . 1

k NZ

N p p

+ −=

No exemplo apresentado, esta aproximação é:

( )( )

( )0.5 0.5 4 0.5 0.5 120.8660

12 0.5 0.5. . 1

k NZ

N p p

+ − + − ×= = = −

× ×−

Para 5%α = , os quantis da distribuição normal que estabelecem as regiões de aceitação e de rejeição da hipótese nula são 0.05 1.96= ±Z , donde se conclui que se deve aceitar

0H . O valor da probabilidade limite, pela aproximação à normal é 0.3865p value− = , valor muito aproximado ao estimado com a função binomial.

Page 13: Testes Nao Parametricos

12

3.2 Teste de Wilcoxon (Wilcoxon signed rank) No teste do sinal os dados são transformados em contagens de uma variável dicotómica, geralmente representados por “-“ e por “+”, correspondentes às observações abaixo ou

acima da mediana ~

0μ . Ao proceder desta forma perde-se a informação relativa às

diferenças de valor entre as observações e a mediana. Por exemplo, se ~

0 10μ = , no teste do sinal é indiferente que uma observação tenha o valor 15 ou o valor 20: no cálculo da estatística de teste, em ambos os casos seria contabilizada como uma observação “+”,

isto é, acima de ~

0μ . No teste de Wilcoxon, a magnitude das diferenças é tida em conta, exigindo-se contudo que a população seja de natureza contínua e simétrica. Nestas condições, o teste de Wilcoxon é mais potente que o teste do sinal. Tal como no teste do sinal, considere-se o seguinte teste de hipóteses:

~ ~ ~ ~

0 10 0: :H Hμ μ μ μ= ≠

(note-se que a hipótese alternativa pode ser unilateral, ~ ~

0μ μ> ou ~ ~

0μ μ< ). Se a população for contínua e simétrica, a amostra for aleatória e 0H for verdadeira, então as diferenças:

~

0i id x μ= − deverão distribuir-se de forma simétrica em torno de 0. Ou seja, observar-se-ão diferenças positivas e negativas com valores absolutos da mesma ordem de grandeza, e em número aproximadamente igual. A avaliação relativa da magnitude das diferenças id pode ser efectuada ordenando de forma crescente, de 1 a N, os seus valores absolutos id e atribuindo a cada um destes o respectivo número de ordem (em inglês esta ordenação designa-se por “rank”, de onde vem o nome do teste), com o sinal negativo ou positivo, consoante id sejam negativo ou positivo.

Se a população for simétrica em torno de ~

0μ e 0H for verdadeira, a soma dos números de ordem referentes às diferenças id negativas deverá ser aproximadamente igual à soma dos números de ordem referentes às diferenças id positivas. Uma situação contrária a esta beneficia uma das hipóteses alternativas. Por exemplo, se a soma dos números de ordem relativos às diferenças positivas for muito maior do que a soma dos

números de ordem das diferenças negativas, então a hipótese alternativa ~ ~

1 0:H μ μ> tornar-se-á plausível. A estatística de teste de Wilcoxon é baseada, justamente, na propriedade que acaba de ser enunciada.

Page 14: Testes Nao Parametricos

13

Os passos para o cálculo da estatística de teste de Wilcoxon são:

• Calculam-se as diferenças ~

0i id x μ= − ; • Ordenam-se as diferenças id por ordem crescente dos respectivos valores

absolutos id ;

• Atribui-se um número de ordem sequencialmente a cada id ; os números de ordem referentes a id são precedidos do sinal “+”; os números de ordem referentes a id negativos são precedidos do sinal “-“;

• Quando o valor absoluto de duas ou mais diferenças é o mesmo (isto é, quando existem “empates” ou “ties”), o número de ordem atribuído a cada uma dessas diferenças com o mesmo valor absoluto id é a média aritmética dos números de ordem que tais observações receberiam se não estivessem empatadas. Sejam por exemplo as diferenças ordenadas a sequência 1, 3, -3, 5, 7, -7, -7, 8; os respectivos números de ordem seriam 1, 2.5, 2.5, 4, 6, 6, 6, 8.

• Quando existem zeros, isto é, quando 0id = , estes valores devem ignorar-se, e consequentemente, reduzir o tamanho da amostra em tantas unidades, tantos os zeros que existam.

• Calcula-se a estatística de teste, geralmente designada por T, e que resulta da soma dos números de ordem “positivos” (caso em que a estatística de teste se representa por T+ ) ou dos números de ordem “negativos” (a estatística de teste é representada por T− ).

Note-se que a estatística de teste toma sempre um valor não negativo, e para uma amostra de tamanho N a soma de todos os números de ordem é:

( ). 12

N NT T+ −

++ =

Se a hipótese nula é verdadeira, as distribuições de T+ e T− são simétricas em torno do valor esperado:

( ). 14

N N +

de modo que seria indiferente usar de T+ ou T− como estatística de teste. Contudo, por comodidade, em cada uma das seguintes situações de hipótese alternativa, é usual considerar:

Hipótese nula Hipótese alternativa Estatística de teste usual ~ ~

0μ μ< T+

~ ~

0μ μ≠ Mínimo de T+ ou T− ~ ~

0μ μ= ~ ~

0μ μ> T−

Page 15: Testes Nao Parametricos

14

Existem tabelas com os valores críticos de T+ ou T− para decidir acerca da significância do teste. Para amostras com 15N ≥ demonstra-se que a distribuição amostral de T+ (ou T− ) se aproxima da distribuição normal de parâmetros:

• Média: ( ). 14T

N Nμ

+

+=

• Variância: ( )( )2 . 1 2. 124T

N N Nσ

+

+ +=

Se existem “empates” a variância deve ser corrigida, sendo neste caso a expressão para cálculo da variância:

• Variância: ( )( ) 32 . 1 2. 1

24 48i i

T

u uN N Nσ

+

−+ += − ∑ ∑

em que iu representa o número de “empates” no i-ésimo grupo de observações iguais. Quando se faz a aproximação à função de distribuição normal, a estatística de teste é:

( )

( )( )( )

. 14 ~ 0,1

. 1 2. 124

T

T

N NTT

ZN N N

μσ

+

+

++

+−−

= =+ +

N

Exemplo 1: Os seguintes dados referem-se aos pesos ao nascimento de uma amostra de 9 borregos:

1.9, 2.0, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7 Pretende-se averiguar se podemos considerar que o peso mediano dos borregos à nascença neste rebanho é de 3.3 kg. O teste de hipóteses é:

~ ~

0 1: 3.3 : 3.3H Hμ μ= ≠ No seguinte quadro apresenta-se o cálculo da estatística de teste T+ e T− , conforme atrás descrito. Chama-se a atenção para a existência de dois “empates” e um zero; o zero deve ser ignorado, considerando 8N = ; as diferenças das observações para a mediana

0 3.3μ = correspondentes aos “empates” seriam a 2ª e 3ª diferenças, se não houvesse “empate”; assim, ambas terão número de ordem 2.5.

Page 16: Testes Nao Parametricos

15

ix ~

0i id x μ= − id Ordem (+) Ordem (-) 3.3 0 0 3.4 0.1 0.1 1 3.1 -0.2 0.2 2.5 3.1 -0.2 0.2 2.5 3.7 0.4 0.4 4 2.8 -0.5 0.5 5 2.2 -1.1 1.1 6 2 -1.3 1.3 7

1.9 -1.4 1.4 8

5T+ = 31T− = Para amostras até 15 observações existem tabelas dos valores críticos da distribuição das estatísticas T+ e T− , isto é, os valores das probabilidades tais que ( )Pr eT t+ < e

( )Pr dT t− > . Na tabela em anexo, para um tamanho de amostra 8N = , verifica-se que

( ) ( )Pr 5 Pr 31 0.039T T+ −< = > = , ou seja, 0.078p value− = Assim, a hipótese nula não é rejeitada ao nível de significância de 5%. Caso não se disponha da tabela, ou se opte por fazer a aproximação à função de distribuição normal, devem calcular-se os parâmetros desta:

• Média: ( ). 1 8 9 184 4T

N Nμ

+

+ ×= = =

• Variância (note-se que existem duas diferenças “empatadas”, pelo que se deve

fazer a correcção da variância):

( )( ) 3 32 . 1 2. 1 8 9 17 2 2 50.875

24 48 24 48i i

T

u uN N Nσ

+

−+ + × × −= − = − =∑ ∑

A estatística de teste é então:

5 18 1.822650.875

T

T

TZ

μσ

+

+

+ − −= = = −

Para um nível de significância 5%α = , e tratando-se de um teste bilateral, o quantil crítico da distribuição normal ( )0,1N é 0.05 1.96= ±Z , pelo que se conclui que não há evidência estatística para rejeitar a hipótese nula. A partir da estatística 1.8226Z = − também se pode calcular a probabilidade limite:

0.0684p value− = , sendo a decisão a mesma que anteriormente.

Page 17: Testes Nao Parametricos

16

Exemplo 2: Os dados seguintes referem-se ao peso vivo aos 45 dias de um lote de borregos:

4.2 7.7 9.5 12.6 6.2 8 10.4 13.6 7.2 8.5 10.7 13.7 7.2 8.5 11.1 14 7.2 8.6 11.3 14.1

Pretende-se verificar se o peso mediano aos 45 dias de idade dos borregos deste rebanho é de 10 kg. O teste de hipóteses pretendido é:

~ ~

0 1: 10 : 10H Hμ μ= ≠ No seguinte quadro apresenta-se o cálculo da estatística de teste T+ e T− , conforme atrás descrito. Chama-se a atenção para a existência de alguns “empates”; devido a estes “empates”, os números de ordem das diferenças são 7.5 para os dois pesos 8.5 (pois seriam a 7ª e 8ª observações, e em caso de empate, recebem a média dos números de ordem que receberiam se não houvesse empate), e 13 para os três pesos 7.2 kg (se não houvesse empate, seriam os números de ordem 12, 13 e 14, cuja média é 13).

ix ~

0i id x μ= − id Ordem (+) Ordem (-) 10.4 0.4 0.4 1 9.5 -0.5 0.5 2 10.7 0.7 0.7 3 11.1 1.1 1.1 4 11.3 1.3 1.3 5 8.6 -1.4 1.4 6 8.5 -1.5 1.5 7.5 8.5 -1.5 1.5 7.5 8 -2 2 9

7.7 -2.3 2.3 10 12.6 2.6 2.6 11 7.2 -2.8 2.8 13 7.2 -2.8 2.8 13 7.2 -2.8 2.8 13 13.6 3.6 3.6 15 13.7 3.7 3.7 16 6.2 -3.8 3.8 17 14 4 4 18

14.1 4.1 4.1 19 4.2 -5.8 5.8 20

92T+ = 118T− =

Page 18: Testes Nao Parametricos

17

O valor esperado de T é:

( ). 1 20 21 1054 4

N N + ×= =

Note-se que 92T+ = e 118T− = são simétricos em torno do valor esperado(105). A fim de calcular a estatística de teste para proceder à decisão do teste, temos em primeiro lugar de fazer a aproximação à função de distribuição normal. Os parâmetros são:

• Média: ( ). 1 20 21 1054 4T

N Nμ

+

+ ×= = =

• Variância (note-se que existem dois grupos de observações iguais,

respectivamente com 2 e com 3 observações):

( )( ) ( ) ( )3 332

2 3 2 3. 1 2. 1 20 21 41 716.87524 48 24 48

i iT

u uN N Nσ

+

+ − +−+ + × ×= − = − =∑ ∑

A estatística de teste é então:

92 105 0.4855716.875

T

T

TZ

μσ

+

+

+ − −= = = −

Para um nível de significância 5%α = , e tratando-se de um teste bilateral, o quantil crítico da distribuição normal ( )0,1N é 0.05 1.96= ±Z , pelo que se conclui que não há evidência estatística para rejeitar a hipótese nula. A partir da estatística 0.4855Z = − também se pode calcular a probabilidade limite:

0.6273p value− = , sendo a decisão a mesma que anteriormente.

3.3 Teste de Wilcoxon para duas amostras emparelhadas Quando se têm pares de observações ( ) ( )1 1, ,..., ,N NX Y X Y , e as diferenças i i id X Y= − têm distribuição normal, usa-se o teste paramétrico t-Student para comparar as médias de duas amostras emparelhadas. Porém, se as diferenças i i id X Y= − não se distribuem normalmente, pode usar-se o teste de Wilcoxon sobre as diferenças, desde que estas tenham um comportamento contínuo e simétrico. Neste caso, o teste de hipóteses é:

Page 19: Testes Nao Parametricos

18

0 0 1 0: :d dH Hμ δ μ δ= ≠ em que dμ é a média das diferenças i i id X Y= − . A estatística de teste é ( )min ;T T+ − , isto é, o valor mínimo da soma dos números de ordem associados aos valores positivos ou negativos de 0id δ− . Exemplo: Existem diversos métodos de estimação do volume de madeira produzido pelas árvores, nomeadamente modelos de estimação baseados no diâmetro basal e modelos de estimação baseados no diâmetro à altura do peito (dap). Pretende-se comparar um método de estimação baseado no diâmetro basal com outro método baseado no dap. Para tal, os volumes (m3) de madeira dos mesmas 15 pinheiros foram estimados pelos dois métodos: Basal 1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88Dap 1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02 Como exposto, pretendendo testar se as estimativas pelos dois métodos são idênticas, então a média das diferenças entre as observações será nula, e o teste de hipóteses é: 0 1: 0 : 0d dH Hμ μ= ≠ em que dμ é a média das diferenças

i ii basal dapd V V= − . No quadro seguinte apresentam-se os cálculo do teste:

ibasalV idapV

i ii basal dapd V V= − id Ordem (+) Ordem (-) 1.06 1.12 -0.06 0.06 4 1.08 0.97 0.11 0.11 8 1.12 1.15 -0.03 0.03 1 0.98 1.07 -0.09 0.09 6.5 1.05 0.89 0.16 0.16 14 0.85 0.98 -0.13 0.13 10 1.06 1.13 -0.07 0.07 5 0.87 0.82 0.05 0.05 2.5 1.03 1.15 -0.12 0.12 9 1.1 1.25 -0.15 0.15 12.5 0.95 0.86 0.09 0.09 6.5 0.78 0.83 -0.05 0.05 2.5 1.23 1.05 0.18 0.18 15 1.04 0.89 0.15 0.15 12.5 0.88 1.02 -0.14 0.14 11

58.5T+ = 61.5T− =

Page 20: Testes Nao Parametricos

19

A fim de calcular a estatística de teste para proceder à decisão do teste, temos em primeiro lugar de fazer a aproximação à função de distribuição normal. Os parâmetros desta aproximação são:

• Média: ( ). 1 15 16 604 4T

N Nμ

+

+ ×= = =

• Variância (note-se que existem três grupos de observações iguais, cada um com

2 observações):

( )( ) ( ) ( )3 3 332

2 2 2 2 2 2. 1 2. 1 15 16 31 309.62524 48 24 48

i iT

u uN N Nσ

+

+ + − + +−+ + × ×= − = − =∑ ∑

A estatística de teste é então:

58.5 60 0.0853309.625

T

T

TZ

μσ

+

+

+ − −= = = −

Para um nível de significância 5%α = , e tratando-se de um teste bilateral, o quantil crítico da distribuição normal ( )0,1N é 0.05 1.96= ±Z , pelo que se conclui que não há evidência estatística para rejeitar a hipótese nula. A partir da estatística 0.0853Z = − também se pode calcular a probabilidade limite:

0.932p value− = , sendo a decisão a mesma que anteriormente.

3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras O teste de Mann-Whitney-Wilcoxon (ou teste M-W-W) é um teste não-paramétrico alternativo ao teste t-Student para comparar as médias de duas amostras independentes. O único pressuposto exigido para a aplicação do teste M-W-W é que as duas amostras sejam independentes e aleatórias, e que as variáveis em análise sejam numéricas ou ordinais (os pressupostos para a aplicabilidade do teste t-Student são mais exigentes: as populações de onde as amostras provêm têm distribuição normal; as amostras são independentes e aleatórias; as populações têm uma variância comum). Sejam 1N e 2N os tamanhos das duas amostras. O teste de hipóteses subjacente é:

H0: As duas amostras têm distribuições idênticas H1: As duas amostras têm distribuições diferentes

Nota: o teste de hipóteses também pode expressar-se pela comparação de medianas:

Page 21: Testes Nao Parametricos

20

~ ~ ~ ~

0 11 2 1 2: :H Hμ μ μ μ= ≠ A estatística de teste U é calculada como se descreve em seguida.

• As observações das duas amostras são combinadas numa única variável de tamanho 1 2N N+ , sendo identificadas as respectivas proveniências.

• O conjunto de observações assim constituído pela junção das duas amostras é

ordenado por ordem crescente, atribuindo o número de ordem 1 à observação menor e o número de ordem 1 2N N+ à observação maior. Caso haja “empates” ou “ties”, a cada uma das observações “empatadas” é atribuído o número de ordem médio que essas observações teriam se não estivessem “empatadas”.

• De seguida, calculam-se as somas dos números de ordem das observações de

cada amostra:

1 :W soma dos números de ordem das observações da amostra 1;

2 :W soma dos números de ordem das observações da amostra 2;

• Calculam-se as quantidades:

( )2 21 1 2 2

. 1.

2N N

U N N W+

= + −

( )1 1

2 1 2 1

. 1.

2N N

U N N W+

= + −

• A estatística de teste é:

( )1 2min ,U U U= A hipótese nula estabelece que as duas amostras têm a mesma distribuição, e se tal acontecer, as médias (e também as medianas) das duas amostras são iguais. Suponhamos que, na realidade, as duas amostras têm distribuição diferente, e consideremos uma situação extrema em que tal acontece, que seria numa situação em que todas as observações de uma das amostras são inferiores à menor observação da outra amostra, tal como se ilustra no gráfico seguinte:

Numa situação destas, provavelmente estaremos na disposição de aceitar a hipótese alternativa como verdadeira, ou seja, deveremos rejeitar a hipótese nula.

Page 22: Testes Nao Parametricos

21

Consideremos as duas amostras acima representadas graficamente; a partir deste gráfico é possível estabelecer os números de ordem (não interessam os valores ix , mas sim a ordem ou lugar que cada observação ocupa) de cada uma das amostras (cada ponto representa uma observação): Amostra 1 1 3 3 3 5.5 5.5 7 8.5 8.5 10 1 55W = Amostra 2 11 12.5 12.5 14.5 14.5 16.5 16.5 18.5 18.5 20 2 155W =

( )2 21 1 2 2

. 1 10 11. 10 10 155 02 2

N NU N N W

+ ×= + − = × + − =

( )1 1

2 1 2 1

. 1 10 11. 10 10 55 1002 2

N NU N N W

+ ×= + − = × + − =

A estatística de teste é então ( ) ( )1 2min , min 0,100 0U U U= = = Se, pelo contrário, tivéssemos duas amostras cujas observações fossem iguais aos pares (a primeira observação da amostra A igual à primeira observação da amostra B; etc), as distribuições das duas amostras seriam exactamente iguais, sendo iguais os números de ordem das observações em ambas as amostras, situação em que se deveria aceitar a hipótese nula:

A partir deste gráfico é possível estabelecer os números de ordem de cada uma das amostras: Amostra A 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105AW = Amostra B 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105BW =

( ). 1 10 11. 10 10 105 502 2

B BA A B B

N NU N N W

+ ×= + − = × + − =

( ). 1 10 11. 10 10 105 50

2 2A A

B A B A

N NU N N W

+ ×= + − = × + − =

A estatística de teste é então ( ) ( )min , min 50,50 50A BU U U= = = Isto é, valores grandes da estatística U são favoráveis à aceitação da hipótese nula, e valores pequenos de U são favoráveis à não aceitação da hipótese nula

Page 23: Testes Nao Parametricos

22

Existem tabelas dos quantis da distribuição U de Mann-Whitney-Wilcoxon. Contudo, chama-se a atenção para que se deve ter o cuidado de verificar qual a estatística U a que se refere a tabela. Esta chamada de atenção prende-se com o facto de que alguns autores consideram a estatística U como sendo a estatística atrás apresentada ( ( )1 2min ,U U U= ); outros autores consideram como sendo o valor 1W (ou 2W ) atrás calculados; outros ainda consideram a estatística 1 2 1.U N N U= − ou 1 2 2.U N N U= − (por exemplo, Zar, 1999) O programa SPSS utiliza a estatística ( )1 2min ,U U U= aqui descrita. O programa MINITAB considera a estatística 1U W= . Em anexo apresenta-se a tabela dos valores críticos da estatística ( )1 2min ,U U U= , atrás descrita, e apresentada por Johnson e Kuby (1999).

3.4.1 Aproximação do teste Mann-Whitney-Wilcoxon à distribuição normal

Se ambas as amostras em análise têm tamanhos iguais ou superiores a 10 observações, pode fazer-se a aproximação à função de distribuição normal, com parâmetros:

• Valor esperado: 1 2.2U

N Nμ =

• Variância: ( )1 2 1 22 . . 112U

N N N Nσ

+ +=

Se existem “empates” ou “ties” nos números de ordem, deve fazer-se uma correcção no cálculo da variância; sendo iu os números de números de ordem “empatados”, a expressão para cálculo da variância deve ser:

• Variância: ( )3 3

2 1 22

.12

i iU

N N u uN NN N

σ− − −

= ×−∑

A estatística de teste é então:

( )2

~ 0,1U

U

UZ μσ−

= N

Exemplo: Num ensaio delineado com o objectivo de estimar os efeitos da inalação prolongada de óxido de cádmio, 15 cobaias foram sujeitas em laboratório a um ambiente contaminado

Page 24: Testes Nao Parametricos

23

com este óxido, e 10 cobaias estiveram num ambiente normal sem essa contaminação (grupo de controlo). A variável de interesse é a concentração de hemoglobina após o ensaio:

Animais expostos Grupo de controlo 14.4 17.4 14.2 16.2 13.8 17.1 16.5 17.5 14.1 15.0 16.6 16.0 15.9 16.9 15.6 15.0 14.1 16.3 15.3 16.8 15.7 16.7 13.7 15.3 14.0

Pretende-se averiguar se a inalação prolongada de óxido de cádmio altera o nível de hemoglobina. O teste de hipóteses pode expressar-se pela comparação de medianas:

~ ~ ~ ~

0 11 2 1 2: :H Hμ μ μ μ= ≠ No quadro seguinte apresentam-se os cálculos de cadmioW e controloW :

Teor de hemoglobina Grupo Ordem (Cádmio) Ordem (Controlo) 13.7 Cádmio 1 13.8 Cádmio 2 14.0 Cádmio 3 14.1 Cádmio 4.5 14.1 Cádmio 4.5 14.2 Cádmio 6 14.4 Cádmio 7 15.0 Controlo 8.5 15.0 Controlo 8.5 15.3 Cádmio 10.5 15.3 Cádmio 10.5 15.6 Cádmio 12 15.7 Cádmio 13 15.9 Cádmio 14 16.0 Controlo 15 16.2 Controlo 16 16.3 Controlo 17

Page 25: Testes Nao Parametricos

24

16.5 Cádmio 18 16.6 Cádmio 19 16.7 Cádmio 20 16.8 Controlo 21 16.9 Controlo 22 17.1 Controlo 23 17.4 Controlo 24 17.5 Controlo 25

145cadmioW = 180controloW =

( ). 1 10 11. 15 10 180 252 2

ctr ctrcad cad ctr ctr

N NU N N W

+ ×= + − = × + − =

( ). 1 15 16. 15 10 145 125

2 2cad cad

ctr cad ctr cad

N NU N N W

+ ×= + − = × + − =

A estatística de teste é ( )min , 25cad ctrU U U= = Para um nível de significância 5%α = , e 1 15N = e 2 10N = , o quantil crítico da distribuição U de Mann-Whitney-Wilcoxon é ( )0.05;15;10 45U = , e como a estatística de teste 25U = é inferior a este valor crítico2, deve rejeitar-se a hipótese nula de que as duas amostras têm a mesma mediana, ou seja, deve concluir-se que a exposição ao óxido de crómio afecta o nível de hemoglobina nas cobaias. Usando a aproximação à distribuição normal, temos:

• Valor esperado: 1 2. 15 10 752 2U

N Nμ ×= = =

• Variância: ( ) ( )1 2 1 22 . . 1 15 10 15 10 1325

12 12U

N N N Nσ

+ + × × + += = =

Note-se que existem 3 grupos de números de ordem empatados, cada um com 2 empates; são nomeadamente os números de ordem 4.5, 8.5 e 10.5. Assim, a variância deve ser calculada em função de um factor de correcção devida à existência destes empates. A variância a considerar deve ser a de seguida calculada, e não a anterior:

• Variância:

2 Como atrás se referiu, a rejeição da hipótese nula é para valores pequenos da estatística de teste U .

( )

( ) ( ) ( )

3 32 1 2

2

3 3 3 3

2

.12

25 25 2 2 2 2 2 215 1012 25 25

324.625

i iU

N N u uN NN N

σ− − −

= ×−⎡ ⎤− − − + − + −× ⎣ ⎦= ×

−=

Page 26: Testes Nao Parametricos

25

Note-se que os valores da variância e da variância corrigida são muito próximos; só numa situação de existirem muitos números de ordem empatados é que estes dois valores diferem apreciavelmente. A estatística de teste é então:

2

25 75 2.7751324.625

U

U

UZ μσ− −

= = = −

Para um nível de significância 5%α = , e tratando-se de um teste bilateral, o quantil crítico da distribuição normal ( )0,1N é 0.05 1.96= ±Z , pelo que se conclui que se deve rejeitar a hipótese nula. A partir da estatística 2.7751Z = − também se pode calcular a probabilidade limite:

0.0055p value− = , sendo a decisão a mesma que anteriormente.

4 Análise de variância A análise de variância (ANOVA) é uma metodologia estatística cujo objectivo é comparar 2k > amostras ou tratamentos, a fim de verificar se há diferenças significativas entre as médias dos tratamentos que sejam resultado dos efeitos dos tratamentos. O modelo linear subjacente a uma análise de variância é:

ij i ijx μ τ ε= + + em que ijx é cada uma das 1,..., ij N= observações do tratamento i , com 1,...,i k= , μ é a média global de todas as N observações, iτ é o efeito do tratamento i , isto é, a parte da variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido objecto de um tratamento diferente, e ijε é a variabilidade residual ou erro experimental, isto é, a parte da variabilidade que não pode ser imputada aos tratamentos. Recordemo-nos que os pressupostos subjacentes ao teste paramétrico t-Student para comparar as médias de duas amostras, 0 1 2:H μ μ= , são:

i) cada uma das duas amostras provém de uma população normal; ii) as variâncias são homogéneas, 2 2

1 2σ σ= . iii) Os resíduos são independentes, com distribuição normal e com variância

finita e constante. Se estes pressupostos são violados, deve usar-se um teste não paramétrico. De modo similar, quando se pretendem comparar 2k > médias amostrais,

0 1 2: ... kH μ μ μ= = = , pela metodologia de análise de variância, os pressupostos são uma extensão dos anteriores:

Page 27: Testes Nao Parametricos

26

• cada uma das k amostras provém de uma população normal; • as variâncias das k amostras são homogéneas, 2 2 2

1 2 ... kσ σ σ= = = e constantes; • Os erros ou resíduos ijε (tal que ij i ijx μ τ ε= + + , sendo iτ o efeito do tratamento)

têm distribuição normal; • Os erros ou resíduos ijε têm variância finita e constante 2σ (esta propriedade

denomina-se por homoscedasticidade); • Os erros ou resíduos ijε são independentes.

Está provado que a ANOVA é uma metodologia estatística bastante robusta, relativamente a pressupostos das distribuições das populações e da homogeneidade das variâncias das amostras ou tratamentos. Se os tamanhos iN de cada uma das amostras (isto é, o número de repetições) são iguais para todas as amostras, a ANOVA é robusta no que se refere à homogeneidade das variâncias. Se os tamanhos iN são bastante diferentes, então a probabilidade de cometer erro do tipo I afasta-se do nível de significância α , sendo este afastamento dependente da heterogeneidade das variâncias: se as variâncias maiores estão associadas às amostras com maior número de repetições, a probabilidade de erro tipo I será menor que α ; se as maiores variâncias estão associadas às amostras de menor dimensão, então a probabilidade de erro tipo I é maior que α . A validade da ANOVA é apenas ligeiramente afectada pela violação do pressuposto da normalidade (simetria e achatamento), especialmente se iN são grandes. Se as populações subjacentes são muito achatadas (platicúrticas) e iN são pequenos, a potência da ANOVA diminuirá. Se as populações são pouco achatadas (muito elevadas no centro da distribuição ou leptocúrticas) e os tamanhos iN são pequenos, a potência do teste aumenta. Assim, a validade do teste da ANOVA prevalece válido a não ser que as violações dos pressupostos sejam muito graves, situação em que se deverá usar um teste de análise de variância não paramétrico que não exige tais pressupostos.

4.1 Teste de Kruskal-Wallis O teste de Kruskal-Wallis ou análise de variância pelos números de ordem (“ranks”) pode ser utilizado nos casos em que se utiliza o teste paramétrico da ANOVA, sendo apenas ligeiramente menos potente. Além disso, deve ser utilizado nas situações em que a ANOVA paramétrica não pode ser utilizada, nomeadamente quando as k amostras não provêm de populações normais, ou quando as variâncias são muito heterogéneas. Quando 2k = , o teste de Kruskal-Wallis é idêntico ao teste de Mann-Whitney-Wilcoxon.

Page 28: Testes Nao Parametricos

27

Sejam k as amostras em análise, cada um com iN repetições, e 1

k

ii

N N=

=∑ o número

total de observações. Pretende-se verificar se as k amostras (ou tratamentos, como geralmente são designados) têm distribuições idênticas. O teste de hipóteses é:

0 :H As distribuições das k amostras são idênticas;

1 :H As distribuições das k amostras diferem na localização. (note-se que, à semelhança dos demais testes não paramétricos, a formulação do teste de hipóteses não deve usar os parâmetros populacionais).

A estatística de teste é:

( ) ( )

2

1

12 3. 1. 1

ki

i i

RH NN N N=

= − ++ ∑

onde iR é a soma dos números de ordem das iN observações do grupo ou tratamento i (note-se que a soma de todos os números de ordem de todos os tratamentos deve ser igual a ( ). 1 2N N + ). Se existem números de ordem empatados, a estatística de teste deve ser corrigida para esta situação. Para tal, calcula-se o factor de correcção:

( )3

131

m

ii

u uC

N N=

−= −

e a estatística de teste corrigida é:

cHHC

=

onde iu é o número de empates em cada grupo, e m é o número de grupos de números de ordem empatados. Note-se que cH será pouco diferente de H , quando os iu são pequenos comparativamente a N . Para atribuir os números de ordem às observações, procede-se tal como no teste de Mann-Whitney-Wilcoxon, isto é, juntam-se as observações de todos os tratamentos, e ordenam-se todas as observações. Quando existem observações iguais (empates ou ties), o número de ordem a atribuir a cada uma das observações empatadas é o número de ordem médio dos números de ordem que essas observações teriam se não estivessem empatadas.

Page 29: Testes Nao Parametricos

28

A estatística H (ou cH ) avalia em que medida as k amostras ou tratamentos diferem, relativamente aos respectivos números de ordem. Esta ideia pode mais facilmente percebe-se se dermos à expressão de cálculo de H uma forma equivalente:

( ) ( )2

1

12 .. 1

k

i ii

H n R RN N =

= −+ ∑

em que iR é a média dos números de ordem da i.ésima amostra e R é a média de todos os números de ordem (isto é, ( )1 2R n= + . Como facilmente se percebe, a estatística H é nula quando todas as médias dos números de ordem são iguais, e aumenta à medida que as médias dos números de ordem das amostras diferem. Isto é, para valores grandes de H deve rejeitar-se a hipótese nula. Assim, a região de rejeição está toda localizada na cauda superior da distribuição de H . Os valores críticos da distribuição da estatística de teste H (ou cH ) apresentam-se na tabela em anexo, para 5k ≤ tratamentos. Para grandes amostras, ou 5k > tratamentos, a estatística de teste H (ou cH ) aproxima-se a uma distribuição 2χ (qui-quadrado) com 1k − graus de liberdade. Como atrás se referiu a propósito da região de rejeição, esta está localizada na cauda superior da distribuição. Exemplo 1: Considere os seguintes 3 tratamentos, A, B, C, cada um com 7 repetições: Tratamento A 9 13 11 10 9 14 10 Tratamento B 11 13 12 15 8 12 12 Tratamento C 18 13 12 16 10 16 15 Pretende-se averiguar se três tratamentos conduzem a resultados iguais, isto é:

0 :H Os três tratamentos têm a mesma distribuição;

1 :H Os três tratamentos não têm a mesma distribuição.

Page 30: Testes Nao Parametricos

29

No quadro seguinte apresentam-se os números de ordem atribuídos a cada uma das observações, após ter juntado e ordenado todas as observações dos três tratamentos:

Após ter atribuído os números de ordem, é conveniente separar de novo as observações por tratamento, a fim de prosseguir com os cálculos:

Tratamento A Tratamento B Tratamento C x Ordem x Ordem x Ordem

9 2.5 8 1 10 5 9 2.5 11 7.5 12 10.5

10 5 12 10.5 13 14 10 5 12 10.5 15 17.5 11 7.5 12 10.5 16 19.5 13 14 13 14 16 19.5 14 16 15 17.5 18 21

1 52.5R = 2 71.5R = 3 107R =

A estatística de teste (sem correcção devida aos empates) é:

( ) ( )2 2 2 2

1

12 12 52.5 71.5 1073. 1 3 22 5.6790. 1 21 22 7

ki

i i

RH NN N N=

+ += − + = × − × =

+ ×∑

Como existem 7m = grupos de observações empatadas, respectivamente com 2, 3, 2, 4, 3, 2 e 2 observações, deve fazer-se a correcção da estatística de teste; o factor de correcção é:

x Tratamento Ordem8 B 19 A 2.59 A 2.5

10 A 510 A 510 C 511 A 7.511 B 7.512 B 10.512 B 10.512 B 10.512 C 10.513 A 1413 B 1413 C 1414 A 1615 B 17.515 C 17.516 C 19.516 C 19.518 C 21

Page 31: Testes Nao Parametricos

30

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )3

3 3 3 3 3 3 31

3 3

2 2 3 3 2 2 4 4 3 3 2 2 2 21 1

21 210.9857

m

ii

u uC

N N=

− − + − + − + − + − + − + −= − = −

− −=

A estatística de teste corrigida é então:

5.6790 5.76140.9857c

HHC

= = =

Para um nível de significância 5%α = , e para três tratamentos, cada um com 7 repetições, o valor crítico da distribuição da estatística H é ( )0.05;7;7;7 5.819H = ; como a

estatística de teste é ( )0.05;7;7;75.7614 5.819cH H= < = , conclui-se que não há evidência estatística para rejeitar a hipótese nula. Procedendo à aproximação à distribuição 2χ , para um nível de significância 5%α = e para 1 3 1 2kυ = − = − = graus de liberdade, o valor crítico é ( )

20.05;2 5.9915χ = ; como

( )20.05;25.7614 5.9915cH χ= < = , conclui-se que não se deve rejeitar a hipótese nula. O

valor da probabilidade limite é 0.0561p value− = . Exemplo 2: Num estudo de limnologia mediu-se o pH de oito amostras de água de cada uma de quatro barragens. Os valores são os seguintes:

Barragem 1 Barragem 2 Barragem 3 Barragem 4 7.68 7.71 7.74 7.71 7.69 7.73 7.75 7.71 7.70 7.74 7.77 7.74 7.70 7.74 7.78 7.79 7.72 7.78 7.80 7.81 7.73 7.78 7.81 7.85 7.73 7.80 7.84 7.87 7.76 7.81 7.86 7.91

Pretende-se averiguar se as águas das quatro origens têm o mesmo valor de pH, isto é:

0 :H O valor do pH da água é o mesmo nas 4 barragens;

1 :H O valor do pH da água não é o mesmo nas 4 barragens. Cada um dos quatro tratamentos (barragens) tem 8iN = (i=1,2,3,4) observações, sendo 32N = . No quadro seguinte apresentam-se os cálculos dos números de ordem de cada observação, após ter juntado num único vector todas as 32 observações :

Page 32: Testes Nao Parametricos

31

Após ter ordenado por ordem crescente todas as observações, e atribuído os respectivos números de ordem, é conveniente dispor novamente as observações isoladas por tratamento, a fim de facilitar os cálculos subsequentes: PH Ordem pH Ordem pH Ordem pH Ordem

7.68 1 7.71 6 7.74 13.5 7.71 6 7.69 2 7.73 10 7.75 16 7.71 6 7.70 3.5 7.74 13.5 7.77 18 7.74 13.5 7.70 3.5 7.74 13.5 7.78 20 7.79 22 7.72 8 7.78 20 7.80 23.5 7.81 26 7.73 10 7.78 20 7.81 26 7.85 29 7.73 10 7.80 23.5 7.84 28 7.87 31 7.76 17 7.81 26 7.86 30 7.91 32

1 55R = 2 132.5R = 3 175R = 4 165.5R = A estatística de teste (sem correcção devida aos empates) é:

pH Barragem Número de ordem7.68 1 17.69 1 27.70 1 3.57.70 1 3.57.71 2 67.71 4 67.71 4 67.72 1 87.73 1 107.73 1 107.73 2 107.74 2 13.57.74 2 13.57.74 3 13.57.74 4 13.57.75 3 167.76 1 177.77 3 187.78 2 207.78 2 207.78 3 207.79 4 227.80 2 23.57.80 3 23.57.81 2 267.81 3 267.81 4 267.84 3 287.85 4 297.86 3 307.87 4 317.91 4 32

Page 33: Testes Nao Parametricos

32

( ) ( )2 2 2 2 2

1

12 12 55 132.5 175 165.53. 1 3 33. 1 32 33 8

12.6428

ki

i i

RH NN N N=

⎡ ⎤+ + += − + = × − ×⎢ ⎥+ × ⎣ ⎦=

Como existem 7m = grupos de observações empatadas, respectivamente com 2, 3, 3, 4, 3, 2 e 3 observações, deve fazer-se a correcção da estatística de teste; o factor de correcção é:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )3

3 3 3 3 3 3 31

3 3

2 2 3 3 3 3 4 4 3 3 2 2 3 31 1

32 320.9949

m

ii

u uC

N N=

− − + − + − + − + − + − + −= − = −

− −=

A estatística de teste corrigida é então:

12.6428 12.70760.9949c

HHC

= = =

Para um nível de significância 5%α = e para 1 4 1 3kυ = − = − = graus de liberdade, e fazendo a aproximação à distribuição 2χ , o valor crítico é ( )

20.05;3 7.815χ = ; como

( )20.05;312.7076 7.815cH χ= > = , deve rejeitar-se a hipótese nula.

O valor crítico da distribuição 2χ está tabelado (tabela em anexo), ou pode usar-se a função ( ). ;INV CHI α υ da folha de cálculo EXCEL:

A probabilidade limite pode calcular-se para o valor da estatística de teste, com a função

( ). ;cDIST CHI H υ da folha de cálculo:

Page 34: Testes Nao Parametricos

33

Isto é, 0.0053p value− = , sendo a conclusão a de rejeitar 0H .

4.2 Teste de Friedman O teste de Friedman é um teste não paramétrico que pode ser efectuado para analisar os resultados de um delineamento experimental em blocos casualizados, quando não são cumpridos os pressupostos necessários à análise de variância paramétrica, nomeadamente no que se refere à normalidade e à homoscedasticidade. Se os pressupostos de aplicabilidade da análise de variância paramétrica são cumpridos, a utilização do teste de Friedman é menos potente que o teste paramétrico correspondente; assim, se 3k = , a potência do teste de Friedman é de 72% comparativamente à potência do teste paramétrico; para um grande número de tratamentos, esta percentagem pode ir até cerca de 95%. Contudo, o inverso também é válido. Assim, se os pressupostos não se verificam, deve usar-se o teste de Friedman. O teste de hipótese, é, tal como no teste de Kruskal-Wallis:

0 :H As distribuições das k amostras são idênticas;

1 :H As distribuições das k amostras diferem na localização. Seja um delineamento em blocos casualizados, com k tratamentos e b blocos. Dentro de cada um dos b blocos, as observações são ordenadas por ordem crescente, e atribuídos números de ordem. De seguida, somam-se os números de ordem (atribuídos por bloco) dentro de cada um dos tratamentos ( iR ). A estatística de teste (aqui designada por 2Χ ) é calculada pela expressão:

( ) ( )2 2

1

12 3. . 1. . 1

k

ii

R b kb k k =

Χ = − ++ ∑

Para 2k = , o teste rF de Friedman é equivalente ao teste de Wilcoxon. Se 2b = , deve usar-se o coeficiente de correlação não paramétrico de Spearman..

Page 35: Testes Nao Parametricos

34

A expressão anterior pode escrever-se como:

( ) ( )2

2

1

12. . 1

k

ii

b R Rb k k =

Χ = −+ ∑

em que iR é a média dos números de ordem do i.ésimo tratamento e R é a média global dos números de ordem. A estatística 2Χ vale zero quando todos os tratamentos têm a mesma média dos números de ordem, e aumenta à medida que as médias dos números de ordem dos diferentes tratamentos diferem. Os valores críticos da distribuição da estatística 2Χ encontram-se tabelados (tabela em anexo) para até 6 tratamentos e 10 blocos. Para valores de k e de b superiores, a estatística 2Χ deve ser aproximada pela distribuição 2χ , com 1k − graus de liberdade. Os programas SPSS e MINITAB consideram esta estatística de teste. Porém, está demostrado que esta aproximação à distribuição 2χ é demasiado conservadora, isto é, com muita propensão para causar erro do tipo II, ou seja, é pouco potente. A aproximação:

( )( )

2

2

1 .. 1r

bF

b k− Χ

=− −Χ

com distribuição F de Fisher, com ( )1k − e ( )( )1 1k b− − graus de liberdade é geralmente superior. Contudo, a maioria dos programas estatísticos continua a usar a aproximação à distribuição 2χ . Exemplo: Num ensaio de alimentação de porcos, pretende-se avaliar o efeito de 4 dietas alimentares. Cada animal em teste é mantido isolado numa jaula. As jaulas são agrupadas em grupos de 4, tendo-se constituído 5 grupos (blocos) de 4 jaulas. Cada bloco ou grupo de jaulas são mantidas em condições que podem ser consideradas idênticas em termos ambientais (luz, temperatura, ruído, etc). Em cada um dos blocos, é atribuído de modo completamente aleatório uma das quatro dietas a cada um dos animais do bloco de jaulas, de modo que em cada bloco de jaulas há um animal com cada uma das quatro dietas. A variável resposta é o ganho de peso de cada um dos animais (unidade experimental): Dieta 1 Dieta 2 Dieta 3 Dieta 4 Bloco 1 7.0 5.3 4.9 8.8 Bloco 2 9.9 5.7 7.6 8.9 Bloco 3 8.5 4.7 5.5 8.1 Bloco 4 5.1 3.5 2.8 3.3 Bloco 5 10.3 7.7 8.4 9.1

Page 36: Testes Nao Parametricos

35

O teste de hipóteses é:

0 :H Os ganhos de peso são iguais para as quatro dietas;

1 :H Os ganhos de peso não são iguais para as quatro dietas. Tal como atrás exposto, ordenam-se as observações e são atribuídos números de ordem dentro de cada bloco. Na tabela seguinte, apresentam-se, entre parêntesis, os números de ordem atribuídos a cada uma das observações, dentro de cada um dos blocos. De seguida, somam-se os números de ordem por tratamento ou dieta ( iR ): Dieta 1 Dieta 2 Dieta 3 Dieta 4 Bloco 1 Número de ordem

7.0 (3)

5.3 (2)

4.9 (1)

8.8 (4)

Bloco 2 Número de ordem

9.9 (4)

5.7 (1)

7.6 (2)

8.9 (3)

Bloco 3 Número de ordem

8.5 (4)

4.7 (1)

5.5 (2)

8.1 (3)

Bloco 4 Número de ordem

5.1 (4)

3.5 (3)

2.8 (1)

3.3 (2)

Bloco 5 Número de ordem

10.3 (4)

7.7 (1)

8.4 (2)

9.1 (3)

iR 1 19R = 2 8R = 3 8R = 4 15R = Sendo 5b = blocos e 4k = , tratamentos, 20N = , o cálculo da estatística de teste de Friedman é:

( ) ( ) ( )2 2 2 2 2 2

1

12 123. . 1 19 8 8 15 3 5 5 10.68. . 1 5 4 5

k

ii

R b kb k k =

Χ = − + = × + + + − × × =+ × ×∑

Para um nível de significância 5%α = , o valor crítico da distribuição 2χ é

( )20.05;3 7.8147χ = ; como ( )

2 20.05;310.68 7.8147χΧ = > = , deve rejeitar-se a hipótese nula.

Chegar-se-á à mesma conclusão de rejeição da hipótese nula se calcularmos a probabilidade limite: 0.0136p value− = . Caso se pretenda usar a aproximação à distribuição F , calcula-se a estatística:

( )( )

2

2

1 . 4 10.68 9.8889. 1 5 3 10.68r

bF

b k− Χ ×

= = =− −Χ × −

Como ( )0.05;3;129.8889 3.49rF = > =F (o valor crítico da distribuição F pode calcular-se

com a função ( )0.05;3;12INVF da folha de cálculo), rejeita-se a hipótese nula. A probabilidade limite para a estatística 9.8889rF = é 0.0254p value− = (pode calcular-se com a função ( )9.8889;3;12DISTF da folha de cálculo).

Page 37: Testes Nao Parametricos

36

5 Coeficiente de correlação de Spearman O coeficiente de correlação linear r entre as variáveis X e Y mede o grau de associação ou de relação linear mútua entre as variáveis X e Y, e é calculado pela expressão:

1 1

1

2 2

2 21 1

1 1

N N

i iNi i

i ii

N N

i iN Ni i

i ii i

x yx y

Nr

x yx y

N N

= =

=

= =

= =

−=

⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠⎜ ⎟ ⎜ ⎟− × −⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑∑

∑ ∑∑ ∑

O coeficiente de correlação é adimensional e situa-se no intervalo 1 1r− ≤ ≤ . A validade estatística do coeficiente de correlação linear pressupõe que as duas variáveis são aleatórias e provêm de uma população normal bivariada. Caso este pressuposto seja gravemente violado, é aconselhado quantificar o grau de associação ou correlação entre as variáveis X e Y usando um coeficiente não paramétrico, baseado nos números de ordem (“rank”) dos pares (X,Y) das observações em cada uma das variáveis. O coeficiente de correlação de Spearman, ou “rank correlacion” é calculado pela seguinte expressão:

2

13

61

N

ii

s

dr

N N=

×= −

onde id é a diferença entre os números de ordem das observações ix e iy , isto é,

º ºi i id n ordem de x n ordem de y= − . O coeficiente de correlação sr é adimensional e situa-se no intervalo 1 1r− ≤ ≤ . Se existem observações empatadas, o valor do coeficiente de correlação corrigido é:

( )

32

1

3 3

6

2 26 6

N

i x yi

s c

x y

N N d u ur

N N N Nu u

=

−− − −

=⎛ ⎞ ⎛ ⎞− −

− × −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑ ∑

∑ ∑

em que:

Page 38: Testes Nao Parametricos

37

( )3

1

12

i i

m

x xi

x

u uu =

−=∑

∑ é a soma do número de observações com números de ordem das

observações X empatadas;

( )3

1

12

i i

m

y yi

x

u uy =

−=∑

∑ é a soma do número de observações com números de ordem das

observações Y empatadas. Existem tabelas de significância do coeficiente de correlação de Spearman (em anexo). Contudo, a significância do coeficiente de regressão, isto é, o teste de hipóteses:

0 :H X e Y não estão correlacionadas;

1 :H X e Y estão correlacionadas. equivalente a: 0 1: 0 : 0s sH r H r= ≠ pode mais rigorosamente ser decidido pela aproximação da distribuição do coeficiente

sr à função de distribuição normal, pela expressão:

( )3 1ln ~ 0,12 1

N rZr

− +⎛ ⎞= × ⎜ ⎟−⎝ ⎠N

Exemplo 1: As variáveis X e Y são respectivamente as classificações (em percentagem) em Matemática e em Biologia de uma turma de 10 alunos. Para calcular o coeficiente sr , foram atribuídos os números de ordem a cada valor ix e iy :

Aluno Mat. ( ix ) Ordem ix Biol. ( iy ) Ordem iy id 2id

1 57 3 83 7 -4 16 2 45 1 37 1 0 0 3 72 7 41 2 5 25 4 78 8 84 8 0 0 5 53 2 56 3 -1 1 6 63 5 85 9 -4 16 7 86 9 77 6 3 9 8 98 10 87 10 0 0 9 59 4 70 5 -1 1 10 71 6 59 4 2 4

Como se verifica, em nenhuma das variáveis existem empates. Aplicando a expressão de cálculo, temos:

Page 39: Testes Nao Parametricos

38

2

13 3

66 721 1 0.5636

10 10

N

ii

s

dr

N N=

××

= − = − =− −

Consultando a tabela de significância dos coeficientes de correlação de Spearman em anexo, para uma amostra de 10N = observações e para um nível de significância

5%α = , sr é significativo, isto é, existe correlação ou associação entre X e Y, para valores 0.648sr > . Assim, devemos concluir que não existe, no exemplo apresentado, correlação significativa entre as classificações obtidas em Matemática e em Biologia. Procedendo à aproximação à distribuição normal, tem-se:

3 1 7 1 0.5636ln ln 1.68822 1 2 1 0.5636

N rZr

− + +⎛ ⎞ ⎛ ⎞= × = × =⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

que conduz à probabilidade limite 0.0914p value− = . Exemplo 2: Em estudos de ornitologia considera-se haver uma associação entre a envergadura das asas e o comprimento da cauda das aves. Os seguintes dados referem-se à envergadura de asas (X, em cm) e o comprimento da cauda (Y, em cm) de uma espécie de tordos: X 10.4 10.8 11.1 10.2 10.3 10.2 10.7 10.5 10.8 11.2 10.6 11.4 Y 7.4 7.6 7.9 7.2 7.4 7.1 7.4 7.2 7.8 7.7 7.8 8.3 Em ambas as variáveis existem observações empatadas; na variável X existem 2 grupos, cada um com 2 observações; na variável Y existem 3 grupos, havendo dois grupos com 2 observações e um com 3 observações. Para calcular o coeficiente sr , foram atribuídos os números de ordem a cada valor ix e iy : Tordo Asa ( ix ) Ordem ix Cauda ( iy ) Ordem iy id 2

id 1 10.4 4 7.4 5 -1 1 2 10.8 8.5 7.6 7 1.5 2.25 3 11.1 10 7.9 11 -1 1 4 10.2 1.5 7.2 2.5 -1 1 5 10.3 3 7.4 5 -2 4 6 10.2 1.5 7.1 1 0.5 0.25 7 10.7 7 7.4 5 2 4 8 10.5 5 7.2 2.5 2.5 6.25 9 10.8 8.5 7.8 9.5 -1 1 10 11.2 11 7.7 8 3 9 11 10.6 6 7.8 9.5 -3.5 12.25 12 11.4 12 8.3 12 0 0

Page 40: Testes Nao Parametricos

39

Como existem observações empatadas, vamos em primeiro lugar calcular:

( ) ( ) ( )3

3 31

2 2 2 21

12 12

i i

m

x xi

x

u uu =

− − + −= = =∑

( ) ( ) ( ) ( )3

3 3 31

2 2 3 3 2 23

12 12

i i

m

y yi

x

u uy =

− − + − + −= = =∑

O coeficiente de correlação corrigido devido a empates é:

( )

3 32

1

3 3 3 3

12 12 42 1 36 612 12 12 122 2 2 1 2 3

6 6 6 6

0.8511

N

i x yi

s c

x y

N N d u ur

N N N Nu u

=

− −− − − − − −= =

⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞− − − −− × − − × × − ×⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

=

∑ ∑ ∑

∑ ∑

Este valor é significativo, pois ( ) ( )( )0.05;12

0.8511 0.587s scr r= > = (valor crítico

tabelado); ou, pela aproximação à normal, chaga-se à mesma conclusão:

3 1 9 1 0.8511ln ln 3.78042 1 2 1 0.8511

N rZr

− + +⎛ ⎞ ⎛ ⎞= × = × =⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

sendo 0.0002p value− = .

Page 41: Testes Nao Parametricos

40

Bibliografia Daniel, Wayne W. (1995) Bioestadística. Base para el análisis de las ciencias de la

salud. Editorial Limusa, México. Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences.

Duxbury, Australia. Guimarães, Rui Campos; Cabral, José A. Sarsfield (1997) Estatística. McGraw-Hill,

Portugal. Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design

of experiments. Fifth edition. Oxford University Press, USA. Johnson, Robert e Kuby, Patricia (1999) Elementary statistics. Eighth edition. Duxbury,

USA. McClave, James T. e Sincich, Terry (2000) Statistics. Eighth Edition. Prentice Hall,

USA. Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition.

John Wiley and Sons, USA. Montgomery, Douglas C. e Runger, George C. (1999) Applied statistics and probability

for engineers. Second edition. John Wiley and Sons, USA. Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh

edition. Iowa State University Press, USA. Walpone, Ronald E. (1999) Probabilidad y Estadística para ingenieros. Sexta edición.

Prentice Hall, México. Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.