Transcript
Page 1: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

1

IV – AVALIAÇÃO

IV.4 – ANÁLISE DE DADOS DA AVALIAÇÃO

Interactive System Design, Cap. 10, William Newman

1

Melhor e Pior?

2

Page 2: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

2

Resumo Aula Anterior

o Testes com utilizadores

o Fases do Teste

o Análise dos dados

3

Sumário

o Análise dos dados por métodos

estatísticos

  Teste t

  Intervalos de Confiança

 Chi Quadrado

4

Page 3: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

3

As Bases – Estatística Descritiva

Média

Soma dos quadrados das diferenças

Variância

Desvio Padrão

5

No Excel…

AVERAGE(range)

VAR(range)

STDEV(range)

MEDIAN(range)

MODE(range)

6

Page 4: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

4

Não Chega!

7

TESTES ESTATÍSTICOS!

8

Page 5: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

5

Testes Estatísticos

Solução A melhor que a B?

Alteração no tipo de menus (PullDown vs Pie)

Caligráfico vs Menus

Solução cumpre os objectivos?

Os nossos objectivos de usabilidade são

atingidos?

9

Para quê este trabalho todo…

Questão: a tarefa leva menos do que 30 segundos?

10

Page 6: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

6

Para quê este trabalho todo…

Testes com 10 utilizadores:

Média: 29.6

11

Para quê este trabalho todo…

Testes com 10 utilizadores:

29.6 < 30

12

Page 7: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

7

Para quê este trabalho todo…

Testes com 10 utilizadores:

29.6 < 30

13

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

Problema 1: Grande dispersão!

14

Page 8: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

8

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

45

50

15

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

16

Page 9: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

9

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

17

Para quê este trabalho todo…

Problema 2: amostra pequena!

0

5

10

15

20

25

30

35

40

18

Page 10: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

10

Para quê este trabalho todo…

Média: 31.3 StDev: 5.1

0

5

10

15

20

25

30

35

40

19

Para quê este trabalho todo…

Mas mesmo assim não chega!

20

Page 11: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

11

Para quê este trabalho todo…

Mas mesmo assim não chega!

0

5

10

15

20

25

30

35

40

21

Para quê este trabalho todo…

Média: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

22

Page 12: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

12

Para quê este trabalho todo…

Então??

23

Para quê este trabalho todo…

Acreditamos na média?

24

Page 13: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

13

Para quê este trabalho todo…

Acreditamos na média?

É melhor olhar para os dados…

25

Para quê este trabalho todo…

Acreditamos na média?

É melhor olhar para os dados…

Mas… Só temos uma amostra!

26

Page 14: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

14

Universo vs Amostra

Média, desvio padrão da população

Da amostra…

27

Significado Variância/Desvio Padrão

28

Page 15: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

15

Há sempre mais um…

29

Procedimento

1. Escolha da amostra representativa Público alvo

30

Page 16: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

16

Procedimento

1. Escolha da amostra representativa

2. Formulação da hipótese nula (H0)

31

Procedimento – Hipótese Nula

Hipótese H0 – Hipótese Nula

“Não há diferenças, o tempo é igual” Ex. A mudança de menus não afecta o

desempenho

Hipótese H1 - Hipótese experimental

Diz o que queremos verificar Ex. Os novos menus melhoram o desempenho

32

Page 17: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

17

Procedimento – Grau de Confiança

α = Probabilidade de parecer que H1 se verifica, mas afinal estarmos errados (“apanhámos esquisitos”)

Grau de Confiança = (1 - α )

33

Procedimento – Grau de Confiança

Aceitável: α = 0.05, grau de confiança = 95%

Melhor: α = 0.01, grau de confiança = 99%

34

Page 18: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

18

Procedimento – Grau de Confiança

Objectivo rejeitar H0 para um determinado α

35

Procedimento

1.  Escolha da amostra representativa

2.  Formulação da hipótese nula (H0)

3. Realização dos testes Recolher os dados

36

Page 19: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

19

Realizar os testes

Inter-Grupos Dois grupos de teste

Cada grupo usa apenas um dos sistemas

Intra-Grupos Um grupo de utilizadores

Cada pessoa usa ambos os sistemas Não podem usar as mesmas tarefas ou pela mesma ordem (aprendizagem)

37

Realizar os testes

Maiores Amostras

Melhores Resultados

38

Page 20: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

20

Procedimento

1.  Escolha da amostra representativa

2.  Formulação da hipótese nula (H0)

3. Realização dos testes

4. Aplicar tratamento estatístico

39

Três testes diferentes…

t-student para médias

intervalos de confiança

chi-quadrado

40

Page 21: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

21

t T-STUDENT

41

Objectivo: Médias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Média 2.9 3

D.Pad. 0.94 1

Atalhos é melhor que Menus?

42

Page 22: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

22

Objectivo: Médias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Média 2.9 3

D.Pad. 0.94 1

Atalhos é melhor que Menus?

Não Sabemos!!

Valores próximos, grande desvio padrão

43

O t-student para médias

Definir

H0 44

Page 23: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

23

Bicaudal e Unicaudal

45

Unicaudal

46

Page 24: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

24

Bicaudal

47

O t-student para médias

H0 As médias são iguais

48

Page 25: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

25

O t-student para médias

Se rejeitarmos H0:

A probabilidade de (não parecerem iguais e) serem é menor que α.

49

O t-student para médias

Se rejeitarmos H0:

Posso dizer que são diferentes com uma confiança de (1- α).

50

Page 26: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

26

Presusposto: Normalidade

Amostra segue uma distribuição normal

51

E agora?

testes de normalidade

D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …

52

Page 27: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

27

E agora?

testes de normalidade

D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …

53

O Universo é Porreiro

54

Page 28: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

28

É Verdade que…

Valores medidos na natureza tendem para a normalidade!

Amostras de pelo menos 20

55

Como se calcula?

Variância combinada

Desvio padrão da

diferença

Valor de t

56

Page 29: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

29

Conclusão!

Se t > tH0 (da tabela) rejeitamos H0 (para α)

57

Exemplo: Bilheteira

Objectivo: Comparar Bilheteira com Máquina

Hipótese nula:

a forma de aquisição do bilhete não tem influência

no tempo da tarefa (α = 0.05)

Medidas

bilheteira: 28, 25, 23, 26, 30, 32 segundos

máquina: 32, 41, 37, 40, 30 segundos

Médias

bilheteira: 29 s máquina: 36 s 58

Page 30: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

30

Teste de t - Bilheteira

TTEST(…)

Type: 3 (se inter-grupos)

Type: 1 (se intra-grupos)

59

Teste de t - Bilheteira

Resultado: probabilidade com que não

poderiamos rejeitar H0

0.036 < 0.05

60

Page 31: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

31

Teste de t - Bilheteira

Resultado: probabilidade com que não

poderiamos rejeitar H0

0.036 < 0.05

Rejeita-se H0! 61

Teste de t - Bilheteira

Conclusão

A compra de bilhetes em máquina é 24% (36/29)

mais lenta do que na bilheteira, com uma

probabilidade de 96,4%

62

Page 32: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

32

[0, 1] INTERVALOS DE CONFIANÇA

63

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Média 2.9

D.Pad. 0.94

O tempo para usar os atalhos é inferior a 3s?

64

Page 33: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

33

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Média 2.9

D.Pad. 0.94

O tempo para usar os atalhos é inferior a 3s?

Não Sabemos!!

Grande desvio padrão

65

lembram-se disto?

Média: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

66

Page 34: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

34

Intervalo de Confiança

A média da população

está dentro do intervalo

com uma dada probabilidade.

67

Intervalo de Confiança

Evitar este

68

Page 35: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

35

Intervalo de Confiança

Exemplo

Uma operação não deve demorar mais

do que 25s

Intervalo totalmente abaixo de 25 s

69

Como se calcula?

1.  Calcular variância (s2)

2.  Desvio padrão da média

3.  Determinar t bicaudal para a probabilidade pretendida e grau de liberdade da amostra (N-1)

4.  O intervalo estará compreendido entre

70

Page 36: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

36

Intervalo de Confiança (Ex.)

Métrica: Nº de Erros Objectivo: Nº erros <= 15 (α = 0.05)

Amostra: 13, 6, 8, 11

Média: 9,5 Variância: 9,67

71

Intervalo de Confiança (Ex.)

Desvio padrão da média:

Para p=0,05 t=3.182 (da tabela ou usando TINV ())

Intervalo xmin = 9,5 – 3,182 x 1,55 = 5,84

xmax = 9,5 + 3,182 x 1,55 = 13,15

72

Page 37: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

37

Intervalo de Confiança (Ex.)

Intervalo abaixo de 15

Conclusão:

Nº erros da população

inferior a 15 c/ 95% de certeza

73

χ2 CHI-QUADRADO

74

Page 38: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

38

Objectivo: Frequências esperadas = observadas?

Achamos que: 40% usa menus 60% usa atalhos

Medimos: 45% usam menus 55% usam atalhos

75

Objectivo: Frequências esperadas = observadas?

40% != 45% 60% != 55%

Afinal é 45/55 em vez de 40/60?

76

Page 39: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

39

Objectivo: Frequências esperadas = observadas?

40% != 45% 60% != 55%

Afinal é 45/55 em vez de 40/60?

Não sabemos!

77

Chi-Quadrado

H0 As frequências observadas

são as esperadas 78

Page 40: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

40

Como se calcula?

diferença entre freq. observadas e esperadas

Se > H0 (da tabela) rejeitamos H0

(para α)

79

Tabela do chi Quadrado

80

Page 41: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

41

Teste do Chi Quadrado (Exemplo)

Objectivo: Qual a opção preferida de entre as 3?

Hipótese Nula: As freqs. 5,16,9 (observadas) são iguais a 10,10,10 (esperadas)

30 utilizadores

Opção f esperada

f observada

Diferença Quad. Da Diferença

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

81

Teste do Chi Quadrado (Exemplo)

Graus de liberdade: N-1 = 3-1 = 2

Da tabela obtemos 5,99 para α =0,05

Rejeita-se a hipótese nula (6.2 > 5.99)

= 6.2

Opção f esperada

f observada

Diferença Quad. Da Diferença

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

82

Page 42: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

42

Chi Quadrado no Excel

0.045 < 0.05 -> Rejeitar H0 83

CHI-Quadrado (Ex.)

Conclusão:

Uma das opções é preferida relativamente às outras,

com 95% de certeza.

84

Page 43: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

43

Foi fácil!

85

Escolha de testes

Funções estatísticas disponíveis em : Matlab, SPSS, R, ou mesmo Excel

Essencial: escolher método apropriado

86

Page 44: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

44

Escolha de testes: resumo!

t-student: Duas médias são diferentes? “A é mais rápido/lento que B” “Os utilizadores do grupo A cometem

menos erros do que os do grupo B”

intervalos de confiança: atingimos um dado valor? “A tarefa leva mais/menos do que x

segundos?” 87

Escolha de testes: resumo!

chi-quadrado: vimos as frequências que esperávamos? “Metade dos utilizadores prefere menus e

a outra teclas de atalho?” “70% das vezes escolhe-se usar a toolbar,

20% o menu de contexto e 10% a tecla de atalho”

88

Page 45: IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

IV.4 – Análise de Dados da Avaliação

45

Resumo

Os testes mais conclusivos devem ser realizados com utilizadores reais

Os testes devem ser planeados e aprovados previamente

Devem ser recolhidos dados qualitativos e quantitativos

Dados numéricos só são conclusivos se validados por testes estatísticos

Escolhido o método estatístico adequado

89

Próxima Aula

o Factores Humanos  HCI, Cap. 1 , Alan Dix

o Modelo Humano de Processamento   Subsistema de Percepção •  Visão

•  Audição

•  Tacto

  Subsistema Motor 90


Recommended