of 45/45
IV.4 – Análise de Dados da Avaliação 1 IV – AVALIAÇÃO IV.4 – ANÁLISE DE DADOS DA AVALIAÇÃO Interactive System Design, Cap. 10, William Newman 1 Melhor e Pior? 2

IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk

  • View
    216

  • Download
    0

Embed Size (px)

Text of IV – AVALIAÇÃO · testes de normalidade D'Agostino's K-squared test Jarque–Bera test...

IV.4 Anlise de Dados da Avaliao

1

IV AVALIAO

IV.4 ANLISE DE DADOS DA AVALIAO

Interactive System Design, Cap. 10, William Newman

1

Melhor e Pior?

2

IV.4 Anlise de Dados da Avaliao

2

Resumo Aula Anterior

oTestes com utilizadores

oFases do Teste

oAnlise dos dados

3

Sumrio

oAnlise dos dados por mtodos estatsticos

Teste t

Intervalos de Confiana

Chi Quadrado

4

IV.4 Anlise de Dados da Avaliao

3

As Bases Estatstica Descritiva

Mdia

Soma dos quadrados das diferenas

Varincia

Desvio Padro

5

No Excel

AVERAGE(range)

VAR(range)

STDEV(range)

MEDIAN(range)

MODE(range)

6

IV.4 Anlise de Dados da Avaliao

4

No Chega!

7

TESTES ESTATSTICOS!

8

IV.4 Anlise de Dados da Avaliao

5

Testes Estatsticos

Soluo A melhor que a B?

Alterao no tipo de menus (PullDown vs Pie)

Caligrfico vs Menus

Soluo cumpre os objectivos?

Os nossos objectivos de usabilidade so

atingidos?

9

Para qu este trabalho todo

Questo: a tarefa leva menos do que 30 segundos?

10

IV.4 Anlise de Dados da Avaliao

6

Para qu este trabalho todo

Testes com 10 utilizadores:

Mdia: 29.6

11

Para qu este trabalho todo

Testes com 10 utilizadores:

29.6 < 30

12

IV.4 Anlise de Dados da Avaliao

7

Para qu este trabalho todo

Testes com 10 utilizadores:

29.6 < 30

13

Para qu este trabalho todo

Mdia: 29.6 StDev: 8.7

Problema 1: Grande disperso!

14

IV.4 Anlise de Dados da Avaliao

8

Para qu este trabalho todo

Mdia: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

45

50

15

Para qu este trabalho todo

Mdia: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

16

IV.4 Anlise de Dados da Avaliao

9

Para qu este trabalho todo

Mdia: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

17

Para qu este trabalho todo

Problema 2: amostra pequena!

0

5

10

15

20

25

30

35

40

18

IV.4 Anlise de Dados da Avaliao

10

Para qu este trabalho todo

Mdia: 31.3 StDev: 5.1

0

5

10

15

20

25

30

35

40

19

Para qu este trabalho todo

Mas mesmo assim no chega!

20

IV.4 Anlise de Dados da Avaliao

11

Para qu este trabalho todo

Mas mesmo assim no chega!

0

5

10

15

20

25

30

35

40

21

Para qu este trabalho todo

Mdia: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

22

IV.4 Anlise de Dados da Avaliao

12

Para qu este trabalho todo

Ento??

23

Para qu este trabalho todo

Acreditamos na mdia?

24

IV.4 Anlise de Dados da Avaliao

13

Para qu este trabalho todo

Acreditamos na mdia?

melhor olhar para os dados

25

Para qu este trabalho todo

Acreditamos na mdia?

melhor olhar para os dados

Mas S temos uma amostra!

26

IV.4 Anlise de Dados da Avaliao

14

Universo vs Amostra

Mdia, desvio padro da populao

Da amostra

27

Significado Varincia/Desvio Padro

28

IV.4 Anlise de Dados da Avaliao

15

H sempre mais um

29

Procedimento

1. Escolha da amostra representativa Pblico alvo

30

IV.4 Anlise de Dados da Avaliao

16

Procedimento

1. Escolha da amostra representativa

2. Formulao da hiptese nula (H0)

31

Procedimento Hiptese Nula

Hiptese H0 Hiptese Nula No h diferenas, o tempo igual

Ex. A mudana de menus no afecta o desempenho

Hiptese H1 - Hiptese experimental Diz o que queremos verificar

Ex. Os novos menus melhoram o desempenho

32

IV.4 Anlise de Dados da Avaliao

17

Procedimento Grau de Confiana

= Probabilidade de parecer que H1 se verifica, mas afinal estarmos errados (apanhmos esquisitos)

Grau de Confiana = (1 - )

33

Procedimento Grau de Confiana

Aceitvel: = 0.05, grau de confiana = 95%

Melhor: = 0.01, grau de confiana = 99%

34

IV.4 Anlise de Dados da Avaliao

18

Procedimento Grau de Confiana

Objectivo rejeitar H0 para um determinado

35

Procedimento

1. Escolha da amostra representativa 2. Formulao da hiptese nula (H0)

3. Realizao dos testes Recolher os dados

36

IV.4 Anlise de Dados da Avaliao

19

Realizar os testes

Inter-Grupos Dois grupos de teste

Cada grupo usa apenas um dos sistemas

Intra-Grupos Um grupo de utilizadores

Cada pessoa usa ambos os sistemas No podem usar as mesmas tarefas ou pela mesma ordem (aprendizagem)

37

Realizar os testes

Maiores Amostras

Melhores Resultados

38

IV.4 Anlise de Dados da Avaliao

20

Procedimento

1. Escolha da amostra representativa 2. Formulao da hiptese nula (H0) 3. Realizao dos testes

4. Aplicar tratamento estatstico

39

Trs testes diferentes

t-student para mdias

intervalos de confiana

chi-quadrado

40

IV.4 Anlise de Dados da Avaliao

21

t T-STUDENT 41

Objectivo: Mdias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Mdia 2.9 3

D.Pad. 0.94 1

Atalhos melhor que Menus?

42

IV.4 Anlise de Dados da Avaliao

22

Objectivo: Mdias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Mdia 2.9 3

D.Pad. 0.94 1

Atalhos melhor que Menus?

No Sabemos!!

Valores prximos, grande desvio padro

43

O t-student para mdias

Definir

H0 44

IV.4 Anlise de Dados da Avaliao

23

Bicaudal e Unicaudal

45

Unicaudal

46

IV.4 Anlise de Dados da Avaliao

24

Bicaudal

47

O t-student para mdias

H0 As mdias so iguais

48

IV.4 Anlise de Dados da Avaliao

25

O t-student para mdias

Se rejeitarmos H0:

A probabilidade de (no parecerem iguais e) serem menor que .

49

O t-student para mdias

Se rejeitarmos H0:

Posso dizer que so diferentes com uma confiana de (1- ).

50

IV.4 Anlise de Dados da Avaliao

26

Presusposto: Normalidade

Amostra segue uma distribuio normal

51

E agora?

testes de normalidade

D'Agostino's K-squared test JarqueBera test AndersonDarling test Lilliefors test for normality KolmogorovSmirnov test ShapiroWilk test

52

IV.4 Anlise de Dados da Avaliao

27

E agora?

testes de normalidade

D'Agostino's K-squared test JarqueBera test AndersonDarling test Lilliefors test for normality KolmogorovSmirnov test ShapiroWilk test

53

O Universo Porreiro

54

IV.4 Anlise de Dados da Avaliao

28

Verdade que

Valores medidos na natureza tendem para a normalidade!

Amostras de pelo menos 20

55

Como se calcula?

Varincia combinada

Desvio padro da

diferena

Valor de t

56

IV.4 Anlise de Dados da Avaliao

29

Concluso!

Se t > tH0 (da tabela) rejeitamos H0 (para )

57

Exemplo: Bilheteira

Objectivo: Comparar Bilheteira com Mquina

Hiptese nula:

a forma de aquisio do bilhete no tem influncia

no tempo da tarefa ( = 0.05)

Medidas

bilheteira: 28, 25, 23, 26, 30, 32 segundos

mquina: 32, 41, 37, 40, 30 segundos

Mdias

bilheteira: 29 s mquina: 36 s 58

IV.4 Anlise de Dados da Avaliao

30

Teste de t - Bilheteira

TTEST()

Type: 3 (se inter-grupos)

Type: 1 (se intra-grupos)

59

Teste de t - Bilheteira

Resultado: probabilidade com que no

poderiamos rejeitar H0

0.036 < 0.05

60

IV.4 Anlise de Dados da Avaliao

31

Teste de t - Bilheteira

Resultado: probabilidade com que no

poderiamos rejeitar H0

0.036 < 0.05

Rejeita-se H0! 61

Teste de t - Bilheteira

Concluso

A compra de bilhetes em mquina 24% (36/29)

mais lenta do que na bilheteira, com uma

probabilidade de 96,4%

62

IV.4 Anlise de Dados da Avaliao

32

[0, 1] INTERVALOS DE CONFIANA

63

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Mdia 2.9

D.Pad. 0.94

O tempo para usar os atalhos inferior a 3s?

64

IV.4 Anlise de Dados da Avaliao

33

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Mdia 2.9

D.Pad. 0.94

O tempo para usar os atalhos inferior a 3s?

No Sabemos!!

Grande desvio padro

65

lembram-se disto?

Mdia: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

66

IV.4 Anlise de Dados da Avaliao

34

Intervalo de Confiana

A mdia da populao

est dentro do intervalo

com uma dada probabilidade.

67

Intervalo de Confiana

Evitar este

68

IV.4 Anlise de Dados da Avaliao

35

Intervalo de Confiana

Exemplo

Uma operao no deve demorar mais

do que 25s

Intervalo totalmente abaixo de 25 s

69

Como se calcula?

1. Calcular varincia (s2) 2. Desvio padro da mdia 3. Determinar t bicaudal para a

probabilidade pretendida e grau de liberdade da amostra (N-1)

4. O intervalo estar compreendido entre

70

IV.4 Anlise de Dados da Avaliao

36

Intervalo de Confiana (Ex.)

Mtrica: N de Erros Objectivo: N erros

IV.4 Anlise de Dados da Avaliao

37

Intervalo de Confiana (Ex.)

Intervalo abaixo de 15

Concluso:

N erros da populao

inferior a 15 c/ 95% de certeza

73

2 CHI-QUADRADO 74

IV.4 Anlise de Dados da Avaliao

38

Objectivo: Frequncias esperadas = observadas?

Achamos que: 40% usa menus 60% usa atalhos

Medimos: 45% usam menus 55% usam atalhos

75

Objectivo: Frequncias esperadas = observadas?

40% != 45% 60% != 55%

Afinal 45/55 em vez de 40/60?

76

IV.4 Anlise de Dados da Avaliao

39

Objectivo: Frequncias esperadas = observadas?

40% != 45% 60% != 55%

Afinal 45/55 em vez de 40/60?

No sabemos!

77

Chi-Quadrado

H0 As frequncias observadas

so as esperadas 78

IV.4 Anlise de Dados da Avaliao

40

Como se calcula?

diferena entre freq. observadas e esperadas

Se > H0 (da tabela) rejeitamos H0

(para )

79

Tabela do chi Quadrado

80

IV.4 Anlise de Dados da Avaliao

41

Teste do Chi Quadrado (Exemplo)

Objectivo: Qual a opo preferida de entre as 3?

Hiptese Nula: As freqs. 5,16,9 (observadas) so iguais a 10,10,10 (esperadas)

30 utilizadores

Opo f esperada

f observada

Diferena Quad. Da Diferena

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

81

Teste do Chi Quadrado (Exemplo)

Graus de liberdade: N-1 = 3-1 = 2

Da tabela obtemos 5,99 para =0,05

Rejeita-se a hiptese nula (6.2 > 5.99)

= 6.2

Opo f esperada

f observada

Diferena Quad. Da Diferena

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

82

IV.4 Anlise de Dados da Avaliao

42

Chi Quadrado no Excel

0.045 < 0.05 -> Rejeitar H0 83

CHI-Quadrado (Ex.)

Concluso:

Uma das opes preferida relativamente s outras,

com 95% de certeza.

84

IV.4 Anlise de Dados da Avaliao

43

Foi fcil!

85

Escolha de testes

Funes estatsticas disponveis em : Matlab, SPSS, R, ou mesmo Excel

Essencial: escolher mtodo apropriado

86

IV.4 Anlise de Dados da Avaliao

44

Escolha de testes: resumo!

t-student: Duas mdias so diferentes? A mais rpido/lento que B Os utilizadores do grupo A cometem

menos erros do que os do grupo B

intervalos de confiana: atingimos um dado valor? A tarefa leva mais/menos do que x

segundos? 87

Escolha de testes: resumo!

chi-quadrado: vimos as frequncias que espervamos? Metade dos utilizadores prefere menus e

a outra teclas de atalho? 70% das vezes escolhe-se usar a toolbar,

20% o menu de contexto e 10% a tecla de atalho

88

IV.4 Anlise de Dados da Avaliao

45

Resumo

Os testes mais conclusivos devem ser realizados com utilizadores reais

Os testes devem ser planeados e aprovados previamente

Devem ser recolhidos dados qualitativos e quantitativos

Dados numricos s so conclusivos se validados por testes estatsticos

Escolhido o mtodo estatstico adequado

89

Prxima Aula

oFactores Humanos HCI, Cap. 1 , Alan Dix

oModelo Humano de Processamento Subsistema de Percepo Viso Audio Tacto

Subsistema Motor 90