41
Análise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com n observações: x 1 , x 2 , . . . , x n . a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações. n x x n i i 1 b) Mediana: representada por ) ( x med , é observação que ocupa a posição central das observações ordenadas. Sejam as observações ordenadas: x (1) x (2) . . . x (n) , então, a posição central é dada por 2 1 n , portanto, 2 1 ) ( n x x med Notas: i) A mediana também é presentada por x ~ . ii) Se n é par, a mediana é dada pela média aritmética das duas observações centrais. c) Moda: representada por ) ( x mo , é observação da amostra com maior frequência, ou seja, a que mais se repete.

Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

  • Upload
    ngocong

  • View
    222

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Análise descritiva de Dados

4. Medidas resumos para variáveis quantitativas

4.1. Medidas de Posição:

Considere uma amostra com n observações: x1, x2, . . . , xn.

a) Média: (ou média aritmética) é representada por x e é dada

soma das observações, divida pelo número de observações.

n

xx

n

i i 1

b) Mediana: representada por )(xmed , é observação que ocupa a

posição central das observações ordenadas.

Sejam as observações ordenadas: x(1) x(2) . . . x(n), então, a

posição central é dada por

2

1n, portanto,

2

1)( nxxmed

Notas:

i) A mediana também é presentada por x~ .

ii) Se n é par, a mediana é dada pela média aritmética das duas

observações centrais.

c) Moda: representada por )(xmo , é observação da amostra com

maior frequência, ou seja, a que mais se repete.

Page 2: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Um conjunto de dados pode ter mais de uma moda, ou até

mesmo, não ter moda.

Em relação ao número de modas um conjunto de dados pode

ser:

i) unimodal: quando o conjunto tem uma única moda;

ii) bimodal: quando o conjunto tem duas modas;

iii) multimodal: quando o conjunto tem três ou mais modas;

iv) amodal: quando o conjunto não tem moda (neste caso, todas as

observações aparecem uma única vez na amostra).

Exemplos de medidas da posição:

Exemplo 1: Número de pessoas com diabetes em 20 grupos de

1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:

7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10 , 10, 10, 10, 10, 10, 11, 11, 11, 12

Medidas Descritivas de Posição:

i) Média: xi = 193 65,920

193x casos/grupo (≈ 10)

ii) Mediana:

Determinando a posição da mediana:

5,102

120

2

1

n

Page 3: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

logo a mediana é a média entre a 10ª e 11ª observações

ordenadas

102

1010

2)(

)11()10(

xxxmed casos/grupo.

iii) Moda: mo(x) = 10 casos/grupo, aparece 8 vezes na amostra

o conjunto é unimodal.

Exemplo 2: Em 1798 o cientista Henry Cavendish mediu a

densidade do globo terrestre em 29 ensaios. Os dados foram

obtidos do Annals os Statistics, 1977.

X = densidade do globo terrestre (g/cm3).

5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65

5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39

5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85

Dados ordenados

4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34

5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57

5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85

n = 29 observações

Medidas Descritivas de Posição:

i) Média: xi = 157,99 45,529

99,157x g/cm3

Page 4: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

ii) Mediana:

Determinando a posição da mediana:

152

1

n

logo a mediana é a 15ª observação ordenada

5,46)( )15( xxmed g/cm3

iii) Moda: mo(x) = 5,29 g/cm3 e mo(x) = 5,34 g/cm3

o conjunto é bimodal.

Exemplo 3: Altura dos alunos da turma B de Bioestatística no

primeiro semestre de 2015.

X = altura dos alunos (em metros).

Dados ordenados

1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60

1,62 1,62 1,62 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65

1,66 1,67 1,67 1,70 1,70 1,70 1,72 1,73 1,73 1,74 1,75

1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81

n = 43 observações

xi = 71,94

Page 5: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Medidas Descritivas de Posição:

i) Média: xi = 71,94 67,143

94,71x m

ii) Mediana:

Determinando a posição da mediana:

222

44

2

1

n

logo a mediana é a 22ª observação ordenada:

65,1)( )22( xxmed m

iii) Moda: mo(x) = 1,65m aparece 5 vezes na amostra,

o conjunto é unimodal.

Page 6: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

4.2. Medidas de Dispersão (ou variação):

a) Amplitude: é dada pela diferença entre o maior e o menor valor

da amostra.

Sejam ],,,[min 21)1( nx

xxxx e ],,,[max 21)( nx

n xxxx ,

então, a amplitude da amostra é definida por

)1()( xxA n .

A amplitude A representa o tamanho da região na qual os dados

foram observados.

b) Variância amostral: a variância amostral é definida pela soma

dos quadrados dos desvios das observações em relação à media

amostral x , dividida por (n – 1), ou seja

n

i

i

n

xxs

1

22

1.

Mostra-se facilmente que s2 pode ser escrita como

1

21

22

n

xnxs

ni i .

c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º

quartis.

Para definir a amplitude interquartil, vamos primeiro definir o

que são quartis amostrais.

Page 7: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Quartis amostrais são medidas descritivas que dividem a

amostra ordenada em quatro parcelas iguais de 25%, ou seja:

25% 25% 25% 25%

------------|------------|------------|------------

Q1 Q2 Q3

med(x)

Assim sendo:

i) Q1 é o primeiro quartil;

ii) Q2 = med(x), é o segundo quartil,

iii) Q3 é o terceiro quartil.

Desta forma, denotada por Aq, é definida por

Aq = Q3 – Q1

AQ determina o tamanho da região em torno da mediana que

contém 50% das observações centrais.

Page 8: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

4.2.1. Métodos para a obtenção dos quartis amostrais:

Para a obtenção dos quartis devemos proceder da mesma forma

que para a mediana.

Uma vez que a mediana esteja determinada, temos o conjunto

de dados ordenados dividido em duas partes. Os quartis, então, são

dados pelas observações centrais destas duas metades.

Q1 med(x) Q3

Observação central

da metade inferior

Observação central

da metade superior

O procedimento para encontrar os quartis é o mesmo usado

para a mediana, porém, teremos dois procedimentos dependendo

do tamanho da amostra n ser par ou ímpar.

i) Se o tamanho da amostra n for par: o procedimento é o mesmo

da mediana, sendo aplicada a cada uma das metades (inferior e

superior).

Exemplo:

Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 n = 14

5,52

6 5

2)(

)8()7(

xxxmed

A mediana med(x) = 5,5 divide os dados em dois grupos

ordenados de 7 observações cada. Assim,

Page 9: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

42

17

Q1 é a 4ª observação da metade inferior e,

Q3 é a 4ª observação da metade superior.

Desta forma, os quartis serão as observações ordenadas que

ocupam as posições 4 e 11.

5,5

1 1 2 3 4 5 5 6 6 6 7 8 8 9

3)4(1 xQ

7)11(3 xQ

ii) Se o tamanho da amostra n for ímpar: devemos optar por

incluir, ou não, a mediana nos cálculos para a determinação dos

quartis.

ii.1) se a mediana não for incluída, então teremos dois grupos,

inferior e superior à mediana, cada um com 2)1( n

observações.

2

1n

observações

inferiores

2

1n

observações

superiores

Q1 med(x) Q3

e os quartis Q1 e Q3 são obtidos normalmente.

Page 10: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Exemplo:

Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13

A mediana 5)( )7( xxmed divide os dados em dois grupos

ordenados de 6 observações cada.

5,32

16

Q1 é a média da 3ª e 4ª observações do

grupo inferior e,

Q3 é a média da 3ª e 4ª observações do

grupo superior.

5

1 1 2 3 4 5 6 6 6 7 8 9

5,22

3 2

2

)4()3(1

xxQ

5,62

7 6

2

)11()10(3

xxQ

ii.2) se a mediana for incluída, então, ela deve ser considerada1

tanto para a obtenção do 1º quartil, na metade inferior

como na obtenção do 3º quartil, na metade superior. Desta

forma, teremos 2 grupos, com 2)1( n observações cada.

1 Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das

posições dos quartis.

Page 11: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Grupo

inferior

grupo

superior

Q1 med(x) Q3

e os quartis Q1 e Q3 são obtidos normalmente.

Exemplo:

Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13

A mediana 5)( )7( xxmed divide os dados em dois grupos

ordenados de 6 observações cada.

Incluindo a mediana ao procedimento, teremos uma observação

a mais em cada grupo, ou seja, teremos 7 observações.

42

17

Q1 é a 4ª observação do grupo inferior e,

Q3 é a 4ª observação do grupo superior, ou

seja, a 11ª observação ordenada (7 + 4).

1 1 2 3 4 5 5

5 6 6 6 7 8 9

3)4(1 xQ

6)11(3 xQ

Page 12: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

iii) Outra forma para a obtenção dos quartis é apresentada por

Murteira (2002). ] Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá

ocupar a posição:

4

3

2

12

1

n

n

Para a posição de Q3 fazemos:

4

13

4

3)1(

nnn

Portanto, Q1 e Q3 são dados pelas observações ordenadas que

ocupam as posições 4

3n e

4

13 n, respectivamente.

Se os valores de 4

3n e

4

13 n não forem inteiros, Q1 e Q3

devem ser obtidos por interpolação linear.

Por exemplo, se

kn

4

3,

em que k é a parte inteira e a parte decimal, então, Q1 pertence ao

intervalo );( )1()( kk xx e

][ )()1()(1 kkk xxxQ .

Page 13: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Para Q3 o procedimento é semelhante, ou seja, se

4

13n,

então, Q3 pertence ao intervalo );( )1()( xx e

][ )()1()(3 xxxQ .

Exemplo:

Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 n = 14

Para a determinação de Q1, temos:

posição de Q1: 25,44

17

4

314

.

Como = 0,25, Q1 é a interpolação entre a 4ª e 5ª observações

ordenadas:

25,3)34(25,031 Q .

Para a determinação de Q3, temos:

posição de Q3: 75,104

43

4

1143

.

Aqui = 0,75 e Q3 é a interpolação entre a 10ª e 11ª observações

ordenadas:

75,6)67(75,063 Q .

Obs: o item (iii) com n ímpar é equivalente ao item e (ii.2).

Page 14: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Notas:

Assim como a mediana, os quartis amostrais dependem do

tamanho da amostra n, fazendo com que nem sempre os quatro

grupos tenham o mesmo tamanho;

Existem diversas outras formas para a determinação dos quartis,

Nesta disciplina daremos ênfase nos itens (i) e (ii.1);

Para n pequeno, pode-se, ainda, obter os quartis graficamente

pelo histograma dos dados;

Os quartis são casos especiais dos quantis (ou percentis), que

são denotados por:

x(p) p-ésimo quantil ou quantil de ordem p;

Portanto, o quantil x(p) é dado pela observação ordenada que

deixa uma frequência acumulada igual 100p % abaixo de si.

Assim sendo temos que:

i) Q1 = x(0,25) quantil de ordem 0,25;

ii) Q2 = med(x) = x(0,5) quantil de ordem 0,50;

iii) Q3 = x(0,75) quantil de ordem 0,75.

Page 15: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Exemplo 1: Número de pessoas com diabetes em 20 grupos de

1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:

7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10 , 10, 10, 10, 10, 10, 11, 11, 11, 12

1931 ni ix e 18891

2 ni ix

a) Média: 65,920

193x casos/grupo (≈ 10);

b) Mediana: 102

1010

2)(

)11()10(

xxxmed casos/grupo;

c) Moda: mo(x) = 10 casos/grupo.

i) Variância amostral:

19

45,18621889

120

)65,9(201889 22

s

397,119

55,262 s (casos/grupo)2

Desvio padrão amostral: 182,1397,1 s casos/grupo (≈ 1)

ii) Amplitude amostral: 5712 A casos/grupo.

Page 16: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

iii) Amplitude interquartil:

7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12

n = 10 observações do

grupo inferior à mediana

n = 10 observações do

grupo superior à mediana

Para a determinação de Q1, temos:

posição de Q1:

5,52

110

, logo o 1º quartil é a média entre a 5ª e 6ª

observações ordenadas:

92

99

2

)6()5(1

xxQ casos/grupo.

Para a determinação de Q1, temos:

posição de Q1:

5,155.510 , logo o 3º quartil é a média entre a 15ª e 16ª

observações ordenadas,

102

1010

2

)16()15(3

xxQ casos/grupo.

Desta forma, a amplitude interquartil é:

1919 qA caso/grupo.

Page 17: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Relação entre as amplitudes amostral e interquartil:

2,05

1

A

Aq

Ou seja, a metade das observações centrais representam 20%

da amplitude total dos dados.

Exemplo 2: Altura dos alunos da turma B de Bioestatística no

primeiro semestre de 2015.

X = altura dos alunos (em metros).

Dados ordenados

1,51 1,55 1,56 1,57 1,58 1,58 1,58 1,60 1,60 1,60 1,60

1,62 1,62 1,62 1,63 1,63 1,65 1,65 1,65 1,65 1,65 1,65

1,66 1,67 1,67 1,70 1,70 1,70 1,72 1,73 1,73 1,74 1,75

1,75 1,75 1,76 1,77 1,78 1,80 1,80 1,80 1,80 1,81

n = 43 observações

94,711 ni ix e 63,1201

2 ni ix

a) Média: 67,143

94,71x m;

b) Mediana: 65,1)()22( xxmed m;

c) Moda: mo(x) = 1,65m.

Page 18: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

iv) Variância amostral:

01684,042

7073,0

42

)67,1(4363,120 2

2

s m2

Desvio padrão amostral: 1298,001684,0 s m

v) Amplitude amostral: 30.051,181,1 A m

vi) Amplitude interquartil: (sem incluir a mediana)

65,1)()22( xxmed m

O primeiro quartil é a posição central da metade inferior

60,1)11(1 xQ m

O terceiro quartil é a posição central da metade superior

75,1)33(3 xQ m

Desta forma, a amplitude interquartil é:

15,060,175,1 q

A m

Relação entre as amplitudes amostral e interquartil:

50,030,0

15,0

A

Aq

Metade das observações centrais representam 50% da amplitude

total.

Page 19: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

4.3. Mais Exemplos

Exemplo 1: Dias de manutenção de equipamentos de uma grande

companhia, (n = 50 observações)

X = dias em manutenção de equipamentos,

Dados Ordenados:

2 2 2 2 2 3 3 3 3 4

4 4 4 5 5 5 5 5 5 5

5 6 6 6 6 6 7 7 8 8

9 9 9 9 10 10 10 10 11 12

13 13 13 14 15 15 16 17 18 21

3921

n

i ix e 41781

2

n

i ix

a) 84,750

392x dias (≈ 8 dias)

b) 62

)()26()25(

xxxmed dias

c) mo(x) = 5 dias (8)

i) Variância amostral:

55,2249

28,30734178

150

)84,7(504178 22

s dias2

Desvio padrão amostral: 7482,4545,22 s dias

Page 20: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

ii) Amplitude amostral: 19221 A dias

iii) Amplitude interquartil:

O 1º quartil é a 13ª observação ordenada

13

2

125,

4)13(1 xQ dias.

O 3º quartil é a 38ª observação ordenada 281513 ,

10)38(3 xQ dias.

Desta forma, a amplitude interquartil é:

QA 10 – 4 = 6 dias

Relação da amplitude interquartil com a amplitude total:

316,019

6

A

Aq.

Metade das observações centrais representam 31,6% da amplitude

total.

Exemplo 2: Dados Cavendish,

X = densidade do globo terrestre (g/cm3),

Dados ordenados

4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34

5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57

5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85

n = 29 observações

Page 21: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

99,1571 ni ix e 0855,8621

2 ni ix

a) 448,529

99,157x g/cm3

b) 46,5)( )15( xxmed g/cm3

c) mo(x) = 5,29 g/cm3 e 5,34 g/cm3

i) Variância amostral:

04882,028

3669,1

129

)448,5(290855,862 22

s (g/cm3)2

Desvio padrão amostral: 2209,004882,0 s g/cm3

ii) Amplitude amostral: 97,088,485,5 A g/cm3

iii) Amplitude interquartil:

A mediana é 15ª observação ordenada, o primeiro quartil

(excluindo-se a mediana do cálculo) é a posição central da metade

inferior dos dados, ou seja:

Q1 é a média da 7ª e 8ª observações ordenadas

5,7

2

114,

295,52

30,529,5

2

)8()7(1

xxQ g/cm3,

Page 22: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Q3 é a média da 22ª e 23ª observações ordenadas 5,22155,7 ,

615,52

62,561,5

2

)23()22(3

xxQ g/cm3

Desta forma, a amplitude interquartil é:

32,0295,5615,5 qA g/cm3,

Relação da amplitude interquartil com a amplitude total:

330,097,0

32,0

A

Aq (≈ 1/3).

Metade das observações centrais representam 33,0% da amplitude

total.

Page 23: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

4.4. O coeficiente de variação amostral:

Uma medida utilizada para quantificar a variabilidade dos

dados é o coeficiente de variação, ou cv.

O cv de variação amostral é dado pela razão do desvio padrão

da amostra s e a média amostral x :

x

scv

Notas:

O coeficiente de variação compara a magnitude do desvio

padrão s com a média x . Se 1cv xs .

O coeficiente de variação é uma medida adimensional (é um

número puro) também podendo ser expresso em %.

Exemplos:

a) Número de casos com diabetes em 20 grupos de 1000 pessoas:

65,9x pessoas/grupo

397,12 s (pessoas/grupo) 2

182,1397.1 s pessoas/grupo

122.065,9

182,1cv ou 12,2%

Page 24: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

b) Altura dos alunos da turma B da disciplina Bioestatística:

67,1x m

01684,02 s m2

1298,001684.0 s m

078,067,1

1298,0cv ou 7,8%

c) Dias de manutenção de equipamentos:

84,7x dias

545,222 s dias2

748,4545,22 s dias

606,084,7

748,4cv ou 60,6%

d) Dados Cavendish:

45,5x g/cm3

2210,0s g/cm3

0406,045.5

2210,0cv ou 4,06%,

Page 25: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Nos exemplos acima temos os cv’s de quatro processos

distintos, sendo o maior deles (dias manutenção) 15 vezes maior

do que o menor (Cavendish), indicando claramente as diferenças

na dispersão dos dados.

Tabela: Coeficientes de variação dos exemplos.

Dados cv cv (%)

Manutenção 0.606 60.6%

Diabetes 0.122 12.2%

Alturas 0.078 7.8%

Cavendish 0.041 4.1%

Um ponto de grande interesse, contudo, diz respeito a

quantificar o cv e poder dizer se um conjunto de dados tem uma

dispersão muito alta, ou não. A seguir serão apresentados três

critérios para classificação do coeficiente de variação.

4.4.1. Como classificar o Coeficiente de Variação

O cv tem uma característica particular de ser intrínseco a

cada processo, tendo sido muito estudado na área agrícola, mais

especificamente, na experimentação agronômica.

Vários autores indicam diferentes métodos para se classificar o

coeficiente de variação. A seguir, são apresentadas três

classificações.

Page 26: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

I) Classificação segundo Pimentel Gomes (1985), baseada em

ensaios agrícolas.

Faixa cv dispersão

menor ou igual a 10% baixo baixa dispersão dos dados

entre 10% e 20% médio média dispersão dos dados

entre 20% e 30% alto alta dispersão dos dados

maior do que 30% muito alto dispersão dos dados muito alta

II) Classificação segundo Ferreira, F,V, (1991), Estatística

Experimental Aplicada à Agronomia, classifica com respeito à

precisão do processo.

Faixa cv precisão

entre 10% e 15% baixo ótima

entre 15% e 20% médio boa

entre 20% e 30% alto regular

maior do que 30% muito alto muito ruim

(ou péssima)

III) Classificação obtida no site www.datalyser.com.br, muito

utilizada em CEP – Controle Estatístico do Processo.

Faixa cv dispersão

menor ou igual a 15% baixo baixa dispersão dos dados

entre 15% e 30% médio média dispersão dos dados

maior do que 30% Alto alta dispersão dos dados

Page 27: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Nos exemplos:

a) Diabetes:

122.065,9

182,1cv (12,2%) cv baixo a médio.

b) Aturas dos alunos:

078,067,1

1298,0cv (7,8%) cv baixo.

c) Dias de manutenção de equipamentos:

606,084,7

7482,4cv (60,6%) cv alto ou muito alto.

d) Dados Cavendish:

0406,0448,5

2209,0cv (4,06%) cv baixo.

Page 28: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

5. Relação empírica entre média, mediana e moda

Karl Pearson, metemático famoso, no final do século XIX e

início do XX, observou empiricamente, a seguinte relação entre as

três medidas de posição média mediana e moda.

)(3)( xmedxxmox

Observações:

1) A relação só se aplica a distribuições com boa simetria;

2) Só é valida para casos unimodais;

3) Depende de um tamanho de amostra n elevado.

5.1. Moda de Czuber

Em muitas situações quando analisamos dados contínuos a moda

amostral pode não representar adequadamente os dados,

especialmente quando o conjunto for bimodal ou multimodal.

Nessas situações, a distribuição teórica f(x), a qual buscamos

identificar pelo histograma, pode não ser bem representada pela

amostra devido a diversas razões: poucas observações; grande

variabilidade; formado da distribuição.

Nesses casos, pode-se indicar não uma moda, mas uma classe

modal, dada pela classe na distribuição com a maior frequência.

Uma alternativa, entretanto, é utilizar a moda de Czuber, que leva

em conta a classe modal e as frequências das classes

imediatamente anteriores e posteriores à classe modal.

Page 29: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

A moda de Czuber é calculada pela seguinte expressão:

,)(

)(pa

aicz

dd

dhLxmo

Em que:

Li é o limite inferior da classe modal;

h é a amplitude de classe da distribuição de frequências;

da é a diferença da frequência da classe modal (relativa ou

absoluta) com a classe imediatamente anterior;

dp é a diferença da frequência da classe modal (relativa ou

absoluta) com a classe imediatamente posterior.

Page 30: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Exemplo: Considere os dados do tempo de TV de uma turma de

estudantes de primeiro de universidade. 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5,

5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10,

10, 10, 10, 10, 10, 12, 12, 12, 12, 14, 14, 14, 14,

14, 15, 16, 18, 20, 20, 20, 25, 25, 28, 30

Distribuição de frequências de horas TV,

Horas TV

classes

Freq.

absoluta

Freq.

relativa

Freq.

acumulada

ni fi Fac

0 |--- 5.5 14 0.28 0.28

5.5 |--- 11.0 17 0.34 0.62

11.0 |--- 16.5 12 0.24 0.86

16.5 |--- 22.0 4 0.08 0.94

22.0 |--- 27.5 2 0.04 0.96

27.5 |--- 33.0 2 0.04 1.00

Totais 50 1.00

)53(

35.55.5)(

xmocz

56.7

8

5.60 horas

Na representação gráfica a seguir, pode-se observar a moda de

Czuber

Page 31: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Figura: Moda de Czuber

Page 32: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

6. Relação entre média, moda e mediana

Considere o histograma abaixo:

Figura: Função de distribuição de probabilidades sobre o histograma.

O que podemos dizer com relação a simetria da distribuição de

frequências representa por este histograma?

Quando uma distribuição de frequências é perfeitamente

simétrica, teremos que a média aritmética, a moda e a mediana

serão iguais, ou seja:

x = Mo(x) = Md(x)

E quanto ao exemplo acima, o que podemos dizer?

Quando a distribuição não é simétrica, podemos distinguir duas

situações possíveis, conforme destacado pela figura abaixo:

Page 33: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

a) A a cauda superior da distribuição é mais alongada, puxando a

distribuição para a direita.

Neste caso, a média é maior do que a moda e a assimetria é

dita à direita ou positiva.

b) A cauda inferior da distribuição é mais alongada, puxando a

distribuição para a esquerda.

Neste caso, a média é menor do que a moda e a assimetria é

dita à esquerda ou negativa.

Figura: Assimetrias à direita e à esquerda, respectivamente.

Page 34: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

6.1. Média, moda e mediana e a simetria dos dados

i) A Média é sempre influenciada por valores extremos, sendo

puxada na direção da cauda mais alongada (ver a seta na

Figura 5);

ii) A Moda é o elemento de maior frequência, sendo o ponto de

máximo de f(x);

iii) A Mediana está sempre no meio do conjunto, dividindo-o

em duas partes iguais, ficando entre as duas medidas

anteriores.

Assim, para cada situação, teremos:

a) Quando a simetria é perfeita as três medidas são iguais.

Page 35: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

b) Na situação em que ocorre a assimetria à direita, teremos a

moda menor do que a mediana que é menor do que a média.

c) E, para a assimetria à esquerda, devemos ter a média menor do

que a mediana que é menor do que a moda.

Page 36: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

7. O diagrama box-plot

Representação gráfica da dispersão dos dados em torno da

mediana, é construído com as 5 medidas ordenadas: mínimo, Q1,

med(x), Q3 e máximo.

As cinco medidas podem ser apresentadas pela representação dos

cinco números:

med(x)

Q Q1 Q3

E mínimo máximo

Observações:

i) A representação dos cinco números, além da construção do

box-plot, ajuda na comparação da assimetria das caudas;

ii) Outros percentis podem ser incluídos, ampliando a

representação.

O diagrama box-plot fornece uma visão simplificada da dispersão

e simetria dos dados, além de indicar possíveis valores fora do

padrão (valores discrepantes). Além disso, pode ser utilizado na

comparação de diferentes processos quanto à centralidade

(posição) e variabilidade (dispersão).

O nome box-plot refere-se à “caixa” construída para representar a

metade das observações centrais entre os quartis.

Page 37: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

O box plot é constituído de 3 partes: caixa central, braços e

valores discrepantes.

i) A caixa central representa a metade das observações centrais

entre os quartis Q1 e Q3.

A mediana é destacada na caixa por uma linha que a divide

em duas partes. Com isso, pode-se avaliar a simetria na região

central da distribuição dos dados;

ii) Os braços são construídos a partir da caixa central,

representando as caudas da distribuição.

A construção dos braços é baseada nos valores dos quartis e, o

tamanho dos braços serve para avaliar a simetria das caudas.

iii) Valores discrepantes são valores fora do padrão de

dispersão, aparecendo muito distantes da maioria dos

dados, podendo indicar grande forte assimetria ou

variabilidade (ou ambos).

Os valores discrepantes nem sempre estão presentes, sendo

representados individualmente a partir das caudas.

Valores discrepantes Valores discrepantes

Q1 – 1.5AQ Q1 med(x) Q3 Q3 + 1.5AQ

Page 38: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

7.1. Procedimento para a construção do box-plot

i) Construir a “caixa” ou “box” com os valores dos quartis Q1 e

Q3;

ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em

duas partes;

iii) Calcular os limites inferior (LI) e superior (Ls):

LI = Q1 – 1.5Aq

LS = Q3 + 1.5Aq

Os limites LI e Ls são utilizados para se identificar valores

discrepantes.

Valores discrepantes são observações menores do que LI ou

maiores do que LS e são destacados individualmente no box-

plot com pontos além desses limites.

iv) Para os “braços” do box-plot, traçar linhas a partir dos centros

das laterais inferior e superior da caixa, obedecendo ao

seguinte critério:

traçar uma linha da lateral inferior da caixa até o menor

valor que não seja discrepante ou até min(x);

marcar os pontos discrepantes menores do que LI, caso

existam;

traçar uma linha da lateral superior da caixa até o maior

valor que não seja discrepante ou até max(x);

marcar os pontos discrepantes maiores do que LS, caso

existam.

Page 39: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Exemplo 1: variável: horas gastas por semana assistindo TV.

10

Q 5 14

E 0 30

Figura 7.1: Box-plot’s para a variável horas de TV, nas posições vertical e horizontal.

Comandos do R para o box-plot: x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5,

6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10,

10,10,10,12,12, 12,12,14,14,14,14,14,15,16,

18,20,20,20,25,25,28,30)

boxplot(x, col="bisque", main="Horas assistindo

TV", ylab="Horas", pch=19)

Page 40: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Exemplo 2: variável Renda PC por exposição à violência doméstica

(grupos exposto e não exposto).

Grupo

exposto 68 96 100 100 112 112 117 120 120

135 150 160 160 200 260

não

exposto

36 50 70 84 108 109 120 120 150

150 180 220 250 260 300

Estatísticas descritivas (reais), por grupo.

Grupo n x med(x) s2 s Q1 Q3

Exposto 15 134,00 120,00 2257,29 47,51 100 160

Não exposto 15 147,13 120,00 6376,70 79,85 184 220

35 85 135 185 235 285

0

1

2

3

4

5

6

7

8

Grupo Exposto

Fre

ên

cia

0 66 132 198 264 330

0

1

2

3

4

5

6

Grupo não Exposto

Fre

ên

cia

50 150 250

Box-plot renda per capita

Grupo Exposto

0 100 200 300

Grupo Não Exposto

Box-plot renda per capita

Figura 7.2: Histogramas e box-plot’s individuais

Page 41: Análise descritiva de Dados 4. Medidas resumos …¡lise descritiva de Dados 4. Medidas resumos para variáveis quantitativas 4.1. Medidas de Posição: Considere uma amostra com

Figura 7.3: box-plot’s por grupo lado-a-lado.

Comandos do R para o box-plot lado-a-lado: exp <- c(68,96,100,100,112,112,117,120,120,135,150,160,

160,200,260)

nexp <- c(36,50,70,84,108,109,120,120,150,150,180,220,

250,260,300)

renda <- c(nexp,exp)

gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp)))

boxplot(renda~gr, pch=19,

col=c("mediumseagreen","lightcoral"))

# para o box-plot horizontal

boxplot(renda~gr, pch=19, horizontal=T,

col=c("mediumseagreen","lightcoral"))