View
114
Download
0
Category
Preview:
Citation preview
CAPÍTULO 4CAPÍTULO 4
Tipos de dados; Apresentação dos Dados (tabelas, gráficos
e medidas)
Estatística DescritivaEstatística Descritiva
Nesta etapa do curso vamos considerar que os dados já foram efetivamente observados, sejam de uma amostra ou de uma população de elementos. O objetivo básico consistirá em introduzir técnicas que permitam organizar, resumir e apresentar estes dados, de tal forma que possamos interpretá-los à luz dos objetivos da pesquisa. Esta parte do tratamento de dados é chamada de Estatística Descritiva.
Com os dados adequadamente resumidos e apresentados em tabelas e gráficos, poderemos observar aspectos relevantes e começar a delinear hipóteses a respeito da estrutura do fenômeno em estudo. É a chamada Análise Exploratória de Dados. As ferramentas gráficas mais usuais para resumir os dados serão discutidas a seguir.
Análise Exploratória de Dados
Dados EstatísticosDados Estatísticos
Distinguem-se geralmente dois conjuntos de dados: os indivíduos e as informações relativas a esses indivíduos, as variáveis.
a) Indivíduo ou unidade elementar: é a entidade de base sobre a qual o observador realiza um certo número de medições. O conjunto dos indivíduos observados pode ser obtido de uma amostragem ou de uma população inteira.
Exemplo: um paciente, um usuário, um empregado, um dente, uma cidade, um país, um eleitor, etc...
Dados EstatísticosDados Estatísticos
b) Variáveis: conjunto de informações levantadas para cada indivíduo. Por exemplo, no caso de uma pesquisa, as variáveis são as perguntas. Se se trata dos empregados de uma empresa, as variáveis podem ser o salário, o tempo de serviço, o nível de escolaridade, a idade, o sexo, etc...
Dependendo do tipo de variável envolvida, determina-se a técnica apropriada. As variáveis podem ser quantitativas e qualitativas:
Tipos de VariáveisTipos de Variáveis
- Quantitativa: quando seus possíveis valores são assumidos numa escala numérica: salário, idade, altura, peso, etc... Pode-se efetuar as operações algébricas habituais como adição, multiplicação, cálculo de médias, etc...
Pode ser:
•Discreta: resultado de uma contagem;•Contínua: resultado de uma medida.
Tipos de VariáveisTipos de Variáveis
- Qualitativa: quando seus possíveis valores assumem modalidades não numéricas, como sexo, profissão, escolaridade, região, nível hierárquico, etc...
Pode ser:
•Nominal: vários atributos;•Ordinal: variável ordenada (nível hierárquico, nível de satisfação).
Tipos de VariáveisTipos de Variáveis
- Seqüência Temporal: As variáveis são medidas ao
longo do tempo. Podem ser:
•Séries temporais: demanda diária, inflação mensal, cotações diárias, poluição horária
•Dados coletados num tempo determinado: apartamentos vendidos no último mês.
Escala de MediçãoEscala de Medição
• Escala Nominal: valores dão apenas nome a uma categoria ou classe. Ex.: 1 = ES, 2 = RJ, etc
•Escala Ordinal: valores dão nome e ordem a uma categoria e classe. Ex.: 1 = Analfabeto 2 = 1 grau,etc... 1 < 2
•Escala Intervalar: Intervalos iguais com mesmo significado 10-7=3 e 7-4=3
•Escala Proporcional: possui um zero absoluto. Por exemplo...86 é o dobro de 43.
Número de VariáveisNúmero de Variáveis
• Uma única variável: tipo de doença periodontal. Técnicas de resumo da variável.
•Duas variáveis: tipo de doença e sexo. Verificação de relação entre as duas variáveis e possibilidade de prever uma em função da outra.
•Três ou mais variáveis: Verificação de relação entre uma e as outras variáveis e possibilidade de prever uma em função das outras.
Planilha de dadosPlanilha de dados
Indivíduo var1 var2 var3 ......1234
.....
Apresentação dos dadosApresentação dos dados
Para o caso de um número muito grande de dados, devemos representá-los em forma de tabelas e gráficos.
Dependendo do tipo de variável, as tabelas e gráficos são específicos:
Apresentação dos dadosApresentação dos dados
O rg an izaçã o d os D ad os
Q u an tita tivas Q u a lita t ivas
Tab e las
Q u an tita tivas Q u a lita t ivas
G rá ficos
TABELASTABELAS
Variáveis QuantitativasVariáveis Quantitativas
Tabela de freqüências
Consiste em agrupar os dados em classes pré-estabelecidas. As classes são pequenos intervalos mutuamente exclusivos, tais que, quando reunidos, abrangem todo o conjunto de dados.
Tabelas de FreqüênciasTabelas de Freqüências
Em outras palavras, as classes devem ser construídas de tal forma que todo resultado observado pertença a uma e apenas uma classe. Por simplicidade, e para facilitar a interpretação, consideraremos todas as classes com a mesma amplitude.
Tabelas de FreqüênciasTabelas de Freqüências
O número de dados em cada classe é chamado freqüência absoluta. Se tomarmos a percentagem de dados em cada classe estamos nos referindo à freqüência relativa. E a soma das freqüências (absoluta ou relativa) das classes anteriores é chamada freqüência acumulada (absoluta ou relativa respectivamente). A tabela abaixo apresenta um esboço de uma tabela de freqüências:
Tabelas de FreqüênciasTabelas de Freqüências
classes freq. absoluta(fa)
freq. relativa(fr) (%)
freq. acumuladaabsoluta (FA)
freq. acumuladarelativa (FR)
(%)classe 1 ....... .......classe k n = total de dados 100 (%)TOTAL n = total de dados 100(%) - -
Tabelas de FreqüênciasTabelas de Freqüências
O número de classes a ser usado na tabela de freqüências é uma escolha arbitrária. Em geral, usam-se de 5 (cinco) a 20 (vinte) classes, dependendo da quantidade de dados e dos objetivos. Quanto maior o conjunto de dados pode-se usar mais classes.
Tabelas de FreqüênciasTabelas de Freqüências
Uma tabela com poucas classes apresenta a distribuição de forma bastante resumida, podendo deixar de evidenciar algumas características relevantes. Por outro lado, quando se usam muitas classes, a tabela pode ficar muito grande, não realçando aspectos relevantes da distribuição de freqüências. Uma sugestão para o número de classes é tomar, aproximadamente, raiz quadrada de n, onde n é a quantidade de valores observados.
Tabelas de Freqüências: Ex1Tabelas de Freqüências: Ex1Tempo Gasto na feira
70 14,5 14,6
41 8,5 8,6
110 22,8 23,0
151 31,3 31,5
81 16,8 16,9
26 5,4 5,4
479 99,4 100,0
3 ,6
482 100,0
menos de 15 min.
de 15 a 30 min.
de 30 a 60 min.
de 1 a 2 horas
de 2 a 3 horas
mais de 3 horas
Total
Não Respondeu
Total
Freqüência % % Válido
Variáveis QualitativasVariáveis Qualitativas
Consiste em colocar as categorias e as respectivas freqüências (absoluta e relativa) de cada categoria.
Tabelas de Freqüências: Ex1Tabelas de Freqüências: Ex1
Sexo
290 60,2 60,3
191 39,6 39,7
481 99,8 100,0
1 ,2
482 100,0
Feminino
Masculino
Total
Sexo
NãoRespondeu
Total
Frequência % % Válido
Tabelas de Freqüências: Ex2Tabelas de Freqüências: Ex2
Já tomou decisão sobre a área?
72 14,9 19,2
198 41,1 52,8
105 21,8 28,0
375 77,8 100,0
107 22,2
482 100,0
Exatas
Humanas
Biomédicas
Total
Não
Total
Freqüência % % Válido
GRÁFICOSGRÁFICOS
Variáveis QuantitativasVariáveis Quantitativas
Histograma Polígono de Freqüências Box-Plot Gráfico de Médias
HistogramaHistograma
A Figura a seguir mostra um histograma, construído a partir de uma tabela de freqüências. São retângulos justapostos, feitos sobre as classes da variável em estudo. Sobre cada classe tem-se um retângulo, cuja altura corresponde à freqüência observada desta classe. O histograma pode ser construído tanto com as freqüências absolutas quanto com as freqüências relativas.
HistogramaHistograma
Hemoglobina em hemocue
14,5413,0911,6410,198,74
300
200
100
0
HistogramaHistograma
Colesterol
80
60
40
20
0
HistogramaHistograma
Triglicerídios
525,0
475,0
425,0
375,0
325,0
275,0
225,0
175,0
125,0
75,0
25,0
160
140
120
100
80
60
40
20
0
HistogramaHistograma
Altura em centímetros
177,5
175,0
172,5
170,0
167,5
165,0
162,5
160,0
157,5
155,0
152,5
150,0
147,5
145,0
142,5
140,0
137,5
135,0
160
140
120
100
80
60
40
20
0
Polígono de freqüênciasPolígono de freqüênciasO polígono de freqüências é uma representação gráfica alternativa. Para construí-lo, toma-se o ponto médio (x) e a correspondente freqüência (f) de cada classe. Colocam-se os pares (x, f) como pontos num par de eixos cartesianos.
A Figura a seguir mostra o polígono de freqüências construído a partir do histograma anterior . Observe que as informações fornecidas pelo polígonos de freqüências são equivalentes às observadas num histograma.
Polígono de freqüênciasPolígono de freqüências
0
2
4
6
8
10
12
14
16
0 5 15 25 35 45 55 65 75
Dados Temporais - Ex.:Dados Temporais - Ex.:Análise de dados de poluição na Grande Vitória através das medições de algumas substâncias efetuadas nas sete estações de coleta automática (Laranjeiras, Carapina, Jardim Camburi, Enseada do Suá, Centro de Vila Velha, IBES e Cariacica). Objetivo: estabelecer relações entre as medições de poluentes e variáveis micrometeorológicas e fatores de produção. Utilizamos dados diários em um período de 153 dias compreendidos entre 1/8 e 31/12/2000.
Gráfico de LinhasGráfico de Linhas
31-D
EC
-2000
23-D
EC
-2000
15-D
EC
-2000
07-D
EC
-2000
29-N
OV
-2000
21-N
OV
-2000
13-N
OV
-2000
05-N
OV
-2000
28-O
CT-2
000
20-O
CT-2
000
12-O
CT-2
000
04-O
CT-2
000
26-S
EP
-2000
18-S
EP
-2000
10-S
EP
-2000
02-S
EP
-2000
25-A
UG
-2000
17-A
UG
-2000
09-A
UG
-2000
01-A
UG
-2000
CO
La
ran
jeir
as
800
600
400
200
0
Gráfico de LinhasGráfico de Linhas
31-D
EC
-2000
23-D
EC
-2000
15-D
EC
-2000
07-D
EC
-2000
29-N
OV
-2000
21-N
OV
-2000
13-N
OV
-2000
05-N
OV
-2000
28-O
CT-2
000
20-O
CT-2
000
12-O
CT-2
000
04-O
CT-2
000
26-S
EP
-2000
18-S
EP
-2000
10-S
EP
-2000
02-S
EP
-2000
25-A
UG
-2000
17-A
UG
-2000
09-A
UG
-2000
01-A
UG
-2000
SO
2
VV
Ce
ntr
o
120
100
80
60
40
20
0
Gráfico de LinhasGráfico de Linhas
Dados Prevalência e Incidência
1980 a 1998
ANO
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
40
30
20
10
0
prevalência
incidência
Variáveis QualitativasVariáveis Qualitativas
• Gráfico de Barras
• Gráfico de Setores circulares
Gráfico de Barras e SetoresGráfico de Barras e Setores
Já tomou decisão sobre a área?
ExatasBiomédicasHumanas
Per
cent
ual
60
50
40
30
20
10
0
28,0%
52,8%
19,2%
Biomédicas
Humanas
Exatas
Outros GráficosOutros Gráficos
Gráfico de Pareto
Gráfico de ParetoGráfico de ParetoO gráfico de pareto é um gráfico de barras verticais que dispõe a informação de forma a tornar evidente e visual a priorização de temas. A informação assim disposta também permite o estabelecimento de metas numéricas viáveis de serem alcançadas.
O Princípio de Pareto estabelece que os problemas relacionados à qualidade (percentual de itens defeituosos, perdas de produção, ocorrência de acidentes de trabalho, etc), os quais traduzem sob a forma de perdas, podem ser classificados em duas categorias: os "poucos vitais" e os "muitos triviais".
Gráfico de ParetoGráfico de Pareto
Os poucos vitais representam um pequeno número de problemas, mas que no entanto resultam em grandes perdas para a empresa. Já os muitos triviais são uma extensa lista de problemas, mas que apesar de seu grande número, convertem-se em perdas pouco significativas.
Gráfico de ParetoGráfico de Pareto
Em outras palavras, o princípio de pareto estabelece que se forem identificados, por exemplo, cinqüenta problemas relacionados à qualidade, a solução de apenas cinco ou seis destes problemas já poderá representar uma redução de 80% ou 90% das perdas que a empresa vem sofrendo devido à ocorrência de todos os problemas existentes.
Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto
1 - Definir o tipo de problema a ser estudado (itens defeituosos, reclamações, acidentes, perdas, etc.).
2 - Listar os possíveis fatores de estratificação (categorias) do problema escolhido.
3 - Estabelecer o método e o período de coleta de dados.
4 - Elaborar uma folha de verificação apropriada para coletar os dados.
5 - Preencher a folha de verificação e registrar o total de vezes que cada categoria foi observada e o número total de observações.
Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto
6 - Elaborar uma planilha de dados para o gráfico de Pareto, com as seguintes colunas:
- Categorias.
- Quantidades (Totais Individuais).
- Totais Acumulados.
- Percentagens do Total Geral.
- Percentagens Acumuladas.
7 - Preencher a planilha de dados, listando as categorias em ordem decrescente de quantidade (freqüências maiores para menores)
Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto
8 - Traçar dois eixos verticais de mesmo comprimento e um eixo horizontal.
9 - Marcar o eixo vertical do lado esquerdo (ou direito) com a escala de zero até o total da coluna Quantidade (Q) da planilha de dados.
Identificar o nome da variável representada neste eixo e a unidade de medida utilizada, caso seja necessário.
10 - Marcar o eixo vertical do lado direito (ou esquerdo) com uma escala de zero até 100%. Identificar este eixo como “ Percentagem Acumulada(%) ”.
Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto
11 - Dividir o eixo horizontal em um número de intervalos iguais ao número de categorias constantes na planilha de dados.
12 - Identificar cada intervalo do eixo horizontal escrevendo os nomes das categorias, na mesma ordem em que eles aparecem na planilha de dados.
13 - Construir um gráfico de barras utilizando a escala do eixo vertical do lado esquerdo.
Construção de um Gráfico de ParetoConstrução de um Gráfico de Pareto
14 - Construir a curva de Pareto marcando os valores acumulados (Total Acumulado ou Percentagem Acumulada), acima e no lado direito (ou no centro) do intervalo de cada categoria, e ligar os pontos por segmento de reta.
15 - Registrar outras informações que devam constar no gráfico:
- Título.
- Período de coleta dos dados.
- Número total de itens inspecionados.
- Objetivo do estudo realizado.
Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1
Qual foi a contribuição da feira?
161 33,4 33,9
91 18,9 19,2
139 28,8 29,3
48 10,0 10,1
36 7,5 7,6
475 98,5 100,0
7 1,5
482 100,0
Ajudou na definição do curso
Informou sobre a Universidade
Informou sobre a existência decursos
Outros
Mais de uma opção
Total
Não respondeu
Total
Frequency Percent Valid Percent
Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1
Qual foi a contribuição da feira?
161 33,9 33,9
139 29,3 63,2
91 19,2 82,3
48 10,1 92,4
36 7,6 100,0
475 100,0
7
482
Ajudou na definição do curso
Informou sobre a existência decursos
Informou sobre a Universidade
Outros
Mais de uma opção
Total
Valid
Não respondeu
Total
Frequency Valid PercentCumulative
Percent
Gráfico de Pareto - Ex1Gráfico de Pareto - Ex1
Qual foi a contribuição da feira?
Mais de uma opção
Outros
Informou UFES
Informou cursos
Ajudou definição
Fre
qü
ên
cia
Re
lativa
(%
)
500
400
300
200
100
0
Pe
rce
nt
100
50
03648
91
139161
Gráfico de Pareto - Ex2Gráfico de Pareto - Ex2
Como você soube da feira de informação profissional da UFES?
57 11,8 11,9
47 9,8 9,8
218 45,2 45,5
75 15,6 15,7
31 6,4 6,5
17 3,5 3,5
1 ,2 ,2
18 3,7 3,8
15 3,1 3,1
479 99,4 100,0
3 ,6
482 100,0
Jornal
Televisão
Escola
Colega/amigo
Família
Ufes
Rádio
Outros
Mais de uma opção
Total
Não Respondeu
Total
Freqüência % % Válido
Gráfico de Pareto - Ex2Gráfico de Pareto - Ex2
Como você soube da feira de informação profissional da UFES?
Co
un
t
600
500
400
300
200
100
0
Pe
rce
nt100
50
0475775
218
Medidas Medidas
MedidasMedidas
Ten d ê n c ia C en tra lM ed id as d e O rd em
P os içã o
D esvio M é d ioD esvio P ad rã o
V ariâ n c ia C oef. d e V ariaçã o
D isp ersã o
M ed id a d eA ss im etria
P os it ivaN eg ativa
A ss im etria
M ed id a d eA ch atam en to
C u rtose
M ed id as
Medidas de PosiçãoMedidas de Posição
- M é d ia- M ed ian a
- M od a
Ten d ê n c ia C en tra l
- Q u artil- P ercen til
M ed id as d e O rd em
D M ed id as d e P os içã oD ig ite o títu lo aq u i
MedianaMediana
A mediana é o valor que divide a distribuição dos dados ao meio, ou seja, deixa os 50% menores valores de um lado, e os 50% maiores valores do outro lado. Para se calcular a mediana, os dados devem estar ordenados.Por exemplo, ordenando-se as notas da turma C temos: 0, 6, 7, 7, 7, 7.5, 7.5. A mediana da turma C é a 4a. (quarta) observação ordenada, porque essa observação deixa 3 outras de um lado (0, 6 e 7) e 3 do outro (7, 7.5 e 7.5). Logo a mediana vale 7.
MedianaMedianaNem todos os conjuntos de dados têm um valor central tão nítido como exposto acima. Por exemplo, se tivermos um número par de observações? Assim, vamos definir um critério para acharmos a mediana: A mediana de um conjunto de dados ordenados, representada por Md será o valor que:• n ímpar é o valor que ocupa a posição (n + 1)/2. • n par: é a média dos valores que ocupam as posições (n/2) e (n/2 + 1)
Vantagens da MedianaVantagens da Mediana
• Fácil de calcular;
• não é afetada por valores extremos;
• é um valor único;
• pode ser aplicada nas escalas ordinal, intervalar e proporcional.
Desvantagens da MedianaDesvantagens da Mediana
• Difícil de incluir em equações matemáticas;
• Não utiliza todos os valores da variável.
ModaModa
Moda (Mo) é o valor da variável que mais se repete, o que possui maior freqüência. Uma variável pode ter mais de uma moda (bimodal, trimodal, etc...).
A moda é uma medida resistente, pois está relacionada somente com a freqüência de um ou mais valores da variável. Por exemplo, a mudança de um valor da variável pode não afetar a moda.
Vantagens da ModaVantagens da Moda
• Fácil de calcular;
• Não é afetada por valores extremos;
• Pode ser aplicada em qualquer escala: nominal, ordinal, intervalar e proporcional.
Desvantagens da ModaDesvantagens da Moda
• Pode estar afastada do centro dos valores;
•Difícil de incluir em equações matemáticas;
•Não utiliza todos os valores da variável;
•A variável pode ter mais de uma moda;
•Algumas variáveis não têm moda.
Média AritméticaMédia Aritmética
O conceito de média aritmética, ou simplesmente média, é bastante familiar. Matematicamente, ela é a soma de todos os valores divididos pelo número de valores somados.
Média AritméticaMédia Aritmética
Características Importantes da Média: 1. A unidade da média é a mesma dos valores da variável; 2. A média está posicionada de forma equilibrada entre os valores da variável; 3. Todos os valores da variável são incluídos no cálculo da média; 4. A média é um valor único que pertence ao intervalo dos dados; 5. A média é influenciada pelos valores extremos.
Vantagens da Média Vantagens da Média
• Fácil de compreender e aplicar;
• utiliza todos os valores da variável;
• é um valor único;
• fácil de incluir em equações matemáticas;
• pode ser aplicada nas escalas intervalar e proporcional.
Desvantagens da Média Desvantagens da Média
• É afetada por valores extremos;
• é necessário conhecer todos os valores da variável.
Qual das 3 medidas usar?Qual das 3 medidas usar?
• Quando procuramos conhecer valores médios : a média. Ex.: em controle de qualidade, a média é utilizada para determinar se o processo está operando ao redor de um valor esperado, o alvo.
•Se a variável tiver valores extremos, a mediana é mais adequada. Ex.: variável salário.
•A moda é um valor típico. Variáveis qualitativas. Produtos mais consumidos.
Quando as medidas são iguais?Quando as medidas são iguais?
A média, mediana e moda de uma variável são iguais somente quando sua distribuição de freqüência for simétrica. A comparação das medidas de tendência central de uma variável antecipam a forma da distribuição de freqüências de uma variável:
Média = Mediana = ModaMédia = Mediana = Moda
Distribuição simétrica dos dados:
0.55 0.65 0.75 0.85 0.95
POSSÍVEIS RESULTADOS
Distribuição SimétricaDistribuição Simétrica
25%25%
25%
25%
Ei Q1 Md Q3 Es
Média > Mediana > ModaMédia > Mediana > Moda
Se a relação entre as medidas for a média maior que a mediana, a distribuição terá inclinação na sua parte direita; esta inclinação será tanto mais acentuada quanto maior for a média em comparação com a mediana.
Distribuição Assimétrica (+)Distribuição Assimétrica (+)
25%
25%
25%25%
Ei Q1 Md Q3 Es
Média < Mediana < ModaMédia < Mediana < Moda
Se a relação entre as medidas for a média menor que a mediana, a distribuição terá inclinação na sua parte esquerda; esta inclinação será tanto mais acentuada quanto menor for a média em comparação com a mediana.
Distribuição Assimétrica (-)Distribuição Assimétrica (-)
25% 25%
25% 25%
Ei Q1 Md Q3 Es
Outros tipos de MédiasOutros tipos de Médias
Média Ponderada: dar um peso para cada valor da variável. A soma dos pesos é 100% (usar a freqüência relativa). Soma de cada valor multiplicado pelo seu peso dividido pela soma dos pesos.
• O cálculo da média ponderada é um caso particular da média aritmética;
• os pesos formam a distribuição de freqüência relativa;
• os pesos podem representar a importância de cada valor da variável.
Outros tipos de MédiasOutros tipos de Médias
Média Geométrica: é igual a raiz e-nésima de todos os valores multiplicados.
• A média geométrica é menos afetada por valores extremos;
• para um mesmo grupo de valores, a média geométrica é sempre menor que a média aritmética.
Outros tipos de MédiasOutros tipos de Médias
Média Harmônica: é a inversa da média aritmética das inversas dos valores da amostra. Página 89.
Ou
A inversa da média harmônica é a média da inversa dos valores da amostra.
Medidas de OrdemMedidas de Ordem
O interesse está em conhecer a posição de um determinado valor em relação ao grupo de valores.
Calcular:
Quartis
Percentis
QuartisQuartis
Os quartis são os valores que dividem os dados ordenados em quatro partes, com igual número de dados. O primeiro quartil (Q1) delimita os 25% menores valores. O terceiro quartil (Q3) é o valor que separa os 25% maiores valores. O segundo quartil é a própria mediana.
Box-PlotBox-Plot
O diagrama dos 5 números é uma forma de resumir os dados com os quartis, extremos e o número de observações do conjunto de dados. Através desses números podemos ter informacões sobre a posição central, dispersão e assimetria da distribuição de freqüências.O diagrama em caixas é uma representação gráfica do diagrama dos 5 números. É uma maneira de representar graficamente aspectos relevantes de uma distribuição de freqüências.
Box-PlotBox-Plot
Basicamente, traça-se dois retângulos: um representando o espaço entre o quartil inferior e a mediana; e o outro o espaço entre a mediana e o quartil superior. Esses dois retângulos representam a faixa dos 50% valores mais típicos da distribuição. Entre os Quartis e os extremos, traça-se uma linha. Essa linha é traçada até o limite de Q3 + 1,5(Q3 Q1) para a parte superior e Q1 1,5(Q3 Q1) para a inferior. Valores que caem fora dessas linhas são considerados valores discrepantes, sendo indicados por pontos.
Box-PlotBox-Plot
479N =
Quanto tempo em médi
500
400
300
200
100
0
-100
PercentisPercentis
Ordenados os dados, os percentis são medidas que separam percentuais dos dados.
Percentil 1: separa 1% dos menores dados;
Percentil 20: separa 20% dos menores dados;
Percentil 80: separa 80% dos menores dados e 20% dos maiores;
etc....
Medidas de DispersãoMedidas de Dispersão
- D esvio M é d io- V ariâ n c ia
- D esvio P ad rã o- C oe fic ien te d e V ariaçã o
D M ed id as d e D isp ersã oD ig ite o títu lo aq u i
ExemploExemplo
Exemplo: A tabela abaixo mostra as notas finais dos alunos de três turmas e a nota média de cada turma.
TURMA NOTAS DOS ALUNOS MÉDIAA 4 5 5 6 6 7 7 8 6,0B 1 2 4 6 6 9 10 10 6,0C 0 6 7 7 7 7,5 7,5 6,0
ExemploExemplo
Embora as três turmas tenham a mesma média, as notas estão distribuídas de formas diferentes. A média resume o conjunto de dados em termos da posição central, ou de um valor típico, mas não fornece informação sobre o aspecto, por exemplo, de como os dados estão distribuídos.
ExemploExemplo
Comparando, digamos, as notas da turma A com a turma B, verificamos que a turma B é mais heterogênea, pois apresenta notas mais dispersas em torno da média. Na turma C, há uma nota discrepante das demais. A nota 0 contribui para diminuir a média. Note que a média está abaixo da maioria das notas da turma. De modo geral, é preciso cautela ao interpretar a média de dados distribuídos assimetricamente
Medidas de DispersãoMedidas de Dispersão
Para medir a dispersão dos dados em torno da média, introduziremos o desvio médio, a variância e o desvio padrão dos dados: O desvio médio, a variância e o desvio padrão avaliam a dispersão do conjunto de dados em torno da média. Essas medidas dão uma idéia de quão homogêneos ou heterogêneos são os dados. Para calcularmos essas medidas, devemos considerar os desvios de cada valor em relação à média. Depois, constrói-se uma média desses desvios. Por exemplo, considere as notas da turma A:
Desvio da MédiaDesvio da Média
Notas da turma A Desvio = Nota Média4 4 6 = 25 5 6 = 15 5 6 = 16 6 6 = 06 6 6 = 07 7 6 = 17 7 6 = 18 8 6 = 2
Soma 0
Desvio MédioDesvio Médio
Notas da turma A Desvio = Nota Média |Desvio|4 4 6 = 2 25 5 6 = 1 15 5 6 = 1 16 6 6 = 0 06 6 6 = 0 07 7 6 = 1 17 7 6 = 1 18 8 6 = 2 2
Soma 0 8
VariânciaVariância
Notas da turma A Desvio = Nota Média (Desvio)2
4 4 6 = 2 45 5 6 = 1 15 5 6 = 1 16 6 6 = 0 06 6 6 = 0 07 7 6 = 1 17 7 6 = 1 18 8 6 = 2 4
Soma 0 12
MEDIDAS DE DISPERSÃOMEDIDAS DE DISPERSÃO
DESVIO MÉDIO: soma dos módulos dos desvios dividido pelo total de dados.
VARIÂNCIA: soma dos quadrados dos desvios dividido pelo total de dados menos 1 (amostra).
DESVIO PADRÃO: raiz quadrada positiva da variância.
SÃO MEDIDAS MÉDIAS!!!!!!!!!!!
VariânciaVariância
• é sempre um número positivo;
•se todos os valores de uma amostra forem iguais, a variância é zero;
•a variância é uma medida resistente, pois é afetada pelos valores extremos da variável.
Gráfico de MédiasGráfico de Médias
Representação gráfica dos valores da média e desvio padrão de uma variável quantitativa.
O quadrado representa a média, e as barras o valor da média mais um desvio e da média menos um desvio.
No eixo X colocamos a variável e no eixo Y uma escala que contenha os valores da média mais ou menos um desvio.
Gráfico de MédiasGráfico de Médias
479N =
Quanto tempo
Me
an
+-
1 S
D140
120
100
80
60
40
20
0
Medida Relativa de DispersãoMedida Relativa de Dispersão
Coeficiente de Variação =
desvio padrão dividido pelo média
Usado no caso de comparação entre amostras de médias diferentes.
Medida de CurtoseMedida de Curtose
f(x)
pequeno
moderado
grande
x
(leptocúrtica)
(mesocúrtica)
(platocúrtica)
Recommended