Upload
internet
View
105
Download
0
Embed Size (px)
Citation preview
1/42
Variáveis
ModelagemEstatística
2/42
Dois tipos de pesquisas empíricas
• DE LEVANTAMENTOCaracterísticas de interesse de uma
população são levantadas (observadasou medidas), mas sem manipulação.
• EXPERIMENTALGrupos de indivíduos (ou animais,
ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos.
3/42
Pesquisas de levantamento
Ilustração de um levantamento por amostragem
POPULAÇÃO: todos os possíveis consumidores
Amostra: um subconjunto dos consumidores
inferência
amostragem
4/42Perguntas que precisam ser respondidas no planejamento de um levantamento
O quê?– características a serem observadas VARIÁVEIS
Quem?– os elementos a serem pesquisados
POPULAÇÃO
Como?– o instrumento de coleta de dados QUESTIONÁRIO /
ENTREVISTA ESTRUTURADA
5/42
População x amostra
População: conjunto dos elementos que se deseja estudar.
Amostra: subconjunto da população.
Amostragem: processo de seleção da amostra
6/42
Amostragem e Inferência estatística
universo do estudo (população)
dados observados
Amostrageminferência
7/42
Planejamento de experimentos
Estudo experimental: Manipulam-se, de forma planejada, certas variáveis independentes ou fatores (A, B, C, ...) para verificar o efeito que esta manipulação provoca numa certa variável dependente ou resposta Y
8/42
Dados e variáveis
9/42
Dados e variáveis
variávelqualitativa ou
categórica
quantitativa
dados qualitativos ou categorizados
dados quantitativos
10/42
Distribuição de freqüências
A distribuição de freqüências consiste na
organização dos dados de acordo com as
ocorrências dos diferentes resultados
observados.
Pode ser apresentada em tabela ou gráfico.
11/42
DadosProvedor usado por cada
usuário
indivíduo provedor indivíduo provedor indivíduo provedor indivíduo provedor
123456789
10
CABBCBDBBA
11121314151617181920
CABDABBCDB
21222324252627282930
BAABAABDDC
31323334353637383940
AABCBDBBBC
12/42Distribuição de frequências
variáveis qualitativas
Provedor Freqüência Percentagem
A 10 25,0
B 17 42,5
C 7 17,5
D 6 15,0
Total 40 100,0
Tabela. Distribuição de frequências do provedor usado pelo visitante do site.
13/42
Gráfico de colunas para a apresentação da distribuição de frequências do provedor usado pelo visitante do site.
0%
10%
20%
30%
40%
50%
A B C D
provedor
Distribuição de frequências
variáveis qualitativas
14/42
Gráfico de setores para a apresentação da distribuição de frequências do provedor usado pelo visitante do site.
25%
42%
18%
15%
A
B
C
D
Distribuição de frequências
variáveis qualitativas
15/42
02468
10121416
0 1 2 3 4 5 6 7Número de defeitos
% de itens
Distribuição de frequências
variáveis quantitativas
discretas
16/42
Variáveis contínuasConstrução da distribuição de frequências
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,15,5 6,2 4,9 5,7 6,3 5,1 8,4 6,28,9 7,3 5,4 4,8 5,6 6,8 5,0 6,78,2 7,1 4,9 5,0 8,2 9,9 5,4 5,65,7 6,2 4,9 5,1 6,0 4,7 14,1 5,34,9 5,0 5,7 6,3 6,0 6,8 7,3 6,96,5 5,9
amplitude dos dados
11 classes de amplitude unitária
4 5 6 7 8 9 10 11 12 13 14 15
4,7
14,1
17/42
Tabela de frequências variável contínua
Classes detempo
Pontomédio
Número de observações
nj
Percentagem de observações
100fj
Percentagem acumulada
100Fj
4 |— 5 5 |— 6 6 |— 7 7 |— 8 8 |— 9
9 |— 10
10 |— 11
11 |— 12
12 |— 13
13 |— 14
14 |— 15
4,55,56,57,58,59,510,511,512,513,514,5
7181345200001
1436268
10400002
14507684949898989898
100
Total - 50 100 -
18/42
Histograma
tempo (em segundos) para carga de um aplicativo
núm
ero
de o
bser
vaçõ
es
0
2
4
6
8
10
12
14
16
18
20
3 4 5 6 7 8 9 10 11 12 13 14 15
19/42
Ramo-e-Folhas
1 00234
2 0002233344
3 00233
1 67888
2 5779
3 6689
Taxa de Mortalidade Infantil dos Municípios da Micro-Região Oeste Catarinense, ano de 1982.
Unidade = 1valor discrepante = 6 | 2
20/42
Formas de uma distribuição de frequências
Distribuições diferentes em termos da posição central
21/42
Formas de uma distribuição de frequências
Distribuições diferentes quanto à dispersão
22/42
Formas de uma distribuição de frequências
Distribuições diferentes quanto à assimetria
23/42
Formas de uma distribuição de freqüências
Distribuições diferentes quanto à curtose
24/42
Medidas descritivas
A média aritmética: uma medida de posição central.
n
ii
n xnn
xxxx
1
21 1...
25/42
Exemplo: notas dos alunos de três turmas
Turma Notas dos alunos Média da turma
ABC
4 5 5 6 6 7 7 81 2 4 6 6 9 10 100 6 7 7 7 7,5 7,5
6,006,006,00
26/42
Exemplo: notas dos alunos de três turmas
0 2 4 6 8 10 12
notas
Turma A
Turma B
Turma C
27/42
Dispersão
Embora as três distribuições apresentem a mesma média, as variabilidades são diferentes.
Esta característica é denominada dispersão.
Como é possível quantificar a dispersão?
28/42
Como medir a dispersão?
Exemplo: Turma A (4 5 5 6 6 7 7 8)
4 5 6 7 8
distância (desvio) em relação à média
29/42
Como medir a dispersão?
xxi
Descrição notação resultados numéricos
Valores (notas dos alunos) xi 4 5 5 6 6 7 7 8
Média 6
Desvios em relação à média -2 -1 -1 0 0 1 1 2
Desvios quadráticos 4 1 1 0 0 1 1 4 2xxi
x
n
ii xx
ns
1
22
1
1
Variância (da amostra):
1,7118
411001142
s
30/42
Como medir a dispersão?
xxi
Descrição notação resultados numéricos
Valores (notas dos alunos) xi 4 5 5 6 6 7 7 8
Média 6
Desvios em relação à média -2 -1 -1 0 0 1 1 2
Desvios quadráticos 4 1 1 0 0 1 1 4 2xxi
x
Desvio padrão (da amostra):
n
ii xx
ns
1
2
1
1
31,11,7118
41100114
s
31/42
Variância Populacional
Quando tratar-se de uma população, a variância (2) é calculada usando-se n no denominador.
2 = nX-X)2
32/42
Medidas descritivas das notas finais dos alunos de três turmas.
Turma Número de alunos
Média Desviopadrão
ABC
887
6,006,006,00
1,313,512,69
Interprete.
33/42
Ex:Ex: Rendimento de um processo químico
Desvio padrão do rendimento em função do tempo e temperatura
60 graus 70 graus 80 graus20 25 30
Tempo
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Des
vio
padr
ão d
o re
ndim
ento
Rendimento médio em função do tempo e temperatura
60 graus 70 graus 80 graus20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
Ren
dim
ento
(%
)
Interprete.
34/42
Medidas baseadas na ordenação dos dados
25%25%
25%
25%
Quartilinferior mediana
Quartilsuperior
qi md qs
35/42
Medidas baseadas na ordenação dos dados
4
1:deposição
nqi
2
1:deposição
nmd
4
)1(3:deposição
nqs
Dados ordenados:
25%25%
25%
25%
qi md qs
Se fracionário interpolação linear
36/42
Comparação entre média e mediana
A média é mais influenciada por valores discrepantes.
0 10 20 30 40 50 60 70
md = 22,5
50% dos valores 50% dos valores
7,24x
37/42
Comparação entre média e mediana
50%50%
média = mediana
(a) distribuiçãosimétrica
50%
50%
mediana média
(b) distribuiçãoassimétrica
38/42
Diagrama em caixas
qs + 1,5dq
qi
md
qs
max
min
dq = qs - qi
39/42
Diagrama em caixas e forma da distribuição
25%
25%25%
25%
25% 25%25%
25%
Ÿ
40/42
Interprete o gráfico
3
8
13
18
23
28
MonteVerde
Encostado Morro
Renda
familiar
(sal. mín.)
41/42
Orientação geral para análise exploratória dados não temporais
Análise univariada
Variável qualitativa
Variável quantitativa
Distribuição de freqüências
Percentagens
Tabela
Gráfico de barras, colunas
ou setores
Distribuição de freqüências
Medidas descritivas (média, desvio padrão, mediana, etc.)
Histograma
Ramo-e-folhas
42/42
Análise biivariada
Uma variável quantitativa e outra qualitativa
Duas variáveis qualitativas
Duas variáveis quantitativas
Medidas descritivas da variável quantitativa em cada
categoria da qualitativa
Diagrama em caixas múltiplo
Tabela de contingência (Cap. 10)
Diagrama de dispersão (Cap. 11)
Coeficiente de correlação (Cap. 11)
Orientação geral para análise exploratória dados não temporais