Upload
phungnhi
View
227
Download
1
Embed Size (px)
Citation preview
Ana M. Abreu - 2006/07
Slide 0
Estatística / Bioestatística / Métodos Estatísticos /
Bioestatística e Epistemologia da Investigação
Ana M. Abreu - 2006/07
Slide 1Capítulo 1
Estatística Descritiva
I-1 Introdução à organização e ao processamento de dados.
I-2 Amostra e população; cuidados a ter narecolha da amostra.
I-3 Ordenação dos dados. Agrupamento dos dados. Tabela de frequências.
I-4 Medidas de localização e de dispersão.
I-5 Representação gráfica dos dados: gráfico de barras, gráfico de sectores, gráfico de caule-e-folhas, caixa-de-bigodes, histograma.
Ana M. Abreu - 2006/07
Slide 2Introdução
Um objectivo comum dos inquéritos e de outros processos de obtenção de dados é a recolha de informação de uma parte de um grupo maior, de modo a aprender algo sobre o grupo maior. Por exemplo, podemos perguntara 10% dos alunos qual a sua nota de entradana Universidade e assim ter algumainformação sobre a totalidade dos alunos.
Ana M. Abreu - 2006/07
Slide 3
�Dados estatísticossão observações (como medidas, respostas de inquéritos,
registos de idade, sexo, naturalidade, ...) que foram recolhidas.
�Estatísticaa informação estatística é constituída por dados, os quai s
são organizados, sumariados, apresentados, analizado s, interpretados de modo a retirar conclusões baseadas nosdados.
Definições
Ana M. Abreu - 2006/07
Slide 4Definições�Populaçãoa colecção completa de todos os elementos(pessoas, animais, medidas, ...) a serem estudados. A colecção é completa no sentido de incluir todosos indivíduos a serem estudados.
�AmostraUm subconjunto da população escolhidocorrectamente, de modo a poder ser consideradocomo representativo da população.
Ana M. Abreu - 2006/07
Slide 5
� Parâmetrouma medida numérica que descreve
alguma característica de uma população.
população
parâmetro
Definições
Ana M. Abreu - 2006/07
Slide 6Definições
�Estatísticauma medida numérica que descreve
alguma característica de uma amostra.
amostra
estatística
Ana M. Abreu - 2006/07
Slide 7Definições
�Dados quantitativos
números que representam contagens oumedidas.
Exemplo: medidas dos modelos!
Ana M. Abreu - 2006/07
Slide 8Definições
�Dados qualitativos
(ou categorizados ou atributos)
podem ser separados em diferentescategorias, que se distinguem por algumacaracterística não numérica.
Exemplo: sexo (masculino/feminino) dos doentes.
Ana M. Abreu - 2006/07
Slide 9DefiniçõesOs dados quantitativos podem ser de tipodiscreto ou contínuo.
�Dados discretossurgem quando o número de valorespossíveis é finito ou contável.
0, 1, 2, 3, . . .
Exemplo: O número de ovos que umagalinha põe.
Ana M. Abreu - 2006/07
Slide 10
�Dados contínuos(ou numéricos) surgem quando o número de valores
possíveis é infinito e corresponde a alguma escalacontínua que contempla uma amplitude de valores seminterrupções ou saltos.
Definições
2 3
Exemplo: As alturas dos alunos da UMa.
Ana M. Abreu - 2006/07
Slide 11
� escala nominalcaracterizada por dados tais como nomes,
etiquetas ou categorias. Os dados não têm
qualquer relação de ordem (do mais pequeno
para o maior)
Exemplo: inquéritos cujas respostas são sim,
não, sem opinião.
DefiniçõesOutra forma de classificar os dados consisteem usar escalas.
Ana M. Abreu - 2006/07
Slide 12
� escala ordinalenvolve dados que podem ser ordenados, mas
as diferenças entre eles ou não podem ser
calculadas ou não fazem sentido.
Exemplo: O nível de escolaridade.
Definições
Ana M. Abreu - 2006/07
Slide 13
� escala intervalarcomo a escala ordinal, mas onde é possível calcular
diferenças. No entanto, não existe um zero natural (que
pudesse corresponder a ausência da característica).
Exemplo: As temperaturas em graus Celsius e em graus
Fahrenheit (ºF=ºC(9/5)+32).
Definições
Ana M. Abreu - 2006/07
Slide 14
� escala absoluta ou de razõeso zero da escala corresponde à anulação da
característica em estudo. São possíveis
comparações quer através de diferenças quer
através de quocientes.
Exemplo: Preço das propinas (0€ representa
ausência de custo).
Definições
Ana M. Abreu - 2006/07
Slide 15Resumo -Escalas para os dados
� Nominal - só categorias.
� Ordinal - categorias com alguma ordem.
� Intervalar - diferenças possíveis mas sem zero natural.
�Absoluta ou de razões - diferenças possíveis e com zero natural.
Ana M. Abreu - 2006/07
Slide 16Recapitulando
Até agora vimos:
� Definições e termos básicos para descrever
os dados
� Parâmetros versus estatísticas
� Tipos de dados (quantitativos e qualitativos)
� Escalas de medidas
Ana M. Abreu - 2006/07
Slide 17Cuidados a ter narecolha da amostra
Ana M. Abreu - 2006/07
Slide 18Pontos fundamentais
� Se uma amostra não é recolhida de forma apropriada, os dados podem ser tão inúteis, tal que, qualquer que seja a tortura a quesejam submetidos, não confessam seja o que for.
� Tipicamente a aleatoriedade tem um papelimportante na recolha de dados.
Ana M. Abreu - 2006/07
Slide 19Pontos fundamentais
� Dimensão da amostrausar uma amostra com dimensão
suficiente para conseguir captar as características dos dados e recolhida de forma apropriada, tal como baseada na aleatoriedade.
Ana M. Abreu - 2006/07
Slide 20
� Amostra Aleatóriaos membros da população sãoseleccionados de tal forma que cada membro
tem igual possibilidade de ser escolhido.
Definições
�Amostra Aleatória Simples (de
dimensão n)
os indivíduos são seleccionados de tal forma que cada possível amostra de dimensão n tem a mesma possibilidade de ser escolhida.
Ana M. Abreu - 2006/07
Slide 21Amostra AleatóriaSelecção tal que cada um tem igual possibilidade
de ser escolhido.
Ana M. Abreu - 2006/07
Slide 22Amostragem SistemáticaSeleccionar a partir de um ponto inicial e depois
seleccionar a cada K elemento na população.
Ana M. Abreu - 2006/07
Slide 23
Amostragem por conveniênciaUsar os resultados que são fáceis de obter.
Ana M. Abreu - 2006/07
Slide 24Amostragem Estratificadasubdividir a população em, pelo menos, dois
subgrupos distintos que partilham algumacaracterística e, em seguida, recolher uma amostra
de cada um dos subgrupos (ou estratos).
Ana M. Abreu - 2006/07
Slide 25Amostragem por Clustersdividir a população em secções
(ou clusters); seleccionar aleatoriamente algunsdesses clusters; escolher todos os membros dos
clusters seleccionados.
Ana M. Abreu - 2006/07
Slide 26
� Aleatória
� Sistemática
� Por conveniência
� Estratificada
� Por clusters
Métodos de Amostragem
Ana M. Abreu - 2006/07
Slide 27
�Estatística Descritiva
resume ou descreve as característicasimportantes de um conjunto conhecido de dados populacionais.
� Estatística Inferencial
usa dados amostrais para fazer inferências (ougeneralizações) sobre uma população.
Generalidades
Ana M. Abreu - 2006/07
Slide 28Características importantes dos dados
1. Localização: Um valor representativo ou médioindica onde se situa o centro dos dados.
2. Variação: Uma medida do quanto os valores daamostra variam entre si.
3. Distribuição: A natureza ou a forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica)
4. Outliers: Valores amostrais que se situam muitoafastados da maioria dos restantes valoresamostrais.
5. Tempo: Algumas características podem se alterar ao longo do tempo.
Ana M. Abreu - 2006/07
Slide 29Distribuição de Frequência
�Distribuição de Frequência
lista dos valores dos dados (ouindividuais ou por grupos de intervalos), juntamente com as correspondentesfrequências ou contagens.
Ana M. Abreu - 2006/07
Slide 30Distribuição de Frequência
Ana M. Abreu - 2006/07
Slide 31Ponto Médio de uma Classe
O ponto médio de uma classe determina-se adicionando os limites da classe (inferior e superior) e dividindo por dois.
PontosMédios
49.5
149.5
249.5
349.5
449.5
Ana M. Abreu - 2006/07
Slide 32Amplitude da Classeé a diferença entre dois limites superiores consecutivosou dois limites inferiores consecutivos.
Amplitude da Classe
100
100
100
100
100
Ana M. Abreu - 2006/07
Slide 33Razões para construir
distribuições de frequência
1. Conjuntos de dados grandes podemser resumidos.
2. Pode-se ganhar alguma perspectivasobre a natureza dos dados.
3. Base para a construção de gráficos.
Ana M. Abreu - 2006/07
Slide 34Como construir uma tabela de
frequências
3. Escolher o limite inferior da primeira classe. 4. Usar o limite inferior da primeira classe e a amplit ude de classe para listar, numa coluna vertical, todos os limite sinferiores. 5. Em seguida, listar os correspondentes limitessuperiores.6. Percorrer os dados, assinalando com um traço vertica l a classe onde se encontra cada dado.
1. Decidir o número de classes (habitualmente entre 5 e 20).
Regra de Sturges: k=nº de classes ≈≈≈≈ 1+[log 2n]2. Calcular (aproximando por excesso) a
amplitude da classe ≈≈≈≈ (maior valor) – (menor valor)
número de classes
Ana M. Abreu - 2006/07
Slide 35Frequência Relativa
Frequência relativa =frequência da classe
soma de todas as frequências
11/40 = 28%
12/40 = 30%
etc.Frequência total = 40
Ana M. Abreu - 2006/07
Slide 36Frequência acumulada
Frequênciasacumuladas
Ana M. Abreu - 2006/07
Slide 37Recapitulando
Acabamos de ver
� Características importantes dos dados.
� Distribuições de frequências.
� Procedimentos para construir as distribuições de frequência.
� Frequências relativas.
� Frequências acumuladas.
Ana M. Abreu - 2006/07
Slide 38Medidas de localizaç ão
e de dispersão
Ana M. Abreu - 2006/07
Slide 39Notação
ΣΣΣΣ denota a soma de um conjunto de valores.
x é a variável usada usualmente para representaros valores individuais.
n representa o número de valores na amostra, ouseja, a dimensão da amostra.
N representa o número de valores na população
Ana M. Abreu - 2006/07
Slide 40Notação
µ pronuncia-se ‘mu’ e denota a média de todos os valoresda população.
x =n
ΣΣΣΣ xpronuncia-se ‘x-barra’ e denota a média dos valoresda amostra.
x
Nµ =
ΣΣΣΣ x
Ana M. Abreu - 2006/07
Slide 41Definições� Mediana
o valor central quando os dados estãoordenados.
❖ Se a dimensão da amostra é ímpar, a medianacorresponde ao valor que está no centro daamostra.
❖ Se a dimensão da amostra é par, a medianacorresponde à média dos dois valores que estãono centro da amostra.
Ana M. Abreu - 2006/07
Slide 42
5.40 1.10 0.42 0.48 1.10 0.66
0.42 0.48 0.66 0.73 1.10 1.10 5.40
(amostra de dimensão ímpar - valor exacto)
MEDIANA é 0.73
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40
0.73 + 1.10
2
(amostra de dimensão par – os dois valorescentrais são distintos)
MEDIANA é 0.915
Ana M. Abreu - 2006/07
Slide 43Definições� Moda
o valor que ocorre com maior frequência.
A moda nem sempre é única. Um conjunto de dados pode ser:
BimodalMultimodal
Não ter Moda
� é a única medida de localização quepode ser usada para os dados em escalanominal.
Ana M. Abreu - 2006/07
Slide 44Exemplos
a. 5.40 1.10 0.42 0.73 0.48 1.10
b. 27 27 27 55 55 55 88 88 99
c. 1 2 3 6 7 8 9 10
�Moda é 1.10
�Bimodal - 27 e 55
�Não existe Moda
Ana M. Abreu - 2006/07
Slide 45Média para dados agrupados
Assuma que, em cada classe, todos osvalores são iguais ao ponto médio daclasse.
x = ponto médio
f = frequência
Σ Σ Σ Σ f = n
x = f
ΣΣΣΣ (f • x)ΣΣΣΣ
Ana M. Abreu - 2006/07
Slide 46Definições� Simetria
Os dados distribuem-se de forma simétrica quando a metade esquerda do histograma correspondente ésensivelmente um espelho da metadedireita.
� AssimetriaOs dados distribuem-se de forma
assimétrica se se prolongam mais para um dos lados do que para o outro.
Ana M. Abreu - 2006/07
Slide 47
Ana M. Abreu - 2006/07
Slide 48Definições
A amplitude de um conjunto de dados é a diferença entre o valor mais elevado e o valor mais pequeno.
valormais
elevado
valormais
pequeno-
Ana M. Abreu - 2006/07
Slide 49Definições
O desvio padrão de uma amostra éuma medida da variação dos valoresem torno da média.
ΣΣΣΣ (x - x)2
n - 1S=
Ana M. Abreu - 2006/07
Slide 50
• Uma forma mais simples do desviopadrão amostral, para efeitos de cálculo, é a que se segue:
n (n - 1)s =
n (ΣΣΣΣx2) - (ΣΣΣΣx)2
Ana M. Abreu - 2006/07
Slide 51Desvio padrão amostral -algumas características
� O desvio padrão é uma medida de variação de todosos valores da amostra em torno da média
� O valor do desvio padrão s é positivo
� O valor do desvio padrão s pode aumentardramaticamente com a inclusão de um ou mais outliers na amostra
� As unidades do desvio padrão s são as mesmas dos elementos da amostra.
Ana M. Abreu - 2006/07
Slide 52Desvio padrãopopulacional
2ΣΣΣΣ (x - µ)Nσσσσ =
Esta fórmula é semelhante à anterior, masneste caso é usada a média populacional e a dimensão da população.
Ana M. Abreu - 2006/07
Slide 53Definições
� Variância populacional: quadrado do desviopadrão populacional σ
� A variância é uma medida de variação de um conjunto de valores e é igual ao quadrado do desviopadrão
� Variância amostral: quadrado do desvio padrãoamostral s
Ana M. Abreu - 2006/07
Slide 54Variância - Notação
quadrado do desvio padrão
s
σ σ σ σ
2
2
}Notação
Variância amostral
Variância populacional
Ana M. Abreu - 2006/07
Slide 55Definições
O coeficiente de variação (ou CV) de uma amostra, expresso em percentagem, descreve o desviopadrão relativamente à média. É uma medida semunidades.
•100%s
xCV =
σµ
•100%CV =
PopulaçãoAmostra
Ana M. Abreu - 2006/07
Slide 56Desvio padrão paradados agrupados
Usar os pontos médios de cada classe
n (n - 1)S=n [ΣΣΣΣ(f • x 2)] - [ΣΣΣΣ(f • x)]2
Ana M. Abreu - 2006/07
Slide 57Definições
� Q1 (1º Quartil) separa os primeiros 25% daamostra ordenada dos restantes 75%.
� Q2 (2º Quartil) o mesmo do que a mediana; separa os primeiros 50% da amostraordenada dos restantes 50%.
� Q3 (3º Quartil) separa os primeiros 75% daamostra ordenada dos restantes 25%.
Ana M. Abreu - 2006/07
Slide 58Quartis
Q1, Q2, Q3dividem os valores ordenados em 4 partes iguais
25% 25% 25% 25%
Q3Q2Q1(mínimo) (máximo)
(mediana)
Ana M. Abreu - 2006/07
Slide 59Percentis
Assim como os quartis dividem osdados em 4 partes iguais, existem 99 percentis denotados P1, P2, . . . P99, os quais particionam os dados em100 grupos.
Percentil do valor x = • 100nº de valores menores que x
nº total de valores
Ana M. Abreu - 2006/07
Slide 60Representaçãográfica dos dados
Ana M. Abreu - 2006/07
Slide 61Histograma
Um gráfico de barras, em que o eixo horizontal representa as classes dos valores da amostra e o eixo vertical a correspondente frequência.
Ana M. Abreu - 2006/07
Slide 62Histograma com as frequências
relativas
Tem a mesma forma e escala horizontal que o anterior, mas no eixo vertical estão indicadas as frequências relativas.
Ana M. Abreu - 2006/07
Slide 63Polígono de frequências
Usa segmentos de recta para ligar os pontosmédios das classes.
Ana M. Abreu - 2006/07
Slide 64Ogiva
Semelhante ao anterior mas com as frequênciasacumuladas
Ana M. Abreu - 2006/07
Slide 65Gráfico de barrasForma de representação gráfica para dados
qualitativos
Ana M. Abreu - 2006/07
Slide 66Gráfico de sectoresGráfico para dados qualitativos, representados por
sectores circulares
Ana M. Abreu - 2006/07
Slide 67Gráfico de dispersão
Representação de pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y
Ana M. Abreu - 2006/07
Slide 68Gráfico de caule-e-folhas
Representa os dados, separando cada valor emduas partes: o caule (valor à esquerda do traçovertical) e a folha (algarismo à direita do traçovertical)
Ana M. Abreu - 2006/07
Slide 69Caixa-de-bigodes
Ana M. Abreu - 2006/07
Slide 70Caixa-de-bigodes
Ana M. Abreu - 2006/07
Slide 71Definições
❖A caixa-de-bigodes é um gráfico queconsiste numa linha desde o mínimo atéao máximo, e numa caixa com extremosnos 1º e 3º quartis e divisão na mediana.
❖Para um conjunto de dados, o resumo de 5 números é formado pelo mínimo, 1ºquartil, mediana, 3º quartil e máximo.