Upload
hoanghuong
View
215
Download
2
Embed Size (px)
Citation preview
Métodos Quantitativos
PROF. DR. Renato Vicente
Aula 6A
Revisão
Método Estatístico
Amostra
PopulaçãoEstatística Descritiva
Teoria de Probabilidades
InferênciaEstatística
Linha do Tempo da Estatística
Jogos de Azar
Teoria de Probabilidades
Teoria de Evolução
1
2
3
Inferência Estatística
Aritmética do Estado
Métodos Não-paramétricos
0 10002000 aC 1500 1750 1870 1930 1960 1980
DemografiaTeoria de Erros
Computadores Eletrônicos
1 2 3
Estatística Descritiva: Variáveis qualitativas
Classes de qualitativas: Setores, barras, barras, rosa de Nightingale
Estatística Descritiva: Variáveis quantitativas
60
80
100
120
140
Ran
king do PIB (do m
ais pobre
para o m
ais rico
)
Quant X quant : Dispersão
0
20
40
60
0 0,2 0,4 0,6 0,8 1 1,2
Índice de Desenvolvimento Humano
Ran
king do PIB (do m
ais pobre
para o m
ais rico
)
Quant X quant : Dispersão
Estatística Descritiva: Distribuições de variáveis aleatórias
Histograma
Boxplot
Estatística Descritiva: Resumindo informação
Histogramas ou tabelas de freqüência
Rol dos dados
Média e Desvio Padrão
Sumário dos 5 números: Min, Segundo Quartil (25%), Mediana (50%), Terceiro Quartil (75%), Máx
Moda e Largura a Meia altura+ robusto
Método Estatístico
Amostra
PopulaçãoEstatística Descritiva
Teoria de Probabilidades
InferênciaEstatística
Probabilidades: Calculando Riscos de Extrapolação
População
Média desconhecida=x
Amostra real estimativa da média = x1
Média desconhecida=x
Dada uma única amostra de tamanho n, qual seria o intervalo que conteria a média populacional desconhecida em 95 % das vezes ?
Probabilidades: Calculando Riscos de Extrapolação
População
Amostra real Estimador= x1
Amostras hipotéticas do mesmo tamanho
População
Grandeza desconhecida=x
1. Imaginamos um número bem grande de amostras aleatórias do mesmo tamanho.
2. Imaginamos que calculamos valores estimados em cada um delas. Estes valores estimados estariam distribuídos em torno do valor desconhecido da grandeza.
3. A Teoria de Probabilidades nos permite então descrever a distribuição destes valores.
Inferência Estatística
Amostra
População
InferênciaEstatística
A teoria de probabilidades nos permite estimar a partir de uma amostra um intervalo com confiança definida para os valores na população. Para isso calculamos um estimador de intervalo.
Inferência EstatísticaSuponha que queiramos determinar a MÉDIA POPULACIONAL de uma quantidade. A amostra tem tamanho n. Calculamos a média amostral:
E o desvio padrão amostral:
O intervalo de confiança é :
c depende do nível de confiança desejado e do número de dados n
Estatística T Quando a amostra for pequena teremos que fixar uma confiança (por exemplo, 95%) e procurarmos pelo valor de c em uma tabela conhecida como estatística T.
http://www.dim.fm.usp.br/info/tabelat/tabelat.php
Por exemplo, nossa amostra de crânios etruscos tem n=4:141 148 132 138
Digamos que desejamos estimar um intervalo com confiança 95% para a média da população. Começamos por calcular a média:
Média=(141+148+132+138)/4 = 139,75
Calculamos em seguida o desvio padrão amostral:DPA = 6,65
Estatística T Por exemplo, nossa amostra de crânios etruscos tem n=4:141 148 132 138
Digamos que desejamos estimar um intervalo com confiança 95% para a média da população. Começamos por calcular a média:
Média=(141+148+132+138)/4 = 139,75
Calculamos em seguida o desvio padrão amostral:DPA = 6,65DPA = 6,65
O número de graus de liberdade é n-1=3 (df=3). Consultando a tabela usamos t(0.975), pois queremos um intervalo com 2,5% em cada lado (95% no total, portanto). Na tabela obtemos t(0.975)= 3,18.
Assim teremos o seguinte intervalo com confiança de 95%:
139,75-3,18*6,65/RAIZ(4) < MÉDIA POP < 139,75+3,18*6,65/RAIZ(4)
IC_MédiaPop(95%) = [129,150]
Aula 6B
Regressão
Biometria: Regressão Linear
i 1 2 3 4 5 6 7
x(i) 11.2 12.4 13.5 15.7 17.1 18.5 19.0
y(i) 3.0 3.2 4.0 4.8 4.8 4.9 5.6
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
http://www.math.csusb.edu/faculty/stanton/probstat/regression.html
Regressão Linear
As distâncias entre as observações e a reta escolhida são aleatórias.
A melhor reta é aquela que minimiza a soma total destas distâncias (mínimos quadrados)
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
http://www.math.csusb.edu/faculty/stanton/probstat/regression.html
A qualidade do ajuste é medida pelo R2 (quadrado da correlação de Pearson) que significa a fração da variação que é explicada pelo ajuste. Assim R2=1 indica ajuste perfeito.
Aula 6C
Testes de Hipóteses
Popper: Método Indutivo
Em 1934 Karl Popper publicou a Lógica da Pesquisa Científica. Neste livro Popper procura delimitar hipóteses científicas a partir da propriedade de falseabilidade, ou seja, a partir da possibilidade de realizar-se um experimento que contradiga previsões deduzidas de uma hipótese científica.
H -> C1, C2, C3, ... Cn
Como em geral não é possível verificar todos os experimentos possíveis, não seria possível provaruma hipótese. Mas apenas uma observação contraditória seria suficiente para rejeitá-la.
Também não é possível garantir que as mesmas consequências não possam emergir de outras hipóteses.
Teste de Significância: valor p
Em 1925 Fisher publicou um livro que viria a ser o primeiro manual de métodos estatísticos: Statistical Methods for Research Workers . Neste livro são apresentadas técnicas para avaliação do VALOR-p, medida da probabilidade de obtermos resultados iguais ou mais extremos do que nossas observações dado que uma HIPÓTESE NULA H0 seja verdadeiraH0 seja verdadeira
Quanto menor p, mais improvável a observação se H0 for verdadeira.
Se p< nível de significância (usualmente 5%) rejeitamos H0. Se p>5% não-rejeitamos H0.
Poderia haver outra explicação, mas não há evidência contra H0.
Ronald A Fisher (1890-1962)
http://www.amstat.org/publications/jse/v16n3/pvalueapplet.html
Neyman e Egon Pearson: Testes de Hipóteses
Neyman e Pearson (filho de Karl Pearson, odiado por R.A. Fisher) notaram que os testes de significância podem ser aplicados de forma mais efetiva quando a Hipótese nula é quando a Hipótese nula é comparada à uma Hipótese Alternativa.
Egon Pearson (1895-1980)
http://www.amstat.org/publications/jse/v16n3/pvalueapplet.html
Jerzy Neyman (1894-1981)
Comparando médias: Teste T
Grupo controle
Grupo em tratamento
Suponhamos duas amostras em um experimento com dois tratamentos. AS distribuições amostrais são representadas acima
Comparando médias: Teste T
variabilidade média
variabilidade alta
Dependendo da variabilidade observada a diferença entre médias será mais ou menos significativa.
variabilidade baixa
Comparando médias: Teste T
sinal
ruído Variabilidade dos grupos
Diferença entre as médias
A estatística T mede a relação sinal ruído da diferença entre as médias amostrais . Após calcular o valor t. Basta observar a significância em uma tabela T. A Hipótese nula corresponde a médias idênticas. A hipótese alternativa a médias diferentes.
Tipos de Erros
Inocente Culpado
Condenado Erro TIPO I Correto
Liberado Correto Erro TIPO II
H0 verdadeira H1 verdadeira
Rejeita H0 Erro TIPO I CorretoRejeita H0 Erro TIPO I Correto
Não rejeita H0 Correto Erro TIPO II
Tipos de Erros
H0 verdadeira H1 verdadeira
Rejeita H0 Erro TIPO I Correto
Não rejeita H0 Correto Erro TIPO II
culpadoinocente
http://www.intuitor.com/statistics/CurveApplet.html
aparência de culpa
Criminosos espertos com bons advogados
Inocentessuspeitos
Tipo ITipo II
Poder e Significância de um Teste
H0 verdadeira H1 verdadeira
Rejeita H0 Erro TIPO I Correto
Não rejeita H0 Correto Erro TIPO II
O poder de um teste é a probabilidade de que o teste rejeite uma hipótese nula falsa. Ou seja é a probabilidade de que H1 seja julgada verdadeira quando realmente for verdadeira.
http://www.intuitor.com/statistics/CurveApplet.html
Alternativamente é a chance de que o teste não cometa um erro do Tipo II, ou seja será 1-β=1-P(Erro Tipo II).
A probabilidade de erros do tipo I é a significância do teste α=P(Erro Tipo I). Normalmente fixa-se primeiro a significância (1% ou 5%), a partir disso define-se o intervalo de rejeição da hipótese nula. O poder do teste é conseqüência desta escolha, do tamanho da amostra e da própria amostra. Testes com poder muito baixo são pouco informativos.