Upload
rodrigo-rodrigues
View
283
Download
3
Embed Size (px)
DESCRIPTION
Uma visão geral sobre o uso da estatística. Aspectos teóricos e práticos com a utilização do software R.
Citation preview
Curso introdutório
Rodrigo Lins Rodrigues
Quem sou eu ?
Professor da UFRPE do curso de Licenciatura em Computação
Estudante de doutorado em Ciência da Computação
Pesquiso sobre Mineração de Dados
Educacionais;
Contatos:
Email: [email protected]
Facebook: /rodrigomuribec
2
Agenda
Introdução a Estatística;
Entendendo população e amostra;
Estatística descritiva;
Introdução a Inferência Estatística;
Formulando e testando hipóteses;
Análises de regressão;
Aplicações computacionais.
3
...Vamos entender um pouco sobre o que é a estatística ?
4
Introdução a Estatística
• A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas;
• Áreas da computação que utilizam estatística: IA, Engenharia de software, banco de dados, redes, extração de informação, etc.
Introdução a Estatística
• Algumas áreas e técnicas da estatística...
▫ Estatística descritiva;▫ Planejamento de experimentos;▫ Análise multivariada;▫ Estatística não-paramétrica;▫ Análise de regressão;▫ Modelos lineares;▫ Séries temporais;▫ Tecnologia da amostragem;▫ Controle de qualidade;▫ ...Etc.
Interação entre a estatística e a pesquisa
científica
Análise Estatística Descritiva
Análise Inferencial
Conclusões
Tema de pesquisa
Definição do problema
Formulação de hipóteses
Amostragem
...Para que serve uma amostra ?
8
...Para que serve uma amostra ?
9
• Se o tamanho dessas amostras cresce mais precisas são as conclusões obtidas;
• Experimentos com amostras muito grandes se aproximam de um CENSO.
Entendendo população e amostra;
• É através da amostra que podemos inferir sobre os parâmetros de uma população;
• A amostra deve ser representativa;
• Por que fazer amostragem ao invés de censo?
▫ Economia
▫ Menor tempo
▫ Maior qualidade nos dados levantados
▫ População infinita.
▫ Mais fácil, com resultados satisfatórios.
Entendendo população e amostra;
•xxxxx
12
Entendendo população e amostra;
•xxxxx
13
Entendendo população e amostra;
14
Técnicas de amostragem
• Alguns elementos são necessários saber para calcular o tamanho da amostra:
▫ Confiança da pesquisa;
▫ Tamanho da população;
▫ Características da população;
▫ Etc...
15
Tamanho da amostra
...Agora que já temos nossa amostra o que devemos fazer ?
16
...Estatística descritiva ou exploratória
17
18
O que fazer com as observações quecoletamos inicialmente em umapesquisa?
Resumo dos dados = Estatísticadescritiva
Primeira Etapa:
Estatística Descritiva
• Primeiro vamos entender tipos de dados
19
Estatística descritiva
Categóricas Numéricas
Nominal
(classificação)
Ordinal
(classificação)
Discreta
(contagem)
Contínua
(mensuração)
sexo, raça, região, grupo
sangüíneo
pressão sangüínea
(baixa, normal, alta)
Número de acidentes, número de
filhos
Peso, altura, pressão
sangüínea
• Medidas de posição → Média, mediana, moda;
• Medidas de dispersão → Amplitude, desvio padrão e variância;
• Medidas de posição relativa →escores, quartis e percentis;
• Medidas relacionadas à forma →medidas de assimetria e curtose;
20
Estatística Descritiva
Medidas de variação (dispersão)
• São medidas que servem para verificar o quanto os dados estão dispersos em torno da medida central;
• São utilizadas para verificar o quanto os dados são heterogêneos;
• É muito utilizada para verificar se realmente a medida de tendência central é representativa;
Estatística Descritiva
Tabelas de distribuição de frequencias
• Exemplo
Estatística Descritiva
• Tabela exemplo 2 (classes e proporção)
Estatística Descritiva
• Gráfico da distribuição de frequência
Estatística Descritiva
• Um histograma consiste em um
conjunto de retângulos que
representam as classes cujas bases
são iguais às suas amplitudes e são
centradas no ponto médio de cada
classe.
Tabelas de dupla entrada
• Exemplo de uma tabela de dupla entrada
Estatística Descritiva
sexo Curso 1
Estatística
Curso 2 Engenharia
total
Homens 40 200 240
Mulheres 60 100 160
total 100 300 400
Tipos de gráficos
Estatística Descritiva
• Os gráficos são encontrados em todos os lugares, jornais, telejornais, livros, revistas, sítios diversos, etc;
• Sua utilização traz vantagens como a capacidade de síntese de informação;
Tipos de gráficos
Estatística Descritiva
• Um gráfico de Pareto é um gráfico de barras para dados qualitativos, com as barras dispostas em ordem pela frequência;
• A barra mais alta fica à esquerda e as barras menores se afastam para a direita
Tipos de gráficos
Estatística Descritiva
• O gráfico de barras é muito semelhante ao gráfico de Pareto;
• Exceto por não ser necessária seguir nenhuma ordem na distribuição dos retângulos do gráfico.
Tipos de gráficos
Estatística Descritiva
• O gráfico de setores ou pizza também é usado para apresentar dados qualitativos;
Tipos de gráficos
Estatística Descritiva
• O diagrama de dispersão de dados emparelhados é um gráfico onde os pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados.
Tipos de gráficos
Estatística Descritiva
• Um gráfico de série temporal representa a evolução de uma medida ou grandeza através do tempo;
• Esse tipo de gráfico é muito utilizado nas bolsas de valores para mostrar as tendências dos ativos das companhias.
...Vamos entender o conceito de inferência Estatística?
32
...Já ouviu falar em “nível de confiança” e “margem de erro”?
33
Definições....
• Objetivo: tirar conclusões sobre uma população com base na informação de uma amostra;
• Para se fazer inferência é necessário entender:
▫ Parâmetro: quantidades desconhecidas da população e sobre as quais temos interesse;
▫ Estimador: combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população.
Inferência Estatística
• Toda hipótese tem como objetivo testar parâmetros populacionais;
• É baseado em uma amostra representativa da população;
35
Teste de Hipóteses
• São aplicados em situações em que se conhece a distribuição dos dados;
• É necessário pressuposto de normalidade;
• São testes mais robustos do que os testes não-paramétricos;
• Servem para testar parâmetros populacionais, tais como: média, variância e proporção;
36
Testes paramétricos
37
Formulação de hipóteses
Unilateral à esquerda:
Ho: = 50
H1:: > 50
Unilateral à direita:
Ho: : = 50
H1: : <50
Bilateral:
Ho: : = 50
H1:: 50
38
Formulação de hipóteses
Se o valor da estatística do teste cair na região crítica, rejeita-se Ho.
Ao contrário, quando aceitamos, dizemos que não houve evidência amostral significativa no sentido de permitir a rejeição de Ho.
• Passo 1: Definir a hipótese nula H0 a ser testada e a hipótese alternativa H1.
• Passo 2: Definir o nível de significância.
• Passo 3: Escolher uma estatística de teste adequada.
• Passo 4: Fixar a região crítica do teste (o valor crítico é determinado em função do nível de significância).
• Passo 5: Retirar uma amostra e calcular o valor observado da estatística do teste.
• Passo 6: Se o valor da estatística pertencer à região crítica, rejeitar H0; caso contrário, não rejeitar H0.
39
Etapas para a construção de hipóteses(sem software estatístico)
• Uma das premissas dos testes paramétricos é o pressuposto que os dados seguem distribuição normal ou gaussiana;
• É possível ter indícios, graficamente, sobre a distribuição dos dados, no entanto, somente os testes de aderência podem comprovar se os dados seguem normalidade;
• Os dois principais testes de normalidade são:
▫ Kolmogorov-Smirnov▫ Shapiro-Wilk
40
Testes de normalidade
• É aplicado quando não se conhece a variância populacional;
• Testa se a média populacional assume ou não um determinado valor;
• Trata-se de testar se um valor é verdadeiro em relação ao valor do parâmetro populacional.
41
Teste t de Student para uma amostra
• É aplicado para testar se as médias de duas amostras aleatórias, extraídas da mesma população são ou não significativamente diferentes;
• As duas amostras tem distribuição normal com variâncias desconhecidas, porém, iguais;
• É pressuposto que a variabilidade das variáveis são iguais;
• Por exemplo... Podemos querer testar se o desempenho de uma determinada metodologia de ensino é igual pra duas turmas de uma mesma série e escola (população)
42
Teste t de Student para duas amostras
aleatórias independentes
• É aplicado para verificar se as médias de duas amostras relacionadas, extraídas da mesma população, são ou não significativamente diferentes;
• Além da normalidade dos dados de cada amostra, o teste exige que as variâncias de cada amostra sejam iguais entre si (homocedasticidade);
• Como exemplo temos... Imagine que queremos testar a aplicação de uma interface em dois momentos para o mesmo grupo de usuários e queremos saber se teve diferença significativa no tempo de uso para a realização de uma atividade.
43
Teste t de Student para duas amostras
aleatórias relacionadas (pareadas)
44
...Já ouviu falar nas palavras Regressão e Correlação ?
45
...olhe pra essa imagem e pense um pouco mais!
46
Análise de Correlação e Regressão
• Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas;
• Regressão: A finalidade é estimar valoresde uma variável, com base em valores conhecidos da outra;
47
Correlação
• Mede o grau da correlação (positiva ou negativa) entre
duas variáveis de escala métrica;
P > 0,4 Significa uma correlação positiva entre as
duas variáveis.
-0,4 < 0 > 0,4 : Significa que as duas variáveis não
dependem linearmente uma da outra.
P < -0,4 Significa uma correlação negativa entre as
duas variáveis - Isto é, se uma aumenta, a outra
sempre diminui.
48
Análise de Regressão
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as
variáveis;
3. Usar a equação ajustada para prever valores da variável
dependente.
i i iY X
Modelo de Regressão Linear Simples
49
Análise de Regressão
• Em um modelo estatístico, geralmente a variável resposta é afetada
por várias variáveis;
• Então, analisamos Y como função apenas das K primeiras variáveis,
sendo que permanece um erro (ou resíduo), devido a não utilização das
outras m variáveis.
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Pe
so
(k
g)
1 2 1( , ,..., , ,..., )k k k mY f X X X X X
50
Análise de Regressão
O coeficiente de determinação ou simplesmente . É uma medidada proporção da variabilidade em uma variável que é explicada pelavariabilidade da outra.
2R
Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:
2 SQreg bSxyR
SQtot Syy
O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
20 1R 2R
...Chegou a hora de botarmos a mão na massa!
52
Softwares utilizados na estatística
• Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:
Trabalhando com a base de dados
• Geralmente as bases de dados são digitadas em Excel;
• Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc;
• É aconselhável que a base seja transformada pra CSV;
• Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:
55
Software Estatístico R
• É um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica;
• É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas;
• Possui uma linguagem de fácil entendimento;
• É software livre !!!
56
Software Estatístico R
• O R possui mais de 3.500 pacotes disponíveis;
• Foi uma evolução do S-plus;
• Começou em 1993;
• Em 1995 adotou a licença GPL
57
Software Estatístico R
http://www.r-bloggers.com/
59
Conhecendo a interface do R
...Vamos praticar um pouco a Linguagem R com Estatística Descritiva
60
61
Inicialmente vamos entender a linguagem
• Como acessar a ajuda do R
62
Entendendo a linguagem R
• Operações com vetores
63
Entendendo a linguagem R
• Operações com vetores
64
Entendendo a linguagem R
• Listando variáveis
65
Entendendo a linguagem R
• Operações com vetores
66
Entendendo a linguagem R
• Estatística descritiva
67
Entendendo a linguagem R
• Estatística descritiva
▫ Valor máximo e mínimo de um conjunto de dados
▫ Amplitude total
▫ Variância
68
Entendendo a linguagem R
• Estatística descritiva (Gráficos – Histograma)
69
Entendendo a linguagem R
• Estatística descritiva (Gráfico de barras)
70
Entendendo a linguagem R
• Estatística descritiva (Boxplot)
71
Entendendo a linguagem R
• Estatística descritiva (Gráfico de dispersão)
72
Trabalhando na prática
• Utilize o banco de dados chamado “descritiva.csv”;
• Vamos importar o banco de dados para dentro do R;
• Salve o banco de dados no formato do banco de dados do R;
• Tirar a média, mediana, máximo e minimo para cada uma das variáveis quantitativas;
• Tirar
73
Trabalhando na prática
• Plote gráficos de dispersão para as variáveis quantitativas contínuas;
• Plote gráficos de histograma para variáveis quantitativas contínuas;
• Plot gráficos de barras para as variáveis qualitativas ou categóricas;
• Faça correlações entre as variáveis quantitativas.
...Vamos praticar agora com Inferência estatística
74
75
Testes de hipóteses
• Teste t para média populacional
• Teste t para comparação de duas médias
76
Testes de hipóteses
• Teste t pareado (mesma população em dois momentos)
...Vamos praticar agora com Regressão Linear
77
78
Regressão linear
• Vamos utilizar o banco de dados “descritiva.csv”;
▫ ...importa, ...attach()!
• Vamos construir um modelo linear simples
79
Regressão linear
• Plotando as duas variáveis em um gráfico de dispersão.
...Vamos facilitar nossas vidas ?
80
• O que é o Rcmdr?
▫ Um pacote do R para manipulação gráfica;
▫ Facilita as análises básicas;
▫ Não precisa utilizar linha de comando;
▫ Disponibiliza uma saída de script;
▫ É leve e pode ser instalado em qualquer versão do R;
81
Pacote Rcomander
82
Instalando o pacote Rcommander
Depois de instalado digite: require(Rcmdr)
83
Conhecendo a interface
84
Criando e carregando banco de dados
85
Vamos para a prática na ferramenta....
86
Dúvidas ?
Contatos:
Email: [email protected];
Cel: 9874-6647
Facebook: facebook.com/rodrigomuribec