Upload
ngokhue
View
212
Download
0
Embed Size (px)
Citation preview
Oficina de Métodos de Análise de Dados &
Degustação de Software Livre
Prof. Dr. Márcia EchevesteDr. Vera Martins
Aline Gularte
Seminário de Iniciação Científica e Tecnológica
Departamento de Estatística – IME UFRGS
Objetivo:Apresentar elementos básicos para a análise de dados quantitativos em pesquisa e uso de softwares livres
Pré-requisitos: Disciplina de Estatística
Como saber se as pesquisas são
confiáveis?
Fonte https://brasil.elpais.com/brasil/2018/03/15/ciencia/1521113964_993420.htmlAdicionar texto
Princípios:
● Objetividade do pesquisador: basear-se em fatos, evidências;● Precisão da medida: o processo de medida não pode influenciar os resultados;● Natureza contínua e exaustiva de investigação: a busca da verdade é um
processo contínuo que conduz o progresso da ciência;
MÉTODO CIENTÍFICO
PESQUISA CIENTÍFICAPESQUISA CIENTÍFICAPROCURAR EVIDÊNCIAS!!!
ETAPAS DO MÉTODO CIENTÍFICO
Modifique as hipóteses
Observe o Fenômeno
Defina Hipóteses
Teste Hipóteses Experimentos
Estabeleça ateoria com base na repetição
ESTATÍSTICAÉ a ciência que planeja a coleta, classifica, analisa e interpreta dados, usando teorias de probabilidade para previsões e entendimento do padrão de fenômenos em diferentes áreas de pesquisa.
ESTATÍSTICA
Explorar ou Concluir?Descritivo ou Inferencial?Método de pesquisa
DESCRITIVO: Visa descrever o comportamento dos dados. A descrição é normalmente percentuais, medidas-resumo (como média e desvio-padrão), tabelas de distribuição de frequência, gráficos, etc.
Trata-se de coletar uma amostra PROBABILÍSTICArepresentativa da população e a partir
dessa amostra, obter conclusões a respeito da população.
INFERENCIAL
VariáveisVariáveisO que são?
Variáveis em Estatística são meios de mensurar características de interesse no estudo.
Variáveis estão nas “colunas”do Banco de Dados.
Níveis de Mensuração
O que são? Qualitativas, classificatórias, categorias
Qualitativas, relação de ordem
Quantitativa discreta
Contínua
NOMINAL
INTERVALAR
ORDINAL
Escala Características Exemplos Est. Descritiva Est. InferencialNominal Os números classificam e
identificam os objetosClassificação por sexo, segmento de empresas
Porcentagens, moda
Teste Qui-quadrado
Ordinal Os números indicam as posições relativas dos objetos, mas não a magnitude das diferenças entre eles
Classificação de preferência, nível de satisfação
Percentil, mediana Correlação por postos, ANOVA de Friedman
IntervalarDiscreta
Geralmente são números inteiros, representam pontos, ocorrem em intervalos iguais
Número de falhas, número de peças, número de pessoas
Continua É possível comparar as diferenças entre objetos; o ponto zero é arbitrário
Temperatura, idade, renda, custos, vendas
Intervalo, média, desvio-padrão
Correlação, testes t, ANOVA, regressão, análise fatorial
Níveis de mensuração e possíveis análises
Um banco de dados é uma estrutura de dados organizada que permite a extração de informações.
quest area_Ha sacas Tipo Produtor Munícipio/EstadoSituação atual do
processo de secagem Até o valor __ R$ eu
certamente implementaria
Até o valor ___ R$ eu
certamente pagaria uma
manutenção semestral
Anos que
trabalha com
agricultura
Cargo atual na
fazenda
id Q3a Q3b Q4 Q5 Q6 Q13a Q14a Q15 Q16
1 10 20 1 Morro reuter-RS 1 25.000,00R$ 1.500,00R$ 40 1
2 30 50 1 Jacutinga-RS 1 50.000,00R$ 500,00R$ 37 1
3 3 50 1 Canela-RS 1 60.000,00R$ 500,00R$ 30 1
4 3 60 1 São José do Norte -RS 1 30.000,00R$ 500,00R$ 15 1
5 5 40 1 Nova Prata -RS 1 35.000,00R$ 700,00R$ 47 1
6 60 115 1 Ijuí-RS 1 25.000,00R$ 500,00R$ 14 1
7 40 90 1 Santa Rosa - RS 1 30.000,00R$ 400,00R$ 10 1
8 80 110 1 Lajeado-RS 1 35.000,00R$ 600,00R$ 13 1
9 70 110 1 Caxias do Sul -RS 1 30.000,00R$ 400,00R$ 17 1
10 90 115 2 Torres -RS 3 60.000,00R$ 600,00R$ 40 1
11 140 120 2 São Nicolau -RS 2 70.000,00R$ 1.000,00R$ 25 1
12 70 140 2 Erechim - RS 2 70.000,00R$ 1.000,00R$ 14 1
13 200 150 2 Turvo - SC 2 30.000,00R$ 1.000,00R$ 60 1
14 60 120 2 Torres -RS 2 70.000,00R$ 750,00R$ 23 1
15 100 170 2 Itaqui -RS 2 45.000,00R$ 800,00R$ 21 1
16 80 160 2 Santa Vitória do Palmar -RS 2 40.000,00R$ 1.000,00R$ 17 1
17 108 75 2 Novo Machado -RS 3 90.000,00R$ 1.000,00R$ 34 1
18 70 120 2 São Borja -RS 1 40.000,00R$ 800,00R$ 17 1
19 65 100 2 Alegrete- RS 1 55.000,00R$ 700,00R$ 19 1
20 260 160 2 Eudoraldo do Sul - RS 1 30.000,00R$ 1.000,00R$ 40 1
21 240 236 2 Cruz Alta -RS 4 70.000,00R$ 800,00R$ 23 1
22 170 142 2 Tupanciretã -RS 4 60.000,00R$ 700,00R$ 26 1
Linhas=
unidade
experimental
Colunas=
variáveis
Unidade amostralO que é?
Unidade Amostral é a menor unidade de análise de um estudo.
Geralmente são as observações que podem ser: indivíduos, cidades, empresas.
Estão nas “linhas”do Banco de Dados.
Unidade amostral
EXERCíCIO
ABRIR O BANCO DE DADOS “olimpiadas_matemática.xls”
Análise de Dados
1. MEDIDAS RESUMO
2. TABELAS SIMPLES
3. TABELAS ESTATÍSTICAS
4. TABELAS DE CONTIGÊNCIA
5. GRÁFICOS
6. TESTE QUI-QUADRADO
HISTÓRIA
OLIMPÍADAS DE MATEMÁTICA
Dados sobre alunos do ensino médio, a respeito da Olimpíadas de Matemática. OBMEP
n = 126 respondentes; 24 variáveis.
Turma
Sexo
Idade3) Você está cursando qual ano do Ensino Médio?
4) O que você acha do grau de dificuldade questões da prova da OBMEP?
5) Qual o seu grau de entusiasmo/envolvimento para resolver a prova da OBMEP?
6) Quantas vezes você já participou da OBMEP durante o Ensino Médio?
7) Você gosta de Matemática?
8) A OBMEP causou algum impacto na sua percepção como aluno para o ensino de Matemática?
9) Quantas vezes você foi classificado para a segunda fase da OBMEP durante o Ensino Médio?
10) ......
13) Os professores costumam avisar com antecedência a aplicação das provas da OBMEP?
17) .......
18) Os professores corrigem a prova da OBMEP que foi aplicada em algum momento?
19) Você procura o professor para resolver alguns exercícios da prova da OBMEP?
20) Você estudou durante o Ensino Fundamental em uma Escola Pública?
22) Quantas vezes você participou da OBMEP na primeira fase?
23) Quantas vezes você foi classificado para a segunda fase da OBMEP (nível 1 ou nível 2)?
24) Os professores incentivavam a sua participação?
VARIÁVEIS
O Rcommander ou Rcmdr é uma interface gráfica intuitiva, alternativa à utilização com programação do R-Project.
Nesta interface estão disponíveis as análises mais comumente utilizadas por usuários do R e sua instalação é ativada por pacotes específicos.
Para instalar o Rcommander é necessário a instalação prévia do R-Project adequada ao seu sistema operacional: https://www.r-project.org/
R Commander (Rcmdr) a graphical interface for R
https://www.r-project.org/
Após a instalação do R-Project deve-se seguir os seguintes passos:
1- Instalar pacotes: Clicar em pacotes; Instalar pacotes e
2 - Buscar na lista um diretório de sua preferência e clicar em ok.
Uma janela chamada Packages se abrirá e deverá selecionar o Rcmdr.
1
2
É preciso aguardar a finalização da instalação. O R Console estará mostrando as etapas de instalação, este processo pode demorar algum tempo.
3 - Carregar pacotes: Para utilizar o pacote é preciso clicar novamente em “pacotes”; e,
4 - Clicar em carregar pacotes; Procure o Rcmdr na lista.
Provavelmente pacotes adicionais serão necessários, apenas autorize a busca e instalação.
3
4
Ao carregar o pacote, a interface se abrirá. Então basta carregar o arquivo com os dados e você já pode fazer suas análises estatísticas!!!
Passe o mouse sobre as abas, descubra que análises poderá fazer e aprecie sua degustação.
E mais...
O Rcommander oferece uma gama de 29 pacotes diferentes para realizar as suas análises. Escolha o mais adequado e aprecie os resultados.
http://www.rcommander.com/
RcmdrPlugin.BCA Rcmdr Plug-In for Business and Customer Analytics
RcmdrPlugin.coin Rcmdr Coin Plug-In
RcmdrPlugin.depthTools R commander Depth Tools Plug-In
RcmdrPlugin.doBy Rcmdr doBy Plug-In
RcmdrPlugin.DoE R Commander Plugin for (industrial) Design of Experiments
RcmdrPlugin.doex Rcmdr plugin for Stat 4309 course
RcmdrPlugin.EACSPIR Plugin de R-Commander para el manual EACSPIR
RcmdrPlugin.EBM Rcmdr Evidence Based Medicine Plug-In package
RcmdrPlugin.epack Rcmdr plugin for time series
RcmdrPlugin.EZR R Commander Plug-in for the EZR (Easy R) Package
RcmdrPlugin.HH Rcmdr support for the HH package
RcmdrPlugin.IPSUR An IPSUR Plugin for the R Commander
RcmdrPlugin.KMggplot2 Rcmdr Plug-In for Kaplan-Meier Plots and Other Plots Using the ggplot2 Package
RcmdrPlugin.mosaic Adds menu items to produce mosaic plots and assoc plots to Rcmdr
RcmdrPlugin.MPAStats R Commander Plug-in for MPA Statistics
RcmdrPlugin.orloca orloca Rcmdr Plug-in
RcmdrPlugin.plotByGroup Rcmdr plots by group using lattice
RcmdrPlugin.qcc Rcmdr qcc Plug-In
RcmdrPlugin.qual Rcmdr plugin for quality control course
RcmdrPlugin.SCDA Rcmdr plugin for designing and analyzing single-case experiments
RcmdrPlugin.seeg Rcmdr Plugin for seeg
RcmdrPlugin.SLC SLC Rcmdr Plug-in
RcmdrPlugin.SM Rcmdr Sport Management Plug-In
RcmdrPlugin.StatisticalURV Statistical URV Rcmdr Plug-In
RcmdrPlugin.steepness Steepness Rcmdr Plug-in
RcmdrPlugin.survival R Commander Plug-in for the survival Package
RcmdrPlugin.TeachingDemos Rcmdr Teaching Demos Plug-In
RcmdrPlugin.temis Graphical user interface providing an integrated text mining solution
RcmdrPlugin.UCA UCA Rcmdr Plug-in
Abra o arquivo excel
Identifique as variáveis e o nível de mensuração
Analise os dados usando o R Commander
PRÁTICAPRÁTICA
PRÁTICA 1(1) Qual o percentual(%) de respondentes que declararam gostar de matemática?
(2) Quantas vezes, em média, os respondentes participaram da OBMEP entre meninos e meninas?
(3) O grau de dificuldade percebido da avaliação da OBMEP depende da série na qual o aluno está
matriculado?
(4) Compare os gráficos de histogramas de idade entre meninos e meninas. Apresente o boxplot.
(5) Relacione o grau de entusiasmo com o número de vezes que passou para a segunda fase.
PRÁTICA 2Considere os dados do banco EXTRA, que fornece o sexo, idade e percentual de
gordura corporal de 18 alunos.
Pergunta: O pesquisador gostaria de saber se há associação entre o percentual de
gordura e a idade dos alunos?
FAÇA VOCÊ MESMO:(1) Qual o percentual(%) de respondentes que são meninos e meninas?
(2) Qual a média da idade dos respondentes que participaram da OBMEP entre meninos e
meninas?
(3) Os alunos que se preparam para a prova da OBMEP percebem algum impacto para o ensino da
matemática?
(4) Compare os gráficos de histogramas de número de participações por entre meninos e meninas.
HINTSHINTS (FAÇA VOCÊMESMO)(1) Estatísticas Resumos Distribuições de Frequência
Variável: sexo.
(2) Estatísticas Resumos Tabela de Estatísticas
Variáveis: sexo x Idade
(3) Estatísticas Tabela de Contingencia Tabelas de dupla entrada
Variáveis: q8 x q14
(Ir em: Estatísticas Percentual nas colunas e Testes de independência de Qui-Quadrado)
(4) Gráficos Histograma...
Variáveis: q6 x sexo
http://www.portalaction.com.br/ambiente-virtual-de-aprendizado
Portal Action possui um ambiente virtual de aprendizado que desmobiliza conteúdos de estatística apresentados em forma teórica e prática, com muitos exemplos para facilitar o entendimento.
O JASP é um programa gráfico gratuito e de código aberto para análise estatística, projetado para ser fácil de usar e familiar aos usuários do software SPSS.
Além disso, o JASP fornece muitos métodos estatísticos bayesianos. SPSS - Statistical Package for Social Sciences
*https://jasp-stats.org/
O Kaggle é uma plataforma de modelagem preditiva e de competições analíticas em que estatísticos e mineradores de dados competem para produzir os melhores modelos para prever e descrever os conjuntos de dados enviados por empresas e usuários.
Essa abordagem de crowdsourcing se baseia no fato de que existem inúmeras estratégias que podem ser aplicadas a tarefa de modelagem preditiva.
https://www.kaggle.com/
OUTROS SOFTWARES LIVRES
O que é Power BI?
O Power BI é um pacote de ferramentas de análisede negócios que oferece insights em toda a suaorganização.
Todos podem criar painéis personalizados com umaexibição exclusiva e completa dos negócios e escalaro seu uso em toda a empresa, com governança esegurança internas.
OUTROS SOFTWARES LIVRES
PSPP é um software livre para análise de dados, destinado a ser uma alternativa para o IBM SPSS.
Permite gerar relatórios tabulados, normalmente utilizados na realização de análises descritivas e inferências a respeito de correlações entre variáveis.
O software possibilita a realização de análises descritivas, testes T, regressão linear e testes não paramétricos.
We love data. And we love getting data good and tight and comprehensive.
● https://informationisbeautiful.net/about/
NAE
NÚCLEO DE
ASSESSORIA
ESTATÍSTICA
Departamento de Estatística
IME- UFRGS
www.mat.ufrgs.br/nae/onae.htm