Upload
vobao
View
215
Download
0
Embed Size (px)
Citation preview
Universidade
Estadual de
Londrina
Programa de Mestrado e Doutorado em Microbiologia
Profa. Dra. Ana Verginia Libos Messetti
LONDRINA
2016
SUMÁRIO
1. Análise exploratória de dados ...........................................................................01
2. Intervalo de confiança e Teste
Hipótese
...........................................................................11
3. Testes de Hipóteses para duas amostras ...........................................................................14
4. Testes não paramétricos
5. Correlação e regressão
6. Ensaio Inteiramente Casualizado
7. Delineamento em Blocos
8. Quadrado latino
9. Artigo
10. Referências bibliográficas
.......................................................................... 17
.......................................................................... 22
.......................................................................... 29
.......................................................................... 33
.......................................................................... 37
.......................................................................... 38
...........................................................................39
1
AULA 1 – ANÁLISE EXPLORATÓRIA DE DADOS
1.1 Introdução - Em uma pesquisa é importante ter em mente três aspectos: planejamento, execução e
divulgação. O planejamento é a fase inicial que corresponde à definição do tema, os objetivos, a forma de
análise dos dados, ou seja, é o delineamento de todo o projeto de pesquisa. É a fase mais importante dentre
as três fases para se obter um resultado mais preciso.
É importante evidenciar que executarmos uma pesquisa com um planejamento mal feito ou
mesmo se os dados não forem coletados de maneira apropriada, aparecerá um resultado que não
corresponde à realidade ou até mesmo impossível de ser analisada e então esses dados se tornarão inúteis.
Dependendo do problema a ser analisado e dos objetivos da pesquisa podemos realizar uma pesquisa
observacional ou uma pesquisa experimental:
A pesquisa observacional é aquela em que as características de uma população serão levantadas,
observadas ou medidas, sem a sua manipulação. Como exemplo, tem-se o censo demográfico, pesquisas
eleitorais, inspeção de qualidade.
Nas pesquisas experimentais, grupos de indivíduo, animais ou objetos, serão manipulados para se
avaliar o efeito de diferentes tratamentos. É o caso de se verificar as reações na aplicação de
medicamentos onde existe um grupo controle e o grupo experimental.
1.2 Definição e Classificação da Estatística:
Hoje em dia a estatística envolve toda a elaboração que vai desde o planejamento e a coleta dos
dados até a análise e interpretação dos resultados. Assim, essa elaboração envolve o tratamento dos dados
de diferentes maneiras de torná-los compreensíveis.
Definição: Estatística é uma parte da matemática aplicada que fornece métodos para coleta, a organização,
a descrição, a análise e a interpretação de dados e a utilização desses dados para a tomada de decisão.
Classificação:
- Estatística descritiva;
- Estatística indutiva.
a. Estatística descritiva: é aquela que tem por objetivo descrever e analisar determinada população ou
amostra, sem pretender tirar conclusões.
Exemplo: taxa de desemprego, índice de mortalidade e natalidade.
b. Estatística indutiva: é aquela que consiste em obter e generalizar conclusões para um todo (população)
partindo de resultados particulares (amostra).
Exemplo: pesquisa eleitoral.
1.3 Classificação das Variáveis
Ao fazer um estudo estatístico de um determinado fato ou grupo, tem-se que considerar o tipo de variável.
Pode-se ter variáveis qualitativas e variáveis quantitativas.
As variáveis qualitativas são aquelas que descrevem os atributos de um indivíduo, por exemplo:
sexo, estado civil, grau de instrução, etc. Já as variáveis quantitativas são as provenientes de uma
contagem de mensuração, por exemplo: idade, salário, peso, altura, etc.
2
As variáveis qualitativas como as quantitativas dividem-se em dois tipos:
Variáveis Tipos Descrição Exemplos
Qualitativas
ou
Categóricas
Nominal Não existe nenhuma
ordenação.
Cor dos olhos, sexo, estado
civil.
Ordinal Existe uma ordenação I, II,
III.
Nível de escolaridade,
estágio da doença.
Quantitativas
Discretas Valor pertence a um
conjunto enumerável.
Número de filhos por casal,
número de eleitores.
Contínuas Quando o valor pertence a
um intervalo real.
Medida de altura e peso,
taxa de glicose.
1.4 População e amostra
População ou Universo: é um conjunto de elementos sobre o qual desejamos pesquisar.
Exemplo: Alunos do curso de Fisioterapia da UEL, número de microrganismos de um lago.
Amostra: e um subconjunto da população, cujos elementos são retirados segundo algum critério.
Exemplo: Alunos do primeiro ano de Fisioterapia da UEL.
Censo e Amostragem
Censo: é o estudo de “todos” os elementos da população.
Exemplo: Altura de todos os alunos de Biologia da UEL
Amostragem: é a parte da estatística que ensina obter amostras representativas de uma população. A
finalidade da amostragem é fazer generalização sobre todo o grupo sem precisar examinar cada um de
seus elementos.
Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou
numeroso, verifica-se, muitas vezes, ser praticamente impossível fazer um levantamento do todo. Desse
modo, há a necessidade de investigar apenas uma parte dessa população ou universo.
É compreensível que o estudo de todos os elementos da população possibilita preciso
conhecimento das variáveis que estão sendo pesquisadas; todavia, nem sempre é possível obter as
informações de todos os elementos da população. Torna-se claro que a representatividade da amostra
dependerá do seu tamanho (quanto maior, melhor) e de outras considerações de ordem metodológica. Isto
é, o investigador procurará acercar-se de cuidados, visando à obtenção de uma amostra significativa, ou
seja, que de fato represente “o melhor possível” toda a população.
1.5 Conceitos Básicos
Parâmetros - Medidas que descrevem certa característica dos elementos da população.
Estatística - Medidas que descrevem certa característica dos elementos da amostra.
Estimativa – Valor resultante do cálculo de uma estatística.
1.6 Medidas Descritivas - (Comparando População e Amostra)
Média, Variância e Desvio-padrão para valores populacionais e amostrais.
a) Seja a população: P = {X1; X2; X3; ...; XN}, logo:
3
A média aritmética populacional ( ) é: N
xi
N
i 1
onde i=1, 2, ..., N.
A variância populacional ( ) é:
Desvio-padrão populacional ( ) é: = √
b) Seja a amostra: A = {x1; x2; x3; ...; xn}, logo:
A média aritmética amostral ( ) é: ∑
, onde i = 1, 2, ..., n.
A variância amostral (s2) é:
Desvio-padrão amostral (s) é: s =
ESTATÍSTICA DESCRITIVA
1.7 - Tabelas - A apresentação tabular é a forma de se utilizar tabelas para apresentar os dados coletados,
com o objetivo de sintetizar as observações, facilitando sua leitura e compreensão.
Elementos componentes das tabelas estatísticas
As tabelas estatísticas são constituídas por elementos essenciais e elementos complementares.
Elementos essenciais da tabela - Os elementos essenciais de uma tabela estatística são: título, corpo,
cabeçalho e coluna indicadora.
Título: O título é a indicação que precede a tabela e que contém a designação do fato observado, o local e
a época em foi registrado.
Corpo: É o conjunto de colunas e linhas que contém, respectivamente, em ordem vertical e horizontal, as
informações referente ao fato observado.
Cabeçalho: É a parte superior da tabela que especifica o conteúdo das colunas.
Coluna indicadora: É a parte da tabela que especifica o conteúdo das linhas. Uma tabela pode ter mais de
uma coluna indicadora.
Elementos complementares da tabela - Os elementos complementares de uma tabela estatística são: fonte,
nota e chamadas, e se situam no rodapé da tabela.
Fonte: A fonte é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.
Notas: São as informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas,
ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.
N
XX
XVouN
N
X
X
XV
N
i
i
N
i
iN
i
i
1
2
2
2
1
1
2
2
)(
)()(
1
)(
1
1
2
2
2
1
1
2
2
n
xx
soun
n
x
x
s
n
i
i
n
i
in
i
i
2s
4
Chamadas: São as informações de natureza específica referentes às determinadas partes da tabela,
destinadas a conceituar ou esclarecer dados. As chamadas são indicadas no corpo da tabela com
algarismos arábicos, entre parênteses.
1.8 Gráficos (Variável qualitativa) - É a representação de dados ou informações através de desenhos,
figuras ou imagens.
Existem diversas formas de apresentação gráfica, ficando a escolha condicionada à natureza do
fenômeno a representar e ao critério do analista. Dar-se-á um maior enfoque àquelas formas gráficas
utilizadas na representação de dados estatísticos. A finalidade principal de apresentar os dados
graficamente é proporcionar ao interessado uma visão rápida do comportamento do fenômeno, poupando
tempo e esforço na compreensão dos dados. A representação gráfica de um fenômeno deve obedecer a
certos requisitos fundamentais como: simplicidade, clareza e veracidade.
Alguns tipos de gráficos
Gráficos de colunas: São aqueles em que as variações quantitativas de uma ou mais variáveis são
representadas por colunas sucessivas, todas com bases iguais, mas com diferentes alturas, as quais são
proporcionais às freqüências das variáveis confrontadas, dispostos verticalmente.
Gráficos de barras - São semelhantes ao de colunas, onde os retângulos são dispostos horizontalmente.
Gráficos em linhas - Este gráfico representa alterações quantitativas sob a forma de uma linha oligonal
ou curva estatística, que torna mais visível o andamento do fenômeno.
Gráficos em setores - São gráficos que descrevem o fato através de setores em uma circunferência, cuja
finalidade é representar um fato juntamente com todas as partes que o mesmo se subdivide.
Gráficos de colunas múltiplas - São gráficos que permitem comparar diversas variáveis simultaneamente.
Caracteriza-se por apresentar duas ou três colunas representativas de variáveis num mesmo período de
tempo, sem espaço entre si, formando conjuntos de colunas, existindo espaço entre os conjuntos. O
objetivo é fazer comparação.
DISTRIBUIÇÃO DE FREQÜÊNCIAS
1.9 Distribuição de frequência: Distribuição de frequência constitui-se, portanto, nas repetições agrupadas
dos valores da variável. Visa facilitar o trabalho estatístico permitindo melhor compreensão dos
fenômenos. Quando se trabalha com poucos valores, os cálculos podem ser realizados diretamente, sem
maiores dificuldades.
Para variável contínua costuma-se distribuir os dados em classes ou categorias, e determinar o número
pertencente a cada uma das classes, denominando a freqüência da classe (fi).
Dados brutos: é o conjunto de dados numéricos apresentados da maneira que foram coletados.
Rol: é o arranjo dos dados brutos em ordem crescente ou decrescente.
Amplitude total (At): é a diferença entre o maior e o menor valor observado.
At = Xmax – Xmin
Número de classes (K): é a quantidade de classes necessárias para representar os dados.
Regra de Sturges : k = 1 + 3,3 log n, n é o tamanho da amostra
exemplo se n = 36 for o tamanho da amostra.
Amplitude das classes (h): é o quociente entre a amplitude total (At) e o número de classes (k), isto é:
h = At / k
Limites das classes: Li |---- Ls, Li é o limite inferior e o elemento pertence à classe.
Ls é o limite superior e o elemento não pertence à classe.
636 nk
5
* Pontos médios das classes (Xi): é a média entre o limite superior e o limite inferior da classe.
xi = (Ls + Li)/2
* Freqüência acumulada crescente (Fac) ou “abaixo de”: é a soma das freqüências dos valores inferiores
ou igual ao valor dado, isto é; Fac = fi
* Freqüência relativa (fri): é a porcentagem do valor na amostra e é dado por:
fri = fi /n; fr (%) = (fi /n)100
Gráficos - Gráfico Estatístico: é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de
produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em
estudo.
Representação Gráfica de uma Distribuição de Freqüência: Uma distribuição de freqüência pode ser
representada graficamente pelo histograma ou polígono de frequência.
Histograma: é a representação gráfica de uma distribuição de freqüência por meio de retângulos
justapostos.
Outros Gráficos para variáveis quantitativas
Ramos e folhas O ramo são formados pelos inteiros dos números e as folhas são formados pelos decimais.
Box plot – Gráfico de caixa formado por 5 números: Valor mínimo, primeiro quartil, mediana, terceiro
quartil e valor máximo.
MEDIDAS DESCRITIVAS: Medidas de posição
Introdução: As medidas de posição são denominadas de medidas de tendência central, pois
representam os fenômenos pelos seus valores médios em torno dos quais tendem a concentrarem-se os
dados.
1.10 Medidas de posição: Média aritmética; Moda; Mediana
Média Aritmética - A média aritmética de uma amostra é o conjunto de n valores x1, x2, ..., xn
representado por é definido por: n
x
n
xxxx
n
in
121
Mediana (Med) - È o valor que divide a amostra ou população em duas partes iguais.
0% 50% 100%
Med
A mediana é o valor que ocupa a posição central da amostra ordenada (crescente ou decrescente). Isto é,
divide a amostra em duas partes iguais de modo que 50% dos valores ficam à sua esquerda e 50% à sua
direita.
Ou A ordem da mediana, indicada pela letra O, será:
a) Se n for ímpar:
2
1nO e Md = X (o)
6
Exemplo: X = {3 5 5 6 7}; Md = 5.
b) Se n for par, calculam-se duas ordens: 122
21
nOe
nO e Md = [X(O1) + X(O2) ] / 2.
Exemplo: Y={ 3 5 5 6 7 7}; Md =
= 5.5
Moda (MO) - Denominamos Moda o valor que ocorre com maior freqüência em uma série de valores.
A moda é classificada da seguinte maneira:
Amodal: quando os dados não apresentam moda;
Modal: apresenta uma moda;
Bimodal: quando os dados apresentam duas modas;
Multimodal: quando os dados apresentam mais de duas modas.
A moda comparada com a média e a mediana, é a menos útil das medidas para representar os dados. A
moda é útil quando um ou dois valores, ou um grupo de valores, ocorrem com freqüência muito maior que
os outros valores.
1.11 Separatrizes - Como vimos, a mediana caracteriza uma série de valores devido a sua posição
central. Porém, ela apresenta uma característica, tão importante quanto à primeira: é que ela separa a série
em dois grupos que apresentam o mesmo número de valores.
Os Quartis, Decis e Percentis juntamente com a Mediana são conhecidas pelo nome genérico de
Separatrizes.
Quartis Denominamos Quartis os valores de uma série que a dividem em quatro partes iguais.
Q1 = 10 quartil, deixa 25% dos elementos;
Q2 = 20 quartil, coencide com a mediana,deixa 50% dos elementos;
Q3 = 30 quartil, deixa 75% dos elementos;
Decis- Denominamos Decis os valores de uma série que a dividem em 10 partes iguais.
Percentis - Denominamos Percentis os valores de uma série que a dividem em 100 partes iguais.
Forma resumida: Quartis, Decis e Percentis para dados não agrupados.
Para n ímpar - A ordem do quartil “i” (i=1, 2 ou 3) é dada por 4
)1.( ni e o valor é localizado no rol.
Para n par - O quartil será a média dos dois elementos de ordens: 4
.ni e 1
4
.
ni.
Para n ímpar - A ordem do decil “i”( i= 1, 2, ....,9) é dada por 10
)1.( ni e o valor é localizado no rol .
Para n par - O decil será a média dos dois elementos de ordens: 10
.ni e 1
10
.
ni.
0% 25% 50% 75% 100%
Q1 Q2 Q3
7
Para n ímpar- A ordem do percentil “i”( i= 1, 2, ....,99) é dada por 100
)1.( ni e o valor é localizado no rol.
Para n par- O percentil será a média dos dois elementos de ordens: 100
.ni e 1
100
.
ni.
MEDIDAS DESCRITIVAS – Medidas de Variabilidade
A sumarização de um conjunto de dados, através de uma única medida representativa de posição
central, esconde toda a informação sobre a variabilidade do conjunto de valores.
1.12 Medidas de variabilidade
Amplitude Total mede a amplitude dos dados; At = Xmax – Xmin
Variância: Considerando o nosso propósito de medir a dispersão dos valores em torno da média, é
interessante estudarmos o comportamento dos desvios de cada valor em relação à média, isto é,
xxi . Observem que, na determinação de cada desvio xxd
ii , estaremos medindo a dispersão
entre cada xi e a média x . Porém, se somarmos todos os desvios, tem-se
n
1ii
0d ou
n
1ii
0)xx( . Para contornar o problema, resolveu-se considerar o quadrado de cada desvio
2
i)xx( , evitando-se com isso que
n
1ii
0d . Assim, definiu-se a variância (populacional) como:
N
d
N
)xx(
N
N
)x(x
N
1i
2
i
N
1i
2
i
2N
iiiN
1i
2
i2
, se os dados não são agrupados.
Para a variância “amostral”, tem-se:
1n
d
1n
)xx(
1n
n
)x(
x
s
N
1i
2
i
N
1i
2
i
2N
iiiN
1i
2
i2
, se os dados não são agrupados e
Desvio-padrão: = √ para população e s = √ para a amostra.
Coeficiente de Variação - Trata-se de uma medida relativa da dispersão, útil para a comparação em termos
relativos do grau de concentração em torno da média de conjuntos de dados distintos. É dado por:
%100...
VC população e %100...
x
sVC amostra.
8
Alguns analistas consideram:
C.V. < 15% Baixa dispersão e alta representatividade da média aritmética
%30.V.C%15 Média dispersão e média representatividade da média aritmética
%30.V.C Alta dispersão e nenhuma representatividade da média aritmética
ATIVIDADE 1 – Análise exploratória de dados
1) Pesquise e escreva a definição de Estatística. Dê a referência bibliográfica.
2) Apresente um artigo (título e autores) e retire as variáveis observadas e classifique-as.
3) Variável qualitativa: Os dados são sobre resistência à ferrugem de 32 híbridos de milho, classificados
como: resistentes (R), muito resistentes (MR), muito sensível (MS), sensível (S). Construir uma tabela de
frequência simples e a frequência relativa. Construir um gráfico para representar os dados da tabela
abaixo.
Tabela 1.1- Resistência à ferrugem de 32 híbridos, localizados em Chapecó -RS
Híbridos Espécie Híbridos Espécie Híbridos Espécie Híbridos Espécie
1 R 11 R 21 MS 31 MR 2 MR 12 S 22 S 32 MS 3 MS 13 MS 23 MS 4 R 14 S 24 R 5 S 15 R 25 S 6 MS 16 MR 26 MR 7 MR 17 R 27 MS 8 S 18 MS 28 R 9 R 19 S 29 R 10 MS 20 R 30 MR
4)Variável qualitativa - Representar num gráfico para variável qualitativa pesquisada. Variável: “Quatro
espécies de formigas cortadeira”, localizadas nas dunas da praia da Joaquina, existentes numa área
delimitada 100m x 100m, coletada num determinado dia de verão – Janeiro 2008 - S.C.
Tabela 1.2- Quatro espécies de formigas cortadeira, localizadas na Joaquina, 2008- SC
Formiga Espécie Formiga Espécie Formiga Espécie Formiga Espécie
1 C 11 C 21 B 31 A
2 C 12 A 22 A 32 A
3 B 13 B 23 A 33 B
4 B 14 D 24 B 34 C
5 C 15 D 25 A 35 D
6 B 16 B 26 A 36 D
7 D 17 A 27 B 37 B
8 B 18 C 28 D 38 B
9 B 19 D 29 B 39 B
10 A 20 B 30 C 40 C
5) Variável quantitativa: Os dados abaixo representam 40 observações dos “Diâmetros de Eucaliptos
com 8 anos de idade (metros)”. Esta é uma amostra piloto de Eucaliptos da Floresta Tropical Atlântica, em
Santo Amaro da Imperatriz, SC.
9
Tabela 1.3 – “Diâmetro de Eucaliptos com 8 anos de idade”
__________________________________________
2.2 2.3 2.5 2.6 3.0 3.5 3.5 3.8 3.8 3.9
4.1 4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.4 4.4
4.6 4.9 5.0 5.0 5.3 5.8 6.0 6.0 6.0 6.0
6.0 6.5 6.9 7.1 7.2 7.7 8.3 8.5 11.3 13.8
___________________________________________
a. Apresentar a tabela de distribuição de frequência completa.
b. Construir 4 gráficos para esse tipo de variável. (Histograma, Box-plot; Diagrama de Ramos- e o folhas
e Diagrama de pontos).
c. Verifique se há dados discrepantes (outliers). Quantos outliers existem nesse conjunto de dados?
Apresentar o resumo dos cinco números.
d. Realize uma análise exploratória dos dados. – média, moda, mediana, coeficiente de variação, primeiro
quartil e terceiro quartil. Discuta assimetria e curtose desta distribuição.
e. Aplique o teste de Shapiro-Wilk para verificar a normalidade dos dados.
f. Retire os pontos discrepantes e aplique novamente o teste de Shapiro-Wilk e verifique novamente a
variabilidade dos dados e a normalidade dos dados.
g. O que ocorreu com a retirada dos outliers? Compare as estimativas dos 2 conjuntos.
6) Foram tomadas duas amostras de tamanhos iguais a 25 observações, de crescimento do pseudobulbo,
em cm, da espécie de orquídea Laelia purpurata, sob duas condições de luminosidade (com luz direta e
com luz indireta). Os dados estão apresentados na tabela abaixo:
Tabela 1.4 - Dados de crescimento do pseudobulho de Laelia purpurata - Florianópolis, SC.
1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1
Luz direta 2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2
4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz indireta 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3
4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9
8,1 8,6 10,4 12,7 16,3 16,8 16,9
a) Apresentar as medidas descritivas: M. posição e M. dispersão para Luz direta e Luz indireta
b) Construir o box-plot e os histogramas para comparar os 2 conjuntos e verifique se há outliers.
c) Construir o Diagrama de Ramo-e-folhas para Luz direta e Luz indireta.
d) O crescimento do pseudobulbo dessa espécie é melhor com luz direta ou indireta?
e) Apresente o resumo dos 5 números para Luz direta e Luz indireta
f) Aplique dois testes de Shapiro Wilk para verificar se as amostras são provenientes de uma população
com distribuição normal, com nível de significância de 5%.
10
AULA 2 - INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES
Introdução - Trata-se de uma técnica para se fazer inferência estatística, ou seja, a partir de um intervalo
de confiança, construído com os elementos amostrais, pode-se inferir sobre um parâmetro populacional.
A construção de intervalos de confiança fundamenta-se nas distribuições amostrais. Se a partir de
uma amostra procura-se obter um Intervalo de Confiança P ] =1-α com uma certa
probabilidade de conter o verdadeiro parâmetro populacional.
Quando se diz que o Intervalo de Confiança contém o verdadeiro parâmetro populacional com
uma probabilidade 1 - (nível de confiança), será o nível de significância, ou seja, o erro que está se
cometendo ao afirmar-se que, por exemplo, 95% do intervalo contém .
Esta técnica diferencia-se da estimação “por ponto” onde se calcula um único valor (estimativa)
para o parâmetro populacional.
2.1 Intervalo de Confiança para Proporção ou Probabilidade P
Quando n > 30. Vimos que, P ~ N (p; pq/n), logo .
n
)p1(p
PpZ
^^
^
Portanto, o intervalo para um
nível será: Então:
1Z
n
)p1(p
PpZP1ZZZP
2^^
^
222
Para obter o intervalo acima é necessário o valor de “p” que é desconhecido. Como estamos
admitindo n > 30 pode-se substituir e encontrar:
1n
)p1(pZp P
n
)p1(pZpP
^^
2
^^^
2
^
resumindo:
IC (P, 1-α ) = [^
p n
)p1(pz
^^
2
]
2.2 Intervalo de Confiança para a Média Populacional (Não conhece variância populacional) Neste caso, precisa-se calcular a estimativa da variância a partir da amostra. Trabalha-se então
com a distribuição “t” de Student, com n – 1 graus de liberdade, isto é:
n
s
xt
, com (- t + ); portanto: 1]
n
s.tx
n
s.tx[P
22
Valor do teste t tabelado: 2
;1(
nt tab) logo resumindo ].[),(
2 n
stxIC
11
TESTES DE HIPÓTESES PARA UMA AMOSTRA
Decisões Estatísticas - Na prática somos chamados com muita freqüência a tomar decisões acerca de
populações, baseados nas informações das amostras. Essas decisões são denominadas decisões estatísticas.
Pode-se desejar decidir, com base em dados amostrais, se um novo soro é realmente eficaz na cura de uma
doença, se um processo educacional é melhor do que outro e outras.
Hipótese Estatística - A Hipótese Estatística é uma suposição ou afirmação relativa a uma ou mais
populações, que pode ser verdadeira ou falsa.
Testes de Hipótese - Consiste em decidir se a hipótese é verdadeira ou falsa. Assim, através de uma
amostra testaremos a hipótese formulada e concluiremos se ela deve ser rejeitada ou aceita.
As Hipóteses A hipótese lançada para ser rejeitada ou aceita é chamada de hipótese nula, denotada por
Ho. A rejeição de Ho leva a aceitação de uma hipótese alternativa, representada por H1.
Erros do Tipo I e II - Se uma hipótese for rejeitada quando deveriam ser aceita, diz-se que foi cometido
um erro do Tipo I. se, por outro lado, for aceita uma hipótese que deveria ser rejeitada, diz-se que foi
cometido um erro Tipo II. Em ambos os casos ocorreram uma decisão errada ou um erro de julgamento.
Nível de Significância - Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual
estaremos dispostos a correr o risco de um erro Tipo I é denominada nível de significância do teste. Essa
probabilidade, representada frequentemente por , é geralmente especificada antes da extração de
quaisquer amostras, de modo que os resultados obtidos não influenciem a escolha. Se, por exemplo, é
escolhido um nível de significância 5%, no planejamento de um teste de hipótese, há então cerca de 5
chances em 100, da hipótese ser rejeitada, quando deveria ser aceita, isto é, há uma confiança de cerca de
95% de que se tome uma decisão acertada.
Tipos de Testes de Hipóteses
2.3 Teste para a Média (conhece 2 )
0 (a)
(1a) Formulação das hipóteses
Ho: = 0 vs H1:
2a) Nível de significância - Normalmente adota-se um valor de entre 1% a 10%.
Estabelecer os valores críticos – Tabela Normal padrão
> 0 (b)
< 0 (c)
1 -
Z
1 -
/2
/2
1 -
-Z/2 Z/2 -Z
(a) (b) ( c )
12
3a) Cálculo da estatística teste
n).x 0(
Z
4a) Conclusão: Se a)
22
ZZZ cal Nao rejeita Ho
b) Se ZZ cal Rejeita-se Ho
c) Se ZZ cal Rejeita-se Ho.
2.4 Teste para a Média (Não conhece 2 )
1a) Formulação das hipóteses
Ho: = 0 vs H1:
2a) Nível de significância - Estabelecer os valores críticos
Variável “t” tabelada: Teste bilateral:
2
t
(n – 1;2
) e Teste Unilateral: t(n – 1; )
3a) Cálculo da estatística teste
s
nxt 0
cal
4a) Conclusão: a) Se
22
ttt cal não rejeita-se Ho
b) Se ttcal Rejeita-se Ho
c) Se ttcal Rejeita-se Ho.
0 (a)
> 0 (b)
< 0 (c)
1 -
(b)
1 -
/2
/2
1 -
- t
(a) (c)
= média amostral
= valor da hipótese nula
s = desvio-padrão amostral
n = tamanho da amostra
13
Abordagem p-valor (ou probabilidade de significância): é a informação sobre a força da evidência
contra Ho obtida a partir dos dados. Isto é, é informado se o valor observado para a estatística de teste que levou à rejeição de Ho está próxima da fronteira da região crítica (RC) (baixa evidência contra H0) ou se está muito afastada da fronteira (alta evidência contra Ho).
Regra: Na prática, rejeita-se H0 quando o p-valor é menor que o nível de significância, que representa a
probabilidade de rejeição indevida da hipótese nula.
Regra habitual: P > , nao rejeita H0
P ≤ , rejeita-se H0.
ATIVIDADE 2 – Intervalos de Confiança e Teste de Hipóteses para 1 amostra
1) Coletou-se uma amostra de 35 peixes de espécie Xenomelaniris brasiliensis, na localidade praia da
Barra da lagoa de SC, a qual apresentou 14 de peixes com comprimento total acima de 50 milímetros.
Construir um Intervalo de 90% de confiança para verdadeira proporção de peixes dessa espécie com
comprimento acima de 50 mm. Refaça com nível de confiança de 99%. O que ocorreu com os intervalos
quando diminuímos o nível de significância? O valor n=35 peixes, é um bom tamanho de amostra?
Dimensione a amostra para um erro amostral máximo de 0.05 e 0.15. Comente os resultados do
dimensionamento da amostra.
2) Para estudar a proporção de plantas com uma virose em um pomar de produção de sementes, em uma
amostra com 800 plantas foi tomada e todas as plantas foram submetidas ao teste Elisa. Verificou-se que 5
delas estavam infectadas. Obter o intervalo 95% de confiança para a proporção de plantas viróticas do
pomar de produção de sementes.
3) Um experimentador interessado em determinar a espessura média do córtex de um ouriço do mar,
empregou o procedimento experimental desenvolvido por Sakai. A espessura do córtex do ovo foi medida
em 10 ovos de ouriços, obtendo-se os seguintes resultados:
OM = [ 4.5, 5.2, 6.1, 2.6, 3.2, 3.7, 3.9, 4.6, 4.7, 4.1]. Determine os itens abaixo.
a- Estime a espessura média do córtex do ovo de um ouriço.
b- Estime a espessura média do córtex do ovo de um ouriço, utilizando um intervalo de 95% de confiança
para a espessura média dos dados. c- O que ocorre com o intervalo de confiança de aumentarmos o nível
de confiança para 99% ou 97,5%? Qual sua opinião?
4) Construir o intervalo de 95% de confiança para a média do tempo de vida
de um determinado inseto. Uma amostra de 40 insetos foi acompanhada até a morte e o tempo de vida de
cada um deles foi registrado. Os dados amostrais seguem abaixo:
Tabela 2.1 – Tempo de vida dos insetos (em dias)
8.5209 4.1871 2.5163 1.9133 8.7796 5.9117 0.7608 12.0372 2.6035 1.6889
5.6255 6.3604 5.0679 3.0310 1.1281 1.3850 12.5783 2.0292 0.5953 0.4451
3.6014 7.8288 1.3829 1.9344 0.8642 8.5144 4.9774 0.5759 1.5033 0.4750
1.0414 0.3009 1.7809 2.5638 5.3587 2.3066 1.5298 8.1052 3.1507 8.6276
_____________________________________________________________________________
Construir o I.C. para a verdadeira média, adotando o nível de significância de 2%.
5) A área foliar média da espécie Laguncularia rancemosa do manguezal do bairro Santa Monica, (não
poluído) é de 50.76 cm2 com a variância conhecida igual a 16cm
4 . Espera-se que a área foliar do
manguezal do bairro do Itacorubi seja maior devido à poluição do ambiente. Para verificar se essa
afirmação é verdadeira coletou-se uma amostra de tamanho n=20 folhas, do manguezal do Itacorubi, cujos
resultados foram:
14
AF= {39.4, 39.6, 39.9, 45.6, 45.6, 46.1, 46.1, 50.2, 50.2, 51.0, 51.2, 54.6, 54.8, 54.6, 55.1, 55.1, 55.5,
56.2, 66.3, 66.5}.
Esses resultados trazem evidências estatísticas de que houve aumento da área foliar? Adote nível de
significância 5% e assumir o desvio padrão populacional conhecido.
6) Teste p/ media (t) – Com os dados do exercício n.5 (tabela 2.1), considere que a distribuição do tempo
de vida dos insetos seja desconhecida. Testar a hipótese de que os insetos criados em laboratório vivem
menos em média que aqueles que em seu habitat natural, que possuem tempo de vida médio de 4,5 dias.
Adote o nível de significância de 5%.
AULA 3 - TESTE DE HIPÓTESE PARA DUAS AMOSTRAS
Comparação de 2 médias – Caso com 2 amostras
3.1 Teste t para duas amostras independentes - (Variâncias iguais)
A formação de pares de elementos similares nem sempre é viável. Uma alternativa é considerar
duas amostras independentes. O teste para duas amostras independentes, oriundas de 2 populações com
distribuição normal, com médias ( 21 ) e com variâncias (2
2
2
1 e ) desconhecidas e iguais.
Suposição básica: As observações são independentes;
Os dois grupos provêm de distribuições normais;
Os dois grupos possuem a mesma variância.
1a) Hipóteses : H0: 21 vs H1: 21 ; H1: 21 ou H1: 21
2a ) Nível de significância
Valores críticos: bilateral t (n1+ n2 -2; 2
) e unilateral t (n1 +n2 -2 ; )
3a) Estatística teste tcalc =
)(
21
21
)(
xxs
xx
onde o estimador do desvio padrão da diferença entre as médias
amostrais é dada:
2121
2
22
2
11
)21(
11
2
)1()1(
nnnn
SnSnS
xx
n1: número observado na amostra 1; n2: número observado na amostra2 2
2
2
1 SeS as variâncias amostrais.
4a) Conclusão: A hipótese nula (H0: 21 ) é rejeitada quando tcalc, o valor da estatística t, em valor
absoluto fica: Região crítica para teste unilateral: RC = {t ϵ R| calct > t }
Região crítica para teste bilateral: RC = {t ϵ R| tcalc <
2
t ou tcalc >+
2
t }.
3.2 Teste t para duas amostras pareadas - O teste t é apropriado para comparar 2 conjuntos de dados
quantitativos, em termos de seus valores médios.
15
1a) Hipóteses : H0: 21 vs H1: 21 ; H1: 21 H1: 21
H0: 0D vs H1: 0:H0:H;0 11 DDD
1 - valor esperado da resposta do tratamento 1
2 - valor esperado da resposta do tratamento 2
2a ) Nível de significância - Valores críticos: bilateral t (n-1;
2
) e unilateral t (n-1; )
3a ) Estatística teste tcalc =
ds
nd onde n: tamanho da amostra;
d : média das diferenças e sd: desvio padrão das diferenças.
4a) Conclusão: Região crítica para teste bilateral: RC = {t ϵ R| tcalc <
2
t ou tcalc >+
2
t }.
Região crítica para teste unilateral: RC = {t ϵ R| calct > t }
Teste F para comparação de duas variâncias populacionais - Comparação de 2 variâncias
Suponha que queremos comparar duas populações, supostamente com distribuições normais, têm
a mesma variância. Formulam-se as hipóteses:
1a ) Ho:
2
2
2
1 vs H1: 2
2
2
1 (teste bilateral ) ou
H1: 2
2
2
11
2
2
2
1 :H ; (teste unilateral)
onde :2
1 variância da população 1
2populaçãodaiânciavar:2
2 .
20 ) Nível de significância α e com n1 graus de liberdade no numerador e n2-1 g.l. no denominador.
Região crítica: Bilateral: Fsup (2
; gl1= n1 -1; gl2= n2 -1) e
Finf (1-2
; gl1= n1 -1; gl2= n2 -1) = Finf = )1;2(
1
)2
(glglF
Unilateral à esquerda: F inf [(1- ); (gl1; gl2)] = );(
1
12)( glglF
Unilateral à direita: Fsup [ ; (gl1; gl2)]
30) Estatística teste: f calc =
2
2
2
1
s
s onde si
2 são as variâncias na condição
2
1s > 2
2s .
40) Conclusão: Rejeita-se Ho: Teste bilateral, fcalc < F [(1-
2
); (gl1; gl2)] e fcalc > F [)
2( ; (gl1; gl2)]
Teste unilateral à esquerda: fcalc < F [(1- ) (gl1; gl2)]
Teste unilateral à direita: fcalc > F[ (gl1; gl2)]
16
ATIVIDADE 3 – Teste de Hipótese para 2 amostras
1) Foi realizado um experimento com o objetivo de comparar os tempos gastos, em minutos, na manobra
com os arados Fuçador e Erechim. Ambos arados são de tração animal. Os dados obtidos com 11
repetições para cada arado estão na tabela abaixo.
Tabela 3.1 – Tempo gastos (minutos) na manobra com os arados.
Fuçador 0.2 0.22 0.18 0.23 0.12 0.2 0.13 0.12 0.13 0.22 0.17
Erechim 0.36 0.48 0.33 0.43 0.4 0.43 0.33 0.36 0.35 0.4 0.35
a.Testar se a média do tempo gasto com arado Fuçador é menor que o tempo gasto com Erechim, com
nível de significância de 5%. b.Verificar os pressupostos de normalidade e homocedasticidade das
variâncias.
2) Um estudo para verificar a especificidade do fungo Gigaspora gigatea com as plantas Spartina sp e
Tibouchina sp. Foram coletadas 15 amostras de solos em volta, da Spartina sp e 15 amostras Tibouchina
sp. Foram observadas as quantidades de fungos presentes. Os resultados foram:
Tabela 3.2 - Quantidade de fungos presente nas duas espécies de plantas
Plantas Spartina sp Plantas Tibouchina sp.
20,12,18,13,15,12,11,16,15,16,11,
15,18,20,12
10,15,12,12,13,15,16,14,14,11,9,
11,15,12,13
a) Verifique os pressupostos para o teste paramétrico, utilizando nível de significância 5%.
b) Os dados tem evidência suficiente para indicar uma diferença entre as quantidades médias de fungos
(Gigaspora gigantea) encontrada em plantas de Spatina sp e Tibouchina sp?
c) Qual a formatação das hipóteses? d) Determine o p-valor.
3) Foi conduzido um experimento para estudar o conteúdo de hemoglobina no sangue de suínos com
deficiência de niacina. Aplicaram-se 20 mg de niacina em oito suínos. Pode-se afirmar que o conteúdo de
hemoglobina no sangue diminui com a aplicação, ao nível de significância de 5%? Construir o Intervalo
de confiança para a verdadeira redução no teor médio da hemoglobina. Os níveis de hemoglobina foram
mensurados antes e depois da aplicação da niacina. Os resultados obtidos estão na tabela dos baixo:
Tabela 3.3 – Níveis de hemoglobina no sangue de suínos
Antes 13,6 13,6 14,7 12,1 12,3 13,2 11 12,4
Depois 11,4 12,5 14,6 13 11,7 10,3 9,8 10,4
Determine o p-valor na tabela t de Student.
4) Deseja-se testar a hipótese de a possibilidade da quantidade de proteínas totais no plasma, depois de
determinada operação em portadores de esquistossomose mansônica, ser diferente da quantidade antes da
operação. Foi utilizada 17 pacientes, cujos resultados foram:
Tabela 3.4 – Quantidade de proteínas totais no plasma após cirurgia.
Antes 6.9 7.8 6.6 5.9 7.8 6.4 8.8 7.3 8.0 8.6
Depois 6.9 8.6 8.7 7.3 7.8 8.2 9.3 7.3 7.6 7.8
Antes 7.7 7.9 8.7 5.8 9.2 9.3 8.9
Depois 7.6 7.8 8.1 6.8 8.3 10.2 9.1
Verifique os pressupostos de normalidade para realizar um teste paramétrico, utilizando nível de
significância 5% e testar se há diferença significativa entre os dois momentos.
17
AULA 4 - ESTATÍSTICA NÃO PARAMÉTRICA
Nas pesquisas científicas vimos que são muitos usados o teste t de Student, a análise de variância,
o teste de Tukey, a regressão linear, etc. Tais testes exigem, para sua aplicação que a variável em análise
seja numérica e as hipóteses sejam feitas sobre os parâmetros, daí o nome: testes paramétricos. Mas, os
testes paramétricos têm ainda outras exigências.
Os testes paramétricos exigem que os dados tenham uma distribuição normal ou aproximadamente
normal, que seja simétrica, além da pressuposição de homogeneidade de variâncias (homocedasticidade),
O problema existe quando estas exigências não são satisfeitas e as amostras são pequenas. Os
testes não paramétricos são menos exigentes não exigindo normalidade dos dados. Pode-se trabalhar com
variáveis não numéricas, assim como, pode-se trabalhar com os postos ocupados pelas variáveis ou com
suas frequências.
Analisados os aspectos levantados anteriormente fazemos a opção pela aplicação de testes
paramétricos (mais fortes e robustos) ou testes não paramétrico quando certas condições não são
satisfeitas tais como:
As observações não serem independentes
As observações forem extraídas de populações que não possuem uma aproximação com a
distribuição normal.
As populações não possuem variâncias semelhantes (homocedasticidade) e não
apresentam uma relação conhecida entre elas.
As variáveis em estudo não apresentam medidas intervalar de modo a não possibilitar o
emprego de estatísticas como o cálculo de médias e de desvios (parâmetros).
TESTES NÃO PARAMÉTRICOS - CASOS DE DUAS AMOSTRAS INDEPENDENTES
4.1 Teste Qui-quadrado
O teste 2 serve para testar a hipótese de que duas variáveis categóricas independentes ou, o que
matematicamente é o mesmo, testar a hipótese de que duas probabilidades são iguais. Atenção nas
exigências:
1. Independência dos grupos em comparação: os dois grupos em comparação devem ser
independentes como, por exemplo, um grupo controle e outro experimental, ou um grupo é
constituído por portadores de uma doença e outro por não-portadores.
2. Tamanho da amostra: a amostra deve ser de tamanho igual ou maior do que 20. Se a
amostra for menor que 40, as freqüências esperadas devem ser maiores que 5.
ETAPAS
1a) Elaboração das hipóteses estatísticas
H0: As variáveis são independentes
H1: As variáveis não são independentes. (As variáveis apresentam algum grau de associação entre si).
2a) Estabelecer o nível de significância . Neste caso, a variável teste a ser adotada será a “
2 ” com
[(h – 1)(k –1 )] graus de liberdade. A região crítica é unilateral.
3a) Cálculo da variável teste
Calcular as freqüências esperadas (Fehk) e avaliá-las, caso existam eventos que não satisfaçam à
condição Fe 5, estes devem ser unidos aos eventos adjacentes.
F011 Fe11 = n
xCL 11 F012 Fe12 = n
xCL 21 ....
18
F032 Fe32 = n
xCL 23 F0hk Fe hk = n
xCL kh
Estatística de teste para um teste de independência
h
i
k
j ij
ijij
calFe
FeFo
1 1
2
2)(
hk
hkhk
Fe
FeFo
Fe
FeFo 2
11
2
1111 )(...
)(
4a) Conclusão: Se 22
calRejeita-se H0 ao nível de significância e conclui-se que as
variáveis são dependentes.
Condições para o Uso do teste Qui-Quadrado:
Utilizar quando n >20. Caso contrário optar pelo exato de Fisher.
Se 20< n <40, aplica o teste somente se todas frequências esperadas são maiores que 5.
Muitos estatísticos recomendam calcular o valor de 2 com correção de continuidade quando o
grau de liberdade for igual a 1. A distribuição empírica do 2 calculado não se aproxima da
distribuição teórica. A estatística conhecida como 2 corrigido de Yates em honra ao estatístico
que a propôs, Frank Yates, é dada por:
Fe
FeFo 2
2)5,0(
A correção de continuidade produz um teste mais conservador, isto é, um teste que tem menor
probabilidade de rejeitar a hipótese de nulidade. Se a amostra é pequena, o efeito da correção de
continuidade é ainda maior.
O Coeficiente de Contingência - Quando a hipótese nula é rejeitada, conclui-se que as variáveis
são dependentes e apresentam algum grau de associação que pode ser medida pelo coeficiente de
contingência de Pearson (C), que é dado pela fórmula:
%100.n
C2
cal
2
cal
.
O Coeficiente de Contingência (C) possui intervalo de variação de: 0 ≤ C ≤ 1, que é interpretado
da seguinte forma:
- quanto mais próximo de “1” estiver o valor de C maior será o grau de dependência entre as variáveis.
- quanto mais próximo de “0” estiver o valor de C menor será o grau de dependência entre as variáveis.
Teste Qui-quadrado para Homogeneidade - O teste de homogeneidade testa a afirmativa de que
populações diferentes têm a mesma proporção de alguma característica em estudo. Nas pesquisas, algumas
amostras são retiradas de populações diferentes, e para determinar se essas populações têm a mesma
proporção da característica em consideração, aplica o teste de homogeneidade. A palavra homogêneo
significa “tendo a mesma qualidade”, e neste contexto, testa-se se as proporções são as mesmas.
ETAPAS
1a) Elaboração das hipóteses estatísticas: H0: As variáveis são homogêneas
H1: As variáveis não são homogêneas
Os requisitos, a estatística teste, o valor crítico têm o mesmo procedimento que o teste de independência
com exceção das hipóteses.
19
4.2 Teste de Mann-Whitney – CASO DE DUAS AMOSTRAS INDEPENDENTES
O teste de Mann-Whitney é utilizado para testar a hipótese de que a posição central de duas
populações são iguais. Esse teste é, portanto, uma alternativa para o teste t no caso de amostras
independentes. Mas só deve aplicar o teste de Mann-Whitney se sua amostra for pequena e/ou as
pressuposições exigidas pelo teste t estiverem seriamente comprometidas.
Procedimento:
a) Considerar n1:o número de casos do grupo com menor observações
n2: o número de casos do grupo com maior observações.
b) Considere todos os dados dos dois grupos e coloque-os em ordem crescente. Atribua o valor dos
postos, primeiro ao escore que algebricamente for menor e prossiga até N = n1 + n2. Às observações
empatadas atribuir à média dos postos correspondentes.
c) Calcular: R1 = soma dos postos do grupo n1. R2 = soma dos postos do grupo n2.
d) Calcular a estatística teste
ETAPAS:
1a ) Elaboração das hipóteses estatísticas: H0: A mediana das duas populações são iguais
H1: A mediana das duas populações diferem entre si.
2a ) Estabelecer o nível de significância .
Para grandes amostras (n1 >10 e n2 >10, segundo Sidney Siegel; 2006)
Quando H0 é verdadeira, os valores de Z calculado têm distribuição assintoticamente normal com média
zero e variância um. Com auxílio da tabela normal padrão determina-se as regiões críticas.
3a ) Cálculo da estatística teste. Utilize o menor valor de U;
4a ) Conclusão: a) Se
22
ZZZ cal não rejeita H0
b) Se ZZ cal Rejeita-se H0
c) Se ZZ cal Rejeita-se H0.
4.3 Teste de Wilcoxon - CASO DE DUAS AMOSTRAS RELACIONADAS
O teste dos postos de Wilcoxon deve ser aplicado aos dados pareados. Este teste é, portanto, uma
alternativa ao teste t de Student no caso de amostras dependentes, mas só deve ser aplicado quando as
pressuposições exigidas pelo teste t estiverem seriamente comprometidas (as diferenças provenham de
distribuição normal).
Procedimento:
a) Determinar para cada par a diferença (di) entre os dois escores.
b) Atribuir postos (colocar em ordem crescente) todos os “di”s, desconsiderando-se os sinais.
c) Identificar cada posto pelo sinal “+” ou “-” do “di” que ele representa.
d) Definir a estatística T = menor das somas de postos de mesmo sinal.
T+: soma dos postos dos di’s positivos e T-: soma dos postos dos di’s negativos.
A soma dos postos é igual a n(n+1) /2.
e) Abater do “n” o número de zeros, isto é, di = 0.
2
)1(
2
)1(22
22
11
11
nnRUou
nnRU
;)(
)(
u
uUZcal
12
)1(.)(
2
.)( 212121
nnnn
uenn
u
20
ETAPAS - para grandes amostras (n > 15 segundo Sidney Siegel, 2006)
1a ) Elaboração das hipóteses estatísticas
H0: A mediana das duas populações são iguais
H1: A mediana das duas populações diferem entre si.
2a ) Estabelecer o nível de significância .
Para grandes amostras - Quando H0 é verdadeira, os valores de Z calculado têm distribuição
assintoticamente normal com média zero e variância um. Com auxílio da tabela normal padrão,
determina-se as regiões críticas.
3a ) Estatistica teste: T = Soma das diferenças dos postos positivos
4a ) Conclusão: regra habitual da tabela normal padrão
Empates - 10 tipo - Caso os dois escores de algum par são iguais, di = 0 (não houve diferença entre dois
tratamentos), tais pares são retirados da análise e o tamanho n da amostra é reduzido.
20 tipo - Dois ou mais di’s podem ser de mesma magnitude. Atribui-se o empate no mesmo posto. O novo
posto será a média dos postos que teriam sido atribuídos se os di’s tivessem diferido.
Considere esse procedimento para o caso sem empates. O valor crítico Q( α; k ) são encontrados na tabela
da distribuição Q para testes de comparações múltiplas não paramétricas.
ATIVIDADE 4 – Teste de Hipótese Não Paramétrico
1) Os dados da tabela abaixo representam contagens de sobrevivência de enxertos de ameixeiras,
provenientes de um experimento para comparar duas épocas de plantio: na primavera e fora da primavera.
Para cada época foram transplantados 480 enxertos e foi avaliado o número de enxertos sobreviventes
após 30 dias. (Andrade; 2007)
Tabela 4.1 - Distribuição das frequências da variável época de plantio
e sobrevivência de enxertos de ameixeiras
Èpocas Raízes
Sobreviventes Mortas
Fora da Primavera 263 217 480
Na Primavera 115 365 480
TOTAL 378 582 960
a) Testar se existe diferença significativa entre as proporções de raízes sobreviventes nas duas épocas de
plantio, ao nível de significância de 5%.
b) Aplique a correção de Yates; c) Discuta a conclusão prática.
2) Os resultados de um experimento para avaliar o efeito do petróleo sobre parasitas de peixes foram
descritos no artigo “Effects of Crude Oils the Gastrointestinal Paraisites of Two Species of Marine Fish”
(J. Wildlife Diseases 1983- p.253-258). As três amostras comparadas foram (1) sem contaminação (2)
contaminação por óleo derramado há 1 ano e (3) contaminação por óleo novo. Para cada condição nas
amostras, o peixe foi classificado como tendo o parasita ou não. Os dados indicam que nas três amostras
diferem em relação à proporção real de peixe com e sem parasitas? Adote o nível de significância de 1%.
T
Tcal
TZ
4
)1n(nT
24
)1n2)(1n(nT
21
Tabela 4.2 – Avaliação do efeito do petróleo sobre parasitas de peixes
Contaminação Doença
Parasitado não paras
Total
Controle 30 3 33
Óleo antigo 16 8 24
Óleo novo 16 16 32
62 27 89
a) Realize o Teste Qui-quadrado de proporção com nível de significância de 5%.
b) Calcule o Coeficiente de Contingência.
3) No processo de produção de papel, a degradação de lignina (enzima) é um aspecto fundamental, e
precisa ser feito rapidamente, exigindo a utilização do cloro, danoso ao meio ambiente. Em pesquisas
avaliaram a viabilidade de degradação da lignina através da ação dos fungos, em bio-reatores, para
preservação do meio ambiente. Logo testaram duas espécies de fungo, medindo o tempo de degradação
num pequeno cubo de madeira de eucalipto. A espécie 1 deve degradar a lignina em menos tempo. Testar
se a espécie 1 é mais rápida que a espécie 2, com nível de significância 5%..
Tabela 4.3 – Tempo de degradação realizada por duas espécies de fungos. UEL / 2010
Espécie 1 Espécie 2
6.5 11 16 13.5 51.5 22.5 17.5 16
13 16.5 28.5 6 46.5 32 5.5 14
7 10 6 7.5 15.5 38.5 36.5 46
17.5 10.5 14.5 15 17 13 19 34.5
16 4 10.5 27.5 20 59.5 14.5 20.5
5.5 8.5 37 25 e 19 12 66 29.5 59 e 19
4) Explorando dois conjuntos de dados - Os dados da tabela abaixo são relativos à variação de luz no
crescimento das plantas medidas através da área foliar específica após 60 dias, da espécie Cecropia
glazioui, em amostras situadas em borda de mata e mata fechada, com intensidade de luz média de 10,6%
e 0,87%, respectivamente. A espécie C. glazioui é uma planta pioneira, heliófita, pereniifólia, seletiva
higrófila, ocorrendo preferencialmente em capoeiras e capoeirões de derrubadas recentes.
Tabela 4.4 – Área foliar de Cecropia glazioui localizadas na borda da mata e mata fechada
Borda da mata Mata fechada
0,2145 0,3458 0,3796 0,4125 0,4657 0,5521 0,6780 0,7126 0,7894 0,8564
0,2540 0,3482 0,3815 0,4142 0,4670 0,5841 0,6842 0,7154 0,7912 0,8654
0,2592 0,3487 0,3874 0,4182 0,4823 0,6284 0,6898 0,7179 0,8023 0,8665
0,2891 0,3490 0,3924 0,4326 0,4862 0,6357 0,6945 0,7256 0,8046 0,9214
0,2971 0,3547 0,3931 0,4358 0,4921 0,6489 0,6950 0,7321 0,8451 0,9421
0,3013 0,3574 0,3971 0,4573 0,5010 0,6570 0,6970 0,7783 0,8467 0,9573
0,3279 0,3648 0,4015 0,4582 0,5231 0,6704 0,7125 0,7884 0,8468 0,9689
a)Construa um gráficos (2 boxplots) gráfico de caixa para comparar o crescimento da área foliar em
relação à posição da mata.
b) Os pressupostos para realizar um teste paramétrico foram confirmadas?
c) Testar a hipótese, com os dados amostrais, para verificar se há evidência que o crescimento médio da
planta na borda da mata é menor que da mata fechada com nível de significância 10%.
22
5) O Prof. Marcos A. Dornelles (Faculdade de Farmácia, UFRGS) mediu a colinesterase em agricultores
gaúchos que aplicaram inseticidas em plantas de interesse comercial. Foram feitas duas coletas de sangue
em cada indivíduo: uma antes da aplicação da droga e outra 24 horas depois da aplicação. Os resultados
obtidos estão na tabela abaixo e considere que os pressupostos foram atendidos. O que pode ser afirmado
quanto ao efeito da exposição ao inseticida sobre o nível de colinesterase no sangue desses indivíduos,
com nível de significância de 5%? (Callegari-Jacques, 2003)
Tabela 4.5 - Colinesterase total (umol /ml de plasma) em 17 agricultores: dosagens antes e depois uma
sessão de aplicação de inseticida em plantas. Ind 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
A 8,3 6,7 7,8 9,3 6,5 10,5 6,9 7,5 6,6 6,7 7,5 7,4 8,1 8,8 7,6 9,4 7,2
D 6,84 5,98 7,1 8,38 6,07 10,22 5,87 7,28 6,15 6,26 7,46 7,69 7,95 9,15 7,56 9,07 6,78
Fonte: Marcos A. Dornelles (Fac. Farmácia, UFRGS)
6) Teste de Wilcoxon (Grandes amostras)
Para examinar os efeitos da transição da circulação fetal para o pós-natal entre bebês prematuros, para
cada um dos 14 recém-nascidos saudáveis, a taxa respiratória (minutos) foi medida em dois diferentes
momentos – no primeiro momento quando o bebê tinha menos de 15 dias e o segundo momento quando
tinha mais de 25 dias.
Tabela 4.6- Taxa respiratória (minutos) para avaliar os efeitos da transição da circulação fetal Ind 1 2 3 4 5 6 7 8 9 10 11 12 13 14
M1 62 35 38 80 48 48 68 26 48 27 43 67 52 88
M2 46 42 40 42 36 46 45 40 42 40 46 31 44 48
Testar a hipótese nula de que a diferença mediana nas taxas respiratórias não diferem entre os dois
momentos. Adote o nível de significância de 5%.
AULA 5 - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
A teoria de Regressão teve origem no século XIX com Glaton. Em um de seus trabalhos,
estudou a relação entre a altura dos pais e dos filhos (Xi , Yi), procurando saber como a altura do pai
influenciava a altura do filho. Notou que se o pai fosse muito alto ou muito baixo, o filho teria uma
altura tendendo à média.
Em geral, suponha que haja uma única variável dependente, ou resposta, Y que depende de k
variáveis independentes ou regressora, denominadas X1, X2, ......Xk. A relação entre essas variáveis é
caracterizada por um modelo matemático chamado de equação de regressão. O modelo de regressão é
ajustado a um conjunto de dados amostrais. Em algumas situações, o pesquisador escolhe uma função
apropriada para aproximar f.
5.1 Modelo de Regressão Linear Simples
Na regressão linear objetiva-se determinar relação entre uma única variável regressora X e uma
variável resposta Y. Pode-se assumir que a variável regressora X seja contínua e controlada pelo
pesquisador. Caso o experimento seja planejado, escolhem-se os valores de X e observam-se os
valores correspondentes de Y.
Suponha que a verdadeira relação entre Y e X seja uma linha reta e que a observação Y para cada
nível de X seja uma variável aleatória. O valor esperado de Y para cada valor de X é:
23
E(Y\X) = X10 .
Em que os parâmetros 10 e são constantes desconhecidas. Assume-se que cada observação Y pode
ser escrita pelo modelo Y = eX 10
Sendo (ej) o erro aletório com média zero e variância 2 , o erro ej ~ (0,
2 ). Os erros são variáveis
aleatórias não correlacionadas.
O modelo de regressão envolve somente uma variável regressora X e, por isso, é chamado “Modelo de
Regressão Linear Simples”, dado a estimativa dos parâmetros.
n
XX
n
YXYX
n
jjn
jj
n
jj
n
jjn
jjj
1
2
1
2
11
1
1
)(
Os estimadores 10ˆˆ e são os estimadores de mínimos quadrados do intercepto e inclinação,
respectivamente. O modelo de regressão linear simples ajustado é:
jXY 1
^
0
^^
que dá uma estimativa pontual da média de Y para cada valor de X. O denominador é a soma de
quadrados corrigida de Xj e o numerador é a soma dos produtos de Xj e Yj corrigida, que podem ser
escritas de uma forma mais simples:
xxSn
X
X
n
j
jn
j
j
1
2
1
2
)(
n
j
jj XX1
2)(
xySn
YX
YX
n
j
n
j
jjn
j
jj
1 1
1
.
n
j
jjj XXY1
)( assim,
5.2 Coeficiente de Correlação Linear de Pearson-
Tem por objetivo medir o grau de associação entre duas variáveis. O instrumento empregado para
a medida da correlação linear de Pearson, representado pela letra r, e é obtido por:
n
YYSonde
SS
S
n
YY
n
XX
n
YXXY
r YY
YYXX
XY
2
2
2
2
2
2
O Coeficiente de correlação é um número sem dimensão (adimensional) cujo valor se situa entre
(-1; +1). Quando X e Y variam no mesmo sentido, diz-se que a correlação é positiva, assim, o coeficiente
de correlação tem sinal positiva. Quando X e Y variam em sentido contrário, diz-se que a correlação é
negativa, assim, o coeficiente de correlação tem sinal negativo, ou seja,
Se r = 1, a correlação é positiva perfeita;
Se r = -1, a correlação é negativa perfeita;
Se r = 0, a correlação é nula.
24
O sinal da correlação indica qual tendência da variação conjunta das duas variáveis consideradas,
entretanto, deve-se considerar também a intensidade ou o grau de correlação.
5.3 Teste de hipóteses para Correlação - Testar a hipótese que o coeficiente de correlação seja igual a
zero, Ho = 0 H1 = 0
o teste estatístico apropriado para esta hipótese é dada por: 20
1
2
r
nrt
, que
segue uma distribuição t com (n-2) graus de liberdade, se H0 for verdadeira. Assim rejeita-se a hipótese
nula se 0t > )2(;
2n
t
5.4 Estimação de 2 - A diferença entre o valor observado Yj e o correspondente valor ajustado jY é
denominado RESÍDUO. O j-ésimo resíduo é definido por: ej = )ˆˆ(ˆ10 jjjj XYYY
j = 1,2,......,n.
Os resíduos tem papel importante na verificação do ajuste do modelo e nas suposições que são realizadas.
Variância Residual da Amostra - Além de estimar 10 e , uma estimativa de 2 é necessária para
testar a hipóteses e construir intervalos de confiança pertinentes ao modelo de regressão. Esta estimativa
pode ser obtida dos resíduos ej = jj YY ˆ . A soma de quadrado dos resíduos é dada por:
SQRes = 2
1
)ˆ( jj
n
j
j YYe
. Após o desenvolvimento matemático
xyyy SSsSQ 1ˆRe .
A soma de quadrados dos resíduos tem (n-2) graus de liberdade, pois dois graus de liberdade são
associados com as estimativas 10ˆˆ e
envolvidas na estimação de jY . O valor esperado da SQRes é
E(SQRes) = (n-2). 2 , de forma que um estimador não viesado de
2 é:
5.5 Testando Hipóteses na Regressão Linear Simples - Para testar hipóteses sobre o intercepto ( )0 e o
coeficiente angular )( 1 do modelo de regressão, deve-se fazer a suposição de que os (ej) são
normalmente distribuídos, ou seja, assume-se que os erros ej ~ NID (0, 2 ).
Teste para o coeficiente angular - Para se testar a hipótese de que o coeficiente angular é igual a um
valor constante, por exemplo, 0,1 . As hipóteses apropriadas são:
H0: 1 = 0,1 vs H1: 1 0,1 em que se especificou uma hipótese alternativa bilateral.
xxSsQMt
/Re
ˆ0,11
1
segue uma distribuição t com (n-2) graus de liberdade sob H0: 1 = 0,1 . A
estatística t1 é usada para testar H0 comparando-se o valor observado de t1 com o valor tabelado da
distribuição t: )2(;
2n
t . A hipótese nula será rejeitada se 1t > )2(;
2n
t .
25
Teste para o coeficiente linear - Um procedimento similar pose ser usado para testar a hipótese sobre o
intercepto. Para testar: H0 : 0 = 0,0 vs H1: 0 0,0 , usa-se a estatística teste:
)1
(Re
ˆ
2
0,00
0
xxS
x
nsQM
t
e rejeita-se a hipótese nula se 0t > )2(;
2n
t . Um caso especial é testar: H0: 1 = 0 vs H1: 1 0., cuja a
hipótese esta relacionada com a significância da regressão. Se H0: 1 = 0 não for rejeitada, isto implica
que não há uma relação linear entre X e Y; logo o melhor estimador de Yj para qualquer valor de Xj é
YY j ˆ .
5.6 Análise de Variância na Regressão - A determinação da equação de regressão deve ser precedida de
uma análise de variância, a fim de comprovar estatisticamente, se os dados apresentam a suposta relação
linear entre as variáveis X e Y. Hipóteses a serem testadas pela análise de variância na regressão:
1a) Hipóteses levantadas: H0: 1 = 0 (não existe a regressão) vs H1: 1 0 ( existe a regressão)
2a) Valor crítico: F[ (1;n-2) ;
]
3a) Estatística teste F
Quadro da Análise de Variância na Regressão
Causade
Variação (CV)
Graus de
Liberdade (GL)
Soma de
Quadrados (SQ)
Quadrado Médio
(QM) Fcalculado Ftabelado
Regressão 1 SQRegressão QMRegressão Resíduo
Regressão
QM
QM F[1;n-2;
]
Resíduo (n-2) SQResíduo QMResíduo
Total (n-1) SQTotal
4a) Conclusão: se Fcalc Ftab rejeita-se H0 ao nível de significância adotado, e conclui-se que existe a
Regressão ou existe a relação linear entre as variáveis.
Como SQTotal = SQReg + SQRes
SQTotal = Syy
SQReg = xyS.ˆ1 ;
SQRes = SQTotal – SQReg
Observe que ao realizar a análise de variância, o procedimento é comparar as variâncias;
n
j
j yy1
2)( = 2
1
)ˆ( j
n
j
j yy
+
n
j
j yy1
2)ˆ( ou corresponde a
SQTotal = SQRes + SQReg.
2: SQTotal é a variação total de Y em torno da média;
2: SQRes é a variação de Y em torno da reta;
2: SQReg é a variação das esperanças específicas de Y, em torno da média.
26
5.7 Coeficiente de Determinação ou Explicação –
A Soma de Quadrado Total mede a variação nas observações Yj, ou a incerteza em predizer Y quando X
não é considerado. De forma análoga, Soma de Quadrado do Resíduo mede a variação em Yj quando um
modelo de regressão utilizando a variável X é empregada. Uma medida natural do efeito de X reduzindo a
variação em Yj, ou seja, em reduzir a incerteza na predição de Y, é expressar a redução da variação como
(SQTotal – SQRes = SQReg) como uma proporção da variação total:
Total
síduo
Total
gressão
SQ
SQou
SQ
SQR ReRe2 1
A medida R2 é chamada de coeficiente de determinação ou explicação e seu compo de variação é:
)10( 2 R e indica a proporção da variação total que é “explicada” pela regressão
Se R2
= 1, todos os pontos observados se situam “exatamente” sobre a reta de regressão, então as
variações de Y são 100% explicados pelas variações de X por meio da função especificada, conforme
figura 1.
Por outro lado, um R2 = 0 pode ou não indicar ausência de correlação entre X e Y.
5.8 Análise de Resíduo - Resíduos do ajuste de MRLM
A análise de resíduos desempenha papel fundamental na avaliação do ajuste de um MRLs, investiga
a adequação do modelo quanto às suposições básicas do modelo, bem como norrmalidade, independência
dos erros, homocedasticidade, relação linear de X e Y e falta de ajuste do modelo proposto. Além dos
testes de significância e adequação, a análise de resíduo vem complementar o elenco de procedimentos
que devem ser realizados após o ajuste de qualquer modelo.
Tipos de resíduos - Resíduos padronizados são escalonados para reduzir uma variável aleatória a ter
esperança com média zero e seus desvios padrão seja aproximadamente igual a um. Consequentemente
dj > 3 indica outliers. dj = 2ˆRe
jj e
sQM
e com j=1,2,....,n
Resíduo na forma de Student (Estudentizado) – os resíduos padronizados e estudentizado são parecidos,
mas em algumas situações os resíduos estudentizado é mais sensível para detectar pontos influentes.
rj = )1(ˆ 2
jj
jj
h
e
onde hjj = (
xx
j
S
xx
n
2)(1 ) com j=1,2,....,n
Gráficos de resíduos - Para o modelo de regressão, os termos dos erros ej são assumidos serem variáveis
aleatórias normais e independentes, com média zero e variância 2 . Se o modelo é adequado para os
dados, os resíduos observados, devem refletir as propriedades assumidas para os erros ej. Esta é a idéia
básica da análise de resíduos, uma maneira útil de examinar a adequação de um modelo estatístico.
Análise gráfico é muito eficiente para verificar a adequação do modelo, e checar violações do modelo (não
independência dos erros, normalidade dos erros, variância constante dos erros).
Gráfico dos Zi’s versus variável regressora ou valores estimados.
No gráfico plota-se os resíduos padronizados (zi) no eixo das ordenadas e a variável regressora ou o
valor estimado da variável resposta no eixo das abscissas. Ambas os gráficos nos dará mesmas
informações. A característica do gráfico é que a faixa de variação dos resíduos ao longo dos valores de X
é constante, ou ainda, os pontos devem estar espalhados aleatoriamente, não demonstrando nenhuma
tendência. Isso indica a não violação do modelo.
27
Presença de Outliers
“Outliers” são observações extremas. Outliers residuais podem ser identificados no gráfico de
resíduos versus X, ou ainda, utiliza do gráfico de caixa dos resíduos. O gráfico de resíduos padronizados é
particularmente útil, pois permite distinguir observações afastadas, uma vez que se torna fácil identificar
resíduos que se encontram muitos desvios padrão do zero. Embora a presença de outliers possa criar
dificuldades, só é recomendável retirá-lo da análise se há evidência direta que representa um erro de
coleta, um cálculo mal feito ou circunstância similar.
QQPlot Pequenos afastamentos da normalidade não criam sérios problemas, o que não é verdadeiro para
grandes afastamentos. Uma forma de analisar a normalidade dos resíduos é análise gráfica através do
gráfico QQplot. Neste caso cada resíduo é plotado contra seu valor esperado de normalidade. Um gráfico
aproximadamente linear sugere concordância com a normalidade, enquanto um gráfico que se afasta
substancialmente da linearidade sugere que a distribuição dos resíduos não seja aproximadamente normal.
Caso seja violada os pressupostos pela análise de resíduo, partir para transformações de dados e realizar
novamente os procedimentos.
ATIVIDADE 5
1) Charnet (2008) - Um estudo foi realizado para investigar o efeito de um desinfetante. Foram preparadas
soluções, nas quais o desinfetante foi diluído em quantidades fixas de água, para concentrações de
desinfetante de 1% a 8%. Foi observado o número de bactérias que sobreviveram, após as superfícies
serem limpas com uma das soluções. Obs: Adote um nível de significância de 5% para trabalhar em
todos os itens.
Tabela 5.1 – Número de bactérias que sobreviveram após higienização com diversas concentrações
desinfetantes.
Observações X: concentrações (%) Y: Número de bactérias
1 1 29 2 1 31 3 2 26 4 2 25 5 3 21 6 3 24 7 3 26
8 3 28 9 4 21 10 4 22 11 5 14 12 5 24 13 6 23 14 6 15 15 7 18 16 8 13
a) A correlação linear de Pearson entre as variáveis X e Y. Testar ao nível de 5% de significância se a
correlação é zero. Construa o diagrama de dispersão
b) Modelo de regressão do número de bactérias em função da concentração. Comente as estimativas dos
parâmetros do modelo.
c) Determine a estimativa do número de bactérias que sobreviveriam caso utilizasse uma concentração de
3.5% de desinfetante
d) Estimativa da variância residual;
28
e) Testar os parâmetros do modelo.
f) Teste a significância do modelo e determinar o coeficiente de determinação. Discuta.
g) Realize uma análise de resíduo completa. Os resultados indicam a transformação dos dados.
h) Estatística de diagnóstico
2) Os dados abaixo se referem a variável independente: “peso” de 30 cães e a variável dependente
(variável resposta): pressão arterial dos cães. Determine os itens abaixo.
Tabela 5.2 – Peso e pressão arterial de 30 cães - H.V 2013
ind PA PESO ind PA PESO ind PA PESO
1 130 23 11 135 23.8 21 90.5 16
2 107.5 22.7 12 125 22 22 115.5 20
3 135 21.2 13 110 18.7 23 113 18.3
4 100 21.5 14 102 19.5 24 116 22.3
5 134.5 17 15 121.5 28 25 143 24
6 121.5 28.4 16 111.5 15 26 104.5 15.8
7 107.5 19 17 107.5 18.8 27 102.5 16
8 105 14.5 18 127.5 20.5 28 107.5 15
9 125 19 19 104.5 15 29 125.5 16
10 130 19.5 20 102.5 14.9 30 93 22.5
a) A correlação linear de Pearson entre as variáveis X e Y. Testar ao nível de 5% de significância se a
correlação é zero. Construa o diagrama de dispersão
b) Modelo de regressão da pressão arterial em função do peso. Comente as estimativas dos parâmetros do
modelo.
c) Teste a significância do modelo e determinar o coeficiente de determinação. Discuta.
d) Realize uma análise de resíduo completa. Os resultados indicam a transformação dos dados? e) Realize uma estatística de diagnóstico. Existe algum ponto discrepante na amostra?
3) Seleção de variáveis – Regressão múltipla
YE (2009) Um estudo foi conduzido para estudar o tamanho das lulas comidas por tubarões e atuns. As
variáveis regressoras são as características do bico ou boca da lula. As variáveis regressoras e as variáveis
respostas (no software R) consideradas no estudo são as seguintes:
x1: comprimento do bico (em polegadas)
x2: comprimento do flanco (em polegadas)
x3: comprimento do bico à fenda (em polegadas)
x4: comprimento da fenda ao flanco (em polegadas)
x5: largura (em polegadas) e y: peso (em libras)
Realizar a “SELEÇÃO DE VARIÁVEIS” . Adote nível de significância de 10%.
a. Apresente o modelo completo. Quais variáveis são significativas pelo teste dos parâmetros?
b. Selecionar pelas técnicas: ( Backward; Forward ou Stepwise).
c. Qual modelo vc selecionará para representar esse conjunto de dados?
d. verifique a multicolinearidade.
29
AULA 6 – Ensaio Inteiramente Casualizado
6.1 Análise de Variância = Comparações de Médias
A análise de variância é uma técnica que pode ser realizada para determinar se a média de duas ou
mais populações são iguais.
O teste se baseia numa amostra extraída de cada população e testa as seguintes hipóteses ao nível
de significância .
H0: As médias das populações são iguais ( )
H1: As médias das populações são diferentes. ( Pelo menos dois diferem entre si)
SUPOSIÇÕES:
a) O modelo deve ser aditivo, isto é, os efeitos devem se somar; (Teste de não aditividade)
b) Os erros (eij) devem ter distribuição normal; (Teste de Shapiro-Wilk, Lilliefor, Kolmogorov,...)
c) Os erros (eij) devem ser independentes; (garantida pelo princípio da casualização)
d) Os erro (eij) devem ter mesma variância (homocedasticidade: Teste de Bartlett, Hartley..)
6.2 Princípios básicos da experimentação
A pesquisa científica está constantemente se utilizando de experimentos para provar suas
hipóteses. É claro que os experimentos variam de uma pesquisa para outra, porém, todos eles são regidos
por alguns princípios básicos, necessários para que as conclusões que venham a ser obtidas se tornem
válidas.
Princípio da repetição - Ao compararmos, por exemplo, dois herbicidas (A e B), aplicados
em duas parcelas perfeitamente iguais, apenas o fato do herbicida A ter apresentado maior controle que o
B não é suficientemente para que possamos concluir que o mesmo é mais eficiente, pois esse seu maior
controle poderá ter ocorrido por simples acaso ou ter sido influenciado por fatores estranhos. Porém, se os
dois herbicidas forem aplicados a várias parcelas e, ainda assim, verificarmos que o herbicida, A
apresenta, em média, maior controle, existe já um indício de que ele seja mais eficiente.
Esquematicamente:
A
B
Experimento
básico Repetições
Princípio da casualização - Mesmo reproduzindo o experimento básico, poderá ocorrer que o
herbicida A apresentou maior controle por ter sido favorecido por qualquer fator, como por exemplo, ter
todas as suas parcelas agrupadas numa faixa de menor infestação.
Para evitar que um dos herbicidas seja sistematicamente favorecido por qualquer fator externo,
procedemos à casualização dos herbicidas nas parcelas, isto é, eles são designados às unidades
experimentais de forma totalmente casual.
O princípio da casualização tem por finalidade propiciar a todos os tratamentos a mesma
probabilidade de serem sorteados a qualquer das unidades experimentais. Esquematicamente:
A
B
Experimento
básico Repetições + casualização
Princípios da
repetição
A A A A A A
B B B B B B
Princípios da
repetição e casualização
B A A B A B
A B A B B A
30
Ao fazer um experimento considerando apenas esses dois princípios, temos o delineamento
inteiramente casualizado ou com um fator. As parcelas que receberão cada um dos tratamentos são
determinadas de forma inteiramente casual, através de um sorteio, ou usando a tabela de números
aleatórios para que cada unidade experimental tenha a mesma probabilidade de receber qualquer um dos
tratamentos estudados, sem qualquer restrição no critério de casualização.
Tratamentos ( I )
Repetições ( J ) 1 2 ... I Totais
1 Y11 Y21 ... YI1
2 Y12 Y22 ... YI2
... ... ... ...
J Y1J Y2J ... YIJ
Totais T1 T2 TI G
Médias 1
m 2
m ... I
m m
J
j
JYT1
11 ;
J
j
JYT1
22 ; ...
J
j
IJI YT1
;
I
i ij
iji YTG1
; JxI
Gm ˆ
Modelo Matemático: Yi j = m + ti + ei j, onde
m = Média geral do experimento
ti = Efeito do i-ésimo tratamento, i = 1, 2, ...,I
ei j= Erro experimental, com j = 1, 2, ...,J, onde ei j ~ (0; 2).
Quando utilizar?
Quando todas as unidades experimentais estiverem sob as mesmas condições.
Vantagens
a) Pode-se ter número diferente de repetições por tratamento e qualquer número de tratamento, no
entanto, é preferível o mesmo número de repetições.
b) O número de graus de liberdade do resíduo é o maior possível.
c) Se ocorrer a perda de alguma parcela, esta não acarretará dificuldade na análise.
Deve-se considerar independência entre tratamentos e entre parcelas do mesmo tratamento. Além
disso, as “j” observações por tratamento são normais de média mi e de mesma variância 2, ou seja: Yi j ~
N(mi; 2).
6.3 Quadro de Análise de Variância e Teste F.
Para testar as hipóteses construiremos o seguinte quadro de análise de variância:
Fonte de
Variação
Graus de
Liberdade
Somas de
Quadrados
Quadrados
Médios
Fcal Ftab
Tratamento(T) I - 1 SQT QMT QMT/QMR [(I – 1), I(J – 1)]
Resíduo (R) I(J – 1) SQR QMR
Total (To) IJ - 1 SQTo
31
Onde, ij
ijJI
GCsendoCYSQTo
22 ; ;
CJ
T
SQT
I
i
i
1
2
; SQR = SQTo – SQT
1
I
SQTQMT ;
)1(
JI
SQRQMR
QMR
QMTFcal ; )]1();1[( JIIFtab
Assim, se Fcal > Ftab Rejeita-se H0, isto é, as médias das populações são diferentes. Com a
análise de variância descobre-se que existe diferença entre as médias. Para comparar estas diferenças de
médias, pode-se utilizar o teste de Tukey.
6.4 - O Coeficiente de Variação (C.V.)
O coeficiente de variação é dado pela fórmula: %100ˆ
.. xm
QMRVC
Se C.V. < 15% Experimento ótimo e a média representativa;
Se 15% < C.V. < 30% Experimento bom e a média pouco representativa;
Se C.V. > 30% Experimento ruim e a média não representativa.
6.5 Testes de comparações múltiplas
Os testes de comparações múltiplas, ou testes de comparações de médias, servem como um
complemento do teste F, para determinar diferenças entre os tratamentos. Para uma melhor compreensão
destes testes são necessárias alguns conceitos, tais como:
Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor
absoluto, com a diferença mínima significativa que é dada por:
r
QMresq
q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número de
tratamentos e graus de liberdade do resíduo.
1-
32
Atividade 6
1) BARBIN (2003) - Os dados são adaptados de ZAMBÂ; SAMPAIO; BARBIN; 1982) onde os
pesquisadores compararam 4 cultivares de pêssego quanto ao enraizamento de estacas.
Tratamentos: (I = 4 cultivares); Número de repetições (J = 5)
Parcela: 20 estacas de cada cultivar
Tabela 6.1 - Cultivares de pêssego quanto enraizamento de estacas – Piracicaba 1982
Tratamento Repetições
1 2 3 4 5
A 2 2 1 1 0
B 1 0 0 1 1
C 12 10 14 17 11
D 7 9 15 8 10
a) Verificar os pressupostos do modelo. Testar se existe diferença significativa entre os cultivares de
pêssego. (Verificar para os dados transformados e não transformados).
b) Construir um box-plot para comparar os tratamentos? Visualize e dê sua opinião?
c) Utilize os seguintes testes de comparações múltiplas:
Teste Tukey; Teste de Dunnett (considere o Tratamento1 como testemunha).
2) Num estudo conduzido e publicado pela Universidade Estadual da Virginia, no rio Jackson, biólogos
avaliaram métodos de remoção para estimação das populações marinhas e da diversidade. Cinco
procedimentos diferentes foram utilizados para determinar a contagem de espécies. Vinte amostras foram
selecionadas aleatoriamente e cada procedimento repetido quatro vezes, num Experimento Inteiramente
Casualizado. As contagens das espécies foram registradas: a) Testar ao nível de 5% de significância se há
diferença significante na média de contagem das espécies? b) Aplique o teste de Tukey, para detectar
qual(is) dos procedimentos amostrais diferem entre si e discuta os resultados.
Tabela 6.2 – Diferentes procedimentos utilizados para a contagem de espécies
Depleção Hess Suber Remoção de
Subst. Kicknet
Kicknet
50 45 22 33 27
45 34 15 31 25
40 28 17 32 24
57 37 20 27 25
33
7 - Delineamento em Blocos Casualizados
7.1 – Modelo Matemático : Yi j = m + ti + bj + ei j, onde
m = Média geral do experimento
ti = Efeito do i-ésimo tratamento, i = 1, 2, ...,I
bj = Efeito do j-ésimo bloco, j = 1, 2, ...,J
ei j = Erro experimental, com j = 1, 2, ...,J, onde ei j ~ (0; 2).
Neste delineamento, além dos princípios da repetição e da casualização já visto no capítulo
anterior tem-se também o controle local que é representado pelos blocos, onde cada um deles inclui todos
os tratamentos.
7.2 - Princípio do controle local - Esse princípio é freqüentemente utilizado, mas não é de uso
obrigatório, pois podemos realizar experimentos sem utilizá-lo. Ele consiste em aplicar os herbicidas
sempre em pares de parcelas o mais homogêneas possível com relação ao ambiente, podendo haver,
inclusive, variação acentuada de um par para outro. A cada par de parcelas denominamos bloco.
Esquematicamente:
10 Bloc. 2
0 Bloc. 3
0 Bloc. 4
0 Bloc. 5
0 Bloc. 6
0 Bloc.
A
B
Experimento Repetições + casualização + contole local
Quando tivermos diversos tratamentos a comparar, cada bloco será constituído por um grupo de
parcelas que deve ser um múltiplo do número de tratamentos. A finalidade do princípio do controle
local é dividir um ambiente heterogêneo em sub-ambientes homogêneos e tornar o delineamento
experimental mais eficiente, pela redução do erro experimental.
O deliamento experimental assim obtido é denominado de delineamento em blocos casualizados
ou em blocos ao acaso e, vemos que, nesse caso, devemos isolar mais uma causa de variação conhecida
(fator controlado), que são os blocos. Como cada bloco deve conter todos os tratamentos, há uma restrição
na casualização, que deve ser feita designando os tratamentos às parcelas dentro de cada bloco como
mostra a Figura 1.
Figura 1 - Disposição do experimento em blocos casualizados.
Princípios da
repetição,
casualização e
controle local
A B B A A B
B A A B B A
1
2 3
4 5
5
4 3
2 1
1
4 3
5 2 4 3
1 2
5
Bloco 1 Bloco 2
Bloco 3 Bloco 4
34
De todos os delineamentos experimentais, este é o mais freqüentemente utilizado e, quanto maior for a
hereditariedade das condições experimentais de um bloco para outro, maior será a eficiência deste
delineamento em relação ao inteiramente casualizado. As observações de cada grupo ou tratamento são
tabeladas para facilitar a análise segundo as hipóteses lançadas.
Tratamentos ( I )
Blocos ( J ) 1 2 ... I Total Bloc. Médias
1 Y11 Y21 ... YI1 B1 1
m
2 Y12 Y22 ... YI2 B2 2
m
... ... ... ... ... ... ...
J Y1J Y2J ... YIJ BJ Jm
Total Trat. T1 T2 ... TI G
Médias 1
m 2
m ... I
m m
Onde:
I
i ij
iji YTG1
; JxI
Gm
Quando utilizar?
Quando todas as unidades experimentais estiverem sob as mesmas condições.
Vantagens
a) Pode-se ter número diferente de repetições por tratamento e qualquer número de tratamento, no entanto,
é preferível o mesmo número de repetições.
b) O número de graus de liberdade do resíduo é o maior possível.
c) Se ocorrer a perda de alguma parcela, esta não acarretará dificuldade na análise.
Deve-se considerar independência entre tratamentos e entre parcelas do mesmo tratamento. Além
disso, as “j” observações por tratamento são normais de média mi e de mesma variância 2, ou seja: Xi j ~
N(mi; 2).
7.3 – Quadro de Análise de Variância e Teste F.
Para testar as hipóteses construiremos o seguinte quadro de análise de variância:
Fonte de
variação
Graus de
Liberdade
Somas de
Quadrados
Quadrados
Médios
Fcal Ftab=F
Tratamento (T) I - 1 SQT QMT QMT/QMR [(I – 1), (I – 1)(J – 1)]
Blocos (B) J - 1 SQB QMB QMB/QMR [(J – 1), (I – 1)(J – 1)]
Resíduo (R) (I – 1)(J – 1) SQR QMR
Total (To) IJ - 1 SRTo
ij
ijJI
GCsendoCYSQTo
22 ; ;
35
CJ
T
SQT
I
1i
2
i
; CI
B
SQB
J
j
j
1
2
; SQR = SQTo – SQT – SQB
1I
SQTQMT
;
1
J
SQBQMB
)1)(1(
JI
SQRQMR
QMR
QMTFcalT ; )]1)(1();1[( JIIF
Ttab
QMR
QMBFcalB ; )]1)(1();1[( JIJF
Btab
Assim se Fcal > Ftab Rejeita-se Ho, isto é, as médias das populações são diferentes. Com a
análise de variância descobre-se que existe diferença entre pelo menos um par de médias. Para comparar
estas diferenças de médias, pode-se utilizar o teste de Tukey.
7.4 – Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor
absoluto, com a diferença mínima significativa que é dada por:
r
QMRq .
onde q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número
de tratamentos e graus de liberdade do resíduo.
7.5 - O Coeficiente de Variação (C.V.)
O coeficiente de variação é dado pela fórmula:
%100xm
QMR.V.C
1-
36
ATIVIDADE 7
1) Barbin (2003) – O estudo envolve o comportamento de 9 porta-enxertos da Laranjeira Valência. Os
portas enxertos são: 1.Tangerina sunki; 2. Limão rugoso nacional; 3. Limão rugoso da flórida;
4.Tangerina cleópatra; 5. Citranger – troyer; 6. Trifoliata cravo; 7.Tangerina cravo; 8.Laranja caipira;
9.Limão cravo
Tabela 7.1- Número médio de frutos por planta
Tratamentos Blocos
I II III Totais m
^
it^
1 145 155 166 466 155,33 -27,22
2 200 190 190 580 193,33 10,78
3 183 186 208 577 192,33 9,78
4 190 175 186 551 183,16 1,12
5 180 160 156 496 165,33 -17,22
6 130 160 130 420 140,00 -42,55
7 206 165 170 541 180,33 -2,22
8 250 271 230 751 250,33 67,78
9 164 190 193 547 182,33 -0,25
Total 1648 1652 1629 4929 182.55
m^
183.11 183.55 181.0
jb^
0,56 1,0 -1,56
a) Verificar os pressupostos do modelo. Apresentar 1 gráfico comparando os tratamentos.
b) Testar a hipótese da produção média de frutos dos 9 porta-enxertos, com nível de significância de 5%.
c) Realize um teste de comparações múltiplas, e discuta a significância estatística e significância prática.
2) Um artigo no periódico American Hygiene Association Journal (Vol.37, 1976, pp.418-422) descreve
um teste de campo para detectar a presença de arsênico em amostras de urina. O teste foi proposto para o
uso entre trabalhadores florestais, por causa do uso crescente de arsênicos orgânicos numa indústria. O
experimento comparou o teste feito pelo estagiário, feito pelo laboratorista experiente e um laboratorista
novato. Quatro indivíduos foram selecionados para o teste e considerados “blocos”. A variável resposta é
o conteúdo (em ppm) de arsênicos na urina do indivíduo. Há alguma diferença significativa no
procedimento do teste do arsênico? Verifique os pressupostos e adote o nível de significância de 1%.
Tabela 7.2 – Laboratoristas medem o conteúdo (em ppm) de arsênicos na urina de
quatro indivíduos
Labo
1
Indivíduos
2
3
4
Estagiário
Lexperiente
L. novato
3.7
3.1
3.5
2.8
2.6
3.4
3.1
2.7
3.0
3.4
3.0
3.3
37
8 – Quadrado latino
Os ensaios em quadrados latinos leva em conta o controle local, aplicado em dois sentidos. Os
blocos, ou controle num sentido do terreno, são chamados linhas e o controle no outro sentido, de
colunas. A característica principal deste ensaio é o número de linhas igual ao número de colunas.
Considere k tratamentos logo teremos K2 parcelas.
O delineamento em quadrado latino as unidades experimentais ou parcelas que devem receber
os tratamentos são agrupados de duas maneiras diferentes (linhas e colunas). Nesse tipo de delineamento o
número de linhas, colunas e tratamentos deve ser o mesmo. Os tratamentos são distribuídos de forma que
cada um apareça uma única vez em cada linha e coluna.
8.1 – Modelo : Yi j = m + li + cj + tk(ij)+ ei j, onde
m = Média geral do experimento
li = Efeito da linha, i = 1, 2, ...,r
cj = Efeito da coluna, j = 1, 2, ...,r
tk(ij) = Efeito de tratamentos, k = 1, 2, ...,r
ei j = Erro experimental onde ei jk ~ NID (0; 2).
8.2 – Quadro de Análise de Variância e Teste F.
Para testar as hipóteses construiremos o seguinte quadro de análise de variância:
Fonte de
variação
Graus de
Liberdade
Somas de
Quadrados
Quadrados
Médios
Fcal Ftab=F
Linhas (r-1) =K-1 Q1 V1 V1/V4 F(gl linha; gl res)
Colunas (r-1) =K-1 Q2 V2 V2/V4
Tratamentos (r-1) =K-1 Q3 V3 V3/V4
Resíduo (r-1)(r-2)=
(K-1)(K-2)
Q4 V4
Total (To) r2-1= K
2 -1 Q5
ijk
ijkK
GCsendoCYSQTo
2
22 ; ;
CK
L
SQT
r
i
i
1
2
; CK
C
SQT
r
j
j
1
2
CK
T
SQT
r
i
i
1
2
; SQR = SQTo – SQL – SQC - SQTrat
QMR
QMTFcalT ; )]2)(1();1[( KKKF
Ttab
A estatística apropriada para testar a hipótese de que não existe efeito de tratamentos é:
38
Fcalc = QMTratamentos / QMErro. Assim se Fcal > Ftab Rejeita-se Ho, isto é, as médias das
populações são diferentes. Com a análise de variância descobre-se que existe diferença entre pelo menos
um par de médias. Para comparar estas diferenças de médias, pode-se utilizar o teste de Tukey.
8.3 - Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor
absoluto, com a diferença mínima significativa que é dada por:
r
QMRq .
onde q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número
de tratamentos e graus de liberdade do resíduo.
ATIVIDADE 8 – Ensaio Quadrado Latino
1) O exemplo abaixo é um ensaio em quadrado latino, com dados de produção de cana em kg/parcela,
foram comparados 5 cultivares, designados por:
A = CO 290; B=CO421; C=CO419; D= POJ2878, E=CP36-13.
Tabela 8.1 – Produção de cana de açúcar – SP 2006
Colunas
Linha C1 C2 C3 C4 C5 Totais
L1 432 D 518 A 458 B 583 C 331 E 2322
L2 724 C 478 E 524 A 550 B 400 D 2676
L3 489 E 384 B 556 C 297 D 420 A 2146
L4 494 B 500 D 313 E 486 A 501 C 2294
L5 515 A 660 C 438 D 394 E 318 B 2325
Totais 2654 2540 2289 2310 1970 11763
a) Verificar os pressupostos do modelo;
b) Realize a análise de variância para verificar se há diferença entre as produções média. Use nível
de significância 5% . c) Se necessário realize um teste de comparações múltipla.
ATIVIDADE 9
Apresente um artigo científico da sua área e responda.
O título é adequado e interessante?
O autor comenta sobre o(s) objetivo(s) do trabalho?
Como foi coletada a amostra? E qual o número de elementos da amostra (n)?
Na sua opinião a metodologia adotada esta correta?
Quais variáveis foram estudadas?
O nível de significância foi apresentado?
As tabelas e gráficos estão apresentados de forma clara?
Qual análise estatística foi adotada?
Toda literatura citada no trabalho esta citada nas referências?
Na sua opinião o título, os objetivos e conclusões estão coerentes?
A conclusão esta direta e objetiva?
As palavras chaves estão coerentes com o trabalho?
O resumo está completo?
Finalmente o raciocínio, o estilo da redação foram lógicos, claros e didáticos?
39
Referências Bibliográficas
ANDRADE, D.F.; OGLIARI,P.J. Estatística para as ciências agrárias e biológicas com noções de
experimentação. Florianópolis: Edistora UFSC, 2007.
BARBETTA,P.A.;REIS,M.M.;BORNIA,A.C. Estatística para cursos de engenharia e informática. 20
edição. Editora Atlas, 2008.
BARBIN, D. Planejamento e Análise Estatística de Experimentos Agronômicos, Arapongas, Editora
Midas, 2003.
BANZATTO, D. A. & KRONKA, S. N. Experimentação agrícola. Jaboticabal, São Paulo, FUNEP,
1989, 247p.
BEIGUELMAN, B. Curso prático de Bioestatística. 3ª ed. Ribeirão Preto, Rev. Bras. Genét., 1994.
BERQUIÓ, E. S.; JOSÉ, M. P. S.; SABINA, L. D. G. Bioestatística. 1ª ed. São Paulo: EPU, 1981.
CHARNET, R. et. al. Análise de Modelos de Regressão Linear com aplicações. Unicamp. 2ed. 2008.
FONSECA, J.S; MARTINS, G. A. Curso de Estatística. 6ª ed. São Paulo: Atlas, 1996. 320p.
GUEDES, M. L. S. Bioestatística. Rio de Janeiro: Ao livro técnico. Brasília: CNPQ. 1988.
MARCONI, Marina de A, LAKATOS, Eva M. Técnicas de pesquisa. 2ª ed. São Paulo: Atlas, 1982.
MONTGOMERY, D. C. Desgn and analysis of experiments. 3ª ed. New York: J. Wiley & Sons, 1994,
p.649.
MORETTIN, L.G. Estatística Básica. 7ª ed. São Paulo: Makron Books, 1999. 209P.
RODRIGUES, P. C. Bioestatística. EDUFF – 2ª ed. Editora Universitária. UFF. Niterói. 1993.
SPIEGEL, M.R. Probabilidade Estatística 3ª ed. Coleção Schaum. São Paulo: McGraw-Hill do
Brasil, 1998, 518p.
VIEIRA, S; HOFFMANN, R. Elementos de Estatística. 2ª ed. Atlas, 1990. 159p.