Universidade Estadual de Londrina · Introdução: As medidas de posição são denominadas de medidas de tendência central, pois representam os fenômenos pelos seus valores médios

Universidade

Estadual de

Londrina

Programa de Mestrado e Doutorado em Microbiologia

Profa. Dra. Ana Verginia Libos Messetti

LONDRINA

2016

SUMÁRIO

1. Análise exploratória de dados ...........................................................................01

2. Intervalo de confiança e Teste

Hipótese

...........................................................................11

3. Testes de Hipóteses para duas amostras ...........................................................................14

4. Testes não paramétricos

5. Correlação e regressão

6. Ensaio Inteiramente Casualizado

7. Delineamento em Blocos

8. Quadrado latino

9. Artigo

10. Referências bibliográficas

.......................................................................... 17

.......................................................................... 22

.......................................................................... 29

.......................................................................... 33

.......................................................................... 37

.......................................................................... 38

...........................................................................39

1

AULA 1 – ANÁLISE EXPLORATÓRIA DE DADOS

1.1 Introdução - Em uma pesquisa é importante ter em mente três aspectos: planejamento, execução e

divulgação. O planejamento é a fase inicial que corresponde à definição do tema, os objetivos, a forma de

análise dos dados, ou seja, é o delineamento de todo o projeto de pesquisa. É a fase mais importante dentre

as três fases para se obter um resultado mais preciso.

É importante evidenciar que executarmos uma pesquisa com um planejamento mal feito ou

mesmo se os dados não forem coletados de maneira apropriada, aparecerá um resultado que não

corresponde à realidade ou até mesmo impossível de ser analisada e então esses dados se tornarão inúteis.

Dependendo do problema a ser analisado e dos objetivos da pesquisa podemos realizar uma pesquisa

observacional ou uma pesquisa experimental:

A pesquisa observacional é aquela em que as características de uma população serão levantadas,

observadas ou medidas, sem a sua manipulação. Como exemplo, tem-se o censo demográfico, pesquisas

eleitorais, inspeção de qualidade.

Nas pesquisas experimentais, grupos de indivíduo, animais ou objetos, serão manipulados para se

avaliar o efeito de diferentes tratamentos. É o caso de se verificar as reações na aplicação de

medicamentos onde existe um grupo controle e o grupo experimental.

1.2 Definição e Classificação da Estatística:

Hoje em dia a estatística envolve toda a elaboração que vai desde o planejamento e a coleta dos

dados até a análise e interpretação dos resultados. Assim, essa elaboração envolve o tratamento dos dados

de diferentes maneiras de torná-los compreensíveis.

Definição: Estatística é uma parte da matemática aplicada que fornece métodos para coleta, a organização,

a descrição, a análise e a interpretação de dados e a utilização desses dados para a tomada de decisão.

Classificação:

- Estatística descritiva;

- Estatística indutiva.

a. Estatística descritiva: é aquela que tem por objetivo descrever e analisar determinada população ou

amostra, sem pretender tirar conclusões.

Exemplo: taxa de desemprego, índice de mortalidade e natalidade.

b. Estatística indutiva: é aquela que consiste em obter e generalizar conclusões para um todo (população)

partindo de resultados particulares (amostra).

Exemplo: pesquisa eleitoral.

1.3 Classificação das Variáveis

Ao fazer um estudo estatístico de um determinado fato ou grupo, tem-se que considerar o tipo de variável.

Pode-se ter variáveis qualitativas e variáveis quantitativas.

As variáveis qualitativas são aquelas que descrevem os atributos de um indivíduo, por exemplo:

sexo, estado civil, grau de instrução, etc. Já as variáveis quantitativas são as provenientes de uma

contagem de mensuração, por exemplo: idade, salário, peso, altura, etc.

2

As variáveis qualitativas como as quantitativas dividem-se em dois tipos:

Variáveis Tipos Descrição Exemplos

Qualitativas

ou

Categóricas

Nominal Não existe nenhuma

ordenação.

Cor dos olhos, sexo, estado

civil.

Ordinal Existe uma ordenação I, II,

III.

Nível de escolaridade,

estágio da doença.

Quantitativas

Discretas Valor pertence a um

conjunto enumerável.

Número de filhos por casal,

número de eleitores.

Contínuas Quando o valor pertence a

um intervalo real.

Medida de altura e peso,

taxa de glicose.

1.4 População e amostra

População ou Universo: é um conjunto de elementos sobre o qual desejamos pesquisar.

Exemplo: Alunos do curso de Fisioterapia da UEL, número de microrganismos de um lago.

Amostra: e um subconjunto da população, cujos elementos são retirados segundo algum critério.

Exemplo: Alunos do primeiro ano de Fisioterapia da UEL.

Censo e Amostragem

Censo: é o estudo de “todos” os elementos da população.

Exemplo: Altura de todos os alunos de Biologia da UEL

Amostragem: é a parte da estatística que ensina obter amostras representativas de uma população. A

finalidade da amostragem é fazer generalização sobre todo o grupo sem precisar examinar cada um de

seus elementos.

Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou

numeroso, verifica-se, muitas vezes, ser praticamente impossível fazer um levantamento do todo. Desse

modo, há a necessidade de investigar apenas uma parte dessa população ou universo.

É compreensível que o estudo de todos os elementos da população possibilita preciso

conhecimento das variáveis que estão sendo pesquisadas; todavia, nem sempre é possível obter as

informações de todos os elementos da população. Torna-se claro que a representatividade da amostra

dependerá do seu tamanho (quanto maior, melhor) e de outras considerações de ordem metodológica. Isto

é, o investigador procurará acercar-se de cuidados, visando à obtenção de uma amostra significativa, ou

seja, que de fato represente “o melhor possível” toda a população.

1.5 Conceitos Básicos

Parâmetros - Medidas que descrevem certa característica dos elementos da população.

Estatística - Medidas que descrevem certa característica dos elementos da amostra.

Estimativa – Valor resultante do cálculo de uma estatística.

1.6 Medidas Descritivas - (Comparando População e Amostra)

Média, Variância e Desvio-padrão para valores populacionais e amostrais.

a) Seja a população: P = {X1; X2; X3; ...; XN}, logo:

3

A média aritmética populacional ( ) é: N

xi

N

i 1

onde i=1, 2, ..., N.

A variância populacional ( ) é:

Desvio-padrão populacional ( ) é: = √

b) Seja a amostra: A = {x1; x2; x3; ...; xn}, logo:

A média aritmética amostral ( ) é: ∑

, onde i = 1, 2, ..., n.

A variância amostral (s2) é:

Desvio-padrão amostral (s) é: s =

ESTATÍSTICA DESCRITIVA

1.7 - Tabelas - A apresentação tabular é a forma de se utilizar tabelas para apresentar os dados coletados,

com o objetivo de sintetizar as observações, facilitando sua leitura e compreensão.

Elementos componentes das tabelas estatísticas

As tabelas estatísticas são constituídas por elementos essenciais e elementos complementares.

Elementos essenciais da tabela - Os elementos essenciais de uma tabela estatística são: título, corpo,

cabeçalho e coluna indicadora.

Título: O título é a indicação que precede a tabela e que contém a designação do fato observado, o local e

a época em foi registrado.

Corpo: É o conjunto de colunas e linhas que contém, respectivamente, em ordem vertical e horizontal, as

informações referente ao fato observado.

Cabeçalho: É a parte superior da tabela que especifica o conteúdo das colunas.

Coluna indicadora: É a parte da tabela que especifica o conteúdo das linhas. Uma tabela pode ter mais de

uma coluna indicadora.

Elementos complementares da tabela - Os elementos complementares de uma tabela estatística são: fonte,

nota e chamadas, e se situam no rodapé da tabela.

Fonte: A fonte é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.

Notas: São as informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas,

ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.

N

XX

XVouN

N

X

X

XV

N

i

i

N

i

iN

i

i

1

2

2

2

1

1

2

2

)(

)()(

1

)(

1

1

2

2

2

1

1

2

2

n

xx

soun

n

x

x

s

n

i

i

n

i

in

i

i

2s

4

Chamadas: São as informações de natureza específica referentes às determinadas partes da tabela,

destinadas a conceituar ou esclarecer dados. As chamadas são indicadas no corpo da tabela com

algarismos arábicos, entre parênteses.

1.8 Gráficos (Variável qualitativa) - É a representação de dados ou informações através de desenhos,

figuras ou imagens.

Existem diversas formas de apresentação gráfica, ficando a escolha condicionada à natureza do

fenômeno a representar e ao critério do analista. Dar-se-á um maior enfoque àquelas formas gráficas

utilizadas na representação de dados estatísticos. A finalidade principal de apresentar os dados

graficamente é proporcionar ao interessado uma visão rápida do comportamento do fenômeno, poupando

tempo e esforço na compreensão dos dados. A representação gráfica de um fenômeno deve obedecer a

certos requisitos fundamentais como: simplicidade, clareza e veracidade.

Alguns tipos de gráficos

Gráficos de colunas: São aqueles em que as variações quantitativas de uma ou mais variáveis são

representadas por colunas sucessivas, todas com bases iguais, mas com diferentes alturas, as quais são

proporcionais às freqüências das variáveis confrontadas, dispostos verticalmente.

Gráficos de barras - São semelhantes ao de colunas, onde os retângulos são dispostos horizontalmente.

Gráficos em linhas - Este gráfico representa alterações quantitativas sob a forma de uma linha oligonal

ou curva estatística, que torna mais visível o andamento do fenômeno.

Gráficos em setores - São gráficos que descrevem o fato através de setores em uma circunferência, cuja

finalidade é representar um fato juntamente com todas as partes que o mesmo se subdivide.

Gráficos de colunas múltiplas - São gráficos que permitem comparar diversas variáveis simultaneamente.

Caracteriza-se por apresentar duas ou três colunas representativas de variáveis num mesmo período de

tempo, sem espaço entre si, formando conjuntos de colunas, existindo espaço entre os conjuntos. O

objetivo é fazer comparação.

DISTRIBUIÇÃO DE FREQÜÊNCIAS

1.9 Distribuição de frequência: Distribuição de frequência constitui-se, portanto, nas repetições agrupadas

dos valores da variável. Visa facilitar o trabalho estatístico permitindo melhor compreensão dos

fenômenos. Quando se trabalha com poucos valores, os cálculos podem ser realizados diretamente, sem

maiores dificuldades.

Para variável contínua costuma-se distribuir os dados em classes ou categorias, e determinar o número

pertencente a cada uma das classes, denominando a freqüência da classe (fi).

Dados brutos: é o conjunto de dados numéricos apresentados da maneira que foram coletados.

Rol: é o arranjo dos dados brutos em ordem crescente ou decrescente.

Amplitude total (At): é a diferença entre o maior e o menor valor observado.

At = Xmax – Xmin

Número de classes (K): é a quantidade de classes necessárias para representar os dados.

Regra de Sturges : k = 1 + 3,3 log n, n é o tamanho da amostra

exemplo se n = 36 for o tamanho da amostra.

Amplitude das classes (h): é o quociente entre a amplitude total (At) e o número de classes (k), isto é:

h = At / k

Limites das classes: Li |---- Ls, Li é o limite inferior e o elemento pertence à classe.

Ls é o limite superior e o elemento não pertence à classe.

636 nk

5

* Pontos médios das classes (Xi): é a média entre o limite superior e o limite inferior da classe.

xi = (Ls + Li)/2

* Freqüência acumulada crescente (Fac) ou “abaixo de”: é a soma das freqüências dos valores inferiores

ou igual ao valor dado, isto é; Fac = fi

* Freqüência relativa (fri): é a porcentagem do valor na amostra e é dado por:

fri = fi /n; fr (%) = (fi /n)100

Gráficos - Gráfico Estatístico: é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de

produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em

estudo.

Representação Gráfica de uma Distribuição de Freqüência: Uma distribuição de freqüência pode ser

representada graficamente pelo histograma ou polígono de frequência.

Histograma: é a representação gráfica de uma distribuição de freqüência por meio de retângulos

justapostos.

Outros Gráficos para variáveis quantitativas

Ramos e folhas O ramo são formados pelos inteiros dos números e as folhas são formados pelos decimais.

Box plot – Gráfico de caixa formado por 5 números: Valor mínimo, primeiro quartil, mediana, terceiro

quartil e valor máximo.

MEDIDAS DESCRITIVAS: Medidas de posição

Introdução: As medidas de posição são denominadas de medidas de tendência central, pois

representam os fenômenos pelos seus valores médios em torno dos quais tendem a concentrarem-se os

dados.

1.10 Medidas de posição: Média aritmética; Moda; Mediana

Média Aritmética - A média aritmética de uma amostra é o conjunto de n valores x1, x2, ..., xn

representado por é definido por: n

x

n

xxxx

n

in

121

Mediana (Med) - È o valor que divide a amostra ou população em duas partes iguais.

0% 50% 100%

Med

A mediana é o valor que ocupa a posição central da amostra ordenada (crescente ou decrescente). Isto é,

divide a amostra em duas partes iguais de modo que 50% dos valores ficam à sua esquerda e 50% à sua

direita.

Ou A ordem da mediana, indicada pela letra O, será:

a) Se n for ímpar:

2

1nO e Md = X (o)

6

Exemplo: X = {3 5 5 6 7}; Md = 5.

b) Se n for par, calculam-se duas ordens: 122

21

nOe

nO e Md = [X(O1) + X(O2) ] / 2.

Exemplo: Y={ 3 5 5 6 7 7}; Md =

= 5.5

Moda (MO) - Denominamos Moda o valor que ocorre com maior freqüência em uma série de valores.

A moda é classificada da seguinte maneira:

Amodal: quando os dados não apresentam moda;

Modal: apresenta uma moda;

Bimodal: quando os dados apresentam duas modas;

Multimodal: quando os dados apresentam mais de duas modas.

A moda comparada com a média e a mediana, é a menos útil das medidas para representar os dados. A

moda é útil quando um ou dois valores, ou um grupo de valores, ocorrem com freqüência muito maior que

os outros valores.

1.11 Separatrizes - Como vimos, a mediana caracteriza uma série de valores devido a sua posição

central. Porém, ela apresenta uma característica, tão importante quanto à primeira: é que ela separa a série

em dois grupos que apresentam o mesmo número de valores.

Os Quartis, Decis e Percentis juntamente com a Mediana são conhecidas pelo nome genérico de

Separatrizes.

Quartis Denominamos Quartis os valores de uma série que a dividem em quatro partes iguais.

Q1 = 10 quartil, deixa 25% dos elementos;

Q2 = 20 quartil, coencide com a mediana,deixa 50% dos elementos;

Q3 = 30 quartil, deixa 75% dos elementos;

Decis- Denominamos Decis os valores de uma série que a dividem em 10 partes iguais.

Percentis - Denominamos Percentis os valores de uma série que a dividem em 100 partes iguais.

Forma resumida: Quartis, Decis e Percentis para dados não agrupados.

Para n ímpar - A ordem do quartil “i” (i=1, 2 ou 3) é dada por 4

)1.( ni e o valor é localizado no rol.

Para n par - O quartil será a média dos dois elementos de ordens: 4

.ni e 1

4

.

ni.

Para n ímpar - A ordem do decil “i”( i= 1, 2, ....,9) é dada por 10

)1.( ni e o valor é localizado no rol .

Para n par - O decil será a média dos dois elementos de ordens: 10

.ni e 1

10

.

ni.

0% 25% 50% 75% 100%

Q1 Q2 Q3

7

Para n ímpar- A ordem do percentil “i”( i= 1, 2, ....,99) é dada por 100

)1.( ni e o valor é localizado no rol.

Para n par- O percentil será a média dos dois elementos de ordens: 100

.ni e 1

100

.

ni.

MEDIDAS DESCRITIVAS – Medidas de Variabilidade

A sumarização de um conjunto de dados, através de uma única medida representativa de posição

central, esconde toda a informação sobre a variabilidade do conjunto de valores.

1.12 Medidas de variabilidade

Amplitude Total mede a amplitude dos dados; At = Xmax – Xmin

Variância: Considerando o nosso propósito de medir a dispersão dos valores em torno da média, é

interessante estudarmos o comportamento dos desvios de cada valor em relação à média, isto é,

xxi . Observem que, na determinação de cada desvio xxd

ii , estaremos medindo a dispersão

entre cada xi e a média x . Porém, se somarmos todos os desvios, tem-se

n

1ii

0d ou

n

1ii

0)xx( . Para contornar o problema, resolveu-se considerar o quadrado de cada desvio

2

i)xx( , evitando-se com isso que

n

1ii

0d . Assim, definiu-se a variância (populacional) como:

N

d

N

)xx(

N

N

)x(x

N

1i

2

i

N

1i

2

i

2N

iiiN

1i

2

i2

, se os dados não são agrupados.

Para a variância “amostral”, tem-se:

1n

d

1n

)xx(

1n

n

)x(

x

s

N

1i

2

i

N

1i

2

i

2N

iiiN

1i

2

i2

, se os dados não são agrupados e

Desvio-padrão: = √ para população e s = √ para a amostra.

Coeficiente de Variação - Trata-se de uma medida relativa da dispersão, útil para a comparação em termos

relativos do grau de concentração em torno da média de conjuntos de dados distintos. É dado por:

%100...

VC população e %100...

x

sVC amostra.

8

Alguns analistas consideram:

C.V. < 15% Baixa dispersão e alta representatividade da média aritmética

%30.V.C%15 Média dispersão e média representatividade da média aritmética

%30.V.C Alta dispersão e nenhuma representatividade da média aritmética

ATIVIDADE 1 – Análise exploratória de dados

1) Pesquise e escreva a definição de Estatística. Dê a referência bibliográfica.

2) Apresente um artigo (título e autores) e retire as variáveis observadas e classifique-as.

3) Variável qualitativa: Os dados são sobre resistência à ferrugem de 32 híbridos de milho, classificados

como: resistentes (R), muito resistentes (MR), muito sensível (MS), sensível (S). Construir uma tabela de

frequência simples e a frequência relativa. Construir um gráfico para representar os dados da tabela

abaixo.

Tabela 1.1- Resistência à ferrugem de 32 híbridos, localizados em Chapecó -RS

Híbridos Espécie Híbridos Espécie Híbridos Espécie Híbridos Espécie

1 R 11 R 21 MS 31 MR 2 MR 12 S 22 S 32 MS 3 MS 13 MS 23 MS 4 R 14 S 24 R 5 S 15 R 25 S 6 MS 16 MR 26 MR 7 MR 17 R 27 MS 8 S 18 MS 28 R 9 R 19 S 29 R 10 MS 20 R 30 MR

4)Variável qualitativa - Representar num gráfico para variável qualitativa pesquisada. Variável: “Quatro

espécies de formigas cortadeira”, localizadas nas dunas da praia da Joaquina, existentes numa área

delimitada 100m x 100m, coletada num determinado dia de verão – Janeiro 2008 - S.C.

Tabela 1.2- Quatro espécies de formigas cortadeira, localizadas na Joaquina, 2008- SC

Formiga Espécie Formiga Espécie Formiga Espécie Formiga Espécie

1 C 11 C 21 B 31 A

2 C 12 A 22 A 32 A

3 B 13 B 23 A 33 B

4 B 14 D 24 B 34 C

5 C 15 D 25 A 35 D

6 B 16 B 26 A 36 D

7 D 17 A 27 B 37 B

8 B 18 C 28 D 38 B

9 B 19 D 29 B 39 B

10 A 20 B 30 C 40 C

5) Variável quantitativa: Os dados abaixo representam 40 observações dos “Diâmetros de Eucaliptos

com 8 anos de idade (metros)”. Esta é uma amostra piloto de Eucaliptos da Floresta Tropical Atlântica, em

Santo Amaro da Imperatriz, SC.

9

Tabela 1.3 – “Diâmetro de Eucaliptos com 8 anos de idade”

__________________________________________

2.2 2.3 2.5 2.6 3.0 3.5 3.5 3.8 3.8 3.9

4.1 4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.4 4.4

4.6 4.9 5.0 5.0 5.3 5.8 6.0 6.0 6.0 6.0

6.0 6.5 6.9 7.1 7.2 7.7 8.3 8.5 11.3 13.8

___________________________________________

a. Apresentar a tabela de distribuição de frequência completa.

b. Construir 4 gráficos para esse tipo de variável. (Histograma, Box-plot; Diagrama de Ramos- e o folhas

e Diagrama de pontos).

c. Verifique se há dados discrepantes (outliers). Quantos outliers existem nesse conjunto de dados?

Apresentar o resumo dos cinco números.

d. Realize uma análise exploratória dos dados. – média, moda, mediana, coeficiente de variação, primeiro

quartil e terceiro quartil. Discuta assimetria e curtose desta distribuição.

e. Aplique o teste de Shapiro-Wilk para verificar a normalidade dos dados.

f. Retire os pontos discrepantes e aplique novamente o teste de Shapiro-Wilk e verifique novamente a

variabilidade dos dados e a normalidade dos dados.

g. O que ocorreu com a retirada dos outliers? Compare as estimativas dos 2 conjuntos.

6) Foram tomadas duas amostras de tamanhos iguais a 25 observações, de crescimento do pseudobulbo,

em cm, da espécie de orquídea Laelia purpurata, sob duas condições de luminosidade (com luz direta e

com luz indireta). Os dados estão apresentados na tabela abaixo:

Tabela 1.4 - Dados de crescimento do pseudobulho de Laelia purpurata - Florianópolis, SC.

1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1

Luz direta 2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2

4,8 6,3 6,5 7,2 8,8 9,4 9,5

Luz indireta 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3

4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9

8,1 8,6 10,4 12,7 16,3 16,8 16,9

a) Apresentar as medidas descritivas: M. posição e M. dispersão para Luz direta e Luz indireta

b) Construir o box-plot e os histogramas para comparar os 2 conjuntos e verifique se há outliers.

c) Construir o Diagrama de Ramo-e-folhas para Luz direta e Luz indireta.

d) O crescimento do pseudobulbo dessa espécie é melhor com luz direta ou indireta?

e) Apresente o resumo dos 5 números para Luz direta e Luz indireta

f) Aplique dois testes de Shapiro Wilk para verificar se as amostras são provenientes de uma população

com distribuição normal, com nível de significância de 5%.

10

AULA 2 - INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

Introdução - Trata-se de uma técnica para se fazer inferência estatística, ou seja, a partir de um intervalo

de confiança, construído com os elementos amostrais, pode-se inferir sobre um parâmetro populacional.

A construção de intervalos de confiança fundamenta-se nas distribuições amostrais. Se a partir de

uma amostra procura-se obter um Intervalo de Confiança P ] =1-α com uma certa

probabilidade de conter o verdadeiro parâmetro populacional.

Quando se diz que o Intervalo de Confiança contém o verdadeiro parâmetro populacional com

uma probabilidade 1 - (nível de confiança), será o nível de significância, ou seja, o erro que está se

cometendo ao afirmar-se que, por exemplo, 95% do intervalo contém .

Esta técnica diferencia-se da estimação “por ponto” onde se calcula um único valor (estimativa)

para o parâmetro populacional.

2.1 Intervalo de Confiança para Proporção ou Probabilidade P

Quando n > 30. Vimos que, P ~ N (p; pq/n), logo .

n

)p1(p

PpZ

^^

^

Portanto, o intervalo para um

nível será: Então:

1Z

n

)p1(p

PpZP1ZZZP

2^^

^

222

Para obter o intervalo acima é necessário o valor de “p” que é desconhecido. Como estamos

admitindo n > 30 pode-se substituir e encontrar:

1n

)p1(pZp P

n

)p1(pZpP

^^

2

^^^

2

^

resumindo:

IC (P, 1-α ) = [^

p n

)p1(pz

^^

2

]

2.2 Intervalo de Confiança para a Média Populacional (Não conhece variância populacional) Neste caso, precisa-se calcular a estimativa da variância a partir da amostra. Trabalha-se então

com a distribuição “t” de Student, com n – 1 graus de liberdade, isto é:

n

s

xt

, com (- t + ); portanto: 1]

n

s.tx

n

s.tx[P

22

Valor do teste t tabelado: 2

;1(

nt tab) logo resumindo ].[),(

2 n

stxIC

11

TESTES DE HIPÓTESES PARA UMA AMOSTRA

Decisões Estatísticas - Na prática somos chamados com muita freqüência a tomar decisões acerca de

populações, baseados nas informações das amostras. Essas decisões são denominadas decisões estatísticas.

Pode-se desejar decidir, com base em dados amostrais, se um novo soro é realmente eficaz na cura de uma

doença, se um processo educacional é melhor do que outro e outras.

Hipótese Estatística - A Hipótese Estatística é uma suposição ou afirmação relativa a uma ou mais

populações, que pode ser verdadeira ou falsa.

Testes de Hipótese - Consiste em decidir se a hipótese é verdadeira ou falsa. Assim, através de uma

amostra testaremos a hipótese formulada e concluiremos se ela deve ser rejeitada ou aceita.

As Hipóteses A hipótese lançada para ser rejeitada ou aceita é chamada de hipótese nula, denotada por

Ho. A rejeição de Ho leva a aceitação de uma hipótese alternativa, representada por H1.

Erros do Tipo I e II - Se uma hipótese for rejeitada quando deveriam ser aceita, diz-se que foi cometido

um erro do Tipo I. se, por outro lado, for aceita uma hipótese que deveria ser rejeitada, diz-se que foi

cometido um erro Tipo II. Em ambos os casos ocorreram uma decisão errada ou um erro de julgamento.

Nível de Significância - Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual

estaremos dispostos a correr o risco de um erro Tipo I é denominada nível de significância do teste. Essa

probabilidade, representada frequentemente por , é geralmente especificada antes da extração de

quaisquer amostras, de modo que os resultados obtidos não influenciem a escolha. Se, por exemplo, é

escolhido um nível de significância 5%, no planejamento de um teste de hipótese, há então cerca de 5

chances em 100, da hipótese ser rejeitada, quando deveria ser aceita, isto é, há uma confiança de cerca de

95% de que se tome uma decisão acertada.

Tipos de Testes de Hipóteses

2.3 Teste para a Média (conhece 2 )

0 (a)

(1a) Formulação das hipóteses

Ho: = 0 vs H1:

2a) Nível de significância - Normalmente adota-se um valor de entre 1% a 10%.

Estabelecer os valores críticos – Tabela Normal padrão

> 0 (b)

< 0 (c)

1 -

Z

1 -

/2

/2

1 -

-Z/2 Z/2 -Z

(a) (b) ( c )

12

3a) Cálculo da estatística teste

n).x 0(

Z

4a) Conclusão: Se a)

22

ZZZ cal Nao rejeita Ho

b) Se ZZ cal Rejeita-se Ho

c) Se ZZ cal Rejeita-se Ho.

2.4 Teste para a Média (Não conhece 2 )

1a) Formulação das hipóteses

Ho: = 0 vs H1:

2a) Nível de significância - Estabelecer os valores críticos

Variável “t” tabelada: Teste bilateral:

2

t

(n – 1;2

) e Teste Unilateral: t(n – 1; )

3a) Cálculo da estatística teste

s

nxt 0

cal

4a) Conclusão: a) Se

22

ttt cal não rejeita-se Ho

b) Se ttcal Rejeita-se Ho

c) Se ttcal Rejeita-se Ho.

0 (a)

> 0 (b)

< 0 (c)

1 -

(b)

1 -

/2

/2

1 -

- t

(a) (c)

= média amostral

= valor da hipótese nula

s = desvio-padrão amostral

n = tamanho da amostra

13

Abordagem p-valor (ou probabilidade de significância): é a informação sobre a força da evidência

contra Ho obtida a partir dos dados. Isto é, é informado se o valor observado para a estatística de teste que levou à rejeição de Ho está próxima da fronteira da região crítica (RC) (baixa evidência contra H0) ou se está muito afastada da fronteira (alta evidência contra Ho).

Regra: Na prática, rejeita-se H0 quando o p-valor é menor que o nível de significância, que representa a

probabilidade de rejeição indevida da hipótese nula.

Regra habitual: P > , nao rejeita H0

P ≤ , rejeita-se H0.

ATIVIDADE 2 – Intervalos de Confiança e Teste de Hipóteses para 1 amostra

1) Coletou-se uma amostra de 35 peixes de espécie Xenomelaniris brasiliensis, na localidade praia da

Barra da lagoa de SC, a qual apresentou 14 de peixes com comprimento total acima de 50 milímetros.

Construir um Intervalo de 90% de confiança para verdadeira proporção de peixes dessa espécie com

comprimento acima de 50 mm. Refaça com nível de confiança de 99%. O que ocorreu com os intervalos

quando diminuímos o nível de significância? O valor n=35 peixes, é um bom tamanho de amostra?

Dimensione a amostra para um erro amostral máximo de 0.05 e 0.15. Comente os resultados do

dimensionamento da amostra.

2) Para estudar a proporção de plantas com uma virose em um pomar de produção de sementes, em uma

amostra com 800 plantas foi tomada e todas as plantas foram submetidas ao teste Elisa. Verificou-se que 5

delas estavam infectadas. Obter o intervalo 95% de confiança para a proporção de plantas viróticas do

pomar de produção de sementes.

3) Um experimentador interessado em determinar a espessura média do córtex de um ouriço do mar,

empregou o procedimento experimental desenvolvido por Sakai. A espessura do córtex do ovo foi medida

em 10 ovos de ouriços, obtendo-se os seguintes resultados:

OM = [ 4.5, 5.2, 6.1, 2.6, 3.2, 3.7, 3.9, 4.6, 4.7, 4.1]. Determine os itens abaixo.

a- Estime a espessura média do córtex do ovo de um ouriço.

b- Estime a espessura média do córtex do ovo de um ouriço, utilizando um intervalo de 95% de confiança

para a espessura média dos dados. c- O que ocorre com o intervalo de confiança de aumentarmos o nível

de confiança para 99% ou 97,5%? Qual sua opinião?

4) Construir o intervalo de 95% de confiança para a média do tempo de vida

de um determinado inseto. Uma amostra de 40 insetos foi acompanhada até a morte e o tempo de vida de

cada um deles foi registrado. Os dados amostrais seguem abaixo:

Tabela 2.1 – Tempo de vida dos insetos (em dias)

8.5209 4.1871 2.5163 1.9133 8.7796 5.9117 0.7608 12.0372 2.6035 1.6889

5.6255 6.3604 5.0679 3.0310 1.1281 1.3850 12.5783 2.0292 0.5953 0.4451

3.6014 7.8288 1.3829 1.9344 0.8642 8.5144 4.9774 0.5759 1.5033 0.4750

1.0414 0.3009 1.7809 2.5638 5.3587 2.3066 1.5298 8.1052 3.1507 8.6276

_____________________________________________________________________________

Construir o I.C. para a verdadeira média, adotando o nível de significância de 2%.

5) A área foliar média da espécie Laguncularia rancemosa do manguezal do bairro Santa Monica, (não

poluído) é de 50.76 cm2 com a variância conhecida igual a 16cm

4 . Espera-se que a área foliar do

manguezal do bairro do Itacorubi seja maior devido à poluição do ambiente. Para verificar se essa

afirmação é verdadeira coletou-se uma amostra de tamanho n=20 folhas, do manguezal do Itacorubi, cujos

resultados foram:

14

AF= {39.4, 39.6, 39.9, 45.6, 45.6, 46.1, 46.1, 50.2, 50.2, 51.0, 51.2, 54.6, 54.8, 54.6, 55.1, 55.1, 55.5,

56.2, 66.3, 66.5}.

Esses resultados trazem evidências estatísticas de que houve aumento da área foliar? Adote nível de

significância 5% e assumir o desvio padrão populacional conhecido.

6) Teste p/ media (t) – Com os dados do exercício n.5 (tabela 2.1), considere que a distribuição do tempo

de vida dos insetos seja desconhecida. Testar a hipótese de que os insetos criados em laboratório vivem

menos em média que aqueles que em seu habitat natural, que possuem tempo de vida médio de 4,5 dias.

Adote o nível de significância de 5%.

AULA 3 - TESTE DE HIPÓTESE PARA DUAS AMOSTRAS

Comparação de 2 médias – Caso com 2 amostras

3.1 Teste t para duas amostras independentes - (Variâncias iguais)

A formação de pares de elementos similares nem sempre é viável. Uma alternativa é considerar

duas amostras independentes. O teste para duas amostras independentes, oriundas de 2 populações com

distribuição normal, com médias ( 21 ) e com variâncias (2

2

2

1 e ) desconhecidas e iguais.

Suposição básica: As observações são independentes;

Os dois grupos provêm de distribuições normais;

Os dois grupos possuem a mesma variância.

1a) Hipóteses : H0: 21 vs H1: 21 ; H1: 21 ou H1: 21

2a ) Nível de significância

Valores críticos: bilateral t (n1+ n2 -2; 2

) e unilateral t (n1 +n2 -2 ; )

3a) Estatística teste tcalc =

)(

21

21

)(

xxs

xx

onde o estimador do desvio padrão da diferença entre as médias

amostrais é dada:

2121

2

22

2

11

)21(

11

2

)1()1(

nnnn

SnSnS

xx

n1: número observado na amostra 1; n2: número observado na amostra2 2

2

2

1 SeS as variâncias amostrais.

4a) Conclusão: A hipótese nula (H0: 21 ) é rejeitada quando tcalc, o valor da estatística t, em valor

absoluto fica: Região crítica para teste unilateral: RC = {t ϵ R| calct > t }

Região crítica para teste bilateral: RC = {t ϵ R| tcalc <

2

t ou tcalc >+

2

t }.

3.2 Teste t para duas amostras pareadas - O teste t é apropriado para comparar 2 conjuntos de dados

quantitativos, em termos de seus valores médios.

15

1a) Hipóteses : H0: 21 vs H1: 21 ; H1: 21 H1: 21

H0: 0D vs H1: 0:H0:H;0 11 DDD

1 - valor esperado da resposta do tratamento 1

2 - valor esperado da resposta do tratamento 2

2a ) Nível de significância - Valores críticos: bilateral t (n-1;

2

) e unilateral t (n-1; )

3a ) Estatística teste tcalc =

ds

nd onde n: tamanho da amostra;

d : média das diferenças e sd: desvio padrão das diferenças.

4a) Conclusão: Região crítica para teste bilateral: RC = {t ϵ R| tcalc <

2

t ou tcalc >+

2

t }.

Região crítica para teste unilateral: RC = {t ϵ R| calct > t }

Teste F para comparação de duas variâncias populacionais - Comparação de 2 variâncias

Suponha que queremos comparar duas populações, supostamente com distribuições normais, têm

a mesma variância. Formulam-se as hipóteses:

1a ) Ho:

2

2

2

1 vs H1: 2

2

2

1 (teste bilateral ) ou

H1: 2

2

2

11

2

2

2

1 :H ; (teste unilateral)

onde :2

1 variância da população 1

2populaçãodaiânciavar:2

2 .

20 ) Nível de significância α e com n1 graus de liberdade no numerador e n2-1 g.l. no denominador.

Região crítica: Bilateral: Fsup (2

; gl1= n1 -1; gl2= n2 -1) e

Finf (1-2

; gl1= n1 -1; gl2= n2 -1) = Finf = )1;2(

1

)2

(glglF

Unilateral à esquerda: F inf [(1- ); (gl1; gl2)] = );(

1

12)( glglF

Unilateral à direita: Fsup [ ; (gl1; gl2)]

30) Estatística teste: f calc =

2

2

2

1

s

s onde si

2 são as variâncias na condição

2

1s > 2

2s .

40) Conclusão: Rejeita-se Ho: Teste bilateral, fcalc < F [(1-

2

); (gl1; gl2)] e fcalc > F [)

2( ; (gl1; gl2)]

Teste unilateral à esquerda: fcalc < F [(1- ) (gl1; gl2)]

Teste unilateral à direita: fcalc > F[ (gl1; gl2)]

16

ATIVIDADE 3 – Teste de Hipótese para 2 amostras

1) Foi realizado um experimento com o objetivo de comparar os tempos gastos, em minutos, na manobra

com os arados Fuçador e Erechim. Ambos arados são de tração animal. Os dados obtidos com 11

repetições para cada arado estão na tabela abaixo.

Tabela 3.1 – Tempo gastos (minutos) na manobra com os arados.

Fuçador 0.2 0.22 0.18 0.23 0.12 0.2 0.13 0.12 0.13 0.22 0.17

Erechim 0.36 0.48 0.33 0.43 0.4 0.43 0.33 0.36 0.35 0.4 0.35

a.Testar se a média do tempo gasto com arado Fuçador é menor que o tempo gasto com Erechim, com

nível de significância de 5%. b.Verificar os pressupostos de normalidade e homocedasticidade das

variâncias.

2) Um estudo para verificar a especificidade do fungo Gigaspora gigatea com as plantas Spartina sp e

Tibouchina sp. Foram coletadas 15 amostras de solos em volta, da Spartina sp e 15 amostras Tibouchina

sp. Foram observadas as quantidades de fungos presentes. Os resultados foram:

Tabela 3.2 - Quantidade de fungos presente nas duas espécies de plantas

Plantas Spartina sp Plantas Tibouchina sp.

20,12,18,13,15,12,11,16,15,16,11,

15,18,20,12

10,15,12,12,13,15,16,14,14,11,9,

11,15,12,13

a) Verifique os pressupostos para o teste paramétrico, utilizando nível de significância 5%.

b) Os dados tem evidência suficiente para indicar uma diferença entre as quantidades médias de fungos

(Gigaspora gigantea) encontrada em plantas de Spatina sp e Tibouchina sp?

c) Qual a formatação das hipóteses? d) Determine o p-valor.

3) Foi conduzido um experimento para estudar o conteúdo de hemoglobina no sangue de suínos com

deficiência de niacina. Aplicaram-se 20 mg de niacina em oito suínos. Pode-se afirmar que o conteúdo de

hemoglobina no sangue diminui com a aplicação, ao nível de significância de 5%? Construir o Intervalo

de confiança para a verdadeira redução no teor médio da hemoglobina. Os níveis de hemoglobina foram

mensurados antes e depois da aplicação da niacina. Os resultados obtidos estão na tabela dos baixo:

Tabela 3.3 – Níveis de hemoglobina no sangue de suínos

Antes 13,6 13,6 14,7 12,1 12,3 13,2 11 12,4

Depois 11,4 12,5 14,6 13 11,7 10,3 9,8 10,4

Determine o p-valor na tabela t de Student.

4) Deseja-se testar a hipótese de a possibilidade da quantidade de proteínas totais no plasma, depois de

determinada operação em portadores de esquistossomose mansônica, ser diferente da quantidade antes da

operação. Foi utilizada 17 pacientes, cujos resultados foram:

Tabela 3.4 – Quantidade de proteínas totais no plasma após cirurgia.

Antes 6.9 7.8 6.6 5.9 7.8 6.4 8.8 7.3 8.0 8.6

Depois 6.9 8.6 8.7 7.3 7.8 8.2 9.3 7.3 7.6 7.8

Antes 7.7 7.9 8.7 5.8 9.2 9.3 8.9

Depois 7.6 7.8 8.1 6.8 8.3 10.2 9.1

Verifique os pressupostos de normalidade para realizar um teste paramétrico, utilizando nível de

significância 5% e testar se há diferença significativa entre os dois momentos.

17

AULA 4 - ESTATÍSTICA NÃO PARAMÉTRICA

Nas pesquisas científicas vimos que são muitos usados o teste t de Student, a análise de variância,

o teste de Tukey, a regressão linear, etc. Tais testes exigem, para sua aplicação que a variável em análise

seja numérica e as hipóteses sejam feitas sobre os parâmetros, daí o nome: testes paramétricos. Mas, os

testes paramétricos têm ainda outras exigências.

Os testes paramétricos exigem que os dados tenham uma distribuição normal ou aproximadamente

normal, que seja simétrica, além da pressuposição de homogeneidade de variâncias (homocedasticidade),

O problema existe quando estas exigências não são satisfeitas e as amostras são pequenas. Os

testes não paramétricos são menos exigentes não exigindo normalidade dos dados. Pode-se trabalhar com

variáveis não numéricas, assim como, pode-se trabalhar com os postos ocupados pelas variáveis ou com

suas frequências.

Analisados os aspectos levantados anteriormente fazemos a opção pela aplicação de testes

paramétricos (mais fortes e robustos) ou testes não paramétrico quando certas condições não são

satisfeitas tais como:

As observações não serem independentes

As observações forem extraídas de populações que não possuem uma aproximação com a

distribuição normal.

As populações não possuem variâncias semelhantes (homocedasticidade) e não

apresentam uma relação conhecida entre elas.

As variáveis em estudo não apresentam medidas intervalar de modo a não possibilitar o

emprego de estatísticas como o cálculo de médias e de desvios (parâmetros).

TESTES NÃO PARAMÉTRICOS - CASOS DE DUAS AMOSTRAS INDEPENDENTES

4.1 Teste Qui-quadrado

O teste 2 serve para testar a hipótese de que duas variáveis categóricas independentes ou, o que

matematicamente é o mesmo, testar a hipótese de que duas probabilidades são iguais. Atenção nas

exigências:

1. Independência dos grupos em comparação: os dois grupos em comparação devem ser

independentes como, por exemplo, um grupo controle e outro experimental, ou um grupo é

constituído por portadores de uma doença e outro por não-portadores.

2. Tamanho da amostra: a amostra deve ser de tamanho igual ou maior do que 20. Se a

amostra for menor que 40, as freqüências esperadas devem ser maiores que 5.

ETAPAS

1a) Elaboração das hipóteses estatísticas

H0: As variáveis são independentes

H1: As variáveis não são independentes. (As variáveis apresentam algum grau de associação entre si).

2a) Estabelecer o nível de significância . Neste caso, a variável teste a ser adotada será a “

2 ” com

[(h – 1)(k –1 )] graus de liberdade. A região crítica é unilateral.

3a) Cálculo da variável teste

Calcular as freqüências esperadas (Fehk) e avaliá-las, caso existam eventos que não satisfaçam à

condição Fe 5, estes devem ser unidos aos eventos adjacentes.

F011 Fe11 = n

xCL 11 F012 Fe12 = n

xCL 21 ....

18

F032 Fe32 = n

xCL 23 F0hk Fe hk = n

xCL kh

Estatística de teste para um teste de independência

h

i

k

j ij

ijij

calFe

FeFo

1 1

2

2)(

hk

hkhk

Fe

FeFo

Fe

FeFo 2

11

2

1111 )(...

)(

4a) Conclusão: Se 22

calRejeita-se H0 ao nível de significância e conclui-se que as

variáveis são dependentes.

Condições para o Uso do teste Qui-Quadrado:

Utilizar quando n >20. Caso contrário optar pelo exato de Fisher.

Se 20< n <40, aplica o teste somente se todas frequências esperadas são maiores que 5.

Muitos estatísticos recomendam calcular o valor de 2 com correção de continuidade quando o

grau de liberdade for igual a 1. A distribuição empírica do 2 calculado não se aproxima da

distribuição teórica. A estatística conhecida como 2 corrigido de Yates em honra ao estatístico

que a propôs, Frank Yates, é dada por:

Fe

FeFo 2

2)5,0(

A correção de continuidade produz um teste mais conservador, isto é, um teste que tem menor

probabilidade de rejeitar a hipótese de nulidade. Se a amostra é pequena, o efeito da correção de

continuidade é ainda maior.

O Coeficiente de Contingência - Quando a hipótese nula é rejeitada, conclui-se que as variáveis

são dependentes e apresentam algum grau de associação que pode ser medida pelo coeficiente de

contingência de Pearson (C), que é dado pela fórmula:

%100.n

C2

cal

2

cal

.

O Coeficiente de Contingência (C) possui intervalo de variação de: 0 ≤ C ≤ 1, que é interpretado

da seguinte forma:

- quanto mais próximo de “1” estiver o valor de C maior será o grau de dependência entre as variáveis.

- quanto mais próximo de “0” estiver o valor de C menor será o grau de dependência entre as variáveis.

Teste Qui-quadrado para Homogeneidade - O teste de homogeneidade testa a afirmativa de que

populações diferentes têm a mesma proporção de alguma característica em estudo. Nas pesquisas, algumas

amostras são retiradas de populações diferentes, e para determinar se essas populações têm a mesma

proporção da característica em consideração, aplica o teste de homogeneidade. A palavra homogêneo

significa “tendo a mesma qualidade”, e neste contexto, testa-se se as proporções são as mesmas.

ETAPAS

1a) Elaboração das hipóteses estatísticas: H0: As variáveis são homogêneas

H1: As variáveis não são homogêneas

Os requisitos, a estatística teste, o valor crítico têm o mesmo procedimento que o teste de independência

com exceção das hipóteses.

19

4.2 Teste de Mann-Whitney – CASO DE DUAS AMOSTRAS INDEPENDENTES

O teste de Mann-Whitney é utilizado para testar a hipótese de que a posição central de duas

populações são iguais. Esse teste é, portanto, uma alternativa para o teste t no caso de amostras

independentes. Mas só deve aplicar o teste de Mann-Whitney se sua amostra for pequena e/ou as

pressuposições exigidas pelo teste t estiverem seriamente comprometidas.

Procedimento:

a) Considerar n1:o número de casos do grupo com menor observações

n2: o número de casos do grupo com maior observações.

b) Considere todos os dados dos dois grupos e coloque-os em ordem crescente. Atribua o valor dos

postos, primeiro ao escore que algebricamente for menor e prossiga até N = n1 + n2. Às observações

empatadas atribuir à média dos postos correspondentes.

c) Calcular: R1 = soma dos postos do grupo n1. R2 = soma dos postos do grupo n2.

d) Calcular a estatística teste

ETAPAS:

1a ) Elaboração das hipóteses estatísticas: H0: A mediana das duas populações são iguais

H1: A mediana das duas populações diferem entre si.

2a ) Estabelecer o nível de significância .

Para grandes amostras (n1 >10 e n2 >10, segundo Sidney Siegel; 2006)

Quando H0 é verdadeira, os valores de Z calculado têm distribuição assintoticamente normal com média

zero e variância um. Com auxílio da tabela normal padrão determina-se as regiões críticas.

3a ) Cálculo da estatística teste. Utilize o menor valor de U;

4a ) Conclusão: a) Se

22

ZZZ cal não rejeita H0

b) Se ZZ cal Rejeita-se H0

c) Se ZZ cal Rejeita-se H0.

4.3 Teste de Wilcoxon - CASO DE DUAS AMOSTRAS RELACIONADAS

O teste dos postos de Wilcoxon deve ser aplicado aos dados pareados. Este teste é, portanto, uma

alternativa ao teste t de Student no caso de amostras dependentes, mas só deve ser aplicado quando as

pressuposições exigidas pelo teste t estiverem seriamente comprometidas (as diferenças provenham de

distribuição normal).

Procedimento:

a) Determinar para cada par a diferença (di) entre os dois escores.

b) Atribuir postos (colocar em ordem crescente) todos os “di”s, desconsiderando-se os sinais.

c) Identificar cada posto pelo sinal “+” ou “-” do “di” que ele representa.

d) Definir a estatística T = menor das somas de postos de mesmo sinal.

T+: soma dos postos dos di’s positivos e T-: soma dos postos dos di’s negativos.

A soma dos postos é igual a n(n+1) /2.

e) Abater do “n” o número de zeros, isto é, di = 0.

2

)1(

2

)1(22

22

11

11

nnRUou

nnRU

;)(

)(

u

uUZcal

12

)1(.)(

2

.)( 212121

nnnn

uenn

u

20

ETAPAS - para grandes amostras (n > 15 segundo Sidney Siegel, 2006)

1a ) Elaboração das hipóteses estatísticas

H0: A mediana das duas populações são iguais

H1: A mediana das duas populações diferem entre si.

2a ) Estabelecer o nível de significância .

Para grandes amostras - Quando H0 é verdadeira, os valores de Z calculado têm distribuição

assintoticamente normal com média zero e variância um. Com auxílio da tabela normal padrão,

determina-se as regiões críticas.

3a ) Estatistica teste: T = Soma das diferenças dos postos positivos

4a ) Conclusão: regra habitual da tabela normal padrão

Empates - 10 tipo - Caso os dois escores de algum par são iguais, di = 0 (não houve diferença entre dois

tratamentos), tais pares são retirados da análise e o tamanho n da amostra é reduzido.

20 tipo - Dois ou mais di’s podem ser de mesma magnitude. Atribui-se o empate no mesmo posto. O novo

posto será a média dos postos que teriam sido atribuídos se os di’s tivessem diferido.

Considere esse procedimento para o caso sem empates. O valor crítico Q( α; k ) são encontrados na tabela

da distribuição Q para testes de comparações múltiplas não paramétricas.

ATIVIDADE 4 – Teste de Hipótese Não Paramétrico

1) Os dados da tabela abaixo representam contagens de sobrevivência de enxertos de ameixeiras,

provenientes de um experimento para comparar duas épocas de plantio: na primavera e fora da primavera.

Para cada época foram transplantados 480 enxertos e foi avaliado o número de enxertos sobreviventes

após 30 dias. (Andrade; 2007)

Tabela 4.1 - Distribuição das frequências da variável época de plantio

e sobrevivência de enxertos de ameixeiras

Èpocas Raízes

Sobreviventes Mortas

Fora da Primavera 263 217 480

Na Primavera 115 365 480

TOTAL 378 582 960

a) Testar se existe diferença significativa entre as proporções de raízes sobreviventes nas duas épocas de

plantio, ao nível de significância de 5%.

b) Aplique a correção de Yates; c) Discuta a conclusão prática.

2) Os resultados de um experimento para avaliar o efeito do petróleo sobre parasitas de peixes foram

descritos no artigo “Effects of Crude Oils the Gastrointestinal Paraisites of Two Species of Marine Fish”

(J. Wildlife Diseases 1983- p.253-258). As três amostras comparadas foram (1) sem contaminação (2)

contaminação por óleo derramado há 1 ano e (3) contaminação por óleo novo. Para cada condição nas

amostras, o peixe foi classificado como tendo o parasita ou não. Os dados indicam que nas três amostras

diferem em relação à proporção real de peixe com e sem parasitas? Adote o nível de significância de 1%.

T

Tcal

TZ

4

)1n(nT

24

)1n2)(1n(nT

21

Tabela 4.2 – Avaliação do efeito do petróleo sobre parasitas de peixes

Contaminação Doença

Parasitado não paras

Total

Controle 30 3 33

Óleo antigo 16 8 24

Óleo novo 16 16 32

62 27 89

a) Realize o Teste Qui-quadrado de proporção com nível de significância de 5%.

b) Calcule o Coeficiente de Contingência.

3) No processo de produção de papel, a degradação de lignina (enzima) é um aspecto fundamental, e

precisa ser feito rapidamente, exigindo a utilização do cloro, danoso ao meio ambiente. Em pesquisas

avaliaram a viabilidade de degradação da lignina através da ação dos fungos, em bio-reatores, para

preservação do meio ambiente. Logo testaram duas espécies de fungo, medindo o tempo de degradação

num pequeno cubo de madeira de eucalipto. A espécie 1 deve degradar a lignina em menos tempo. Testar

se a espécie 1 é mais rápida que a espécie 2, com nível de significância 5%..

Tabela 4.3 – Tempo de degradação realizada por duas espécies de fungos. UEL / 2010

Espécie 1 Espécie 2

6.5 11 16 13.5 51.5 22.5 17.5 16

13 16.5 28.5 6 46.5 32 5.5 14

7 10 6 7.5 15.5 38.5 36.5 46

17.5 10.5 14.5 15 17 13 19 34.5

16 4 10.5 27.5 20 59.5 14.5 20.5

5.5 8.5 37 25 e 19 12 66 29.5 59 e 19

4) Explorando dois conjuntos de dados - Os dados da tabela abaixo são relativos à variação de luz no

crescimento das plantas medidas através da área foliar específica após 60 dias, da espécie Cecropia

glazioui, em amostras situadas em borda de mata e mata fechada, com intensidade de luz média de 10,6%

e 0,87%, respectivamente. A espécie C. glazioui é uma planta pioneira, heliófita, pereniifólia, seletiva

higrófila, ocorrendo preferencialmente em capoeiras e capoeirões de derrubadas recentes.

Tabela 4.4 – Área foliar de Cecropia glazioui localizadas na borda da mata e mata fechada

Borda da mata Mata fechada

0,2145 0,3458 0,3796 0,4125 0,4657 0,5521 0,6780 0,7126 0,7894 0,8564

0,2540 0,3482 0,3815 0,4142 0,4670 0,5841 0,6842 0,7154 0,7912 0,8654

0,2592 0,3487 0,3874 0,4182 0,4823 0,6284 0,6898 0,7179 0,8023 0,8665

0,2891 0,3490 0,3924 0,4326 0,4862 0,6357 0,6945 0,7256 0,8046 0,9214

0,2971 0,3547 0,3931 0,4358 0,4921 0,6489 0,6950 0,7321 0,8451 0,9421

0,3013 0,3574 0,3971 0,4573 0,5010 0,6570 0,6970 0,7783 0,8467 0,9573

0,3279 0,3648 0,4015 0,4582 0,5231 0,6704 0,7125 0,7884 0,8468 0,9689

a)Construa um gráficos (2 boxplots) gráfico de caixa para comparar o crescimento da área foliar em

relação à posição da mata.

b) Os pressupostos para realizar um teste paramétrico foram confirmadas?

c) Testar a hipótese, com os dados amostrais, para verificar se há evidência que o crescimento médio da

planta na borda da mata é menor que da mata fechada com nível de significância 10%.

22

5) O Prof. Marcos A. Dornelles (Faculdade de Farmácia, UFRGS) mediu a colinesterase em agricultores

gaúchos que aplicaram inseticidas em plantas de interesse comercial. Foram feitas duas coletas de sangue

em cada indivíduo: uma antes da aplicação da droga e outra 24 horas depois da aplicação. Os resultados

obtidos estão na tabela abaixo e considere que os pressupostos foram atendidos. O que pode ser afirmado

quanto ao efeito da exposição ao inseticida sobre o nível de colinesterase no sangue desses indivíduos,

com nível de significância de 5%? (Callegari-Jacques, 2003)

Tabela 4.5 - Colinesterase total (umol /ml de plasma) em 17 agricultores: dosagens antes e depois uma

sessão de aplicação de inseticida em plantas. Ind 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

A 8,3 6,7 7,8 9,3 6,5 10,5 6,9 7,5 6,6 6,7 7,5 7,4 8,1 8,8 7,6 9,4 7,2

D 6,84 5,98 7,1 8,38 6,07 10,22 5,87 7,28 6,15 6,26 7,46 7,69 7,95 9,15 7,56 9,07 6,78

Fonte: Marcos A. Dornelles (Fac. Farmácia, UFRGS)

6) Teste de Wilcoxon (Grandes amostras)

Para examinar os efeitos da transição da circulação fetal para o pós-natal entre bebês prematuros, para

cada um dos 14 recém-nascidos saudáveis, a taxa respiratória (minutos) foi medida em dois diferentes

momentos – no primeiro momento quando o bebê tinha menos de 15 dias e o segundo momento quando

tinha mais de 25 dias.

Tabela 4.6- Taxa respiratória (minutos) para avaliar os efeitos da transição da circulação fetal Ind 1 2 3 4 5 6 7 8 9 10 11 12 13 14

M1 62 35 38 80 48 48 68 26 48 27 43 67 52 88

M2 46 42 40 42 36 46 45 40 42 40 46 31 44 48

Testar a hipótese nula de que a diferença mediana nas taxas respiratórias não diferem entre os dois

momentos. Adote o nível de significância de 5%.

AULA 5 - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

A teoria de Regressão teve origem no século XIX com Glaton. Em um de seus trabalhos,

estudou a relação entre a altura dos pais e dos filhos (Xi , Yi), procurando saber como a altura do pai

influenciava a altura do filho. Notou que se o pai fosse muito alto ou muito baixo, o filho teria uma

altura tendendo à média.

Em geral, suponha que haja uma única variável dependente, ou resposta, Y que depende de k

variáveis independentes ou regressora, denominadas X1, X2, ......Xk. A relação entre essas variáveis é

caracterizada por um modelo matemático chamado de equação de regressão. O modelo de regressão é

ajustado a um conjunto de dados amostrais. Em algumas situações, o pesquisador escolhe uma função

apropriada para aproximar f.

5.1 Modelo de Regressão Linear Simples

Na regressão linear objetiva-se determinar relação entre uma única variável regressora X e uma

variável resposta Y. Pode-se assumir que a variável regressora X seja contínua e controlada pelo

pesquisador. Caso o experimento seja planejado, escolhem-se os valores de X e observam-se os

valores correspondentes de Y.

Suponha que a verdadeira relação entre Y e X seja uma linha reta e que a observação Y para cada

nível de X seja uma variável aleatória. O valor esperado de Y para cada valor de X é:

23

E(Y\X) = X10 .

Em que os parâmetros 10 e são constantes desconhecidas. Assume-se que cada observação Y pode

ser escrita pelo modelo Y = eX 10

Sendo (ej) o erro aletório com média zero e variância 2 , o erro ej ~ (0,

2 ). Os erros são variáveis

aleatórias não correlacionadas.

O modelo de regressão envolve somente uma variável regressora X e, por isso, é chamado “Modelo de

Regressão Linear Simples”, dado a estimativa dos parâmetros.

n

XX

n

YXYX

n

jjn

jj

n

jj

n

jjn

jjj

1

2

1

2

11

1

1

)(

Os estimadores 10ˆˆ e são os estimadores de mínimos quadrados do intercepto e inclinação,

respectivamente. O modelo de regressão linear simples ajustado é:

jXY 1

^

0

^^

que dá uma estimativa pontual da média de Y para cada valor de X. O denominador é a soma de

quadrados corrigida de Xj e o numerador é a soma dos produtos de Xj e Yj corrigida, que podem ser

escritas de uma forma mais simples:

xxSn

X

X

n

j

jn

j

j

1

2

1

2

)(

n

j

jj XX1

2)(

xySn

YX

YX

n

j

n

j

jjn

j

jj

1 1

1

.

n

j

jjj XXY1

)( assim,

5.2 Coeficiente de Correlação Linear de Pearson-

Tem por objetivo medir o grau de associação entre duas variáveis. O instrumento empregado para

a medida da correlação linear de Pearson, representado pela letra r, e é obtido por:

n

YYSonde

SS

S

n

YY

n

XX

n

YXXY

r YY

YYXX

XY

2

2

2

2

2

2

O Coeficiente de correlação é um número sem dimensão (adimensional) cujo valor se situa entre

(-1; +1). Quando X e Y variam no mesmo sentido, diz-se que a correlação é positiva, assim, o coeficiente

de correlação tem sinal positiva. Quando X e Y variam em sentido contrário, diz-se que a correlação é

negativa, assim, o coeficiente de correlação tem sinal negativo, ou seja,

Se r = 1, a correlação é positiva perfeita;

Se r = -1, a correlação é negativa perfeita;

Se r = 0, a correlação é nula.

24

O sinal da correlação indica qual tendência da variação conjunta das duas variáveis consideradas,

entretanto, deve-se considerar também a intensidade ou o grau de correlação.

5.3 Teste de hipóteses para Correlação - Testar a hipótese que o coeficiente de correlação seja igual a

zero, Ho = 0 H1 = 0

o teste estatístico apropriado para esta hipótese é dada por: 20

1

2

r

nrt

, que

segue uma distribuição t com (n-2) graus de liberdade, se H0 for verdadeira. Assim rejeita-se a hipótese

nula se 0t > )2(;

2n

t

5.4 Estimação de 2 - A diferença entre o valor observado Yj e o correspondente valor ajustado jY é

denominado RESÍDUO. O j-ésimo resíduo é definido por: ej = )ˆˆ(ˆ10 jjjj XYYY

j = 1,2,......,n.

Os resíduos tem papel importante na verificação do ajuste do modelo e nas suposições que são realizadas.

Variância Residual da Amostra - Além de estimar 10 e , uma estimativa de 2 é necessária para

testar a hipóteses e construir intervalos de confiança pertinentes ao modelo de regressão. Esta estimativa

pode ser obtida dos resíduos ej = jj YY ˆ . A soma de quadrado dos resíduos é dada por:

SQRes = 2

1

)ˆ( jj

n

j

j YYe

. Após o desenvolvimento matemático

xyyy SSsSQ 1ˆRe .

A soma de quadrados dos resíduos tem (n-2) graus de liberdade, pois dois graus de liberdade são

associados com as estimativas 10ˆˆ e

envolvidas na estimação de jY . O valor esperado da SQRes é

E(SQRes) = (n-2). 2 , de forma que um estimador não viesado de

2 é:

5.5 Testando Hipóteses na Regressão Linear Simples - Para testar hipóteses sobre o intercepto ( )0 e o

coeficiente angular )( 1 do modelo de regressão, deve-se fazer a suposição de que os (ej) são

normalmente distribuídos, ou seja, assume-se que os erros ej ~ NID (0, 2 ).

Teste para o coeficiente angular - Para se testar a hipótese de que o coeficiente angular é igual a um

valor constante, por exemplo, 0,1 . As hipóteses apropriadas são:

H0: 1 = 0,1 vs H1: 1 0,1 em que se especificou uma hipótese alternativa bilateral.

xxSsQMt

/Re

ˆ0,11

1

segue uma distribuição t com (n-2) graus de liberdade sob H0: 1 = 0,1 . A

estatística t1 é usada para testar H0 comparando-se o valor observado de t1 com o valor tabelado da

distribuição t: )2(;

2n

t . A hipótese nula será rejeitada se 1t > )2(;

2n

t .

25

Teste para o coeficiente linear - Um procedimento similar pose ser usado para testar a hipótese sobre o

intercepto. Para testar: H0 : 0 = 0,0 vs H1: 0 0,0 , usa-se a estatística teste:

)1

(Re

ˆ

2

0,00

0

xxS

x

nsQM

t

e rejeita-se a hipótese nula se 0t > )2(;

2n

t . Um caso especial é testar: H0: 1 = 0 vs H1: 1 0., cuja a

hipótese esta relacionada com a significância da regressão. Se H0: 1 = 0 não for rejeitada, isto implica

que não há uma relação linear entre X e Y; logo o melhor estimador de Yj para qualquer valor de Xj é

YY j ˆ .

5.6 Análise de Variância na Regressão - A determinação da equação de regressão deve ser precedida de

uma análise de variância, a fim de comprovar estatisticamente, se os dados apresentam a suposta relação

linear entre as variáveis X e Y. Hipóteses a serem testadas pela análise de variância na regressão:

1a) Hipóteses levantadas: H0: 1 = 0 (não existe a regressão) vs H1: 1 0 ( existe a regressão)

2a) Valor crítico: F[ (1;n-2) ;

]

3a) Estatística teste F

Quadro da Análise de Variância na Regressão

Causade

Variação (CV)

Graus de

Liberdade (GL)

Soma de

Quadrados (SQ)

Quadrado Médio

(QM) Fcalculado Ftabelado

Regressão 1 SQRegressão QMRegressão Resíduo

Regressão

QM

QM F[1;n-2;

]

Resíduo (n-2) SQResíduo QMResíduo

Total (n-1) SQTotal

4a) Conclusão: se Fcalc Ftab rejeita-se H0 ao nível de significância adotado, e conclui-se que existe a

Regressão ou existe a relação linear entre as variáveis.

Como SQTotal = SQReg + SQRes

SQTotal = Syy

SQReg = xyS.ˆ1 ;

SQRes = SQTotal – SQReg

Observe que ao realizar a análise de variância, o procedimento é comparar as variâncias;

n

j

j yy1

2)( = 2

1

)ˆ( j

n

j

j yy

+

n

j

j yy1

2)ˆ( ou corresponde a

SQTotal = SQRes + SQReg.

2: SQTotal é a variação total de Y em torno da média;

2: SQRes é a variação de Y em torno da reta;

2: SQReg é a variação das esperanças específicas de Y, em torno da média.

26

5.7 Coeficiente de Determinação ou Explicação –

A Soma de Quadrado Total mede a variação nas observações Yj, ou a incerteza em predizer Y quando X

não é considerado. De forma análoga, Soma de Quadrado do Resíduo mede a variação em Yj quando um

modelo de regressão utilizando a variável X é empregada. Uma medida natural do efeito de X reduzindo a

variação em Yj, ou seja, em reduzir a incerteza na predição de Y, é expressar a redução da variação como

(SQTotal – SQRes = SQReg) como uma proporção da variação total:

Total

síduo

Total

gressão

SQ

SQou

SQ

SQR ReRe2 1

A medida R2 é chamada de coeficiente de determinação ou explicação e seu compo de variação é:

)10( 2 R e indica a proporção da variação total que é “explicada” pela regressão

Se R2

= 1, todos os pontos observados se situam “exatamente” sobre a reta de regressão, então as

variações de Y são 100% explicados pelas variações de X por meio da função especificada, conforme

figura 1.

Por outro lado, um R2 = 0 pode ou não indicar ausência de correlação entre X e Y.

5.8 Análise de Resíduo - Resíduos do ajuste de MRLM

A análise de resíduos desempenha papel fundamental na avaliação do ajuste de um MRLs, investiga

a adequação do modelo quanto às suposições básicas do modelo, bem como norrmalidade, independência

dos erros, homocedasticidade, relação linear de X e Y e falta de ajuste do modelo proposto. Além dos

testes de significância e adequação, a análise de resíduo vem complementar o elenco de procedimentos

que devem ser realizados após o ajuste de qualquer modelo.

Tipos de resíduos - Resíduos padronizados são escalonados para reduzir uma variável aleatória a ter

esperança com média zero e seus desvios padrão seja aproximadamente igual a um. Consequentemente

dj > 3 indica outliers. dj = 2ˆRe

jj e

sQM

e com j=1,2,....,n

Resíduo na forma de Student (Estudentizado) – os resíduos padronizados e estudentizado são parecidos,

mas em algumas situações os resíduos estudentizado é mais sensível para detectar pontos influentes.

rj = )1(ˆ 2

jj

jj

h

e

onde hjj = (

xx

j

S

xx

n

2)(1 ) com j=1,2,....,n

Gráficos de resíduos - Para o modelo de regressão, os termos dos erros ej são assumidos serem variáveis

aleatórias normais e independentes, com média zero e variância 2 . Se o modelo é adequado para os

dados, os resíduos observados, devem refletir as propriedades assumidas para os erros ej. Esta é a idéia

básica da análise de resíduos, uma maneira útil de examinar a adequação de um modelo estatístico.

Análise gráfico é muito eficiente para verificar a adequação do modelo, e checar violações do modelo (não

independência dos erros, normalidade dos erros, variância constante dos erros).

Gráfico dos Zi’s versus variável regressora ou valores estimados.

No gráfico plota-se os resíduos padronizados (zi) no eixo das ordenadas e a variável regressora ou o

valor estimado da variável resposta no eixo das abscissas. Ambas os gráficos nos dará mesmas

informações. A característica do gráfico é que a faixa de variação dos resíduos ao longo dos valores de X

é constante, ou ainda, os pontos devem estar espalhados aleatoriamente, não demonstrando nenhuma

tendência. Isso indica a não violação do modelo.

27

Presença de Outliers

“Outliers” são observações extremas. Outliers residuais podem ser identificados no gráfico de

resíduos versus X, ou ainda, utiliza do gráfico de caixa dos resíduos. O gráfico de resíduos padronizados é

particularmente útil, pois permite distinguir observações afastadas, uma vez que se torna fácil identificar

resíduos que se encontram muitos desvios padrão do zero. Embora a presença de outliers possa criar

dificuldades, só é recomendável retirá-lo da análise se há evidência direta que representa um erro de

coleta, um cálculo mal feito ou circunstância similar.

QQPlot Pequenos afastamentos da normalidade não criam sérios problemas, o que não é verdadeiro para

grandes afastamentos. Uma forma de analisar a normalidade dos resíduos é análise gráfica através do

gráfico QQplot. Neste caso cada resíduo é plotado contra seu valor esperado de normalidade. Um gráfico

aproximadamente linear sugere concordância com a normalidade, enquanto um gráfico que se afasta

substancialmente da linearidade sugere que a distribuição dos resíduos não seja aproximadamente normal.

Caso seja violada os pressupostos pela análise de resíduo, partir para transformações de dados e realizar

novamente os procedimentos.

ATIVIDADE 5

1) Charnet (2008) - Um estudo foi realizado para investigar o efeito de um desinfetante. Foram preparadas

soluções, nas quais o desinfetante foi diluído em quantidades fixas de água, para concentrações de

desinfetante de 1% a 8%. Foi observado o número de bactérias que sobreviveram, após as superfícies

serem limpas com uma das soluções. Obs: Adote um nível de significância de 5% para trabalhar em

todos os itens.

Tabela 5.1 – Número de bactérias que sobreviveram após higienização com diversas concentrações

desinfetantes.

Observações X: concentrações (%) Y: Número de bactérias

1 1 29 2 1 31 3 2 26 4 2 25 5 3 21 6 3 24 7 3 26

8 3 28 9 4 21 10 4 22 11 5 14 12 5 24 13 6 23 14 6 15 15 7 18 16 8 13

a) A correlação linear de Pearson entre as variáveis X e Y. Testar ao nível de 5% de significância se a

correlação é zero. Construa o diagrama de dispersão

b) Modelo de regressão do número de bactérias em função da concentração. Comente as estimativas dos

parâmetros do modelo.

c) Determine a estimativa do número de bactérias que sobreviveriam caso utilizasse uma concentração de

3.5% de desinfetante

d) Estimativa da variância residual;

28

e) Testar os parâmetros do modelo.

f) Teste a significância do modelo e determinar o coeficiente de determinação. Discuta.

g) Realize uma análise de resíduo completa. Os resultados indicam a transformação dos dados.

h) Estatística de diagnóstico

2) Os dados abaixo se referem a variável independente: “peso” de 30 cães e a variável dependente

(variável resposta): pressão arterial dos cães. Determine os itens abaixo.

Tabela 5.2 – Peso e pressão arterial de 30 cães - H.V 2013

ind PA PESO ind PA PESO ind PA PESO

1 130 23 11 135 23.8 21 90.5 16

2 107.5 22.7 12 125 22 22 115.5 20

3 135 21.2 13 110 18.7 23 113 18.3

4 100 21.5 14 102 19.5 24 116 22.3

5 134.5 17 15 121.5 28 25 143 24

6 121.5 28.4 16 111.5 15 26 104.5 15.8

7 107.5 19 17 107.5 18.8 27 102.5 16

8 105 14.5 18 127.5 20.5 28 107.5 15

9 125 19 19 104.5 15 29 125.5 16

10 130 19.5 20 102.5 14.9 30 93 22.5

a) A correlação linear de Pearson entre as variáveis X e Y. Testar ao nível de 5% de significância se a

correlação é zero. Construa o diagrama de dispersão

b) Modelo de regressão da pressão arterial em função do peso. Comente as estimativas dos parâmetros do

modelo.

c) Teste a significância do modelo e determinar o coeficiente de determinação. Discuta.

d) Realize uma análise de resíduo completa. Os resultados indicam a transformação dos dados? e) Realize uma estatística de diagnóstico. Existe algum ponto discrepante na amostra?

3) Seleção de variáveis – Regressão múltipla

YE (2009) Um estudo foi conduzido para estudar o tamanho das lulas comidas por tubarões e atuns. As

variáveis regressoras são as características do bico ou boca da lula. As variáveis regressoras e as variáveis

respostas (no software R) consideradas no estudo são as seguintes:

x1: comprimento do bico (em polegadas)

x2: comprimento do flanco (em polegadas)

x3: comprimento do bico à fenda (em polegadas)

x4: comprimento da fenda ao flanco (em polegadas)

x5: largura (em polegadas) e y: peso (em libras)

Realizar a “SELEÇÃO DE VARIÁVEIS” . Adote nível de significância de 10%.

a. Apresente o modelo completo. Quais variáveis são significativas pelo teste dos parâmetros?

b. Selecionar pelas técnicas: ( Backward; Forward ou Stepwise).

c. Qual modelo vc selecionará para representar esse conjunto de dados?

d. verifique a multicolinearidade.

29

AULA 6 – Ensaio Inteiramente Casualizado

6.1 Análise de Variância = Comparações de Médias

A análise de variância é uma técnica que pode ser realizada para determinar se a média de duas ou

mais populações são iguais.

O teste se baseia numa amostra extraída de cada população e testa as seguintes hipóteses ao nível

de significância .

H0: As médias das populações são iguais ( )

H1: As médias das populações são diferentes. ( Pelo menos dois diferem entre si)

SUPOSIÇÕES:

a) O modelo deve ser aditivo, isto é, os efeitos devem se somar; (Teste de não aditividade)

b) Os erros (eij) devem ter distribuição normal; (Teste de Shapiro-Wilk, Lilliefor, Kolmogorov,...)

c) Os erros (eij) devem ser independentes; (garantida pelo princípio da casualização)

d) Os erro (eij) devem ter mesma variância (homocedasticidade: Teste de Bartlett, Hartley..)

6.2 Princípios básicos da experimentação

A pesquisa científica está constantemente se utilizando de experimentos para provar suas

hipóteses. É claro que os experimentos variam de uma pesquisa para outra, porém, todos eles são regidos

por alguns princípios básicos, necessários para que as conclusões que venham a ser obtidas se tornem

válidas.

Princípio da repetição - Ao compararmos, por exemplo, dois herbicidas (A e B), aplicados

em duas parcelas perfeitamente iguais, apenas o fato do herbicida A ter apresentado maior controle que o

B não é suficientemente para que possamos concluir que o mesmo é mais eficiente, pois esse seu maior

controle poderá ter ocorrido por simples acaso ou ter sido influenciado por fatores estranhos. Porém, se os

dois herbicidas forem aplicados a várias parcelas e, ainda assim, verificarmos que o herbicida, A

apresenta, em média, maior controle, existe já um indício de que ele seja mais eficiente.

Esquematicamente:

A

B

Experimento

básico Repetições

Princípio da casualização - Mesmo reproduzindo o experimento básico, poderá ocorrer que o

herbicida A apresentou maior controle por ter sido favorecido por qualquer fator, como por exemplo, ter

todas as suas parcelas agrupadas numa faixa de menor infestação.

Para evitar que um dos herbicidas seja sistematicamente favorecido por qualquer fator externo,

procedemos à casualização dos herbicidas nas parcelas, isto é, eles são designados às unidades

experimentais de forma totalmente casual.

O princípio da casualização tem por finalidade propiciar a todos os tratamentos a mesma

probabilidade de serem sorteados a qualquer das unidades experimentais. Esquematicamente:

A

B

Experimento

básico Repetições + casualização

Princípios da

repetição

A A A A A A

B B B B B B

Princípios da

repetição e casualização

B A A B A B

A B A B B A

30

Ao fazer um experimento considerando apenas esses dois princípios, temos o delineamento

inteiramente casualizado ou com um fator. As parcelas que receberão cada um dos tratamentos são

determinadas de forma inteiramente casual, através de um sorteio, ou usando a tabela de números

aleatórios para que cada unidade experimental tenha a mesma probabilidade de receber qualquer um dos

tratamentos estudados, sem qualquer restrição no critério de casualização.

Tratamentos ( I )

Repetições ( J ) 1 2 ... I Totais

1 Y11 Y21 ... YI1

2 Y12 Y22 ... YI2

... ... ... ...

J Y1J Y2J ... YIJ

Totais T1 T2 TI G

Médias 1

m 2

m ... I

m m

J

j

JYT1

11 ;

J

j

JYT1

22 ; ...

J

j

IJI YT1

;

I

i ij

iji YTG1

; JxI

Gm ˆ

Modelo Matemático: Yi j = m + ti + ei j, onde

m = Média geral do experimento

ti = Efeito do i-ésimo tratamento, i = 1, 2, ...,I

ei j= Erro experimental, com j = 1, 2, ...,J, onde ei j ~ (0; 2).

Quando utilizar?

Quando todas as unidades experimentais estiverem sob as mesmas condições.

Vantagens

a) Pode-se ter número diferente de repetições por tratamento e qualquer número de tratamento, no

entanto, é preferível o mesmo número de repetições.

b) O número de graus de liberdade do resíduo é o maior possível.

c) Se ocorrer a perda de alguma parcela, esta não acarretará dificuldade na análise.

Deve-se considerar independência entre tratamentos e entre parcelas do mesmo tratamento. Além

disso, as “j” observações por tratamento são normais de média mi e de mesma variância 2, ou seja: Yi j ~

N(mi; 2).

6.3 Quadro de Análise de Variância e Teste F.

Para testar as hipóteses construiremos o seguinte quadro de análise de variância:

Fonte de

Variação

Graus de

Liberdade

Somas de

Quadrados

Quadrados

Médios

Fcal Ftab

Tratamento(T) I - 1 SQT QMT QMT/QMR [(I – 1), I(J – 1)]

Resíduo (R) I(J – 1) SQR QMR

Total (To) IJ - 1 SQTo

31

Onde, ij

ijJI

GCsendoCYSQTo

22 ; ;

CJ

T

SQT

I

i

i

1

2

; SQR = SQTo – SQT

1

I

SQTQMT ;

)1(

JI

SQRQMR

QMR

QMTFcal ; )]1();1[( JIIFtab

Assim, se Fcal > Ftab Rejeita-se H0, isto é, as médias das populações são diferentes. Com a

análise de variância descobre-se que existe diferença entre as médias. Para comparar estas diferenças de

médias, pode-se utilizar o teste de Tukey.

6.4 - O Coeficiente de Variação (C.V.)

O coeficiente de variação é dado pela fórmula: %100ˆ

.. xm

QMRVC

Se C.V. < 15% Experimento ótimo e a média representativa;

Se 15% < C.V. < 30% Experimento bom e a média pouco representativa;

Se C.V. > 30% Experimento ruim e a média não representativa.

6.5 Testes de comparações múltiplas

Os testes de comparações múltiplas, ou testes de comparações de médias, servem como um

complemento do teste F, para determinar diferenças entre os tratamentos. Para uma melhor compreensão

destes testes são necessárias alguns conceitos, tais como:

Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor

absoluto, com a diferença mínima significativa que é dada por:

r

QMresq

q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número de

tratamentos e graus de liberdade do resíduo.

1-

32

Atividade 6

1) BARBIN (2003) - Os dados são adaptados de ZAMBÂ; SAMPAIO; BARBIN; 1982) onde os

pesquisadores compararam 4 cultivares de pêssego quanto ao enraizamento de estacas.

Tratamentos: (I = 4 cultivares); Número de repetições (J = 5)

Parcela: 20 estacas de cada cultivar

Tabela 6.1 - Cultivares de pêssego quanto enraizamento de estacas – Piracicaba 1982

Tratamento Repetições

1 2 3 4 5

A 2 2 1 1 0

B 1 0 0 1 1

C 12 10 14 17 11

D 7 9 15 8 10

a) Verificar os pressupostos do modelo. Testar se existe diferença significativa entre os cultivares de

pêssego. (Verificar para os dados transformados e não transformados).

b) Construir um box-plot para comparar os tratamentos? Visualize e dê sua opinião?

c) Utilize os seguintes testes de comparações múltiplas:

Teste Tukey; Teste de Dunnett (considere o Tratamento1 como testemunha).

2) Num estudo conduzido e publicado pela Universidade Estadual da Virginia, no rio Jackson, biólogos

avaliaram métodos de remoção para estimação das populações marinhas e da diversidade. Cinco

procedimentos diferentes foram utilizados para determinar a contagem de espécies. Vinte amostras foram

selecionadas aleatoriamente e cada procedimento repetido quatro vezes, num Experimento Inteiramente

Casualizado. As contagens das espécies foram registradas: a) Testar ao nível de 5% de significância se há

diferença significante na média de contagem das espécies? b) Aplique o teste de Tukey, para detectar

qual(is) dos procedimentos amostrais diferem entre si e discuta os resultados.

Tabela 6.2 – Diferentes procedimentos utilizados para a contagem de espécies

Depleção Hess Suber Remoção de

Subst. Kicknet

Kicknet

50 45 22 33 27

45 34 15 31 25

40 28 17 32 24

57 37 20 27 25

33

7 - Delineamento em Blocos Casualizados

7.1 – Modelo Matemático : Yi j = m + ti + bj + ei j, onde


ti = Efeito do i-ésimo tratamento, i = 1, 2, ...,I

bj = Efeito do j-ésimo bloco, j = 1, 2, ...,J

ei j = Erro experimental, com j = 1, 2, ...,J, onde ei j ~ (0; 2).

Neste delineamento, além dos princípios da repetição e da casualização já visto no capítulo

anterior tem-se também o controle local que é representado pelos blocos, onde cada um deles inclui todos

os tratamentos.

7.2 - Princípio do controle local - Esse princípio é freqüentemente utilizado, mas não é de uso

obrigatório, pois podemos realizar experimentos sem utilizá-lo. Ele consiste em aplicar os herbicidas

sempre em pares de parcelas o mais homogêneas possível com relação ao ambiente, podendo haver,

inclusive, variação acentuada de um par para outro. A cada par de parcelas denominamos bloco.

Esquematicamente:

10 Bloc. 2

0 Bloc. 3

0 Bloc. 4

0 Bloc. 5

0 Bloc. 6

0 Bloc.

A

B

Experimento Repetições + casualização + contole local

Quando tivermos diversos tratamentos a comparar, cada bloco será constituído por um grupo de

parcelas que deve ser um múltiplo do número de tratamentos. A finalidade do princípio do controle

local é dividir um ambiente heterogêneo em sub-ambientes homogêneos e tornar o delineamento

experimental mais eficiente, pela redução do erro experimental.

O deliamento experimental assim obtido é denominado de delineamento em blocos casualizados

ou em blocos ao acaso e, vemos que, nesse caso, devemos isolar mais uma causa de variação conhecida

(fator controlado), que são os blocos. Como cada bloco deve conter todos os tratamentos, há uma restrição

na casualização, que deve ser feita designando os tratamentos às parcelas dentro de cada bloco como

mostra a Figura 1.

Figura 1 - Disposição do experimento em blocos casualizados.

Princípios da

repetição,

casualização e

controle local

A B B A A B

B A A B B A

1

2 3

4 5

5

4 3

2 1

1

4 3

5 2 4 3

1 2

5

Bloco 1 Bloco 2

Bloco 3 Bloco 4

34

De todos os delineamentos experimentais, este é o mais freqüentemente utilizado e, quanto maior for a

hereditariedade das condições experimentais de um bloco para outro, maior será a eficiência deste

delineamento em relação ao inteiramente casualizado. As observações de cada grupo ou tratamento são

tabeladas para facilitar a análise segundo as hipóteses lançadas.

Tratamentos ( I )

Blocos ( J ) 1 2 ... I Total Bloc. Médias

1 Y11 Y21 ... YI1 B1 1

m

2 Y12 Y22 ... YI2 B2 2

m

... ... ... ... ... ... ...

J Y1J Y2J ... YIJ BJ Jm

Total Trat. T1 T2 ... TI G

Médias 1

m 2

m ... I

m m

Onde:

I

i ij

iji YTG1

; JxI

Gm

Quando utilizar?

Quando todas as unidades experimentais estiverem sob as mesmas condições.

Vantagens

a) Pode-se ter número diferente de repetições por tratamento e qualquer número de tratamento, no entanto,

é preferível o mesmo número de repetições.

b) O número de graus de liberdade do resíduo é o maior possível.

c) Se ocorrer a perda de alguma parcela, esta não acarretará dificuldade na análise.

Deve-se considerar independência entre tratamentos e entre parcelas do mesmo tratamento. Além

disso, as “j” observações por tratamento são normais de média mi e de mesma variância 2, ou seja: Xi j ~

N(mi; 2).

7.3 – Quadro de Análise de Variância e Teste F.


Fonte de

variação

Graus de

Liberdade

Somas de

Quadrados

Quadrados

Médios

Fcal Ftab=F

Tratamento (T) I - 1 SQT QMT QMT/QMR [(I – 1), (I – 1)(J – 1)]

Blocos (B) J - 1 SQB QMB QMB/QMR [(J – 1), (I – 1)(J – 1)]

Resíduo (R) (I – 1)(J – 1) SQR QMR

Total (To) IJ - 1 SRTo

ij

ijJI

GCsendoCYSQTo

22 ; ;

35

CJ

T

SQT

I

1i

2

i

; CI

B

SQB

J

j

j

1

2

; SQR = SQTo – SQT – SQB

1I

SQTQMT

;

1

J

SQBQMB

)1)(1(

JI

SQRQMR

QMR

QMTFcalT ; )]1)(1();1[( JIIF

Ttab

QMR

QMBFcalB ; )]1)(1();1[( JIJF

Btab

Assim se Fcal > Ftab Rejeita-se Ho, isto é, as médias das populações são diferentes. Com a

análise de variância descobre-se que existe diferença entre pelo menos um par de médias. Para comparar

estas diferenças de médias, pode-se utilizar o teste de Tukey.

7.4 – Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor


r

QMRq .

onde q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número

de tratamentos e graus de liberdade do resíduo.

7.5 - O Coeficiente de Variação (C.V.)

O coeficiente de variação é dado pela fórmula:

%100xm

QMR.V.C

1-

36

ATIVIDADE 7

1) Barbin (2003) – O estudo envolve o comportamento de 9 porta-enxertos da Laranjeira Valência. Os

portas enxertos são: 1.Tangerina sunki; 2. Limão rugoso nacional; 3. Limão rugoso da flórida;

4.Tangerina cleópatra; 5. Citranger – troyer; 6. Trifoliata cravo; 7.Tangerina cravo; 8.Laranja caipira;

9.Limão cravo

Tabela 7.1- Número médio de frutos por planta

Tratamentos Blocos

I II III Totais m

^

it^

1 145 155 166 466 155,33 -27,22

2 200 190 190 580 193,33 10,78

3 183 186 208 577 192,33 9,78

4 190 175 186 551 183,16 1,12

5 180 160 156 496 165,33 -17,22

6 130 160 130 420 140,00 -42,55

7 206 165 170 541 180,33 -2,22

8 250 271 230 751 250,33 67,78

9 164 190 193 547 182,33 -0,25

Total 1648 1652 1629 4929 182.55

m^

183.11 183.55 181.0

jb^

0,56 1,0 -1,56

a) Verificar os pressupostos do modelo. Apresentar 1 gráfico comparando os tratamentos.

b) Testar a hipótese da produção média de frutos dos 9 porta-enxertos, com nível de significância de 5%.

c) Realize um teste de comparações múltiplas, e discuta a significância estatística e significância prática.

2) Um artigo no periódico American Hygiene Association Journal (Vol.37, 1976, pp.418-422) descreve

um teste de campo para detectar a presença de arsênico em amostras de urina. O teste foi proposto para o

uso entre trabalhadores florestais, por causa do uso crescente de arsênicos orgânicos numa indústria. O

experimento comparou o teste feito pelo estagiário, feito pelo laboratorista experiente e um laboratorista

novato. Quatro indivíduos foram selecionados para o teste e considerados “blocos”. A variável resposta é

o conteúdo (em ppm) de arsênicos na urina do indivíduo. Há alguma diferença significativa no

procedimento do teste do arsênico? Verifique os pressupostos e adote o nível de significância de 1%.

Tabela 7.2 – Laboratoristas medem o conteúdo (em ppm) de arsênicos na urina de

quatro indivíduos

Labo

1

Indivíduos

2

3

4

Estagiário

Lexperiente

L. novato

3.7

3.1

3.5

2.8

2.6

3.4

3.1

2.7

3.0

3.4

3.0

3.3

37

8 – Quadrado latino

Os ensaios em quadrados latinos leva em conta o controle local, aplicado em dois sentidos. Os

blocos, ou controle num sentido do terreno, são chamados linhas e o controle no outro sentido, de

colunas. A característica principal deste ensaio é o número de linhas igual ao número de colunas.

Considere k tratamentos logo teremos K2 parcelas.

O delineamento em quadrado latino as unidades experimentais ou parcelas que devem receber

os tratamentos são agrupados de duas maneiras diferentes (linhas e colunas). Nesse tipo de delineamento o

número de linhas, colunas e tratamentos deve ser o mesmo. Os tratamentos são distribuídos de forma que

cada um apareça uma única vez em cada linha e coluna.

8.1 – Modelo : Yi j = m + li + cj + tk(ij)+ ei j, onde


li = Efeito da linha, i = 1, 2, ...,r

cj = Efeito da coluna, j = 1, 2, ...,r

tk(ij) = Efeito de tratamentos, k = 1, 2, ...,r

ei j = Erro experimental onde ei jk ~ NID (0; 2).

8.2 – Quadro de Análise de Variância e Teste F.


Fonte de

variação

Graus de

Liberdade

Somas de

Quadrados

Quadrados

Médios

Fcal Ftab=F

Linhas (r-1) =K-1 Q1 V1 V1/V4 F(gl linha; gl res)

Colunas (r-1) =K-1 Q2 V2 V2/V4

Tratamentos (r-1) =K-1 Q3 V3 V3/V4

Resíduo (r-1)(r-2)=

(K-1)(K-2)

Q4 V4

Total (To) r2-1= K

2 -1 Q5

ijk

ijkK

GCsendoCYSQTo

2

22 ; ;

CK

L

SQT

r

i

i

1

2

; CK

C

SQT

r

j

j

1

2

CK

T

SQT

r

i

i

1

2

; SQR = SQTo – SQL – SQC - SQTrat

QMR

QMTFcalT ; )]2)(1();1[( KKKF

Ttab

A estatística apropriada para testar a hipótese de que não existe efeito de tratamentos é:

38

Fcalc = QMTratamentos / QMErro. Assim se Fcal > Ftab Rejeita-se Ho, isto é, as médias das

populações são diferentes. Com a análise de variância descobre-se que existe diferença entre pelo menos

um par de médias. Para comparar estas diferenças de médias, pode-se utilizar o teste de Tukey.

8.3 - Teste de Tukey - Consiste em comparar as médias duas a duas através da sua diferença em valor


r

QMRq .

onde q = amplitude total estudentizada, tomada em tabelas ao nível de 5% e 1%, considerando-se número

de tratamentos e graus de liberdade do resíduo.

ATIVIDADE 8 – Ensaio Quadrado Latino

1) O exemplo abaixo é um ensaio em quadrado latino, com dados de produção de cana em kg/parcela,

foram comparados 5 cultivares, designados por:

A = CO 290; B=CO421; C=CO419; D= POJ2878, E=CP36-13.

Tabela 8.1 – Produção de cana de açúcar – SP 2006

Colunas

Linha C1 C2 C3 C4 C5 Totais

L1 432 D 518 A 458 B 583 C 331 E 2322

L2 724 C 478 E 524 A 550 B 400 D 2676

L3 489 E 384 B 556 C 297 D 420 A 2146

L4 494 B 500 D 313 E 486 A 501 C 2294

L5 515 A 660 C 438 D 394 E 318 B 2325

Totais 2654 2540 2289 2310 1970 11763

a) Verificar os pressupostos do modelo;

b) Realize a análise de variância para verificar se há diferença entre as produções média. Use nível

de significância 5% . c) Se necessário realize um teste de comparações múltipla.

ATIVIDADE 9

Apresente um artigo científico da sua área e responda.

O título é adequado e interessante?

O autor comenta sobre o(s) objetivo(s) do trabalho?

Como foi coletada a amostra? E qual o número de elementos da amostra (n)?

Na sua opinião a metodologia adotada esta correta?

Quais variáveis foram estudadas?

O nível de significância foi apresentado?

As tabelas e gráficos estão apresentados de forma clara?

Qual análise estatística foi adotada?

Toda literatura citada no trabalho esta citada nas referências?

Na sua opinião o título, os objetivos e conclusões estão coerentes?

A conclusão esta direta e objetiva?

As palavras chaves estão coerentes com o trabalho?

O resumo está completo?

Finalmente o raciocínio, o estilo da redação foram lógicos, claros e didáticos?

39

Referências Bibliográficas

ANDRADE, D.F.; OGLIARI,P.J. Estatística para as ciências agrárias e biológicas com noções de

experimentação. Florianópolis: Edistora UFSC, 2007.

BARBETTA,P.A.;REIS,M.M.;BORNIA,A.C. Estatística para cursos de engenharia e informática. 20

edição. Editora Atlas, 2008.

BARBIN, D. Planejamento e Análise Estatística de Experimentos Agronômicos, Arapongas, Editora

Midas, 2003.

BANZATTO, D. A. & KRONKA, S. N. Experimentação agrícola. Jaboticabal, São Paulo, FUNEP,

1989, 247p.

BEIGUELMAN, B. Curso prático de Bioestatística. 3ª ed. Ribeirão Preto, Rev. Bras. Genét., 1994.

BERQUIÓ, E. S.; JOSÉ, M. P. S.; SABINA, L. D. G. Bioestatística. 1ª ed. São Paulo: EPU, 1981.

CHARNET, R. et. al. Análise de Modelos de Regressão Linear com aplicações. Unicamp. 2ed. 2008.

FONSECA, J.S; MARTINS, G. A. Curso de Estatística. 6ª ed. São Paulo: Atlas, 1996. 320p.

GUEDES, M. L. S. Bioestatística. Rio de Janeiro: Ao livro técnico. Brasília: CNPQ. 1988.

MARCONI, Marina de A, LAKATOS, Eva M. Técnicas de pesquisa. 2ª ed. São Paulo: Atlas, 1982.

MONTGOMERY, D. C. Desgn and analysis of experiments. 3ª ed. New York: J. Wiley & Sons, 1994,

p.649.

MORETTIN, L.G. Estatística Básica. 7ª ed. São Paulo: Makron Books, 1999. 209P.

RODRIGUES, P. C. Bioestatística. EDUFF – 2ª ed. Editora Universitária. UFF. Niterói. 1993.

SPIEGEL, M.R. Probabilidade Estatística 3ª ed. Coleção Schaum. São Paulo: McGraw-Hill do

Brasil, 1998, 518p.

VIEIRA, S; HOFFMANN, R. Elementos de Estatística. 2ª ed. Atlas, 1990. 159p.

Documents

Universidade Estadual de Londrina · Introdução: As medidas de posição são denominadas de medidas de tendência central, pois representam os fenômenos pelos seus valores médios