17
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Estatística e Probabilidade Página 58 CORRELAÇÃO E REGRESSÃO LINEAR Introdução Suponha que um inspetor de segurança queira determinar se existe uma relação entre o número de horas de treinamento para um funcionário e o número de acidentes envolvendo este mesmo funcionário. Ou suponha que uma psicóloga queira saber se existe uma relação entre o número de horas que uma pessoa dorme a cada noite e o tempo de reação da pessoa. Como você determinaria se a relação existe? Nesta etapa, você estudará como descrever que tipo de relação, ou correlação, existe entre duas variáveis quantitativas e como determinar se a correlação é significante. Definição Uma Correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y), onde x é a variável independente (ou explanatória) e y é a variável dependente (ou resposta). DIAGRAMA DE DISPERSÃO É um gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis estudadas (X ,Y), num sistema de eixos cartesianos. Através do diagrama de dispersão podemos ter uma idéia do tipo de relação entre as variáveis estudadas. A variável independente (explanatória) x é medida pelo eixo horizontal, e a variável dependente (resposta) y é medida pelo eixo vertical. Um diagrama de dispersão pode ser usado para determinar se existe uma correlação linear (linha reta) entre duas variáveis. Os diagramas de dispersão mostram diversos tipos de correlação. A seguir temos alguns exemplos de diagramas de dispersão.

Material de Apoio - Unidade 02_20130323225040

Embed Size (px)

Citation preview

Page 1: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 58

CORRELAÇÃO E REGRESSÃO LINEAR

Introdução

Suponha que um inspetor de segurança queira determinar se existe uma

relação entre o número de horas de treinamento para um funcionário e o

número de acidentes envolvendo este mesmo funcionário. Ou suponha que

uma psicóloga queira saber se existe uma relação entre o número de horas que

uma pessoa dorme a cada noite e o tempo de reação da pessoa. Como você

determinaria se a relação existe?

Nesta etapa, você estudará como descrever que tipo de relação, ou correlação,

existe entre duas variáveis quantitativas e como determinar se a correlação é

significante.

Definição

Uma Correlação é uma relação entre duas variáveis. Os dados podem ser

representados por pares ordenados (x,y), onde x é a variável independente (ou

explanatória) e y é a variável dependente (ou resposta).

DIAGRAMA DE DISPERSÃO

É um gráfico no qual cada ponto plotado representa um par observado de

valores para as variáveis estudadas (X ,Y), num sistema de eixos cartesianos.

Através do diagrama de dispersão podemos ter uma idéia do tipo de relação

entre as variáveis estudadas. A variável independente (explanatória) x é

medida pelo eixo horizontal, e a variável dependente (resposta) y é medida

pelo eixo vertical. Um diagrama de dispersão pode ser usado para determinar

se existe uma correlação linear (linha reta) entre duas variáveis. Os diagramas

de dispersão mostram diversos tipos de correlação.

A seguir temos alguns exemplos de diagramas de dispersão.

Page 2: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 59

Consideremos uma amostra aleatória, formada por dez dos 60 alunos do 3º

Período de Engenharia da Faculdade Pitágoras e pelas notas obtidas por eles

em Cálculo 2 e Estatística:

No

Notas

Cálculo 2 (X) Estatística (Y)

01

02

03

04

05

06

07

08

09

10

5,0

8,0

7,0

10,0

6,0

7,0

9,0

3,0

8,0

2,0

6,0

9,0

8,0

10,0

5,0

7,0

8,0

4,0

6,0

2,0

Page 3: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 60

Representando, em um sistema cartesiano ortogonal, os pares ordenados

, obtemos uma nuvem de pontos que denominamos diagrama de

dispersão.

Esse diagrama nos fornece uma idéia grosseira, porém útil da correlação

existente:

Construindo o diagrama de dispersão

Um gerente de marketing conduziu um estudo para determinar se há uma

relação entre o dinheiro gasto com propaganda e as vendas da empresa. Os

dados são mostrados na tabela. Coloque os dados em um diagrama de

dispersão e determine se parece haver uma correlação linear positiva ou

negativa ou se parece não haver correlação linear.

0

2

4

6

8

10

12

-3 2 7 12

Esta

tísti

ca

Cálculo 2

Page 4: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 61

Solução

O diagrama de dispersão é mostrado à direita. A partir do diagrama de

dispersão, parece haver uma correlação linear positiva entre as variáveis.

Interpretação: Lendo da esquerda para a direita, conforme os gastos com

propaganda aumentam, as vendas tendem a aumentar.

Coeficiente de correlação

Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo.

Uma maneira mais precisa de se medir o tipo e a força de uma correlação

linear entre duas variáveis é calcular o coeficiente de correlação. Embora a

fórmula para o coeficiente de correlação amostral seja dada, é mais

conveniente usar uma ferramenta tecnológica para calcular esse valor.

O Coeficiente de Correlação é uma medida da força e direção de uma

relação linear entre duas variáveis. O símbolo r representa o coeficiente de

correlação amostral. Uma fórmula para r é:

O nome formal de r é "Coeficiente de Correlação de Pearson". Este nome é

em homenagem ao estatístico inglês Karl Pearson (1857-1936).

Onde n é o número de pares de valores observados. Observe-se que

. A partir dos valores de , podemos verificar o tipo da correlação

existente entre as variáveis estudadas, conforme tabela seguinte:

Valor de Correlação

0,0 nula

0,1 |----| 0,3 fraca

0,4 |----| 0,6 media

0,7 |----| 0,9 forte

0,99 fortíssima

1,0 perfeita

Page 5: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 62

Exemplo: Encontre o coeficiente de correlação para os dados da tabela de

notas obtidas pelos 10 alunos de Engenharia nas disciplinas de Cálculo 2 e

Estatística:

(X) (Y) XY X2 Y2

5 6 30 25 36

8 9 72 64 81

7 8 56 49 64

10 10 100 100 100

6 5 30 36 25

7 7 49 49 49

9 8 72 81 64

3 4 12 9 16

8 6 48 64 36

2 2 4 4 4

65 65 473 481 475

911,0525585

505

65475.1065481.10

65.65473.10r

22

CORRELAÇÃO POSITIVA E CORRELAÇÃO NEGATIVA

O valor de r está sempre entre – Se as variáveis x e y crescem no mesmo

sentido, isto é, quando x cresce, y também cresce, diz-se que as duas variáveis

têm correlação positiva e o valor de r está próximo de 1.

Então, notas de Cálculo 2 e notas de Estatística dos alunos tem correlação

positiva, porque quando uma das variáveis cresce, a outra , em média, também

cresce. Se as variáveis x e y variam em sentido contrário, isto é, quando x

cresce, em média y decresce, diz-se que as duas variáveis têm correlação

negativa e o valor de r está próximo de -1. Se r está próximo a 0, isso não

significa que não há relação linear.

Page 6: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 63

Observe os dados da Tabela abaixo

Consumo individual de proteínas de origem animal, em gramas, e coeficiente

de natalidade, em 14 países.

País Consumo de

proteínas

Coef. de

natalidade

Formosa 4,7 45,6

Malásia 7,5 39,7

Índia 8,7 33,0

Japão 9,7 27,0

Iugoslávia 11,2 25,9

Grécia 15,2 23,5

Itália 15,2 23,4

Bulgária 16,8 22,2

Alemanha 37,3 20,0

Irlanda 46,7 19,1

Dinamarca 56,1 18,3

Austrália 59,9 18,0

Estados Unidos 61,4 17,9

Suécia 62,6 15,0

Fonte: Castro (1961)

Eixo x = consumo de proteínas

Eixo y = coeficiente de natalidade

0

5

10

15

20

25

30

35

40

45

50

0 20 40 60

Page 7: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 64

ANÁLISE DE REGRESSÃO

Muitas vezes é de interesse estudar a relação de dois ou mais atributos ou

variáveis simultaneamente. Nesses casos presume-se que pelo menos duas

observações são feitas sobre cada elemento da amostra. A amostra consistirá,

então, de pares de valores, um valor para cada uma das variáveis, designadas,

X e Y. Um indivíduo “i” qualquer apresenta o par de valores (Xi; Yi). O objetivo

visado quando se registra pares de valores (observações) em uma amostra, é

o estudo das relações entre as variáveis X e Y.

Para a análise de regressão interessam principalmente os casos em que a

variação de um atributo é sensivelmente dependente do outro atributo. O

problema consiste em estabelecer a função matemática que melhor exprime a

relação existente entre as duas variáveis. Simbolicamente a relação é expressa

por uma equação de regressão e graficamente por uma curva de regressão.

REGRESSÃO LINEAR

O processo de regressão linear consiste em determinar a equação da reta que

melhor se ajusta ao conjunto de pontos de uma distribuição.

No processo de regressão linear é aconselhável expressar y em função de x

obtendo uma equação do tipo y = ax + b. Neste caso, x é a variável

independente e y é a variável dependente, isto é, y é estimado em função de x.

A equação obtida é denominada equação de regressão de y sobre x.

Usa-se essa equação quando se deseja obter valores de y que correspondem

a valores de x não constantes da tabela.

A equação de uma reta de regressão para uma variável independente x e

uma variável dependente y é bmxy , onde y é o valor y previsto para um

dado valor x. A inclinação m e a interseção y b são dadas por

onde é a média dos valores y no conjunto de dados e é a média dos

valores x. A linha de regressão sempre passa pelo ponto

Page 8: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 65

EXEMPLO: Determinar a equação da reta que melhor se ajusta aos pontos da

tabela:

Completando a tabela com os valores necessários para os cálulos de a e de b,

temos:

Calculando m e b, sendo n = 8 (números de pares)

Assim, a reta de regressão de y sobre x é .

Aplicações das linhas de regressão

Após encontrar a equação de uma linha de regressão, você pode usar a

equação para prever valores y sobre a amplitude de dados se a correção entre

x e y é significante. Por exemplo, um executivo de publicidade poderia

projetar as vendas da empresa com base nos gastos de propaganda. Para

prever valores y, substitua o valor x dado na equação de regressão e então

calcule , o valor y previsto.

Page 9: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 66

Prevendo valores usando equações de regressão

A equação de regressão para os dados sobre gastos com propaganda (em

milhares de dólares) e vendas da empresa (em milhares de dólares) é:

Use essa equação para prever as vendas esperadas da empresa para os

seguintes gastos com propaganda.

Solução

Para prever as vendas esperadas pela empresa, substitua cada gasto com

propaganda por x na equação de regressão. Depois, calcule .

Interpretação

Quando os gastos com propaganda somam $ 1.500, as vendas da empresa

são cerca de $180.155.

Quando os gastos com propaganda somam $ 1.800, as vendas da empresa

são cerca de $195.373.

Page 10: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 67

Quando os gastos com propaganda somam $ 2.500, as vendas da empresa

são cerca de $ 230.884.

Valores de previsão são significantes somente para valores x na (ou próximos

à) faixa dos dados. Os valores x do conjunto original de dados variam de 1,4 a

2,6. Portanto, não seria apropriado usar a linha de regressão y = 50,729x +

104,061 para prever as vendas da empresa por gastos com propaganda, tais

como 0,5 ($ 500) ou 5,0 ($ 5.000).

Page 11: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 68

Exercícios de Aplicação

1. É esperado que a massa muscular de uma pessoa diminua com a idade.

Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com

idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a

massa muscular (Y).

a) Construa o diagrama de dispersão e interprete-o.

b) Calcule o coeficiente de correlação linear entre X e Y.

c) Determine a equação da reta de regressão para a relação entre as variáveis

Y: massa muscular (dependente) e X: idade (independente).

Massa Muscular (Y) Idade (X)

82.0 71.0

91.0 64.0

100.0 43.0

68.0 67.0

87.0 56.0

73.0 73.0

78.0 68.0

80.0 56.0

65.0 76.0

84.0 65.0

116.0 45.0

76.0 58.0

97.0 45.0

100.0 53.0

105.0 49.0

77.0 78.0

73.0 73.0

78.0 68.0

Page 12: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 69

d) Considerando a reta estimada dada no item (c), estime a massa muscular

média de mulheres com 50 anos.

2 - A tabela abaixo mostra o faturamento de uma empresa (R$x1000)

Mês JAN FEV MAR ABR MAI JUN

Faturamento 2,1 2,0 2,6 2,9 3,1 3,5

a) Determinar o coeficiente de correlação de Pearson.

b) Estimar o faturamento para julho, pela equação da reta de regressão

3 - Observou-se que o volume mensal de lixo gerado em uma cidade, em

função do número de dormitórios das residências, é o seguinte (em m3):

No Dormitórios 1 2 3 4

Volume de lixo 0,15 0,29 0,45 0,57

a) Calcular e interpretar o coeficiente de correlação.

b) Representar o gráfico de dispersão dessa relação.

c) Determinar a equação da reta de regressão.

d) Estimar o volume de lixo para uma residência com 5 dormitórios.

4 - A função de demanda de um produto está representada na tabela abaixo:

Preço (R$) 56,00 60,00 63,00 68,00 74,00

Demanda

(un.)

100 93 87 81 75

a) Determinar a equação da reta de regressão.

b) Estimar a demanda se o preço for R$ 80,00.

Page 13: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 70

5 - Os gastos com propaganda e o respectivo volume de vendas gerado, de um

certo produto, são dados abaixo:

Gastos com

propaganda (em

milhares de R$)

20 40 10 100 70

Volume de vendas

(em milhares de

R$)

1.110 1.250 1.000 1950 1600

a) Determinar o coeficiente angular e linear da reta de regressão.

b) Determinar a equação da reta de regressão.

c) Calcular o coeficiente de correlação de Pearson. Interpretar esse valor.

d) Estimar o volume de vendas para um gasto de R$ 150.000,00 em

propaganda.

e) Caso não se faça nenhum investimento em propaganda, qual o volume de

vendas esperado?

f) Se a expectativa de vendas for de R$ 1.500.000,00, quando se deve investir

em propaganda para esse produto?

6 - Suponha que uma cadeia de supermercados tenha financiado um estudo

sobres gastos com mercadorias para famílias de classe média. O estudo se

limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a

seguinte equação: , onde:

Estimar a despesa de uma família com renda mensal líquida de 15 s.m.

Page 14: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 71

7 - Para cada uma das amostras faça o diagrama de dispersão e, se uma

equação linear parecer apropriada, determine os seus parâmetros e calcule o

coeficiente de correlação.

8 - Os dados abaixo forma colhidos de cinco fábricas diferentes de uma

determinada indústria:

a) Calcule o coeficiente de correlação.

b) Ajuste uma função linear da forma para o custo total dessa

indústria.

Page 15: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 72

Gabarito

1. a)

No gráfico de dispersão entre a variável massa muscular e idade, pode-se

observar que há um forte indício de relação linear decrescente entre as

variáveis em estudo. Nota-se que a massa muscular das pessoas diminui à

medida que a idade aumenta.

b) 0,837- , Segundo o resultado da correlação obtida, pode-se notar que há

uma forte correlação linear entre a variável massa muscular e idade. Nota-se

que à medida que a idade da pessoa aumenta a massa muscular diminui, o

que é coerente com o gráfico de dispersão apresentada anteriormente.

c)

d)

2. a) 0,9717 b) 3,76

3. a) 0,9986

60

70

80

90

100

110

120

40 50 60 70 80

Ma

ss

a M

usc

ula

r

Idade

Page 16: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 73

b)

c)

d) 0,72

4. a)

b)

5. a)

b)

c)

d) R$ 2.452,63

e) R$ 878,18

f) R$ 59,24

6. 4,8

7.

0

0,1

0,2

0,3

0,4

0,5

0,6

0 1 2 3 4 5

Vo

lum

e d

o L

ixo

Nº de Dormitórios

0

500

1000

1500

2000

2500

3000

3500

4000

0 20 40 60 80

Cu

sto

To

tal

Tamanho

Page 17: Material de Apoio - Unidade 02_20130323225040

FACULDADE PITÁGORAS DE LINHARES

Prof. Esp. Thiago Magalhães

Estatística e Probabilidade Página 74

Obs. Uma Equação Linear não parece ser apropriada.

Obs. Uma equação linear parece ser apropriada. Logo:

8. a)

b)