Upload
fernandes-diogo
View
320
Download
4
Embed Size (px)
Citation preview
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 58
CORRELAÇÃO E REGRESSÃO LINEAR
Introdução
Suponha que um inspetor de segurança queira determinar se existe uma
relação entre o número de horas de treinamento para um funcionário e o
número de acidentes envolvendo este mesmo funcionário. Ou suponha que
uma psicóloga queira saber se existe uma relação entre o número de horas que
uma pessoa dorme a cada noite e o tempo de reação da pessoa. Como você
determinaria se a relação existe?
Nesta etapa, você estudará como descrever que tipo de relação, ou correlação,
existe entre duas variáveis quantitativas e como determinar se a correlação é
significante.
Definição
Uma Correlação é uma relação entre duas variáveis. Os dados podem ser
representados por pares ordenados (x,y), onde x é a variável independente (ou
explanatória) e y é a variável dependente (ou resposta).
DIAGRAMA DE DISPERSÃO
É um gráfico no qual cada ponto plotado representa um par observado de
valores para as variáveis estudadas (X ,Y), num sistema de eixos cartesianos.
Através do diagrama de dispersão podemos ter uma idéia do tipo de relação
entre as variáveis estudadas. A variável independente (explanatória) x é
medida pelo eixo horizontal, e a variável dependente (resposta) y é medida
pelo eixo vertical. Um diagrama de dispersão pode ser usado para determinar
se existe uma correlação linear (linha reta) entre duas variáveis. Os diagramas
de dispersão mostram diversos tipos de correlação.
A seguir temos alguns exemplos de diagramas de dispersão.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 59
Consideremos uma amostra aleatória, formada por dez dos 60 alunos do 3º
Período de Engenharia da Faculdade Pitágoras e pelas notas obtidas por eles
em Cálculo 2 e Estatística:
No
Notas
Cálculo 2 (X) Estatística (Y)
01
02
03
04
05
06
07
08
09
10
5,0
8,0
7,0
10,0
6,0
7,0
9,0
3,0
8,0
2,0
6,0
9,0
8,0
10,0
5,0
7,0
8,0
4,0
6,0
2,0
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 60
Representando, em um sistema cartesiano ortogonal, os pares ordenados
, obtemos uma nuvem de pontos que denominamos diagrama de
dispersão.
Esse diagrama nos fornece uma idéia grosseira, porém útil da correlação
existente:
Construindo o diagrama de dispersão
Um gerente de marketing conduziu um estudo para determinar se há uma
relação entre o dinheiro gasto com propaganda e as vendas da empresa. Os
dados são mostrados na tabela. Coloque os dados em um diagrama de
dispersão e determine se parece haver uma correlação linear positiva ou
negativa ou se parece não haver correlação linear.
0
2
4
6
8
10
12
-3 2 7 12
Esta
tísti
ca
Cálculo 2
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 61
Solução
O diagrama de dispersão é mostrado à direita. A partir do diagrama de
dispersão, parece haver uma correlação linear positiva entre as variáveis.
Interpretação: Lendo da esquerda para a direita, conforme os gastos com
propaganda aumentam, as vendas tendem a aumentar.
Coeficiente de correlação
Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo.
Uma maneira mais precisa de se medir o tipo e a força de uma correlação
linear entre duas variáveis é calcular o coeficiente de correlação. Embora a
fórmula para o coeficiente de correlação amostral seja dada, é mais
conveniente usar uma ferramenta tecnológica para calcular esse valor.
O Coeficiente de Correlação é uma medida da força e direção de uma
relação linear entre duas variáveis. O símbolo r representa o coeficiente de
correlação amostral. Uma fórmula para r é:
O nome formal de r é "Coeficiente de Correlação de Pearson". Este nome é
em homenagem ao estatístico inglês Karl Pearson (1857-1936).
Onde n é o número de pares de valores observados. Observe-se que
. A partir dos valores de , podemos verificar o tipo da correlação
existente entre as variáveis estudadas, conforme tabela seguinte:
Valor de Correlação
0,0 nula
0,1 |----| 0,3 fraca
0,4 |----| 0,6 media
0,7 |----| 0,9 forte
0,99 fortíssima
1,0 perfeita
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 62
Exemplo: Encontre o coeficiente de correlação para os dados da tabela de
notas obtidas pelos 10 alunos de Engenharia nas disciplinas de Cálculo 2 e
Estatística:
(X) (Y) XY X2 Y2
5 6 30 25 36
8 9 72 64 81
7 8 56 49 64
10 10 100 100 100
6 5 30 36 25
7 7 49 49 49
9 8 72 81 64
3 4 12 9 16
8 6 48 64 36
2 2 4 4 4
65 65 473 481 475
911,0525585
505
65475.1065481.10
65.65473.10r
22
CORRELAÇÃO POSITIVA E CORRELAÇÃO NEGATIVA
O valor de r está sempre entre – Se as variáveis x e y crescem no mesmo
sentido, isto é, quando x cresce, y também cresce, diz-se que as duas variáveis
têm correlação positiva e o valor de r está próximo de 1.
Então, notas de Cálculo 2 e notas de Estatística dos alunos tem correlação
positiva, porque quando uma das variáveis cresce, a outra , em média, também
cresce. Se as variáveis x e y variam em sentido contrário, isto é, quando x
cresce, em média y decresce, diz-se que as duas variáveis têm correlação
negativa e o valor de r está próximo de -1. Se r está próximo a 0, isso não
significa que não há relação linear.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 63
Observe os dados da Tabela abaixo
Consumo individual de proteínas de origem animal, em gramas, e coeficiente
de natalidade, em 14 países.
País Consumo de
proteínas
Coef. de
natalidade
Formosa 4,7 45,6
Malásia 7,5 39,7
Índia 8,7 33,0
Japão 9,7 27,0
Iugoslávia 11,2 25,9
Grécia 15,2 23,5
Itália 15,2 23,4
Bulgária 16,8 22,2
Alemanha 37,3 20,0
Irlanda 46,7 19,1
Dinamarca 56,1 18,3
Austrália 59,9 18,0
Estados Unidos 61,4 17,9
Suécia 62,6 15,0
Fonte: Castro (1961)
Eixo x = consumo de proteínas
Eixo y = coeficiente de natalidade
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 64
ANÁLISE DE REGRESSÃO
Muitas vezes é de interesse estudar a relação de dois ou mais atributos ou
variáveis simultaneamente. Nesses casos presume-se que pelo menos duas
observações são feitas sobre cada elemento da amostra. A amostra consistirá,
então, de pares de valores, um valor para cada uma das variáveis, designadas,
X e Y. Um indivíduo “i” qualquer apresenta o par de valores (Xi; Yi). O objetivo
visado quando se registra pares de valores (observações) em uma amostra, é
o estudo das relações entre as variáveis X e Y.
Para a análise de regressão interessam principalmente os casos em que a
variação de um atributo é sensivelmente dependente do outro atributo. O
problema consiste em estabelecer a função matemática que melhor exprime a
relação existente entre as duas variáveis. Simbolicamente a relação é expressa
por uma equação de regressão e graficamente por uma curva de regressão.
REGRESSÃO LINEAR
O processo de regressão linear consiste em determinar a equação da reta que
melhor se ajusta ao conjunto de pontos de uma distribuição.
No processo de regressão linear é aconselhável expressar y em função de x
obtendo uma equação do tipo y = ax + b. Neste caso, x é a variável
independente e y é a variável dependente, isto é, y é estimado em função de x.
A equação obtida é denominada equação de regressão de y sobre x.
Usa-se essa equação quando se deseja obter valores de y que correspondem
a valores de x não constantes da tabela.
A equação de uma reta de regressão para uma variável independente x e
uma variável dependente y é bmxy , onde y é o valor y previsto para um
dado valor x. A inclinação m e a interseção y b são dadas por
onde é a média dos valores y no conjunto de dados e é a média dos
valores x. A linha de regressão sempre passa pelo ponto
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 65
EXEMPLO: Determinar a equação da reta que melhor se ajusta aos pontos da
tabela:
Completando a tabela com os valores necessários para os cálulos de a e de b,
temos:
Calculando m e b, sendo n = 8 (números de pares)
–
–
–
–
Assim, a reta de regressão de y sobre x é .
Aplicações das linhas de regressão
Após encontrar a equação de uma linha de regressão, você pode usar a
equação para prever valores y sobre a amplitude de dados se a correção entre
x e y é significante. Por exemplo, um executivo de publicidade poderia
projetar as vendas da empresa com base nos gastos de propaganda. Para
prever valores y, substitua o valor x dado na equação de regressão e então
calcule , o valor y previsto.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 66
Prevendo valores usando equações de regressão
A equação de regressão para os dados sobre gastos com propaganda (em
milhares de dólares) e vendas da empresa (em milhares de dólares) é:
Use essa equação para prever as vendas esperadas da empresa para os
seguintes gastos com propaganda.
Solução
Para prever as vendas esperadas pela empresa, substitua cada gasto com
propaganda por x na equação de regressão. Depois, calcule .
Interpretação
Quando os gastos com propaganda somam $ 1.500, as vendas da empresa
são cerca de $180.155.
Quando os gastos com propaganda somam $ 1.800, as vendas da empresa
são cerca de $195.373.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 67
Quando os gastos com propaganda somam $ 2.500, as vendas da empresa
são cerca de $ 230.884.
Valores de previsão são significantes somente para valores x na (ou próximos
à) faixa dos dados. Os valores x do conjunto original de dados variam de 1,4 a
2,6. Portanto, não seria apropriado usar a linha de regressão y = 50,729x +
104,061 para prever as vendas da empresa por gastos com propaganda, tais
como 0,5 ($ 500) ou 5,0 ($ 5.000).
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 68
Exercícios de Aplicação
1. É esperado que a massa muscular de uma pessoa diminua com a idade.
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com
idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a
massa muscular (Y).
a) Construa o diagrama de dispersão e interprete-o.
b) Calcule o coeficiente de correlação linear entre X e Y.
c) Determine a equação da reta de regressão para a relação entre as variáveis
Y: massa muscular (dependente) e X: idade (independente).
Massa Muscular (Y) Idade (X)
82.0 71.0
91.0 64.0
100.0 43.0
68.0 67.0
87.0 56.0
73.0 73.0
78.0 68.0
80.0 56.0
65.0 76.0
84.0 65.0
116.0 45.0
76.0 58.0
97.0 45.0
100.0 53.0
105.0 49.0
77.0 78.0
73.0 73.0
78.0 68.0
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 69
d) Considerando a reta estimada dada no item (c), estime a massa muscular
média de mulheres com 50 anos.
2 - A tabela abaixo mostra o faturamento de uma empresa (R$x1000)
Mês JAN FEV MAR ABR MAI JUN
Faturamento 2,1 2,0 2,6 2,9 3,1 3,5
a) Determinar o coeficiente de correlação de Pearson.
b) Estimar o faturamento para julho, pela equação da reta de regressão
3 - Observou-se que o volume mensal de lixo gerado em uma cidade, em
função do número de dormitórios das residências, é o seguinte (em m3):
No Dormitórios 1 2 3 4
Volume de lixo 0,15 0,29 0,45 0,57
a) Calcular e interpretar o coeficiente de correlação.
b) Representar o gráfico de dispersão dessa relação.
c) Determinar a equação da reta de regressão.
d) Estimar o volume de lixo para uma residência com 5 dormitórios.
4 - A função de demanda de um produto está representada na tabela abaixo:
Preço (R$) 56,00 60,00 63,00 68,00 74,00
Demanda
(un.)
100 93 87 81 75
a) Determinar a equação da reta de regressão.
b) Estimar a demanda se o preço for R$ 80,00.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 70
5 - Os gastos com propaganda e o respectivo volume de vendas gerado, de um
certo produto, são dados abaixo:
Gastos com
propaganda (em
milhares de R$)
20 40 10 100 70
Volume de vendas
(em milhares de
R$)
1.110 1.250 1.000 1950 1600
a) Determinar o coeficiente angular e linear da reta de regressão.
b) Determinar a equação da reta de regressão.
c) Calcular o coeficiente de correlação de Pearson. Interpretar esse valor.
d) Estimar o volume de vendas para um gasto de R$ 150.000,00 em
propaganda.
e) Caso não se faça nenhum investimento em propaganda, qual o volume de
vendas esperado?
f) Se a expectativa de vendas for de R$ 1.500.000,00, quando se deve investir
em propaganda para esse produto?
6 - Suponha que uma cadeia de supermercados tenha financiado um estudo
sobres gastos com mercadorias para famílias de classe média. O estudo se
limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a
seguinte equação: , onde:
Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 71
7 - Para cada uma das amostras faça o diagrama de dispersão e, se uma
equação linear parecer apropriada, determine os seus parâmetros e calcule o
coeficiente de correlação.
8 - Os dados abaixo forma colhidos de cinco fábricas diferentes de uma
determinada indústria:
a) Calcule o coeficiente de correlação.
b) Ajuste uma função linear da forma para o custo total dessa
indústria.
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 72
Gabarito
1. a)
No gráfico de dispersão entre a variável massa muscular e idade, pode-se
observar que há um forte indício de relação linear decrescente entre as
variáveis em estudo. Nota-se que a massa muscular das pessoas diminui à
medida que a idade aumenta.
b) 0,837- , Segundo o resultado da correlação obtida, pode-se notar que há
uma forte correlação linear entre a variável massa muscular e idade. Nota-se
que à medida que a idade da pessoa aumenta a massa muscular diminui, o
que é coerente com o gráfico de dispersão apresentada anteriormente.
c)
d)
2. a) 0,9717 b) 3,76
3. a) 0,9986
60
70
80
90
100
110
120
40 50 60 70 80
Ma
ss
a M
usc
ula
r
Idade
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 73
b)
c)
d) 0,72
4. a)
b)
5. a)
b)
c)
d) R$ 2.452,63
e) R$ 878,18
f) R$ 59,24
6. 4,8
7.
0
0,1
0,2
0,3
0,4
0,5
0,6
0 1 2 3 4 5
Vo
lum
e d
o L
ixo
Nº de Dormitórios
0
500
1000
1500
2000
2500
3000
3500
4000
0 20 40 60 80
Cu
sto
To
tal
Tamanho
FACULDADE PITÁGORAS DE LINHARES
Prof. Esp. Thiago Magalhães
Estatística e Probabilidade Página 74
Obs. Uma Equação Linear não parece ser apropriada.
Obs. Uma equação linear parece ser apropriada. Logo:
8. a)
b)