Capítulo 14. Regressão linear múltipla

1

Capítulo 14. Regressão linear múltipla

14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão.14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão14.6 Comparando R2 entre equações de tamanhos diferentes.14.7 R2 Ajustado.14.8 ANOVA para testar a significância da equação inteira: teste F. 14.9 Teste de hipotese para os coeficientes individuais.14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade14.11 Exemplo com as variáveis binárias. 14.12 Multicolinearidade14.13 Questões e exercícios. 14.14 Referências

2

14.1 Introdução Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo:

Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe)

mais variáveis independentes podem ser colocadas

se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada.

O erro deve ser NID(0,σe), distribuído Normalmente, e

os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.

3

14.2 Comentários sobre as variáveis na equação de regressão.

Quais tipos de variáveis podemos usar para Y e X?

Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida.

Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.

4

14.3 Regressão múltipla em termos matriciais.

Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe)

Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe)

Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe)

...

...YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe)

Y = Xb + e

T2T1

1211

XX1

XX1

YXX)X( b -1 ˆ

5

Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios.

EnsaioResposta peso (Y)

Temperatura (temp 0C)

Composição química %

(CQ)1 67,1 100 42 64 110 43 44,3 120 44 45,1 130 45 69,8 100 206 58,5 110 207 46,3 120 208 44,1 130 209 74,5 100 3810 60,7 110 3811 49,1 120 3812 47,6 130 38

0,086

0,89-

156,61ˆ YXX)X( b 1-

peso = 156,61 - 0,89temp + 0,086CQ + e

6

Matriz de variância e covariância

-1X)X( )bvar( 2ˆes

151,253 -1,276 -14,865

-1,276 0,011 -2,4E-15

-14,865 -1,3E-15 71,930

7

14.4 Os coeficientes de regressão como valores padronizados e percentagens

• A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o

coeficiente deixa de ser dependente da unidade de medida.

• Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do

coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a

análise da força da relação.

8

Elasticidade (ElasYX)A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim,

Y

XbElasYX

o coeficiente estimado é multiplicado pela razão entre as médias.

Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é

ElasYX = - 0,89*115/55,925 = -1,83.

Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento.

Até mesmo peso medido em libras ou onças e temperatura medidaem graus Kelvin, a validade do coeficiente em percentagem continua.

9

Padronizar o coeficiente em termos de desvios padrão - coeficiente beta .

O coeficiente beta é definido assim,

S

Sbbeta

Y

XYX

O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para

desvio padrão leva

betaYX = -0,89*11,677/11,109 = -0,936.

Se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso.

10

Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de

relacionamento.

MédiaDesvio padrão

Coeficiente original

elasYXCoeficiente

betaInterseção 156,62

Temperatura 115 11,677 -0,89 -1,832 -0,936Composição

química20,6 14,5 0,0859 0,0317 0,112

Y = Peso 55,925 11,109

11

14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas.

1. Erro de regressão não enviesado. E(e) = 02. Homocedasticidade. E(e2) = constante = e

2 3. Independência. COV(et,et-j) = 0 4. Normalidade. et N(0, e).

1, 2, 3 e 4 Resumidas: et = NID(0, e2I)

5. cov(et,X) = 0. 6. Multicolinearidade. COV(Xi,Xj) = 0. 7. Linearidade.

12

14.6 Comparando R2 entre equações de tamanhos diferentes.

• No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação.

• Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.

13

Comparando R2 entre equações

Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2:

1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2

2a. equação: e(a, b1) = Y - a + b1X1

Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante

ou não para explicar Y.

14

Comparando R2 entre equações

SQE( 21 b,b,a ) ≤ SQE(a, b1, 0) Deve ser claro que a segunda SQE com b2 = 0 é que pertence à

segunda equação contando com uma variável a menos,

(2a. equação: e(a, b1) = Y - a + b1X1 )

e que será sempre maior que a primeira SQE otimizada.

Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente

da relevância da nova variável X2

15

14.7 R2 Ajustado.

Vamos corrigir esta falha do R2 e apresentar o R2 ajustado.

1TSQT

1kTSQE

1TSQT

ajR 2

2Y

2e

2Y2

t

tt

σ

σσajR

2Y

2e

2Y2

t

tt

S

SSajR

Onde (T–1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE,

onde k é o número de variáveis independentes.

16

Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2

temp e CQ somente tempR2 0,890 0,877

R2 aj 0,865 0,865Erro padrão 4,080 4,086

Observações (n) 12 12

teσ

R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.

17

14.8 ANOVA para testar a significância da equação inteira: teste F.

O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente.

Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F).

Y = a + b1X1 + b2X2 + b3X3 + e

As hipóteses nula e alternativa são:

H0: b1 = b2 = b3 = 0H1: não há igualdade a zero

F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )

18

Tabela 14.6 – ANOVA, Estatística F e valor p.

gl SQ MQ F valor - p

Regressão k = 2 1207,9 603,9 36,27 4,93E-05Erro

Residual T-k-1=9 149,8 16,6

Total T – 1 = 11 1357,7

gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados

O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.

19

14.9 Teste de hipotese para os coeficientes individuais.

O teste de hipótese para a significância de coeficientes

individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no

contexto de regressão simples.

O procedimento para regressão múltipla é idêntico.

Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de

regressão cujos coeficientes já foram apresentados:

peso = 156,61 - 0,89temp+ 0,086CQ + e

20

Tabela 14.7 – Teste de hipótese para coeficientes individuais

Coeficientes Erro padrão estatística t valor-P

Interseção 156,615 12,299 12,734 0,000

Temperatura (temp) -0,891 0,105 -8,457 0,000

Composição química % (CQ) 0,086 0,085 1,013 0,338

As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero.

Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez. .

21

14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres.

Y = a + dD + b1X1 + b2X2 + … + et

onde D é a binária, zero para homem e unidade para mulher.

O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.

22

Armadilha da variável binária. Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias.

A equação é:

Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et

T1

21

11

X101

X101

X011

X

A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.

23

SazonalidadeO uso das variáveis sazonais resulta em uma equação de regressão como a seguinte:

Y = aDJAN + bDFEV + cDMAR +... + e

com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.

24

14.11 Exemplo com as variáveis binárias.

Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança.

A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto.

A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30.

Veja os dados na tabela 14.9.

25

Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005

vendas soma acumulada

da estaçao VD2005 D2006 D2007 D2008

Número da

semana S

Número da

semana S

quadrado

Número da

semana S

cúbico

0 1 0 0 0 1 1 12.262 1 0 0 0 2 4 81.730 1 0 0 0 3 9 272.541 1 0 0 0 4 16 645.813 1 0 0 0 5 25 1258.198 1 0 0 0 6 36 2169.604 1 0 0 0 7 49 343

10.601 1 0 0 0 8 64 51211.595 1 0 0 0 9 81 729

26

A regressão múltiplaA equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato:

Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008

+ c1S + c2S2 + c3S

3

+ e

Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária

27

Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis

R-Quadrado 0,968R-quadrado

ajustado 0,956

Erro padrão 1478,549

Observações 104

Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.

28

Tabela 14.12 – Teste F

ANOVA gl SQ MQ F valor-P

Regressão 7 6448079082 921154155 421 4,2E-69Resíduo 97 212052256 2186106

Total 104 6660131338

29

Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas

Coeficientes Erro padrão estatística t valor-PD2005 -6668,2 667,1 -10,00 0,000D2006 -501,6 667,1 -0,75 0,454D2007 -4623,8 667,1 -6,93 0,000D2008 -3921,3 721,8 -5,43 0,000

S 2848,0 175,6 16,22 0,000Squad -94,25 13,40 -7,04 0,000Scúb 0,96 0,29 3,33 0,001

Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.

30

Tabela 14.14 – Teste F, D2006 excluída

ANOVA

gl SQ MQ F valor-P

Regressão 6 6,45E+09 1,07E+09 494 2,38E-70

Resíduo 98 2,13E+08 2176411

Total 104 6,66E+09

foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria

no valor-p.

31

Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída

Coeficientes Erro padrão estatística t valor-PD2005 -6248,74 364,99 -17,12 0,00D2007 -4204,37 364,99 -11,52 0,00D2008 -3519,15 483,59 -7,28 0,00

S 2739,72 100,21 27,34 0,00Squad -87,10 9,41 -9,26 0,00Scúb 0,82 0,22 3,70 0,00

Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008 + 2739,72*S - 87,10*S2 + 0,82*S3

32

Tabela 14.16 – Previsões das

vendas na segunda metade

da estação de 2008

Ano Semanavendas soma acumulada da

estação2008 15 20760

2008 16 213942008 17 219332008 18 223812008 19 227442008 20 230272008 21 23235

2008 22 23372

2008 23 23444

2008 24 23455

2008 25 23411

2008 26 233162008 27 231752008 28 229942008 29 227772008 30 22529

33

14.12 Multicolinearidade

Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade.

Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0.

O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos.

34

Multicolinearidade - soluçãoAs vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t.

A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis.

Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos,então ele deve eliminar algumas variaveis ou trabalhar com índices de combinações das variaveis similhantes.

35

14.14 Referências

• Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.

• • Souza, G.P. Samohyl, R.W., Miranda, R.G.

(2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.

Documents

Capítulo 14. Regressão linear múltipla