19
Dados Empilhados CE 731 – Econometria II Prof. Alexandre Gori Maia Instituto de Economia - UNICAMP 1 Ementa Introdução a Dados em Painel Regressão com Dados Empilhados Teste para Contribuição Marginal Bibliografia Wooldridge, J. M. 2001. Econometric analysis of cross section and panel data. Caps. 6.3.

Introdução ao SAS - eco.unicamp.br

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introdução ao SAS - eco.unicamp.br

Dados EmpilhadosCE 731 – Econometria II

Prof. Alexandre Gori Maia

Instituto de Economia - UNICAMP

1

Ementa

Introdução a Dados em Painel

Regressão com Dados Empilhados

Teste para Contribuição Marginal

Bibliografia

Wooldridge, J. M. 2001. Econometric analysis of cross section and panel data. Caps. 6.3.

Page 2: Introdução ao SAS - eco.unicamp.br

Corte Transversal (Cross-Section)

iY

ni ,...,2,11Y

2Y

nY

...

Séries Temporais (Time Series)

tY

Tt ,...,2,1 1Y 2Y TY...

Dados Empilhados (Pooled)

itY

Tni ,...,2,1 11Y

21Y

11nY

...

Dados em Painel (Panel Data)

itY

Tt ,...,2,1

12Y

22Y

22nY...

TY1

TY2

TnTY

...

... ni ,...,2,1

Tt ,...,2,1

11Y

21Y

1nY

...

12Y

22Y

2nY

...

TY1

TY2

nTY

...

...

...

...

...

Unidades distintas

observadas em um mesmo

período do tempo

Mesma unidade

observada em

diferentes períodos

do tempo

Unidades não

necessariamente

idênticas em diferentes

períodos do tempo

Mesmas unidades em

diferentes períodos

do tempo

Dadoes em Painel - Definição

2

• Exemplos de amostras:

Page 3: Introdução ao SAS - eco.unicamp.br

Painel Balanceado (balanced) Painel Desbalanceado (Unbalanced)

Painel Rotativo (Rotating Panel)

itYPainel Dividido (Split Panel)

itY11Y

21Y

11nY

12Y

22Y

22nY

TY1

TY2

TnTY

...

...

...

Há rotação entre as

unidades, de tal

forma que cada uma

seja observadoa em

apenas um

determinado número

de períodos.

Combina características

de dados em painel com

dados em corte

transversal, ou seja, uma

parte da amostra é

observada continuamente

e outra é formada por

unidades distintas em

cada período do tempo.

itY11Y

21Y

1nY

...

12Y

22Y

2nY

...

TY1

TY2

nTY

...

...

...

...

...

O mesmo número de

períodos para cada

unidade de corte

transversal.

itY11Y

21Y...

12Y

2nY

...21Y

3nY

...

...

...

...

...

Uma unidade de corte

transversal não é

necessariamente

observadoa em todos

os períodos do tempo.

11Y

21Y 22Y

32YTnY 1

nTY

...... ... ...

Dadoes em Painel - Definição• Exemplos de amostras de dados em painel:

3

Page 4: Introdução ao SAS - eco.unicamp.br

4

Pressupõe que as relações de causa e efeito sejam as

mesmas em qualquer período do tempo.

Y

X

Intercepto e coeficientes angulares constantesY

X

Y

X

eXY

t=1

t=0

t=1

t=0

t=1

t=0

Pressupõe variação de Y no tempo mas relações

marginais constantes entre X e Y.

Intercepto variável e coeficientes angulares constantes

etXY

Pressupõe quebra estrutural da relação entre X eY no

tempo.

Intercepto e coeficientes angulares variáveis

eXttXY )(

Dados Empilhados –Tipos de Modelos

Page 5: Introdução ao SAS - eco.unicamp.br

Dados Empilhados - Exemplo

5

• A planilha Dados_Filhos contém informações sobre escolaridade e número de filhos de duas amostras independentes de mulheres: a primeira de 1972 e a segunda de 1984;

Como as amostras são independentes (as mulheres não são necessariamente as mesmas nos dois anos), trabalharemos com uma amostra de dados empilhados: 24 observações no primeiro período (1972) e 26 observações no segundo período (1984).

Page 6: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – PROC GLM

6

• Há 3 procedimentos no SAS que são mais frequentementeutilizados para ajustes de modelos com dados empilhados:

• PROC REG: Ajusta modelo por MQO. Variáveis nominais devem

previamente transformadas em binárias para serem consideradas nos ajustes;

• PROC GLM: Ajusta modelos de MQO e MQG. Variáveis nominais

podem são tratadas diretamente no procedimento através do comando CLASS. Apresenta ainda recursos gráficos (ODS GRAPHICS) para visualização de ajustes com variáveis nominais;

• PROC MIXED: É o mais versátil dos 3 procedimentos. Permite o

ajuste de modelos com correlação entre erros e regressores, assim como modelos de erros heterocedásticos.

Page 7: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – Exemplo 1

7

• O procedimento GLM ajustará um modelo de MQO com intercepto e coeficiente angular constantes. O ODS GRAPHICS permitirá visualizar a dispersão dos valores observados e a função ajustada;

• Teremos os seguintes resultados:

Este modelo pressupões intercepto e coeficientes angulares constantes. Em outras palavras, espera-se que o número esperado de filhos para cada ano de estudo seja o mesmo em 1972 e 1984.

Page 8: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – Exemplo 2

8

• O PROC GLM permite ajustar diretamente um modelo com intercepto variável e coeficiente angular constante.

• O comando CLASS identifica variáveis nominais do ajuste. Binárias serão automaticamente criadas para representar as categorias;

• Quando se utiliza o comando CLASS, é necessário incorporar a opção SOLUTION no comando MODEL para que as estimativas dos parâmetros sejam apresentadas;

• O ODS GRAPHICS permitirá visualizar a dispersão dos valores para cada categoria da variável em CLASS;

Como a variável independente foi definida como nominal pelo comando CLASS, será estimado um intercepto diferente (binárias) para cada categoria (72 e 84).

Page 9: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – Exemplo 2

9

• Alguns resultados do ajuste serão:

Embora todas as categorias de Ano constem como parâmetros, apresenta-se uma estimativa nula para a categoria utilizada como referência (84).

Este modelo pressupõe que, independente dos anos de estudo, o número esperado de filhos em 1972 era, em média, 1,40 superior ao de 1984. A relação entre anos de estudo e filhos permanece a mesma.

Page 10: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – Exemplo 3

10

• Finalmente, podemos também considerar um modelo com intercepto variável e coeficiente angular variável no PROC GLM.

• Uma vez definida a variável nominal no comando CLASS, sua interação com outra variável independente pode ser considerada através do símbolo “*”;

Os valores das categorias de Ano serão cruzados com os valores de Escolaridade.

Page 11: Introdução ao SAS - eco.unicamp.br

Dados Empilhados – Exemplo 3

11

• Entre os resultados, teremos:

• Em outras palavras, o ajuste será dado por:

• O que significa um ajuste para cada ano. Em 1972:

Este modelo pressupõe que o número esperado de filhos para cada ano de estudo seja diferente em 1972 e 1984. Também pressupõe uma quebra estrutura na relação entre anos de estudo e número de filhos entre 1972 e 1984. Segundo as estimativas obtidas, a relação entre escolaridade e número de filhos seria mais acentuada em 1984.

eAnodeEscolaridaAnodeEscolaridaFilhos ˆ7219,07210329,002,6

edeEscolaridaFilhos ˆ29,002,6

edeEscolaridaFilhos ˆ)19,029,0()03,102,6(

• E, para 1984:

Page 12: Introdução ao SAS - eco.unicamp.br

Modelos Interativos ou Independentes?

12

• Alternativamente ao modelo com intercepto e coeficientes angulares variáveis:

• Por que não considerar ajustes independentes para cada ano?

• A diferença está nos pressupostos sobre a dispersão dos erros. Os coeficientes estimados serão semelhantes mas os erros padrão diferentes. Caso 72= 84, então o modelo de dados empilhados gerará estimadores mais eficientes (mais graus de liberdade). Caso contrário, seu erro padrão não refletirá a heterogeneidade da variabilidade nos anos (heterocedasticia).

eAnodeEscolaridaAnodeEscolaridaFilhos 7272 3210

8410 edeEscolaridaFilhos 7210 edeEscolaridaFilhos e

Page 13: Introdução ao SAS - eco.unicamp.br

Dados Empilhados - Definição

13

• A análise de dados empilhados apresenta uma série de vantagens em relação aos dados de corte transversal. Por exemplo, o maior tamanho da amostra e a possibilidade de identificar mudanças estruturais na relação entre a variável dependente e as variáveis independentes;

• Se pressupormos que as relações são as mesmas no tempo, teremos:

• Se pressupormos que os valores de Y variam no tempo (t=0 ou 1, por exemplo) para um mesmo valor de X (interceptos variáveis), teremos:

• Se pressupormos mudanças estruturais da relação entre Y e X no tempo, teremos:

ij

k

j

j eXY 1

0

ij

k

j

j etXY

1

0

ij

k

j

jj

k

j

j etXtXY 11

0

Page 14: Introdução ao SAS - eco.unicamp.br

Y

X1 X2

SQReg devido a X1 e X2 (Irrestrito):

Variabilidade da variável dependente explicada pelo conjunto das variáveis X1 e X2.

)/(Re 21 XeXYgSQ

Y

X1 X2

SQReg devido exclusivamente a X1 (Restrito):

Variabilidade da variável dependente explicada exclusivamente por X1.

)/(Re 1XYgSQ

Y

X1 X2

SQReg devido ao acréscimo de X2:

Variabilidade da variável dependente explicada por X2 após considerada a variabilidade explicada por X1.

rir gSQgSQXãoContribuiç ReRe2

Graus de liberdade: 2 coeficientes angulares do modelo Yi=+1X1+2X2+e.

Graus de liberdade: 1 coeficiente angular do modelo Yi=+1X1+e.

Graus de liberdade: 1 novo coeficiente angular incorporado no modelo (2).

ouirgSQRe

ourgSQRe

Contribuição Marginal - Definição

14

Page 15: Introdução ao SAS - eco.unicamp.br

Seja o modelo irrestrito de RLM:

Em outras palavras, estaríamos interesados em testar a hipótese nula de que os q

coeficientes do modelo irrestrito são nulos:

Podemos desejar verificar se a contribuição de um grupo de q variáveis é

significativa no modelo. Fazemos esse teste colocando restrições aos parâmetros .

Suponha que, por simplicidade, as q variáveis que desejamos testar são as últimas

das k variáveis do modelo irrestrito (a ordem, obviamente, não faz importância).

Nosso modelo restrito seria:

Analogamente ao teste F para a ANOVA irrestrita, o teste estatístico para restrição aos

parâmetros consiste agora em verificar se a contribuição marginal dessas q variáveis é

significativa . A estatística F será então dada por:

eXXXY kk ...2211

eXXXY qkqk ...2211

0...,,0: 10 kqkH

)1/(Re

/)ReRe(

knsSQ

qgSQgSQF

ir

rir

Onde SQRegir e SQRegr são, respectivamente, a soma dos quadrados da regressão

sem e com restrição nos parâmetros, SQResir é a soma dos quadrados dos resíduos da

regressão sem restrição.

ou)1/(Re

/)ReRe(

knsSQ

qsSQsSQF

ir

irr

Teste de Contribuição Marginal

15

Page 16: Introdução ao SAS - eco.unicamp.br

Teste de Contribuição Marginal• A Soma dos Quadrados do Tipo I (SS1) permite verificar se a inclusão de

variáveis adicionais no modelo representa uma contribuição marginal significativa;

• Em outras palavras, seja o modelo: etXtXY 3210

• Primeiro a SS1 verifica se a inclusão da variável X(a primeira variável especificada), acrescenta uma contribuição marginal significativa:

• Segundo, após considerar a contribuição de X, verifica se a variável t (a segunda do modelo) acrescenta uma contribuição marginal significativa:

• Terceiro, após considerar as contribuições de X e t, verifica se a contribuição marginal da variável Xt(a terceira do modelo) é significativa:

Y

X

Y

X t

Y

X t

X.t

16

Page 17: Introdução ao SAS - eco.unicamp.br

Teste de Contribuição Marginal• A Soma dos Quadrados do Tipo III (SS3) permite verificar, considerando todas

as demais variáveis explanatórias do modelo, a contribuição marginal de uma variável é significativa;

• Em outras palavras, seja o modelo: etXtXY 3210

• A SS3 para X verifica se a contribuição marginal da variável X é significativa, após considerar a parcela da variabilidade já explicada por t e X.t:

• A SS3 para t verifica se a contribuição marginal da variável t é significativa, após considerar a parcela da variabilidade já explicada por X e X.t:

• A SS3 para X.t verifica se a contribuição marginal da variável X.t é significativa, após considerar a parcela da variabilidade já explicada por X e t:

Y

X t

X.t

17

Y

X t

X.t

Y

X t

X.t

Page 18: Introdução ao SAS - eco.unicamp.br

Contribuição Marginal – Exemplo

18

• A Soma dos Quadrados (SS1 e SS3) para as contribuições marginais das variáveis do modelo são automaticamente apresentadas com a execução do procedimento GLM:

As SS1 para as variáveis do modelo sugerem que, após consideradas as contribuições das variáveis Escolaridade e Ano, a interação Escolaridade*Ano não acrescenta informação significativa ao modelo.Adicionalmente, as SS3 sugerem que, após considerada a contribuição conjunta de todas variáveis, as variáveis Ano e Escolaridade*Ano não acrescentam contribuição marginal significativa. Em outras palavras, há uma forte inter-relação entre as variáveis. Os efeitos isolados passam a ser insignificantes.

Page 19: Introdução ao SAS - eco.unicamp.br

Exercícios

19

1) O arquivo Dados_PrecoResidenciais.XLS contém amostras coletadas em dois pontos do tempo (1978 e 1981).

a) Ajuste um modelo de dados empilhados para o log do preço em função da área construída, distância ao incinerador de lixo e outras variáveis que achar relevante;

b) Considere agora interceptos variáveis no tempo. Interprete os resultados.

c) Considere interceptos e coeficientes angulares para a relação entre preço e distância ao incinerador variáveis no tempo. Interprete os resultados;

d) Analise a contribuição marginal do tempo e de suas interações para o modelo;

e) A variável DIST refere-se à distância das residências a um incinerador de lixo que foi construído entre 1978 e 1981. Elabore e interprete um modelo que possa avaliar seu impacto sobre o preço das residências.