22
1 T.C. DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI EKONOMETRİ DOKTORA PROGRAMI Sayma Regresyon Modeli Hazırlayan: Nicat GASIM Öğretim Üyesi Prof. Dr. Şenay ÜÇDOĞRUK İzmir-2014

Sayma Modelleri Count Model

Embed Size (px)

DESCRIPTION

Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile incelenmesi hedeflenmiştir. Çalışmada Sayma modellerine ait Poisson Regresyon(PR), Negatif Binom Regresyon(NBREG), Sıfır Değer Ağırlıklı Poisson Regresyon(ZIP) ve Sıfır Değer Ağırlıklı Negatif Binom Regresyon modelleri tahmin edilmiş ve verilere en iyi uyum sağlayan model seçilmiştir.

Citation preview

Page 1: Sayma Modelleri Count Model

1

T.C.

DOKUZ EYLÜL ÜNİVERSİTESİ

SOSYAL BİLİMLER ENSTİTÜSÜ

EKONOMETRİ ANABİLİM DALI

EKONOMETRİ DOKTORA PROGRAMI

Sayma Regresyon Modeli

Hazırlayan: Nicat GASIM

Öğretim Üyesi

Prof. Dr. Şenay ÜÇDOĞRUK

İzmir-2014

Page 2: Sayma Modelleri Count Model

2

Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile

incelenmesi hedeflenmiştir. Model kurmaya başlamadan önce, çocuk sayısını etkilediği

düşünülen faktörler ve onlara ait tanımlayıcı istatistikler Tablo 1’de verilmiştir.

Tablo 1: Değişkenlerin tanımlayıcı istatistikleri

. summarize cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit

kadin_ozel kadin_devlet_kit kent

Variable | Obs Mean Std. Dev. Min Max

cocuksayisi | 9035 2.067405 1.664989 0 16

kadinyas | 9035 40.21638 14.68212 0 95

erkekyas | 9035 40.44416 18.15721 0 98

erkek_ozel | 8167 .5982613 .4902797 0 1

erkek_devl~t | 8167 .1697074 .3753985 0 1

kadin_ozel | 8773 .1590106 .3657068 0 1

kadin_devl~t | 8773 .0280406 .1650982 0 1

kent | 9035 .8469286 .3600762 0 1

Sayma modellerinde öncelikli olarak aşırı veya eksik yayılımın olup olmadığına karar

vermek gerekir. Bizim örneğimizde bağımlı değişkene ait ortalama varyansdan küçük

olduğu için (2.06<1.662=2.75) aşırı yayılımın olduğunu söyleyebiliriz. Ancak aşırı yayılımı

test etmeden önce Poisson Regresyon Modeli (PRM) tahmin edilmelidir.

Page 3: Sayma Modelleri Count Model

3

PRM-1

. poisson cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel

kadin_devlet_kit kent

Iteration 0: log likelihood = -14197.26

Iteration 1: log likelihood = -14197.259

Poisson regression Number of obs = 7905

LR chi2(7) = 317.14

Prob > chi2 = 0.0000

Log likelihood = -14197.259 Pseudo R2 = 0.0110

cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]

kadinyas | -.0057392 .001826 -3.14 0.002 -.009318 -.0021604

erkekyas | .0052688 .0017769 2.97 0.003 .0017862 .0087514

erkek_ozel | .2885364 .0240408 12.00 0.000 .2414173 .3356555

erkek_devlet_kit | .3160742 .0286015 11.05 0.000 .2600163 .372132

kadin_ozel | .0581524 .0224478 2.59 0.010 .0141556 .1021492

kadin_devlet_kit | -.4645722 .0588564 -7.89 0.000 -.5799286 -.3492158

kent | .0369273 .0232888 1.59 0.113 -.008718 .0825725

_cons | .502281 .0531456 9.45 0.000 .3981176 .6064444

Poisson regresyon modeli tahmin sonuçları incelendiğinde, %5 anlamlılık düzeyinde

kent değişkeninin katsayısı dışındaki katsayıların anlamlı olduğu görülmektedir. Modelin

doğru spesifikasyonunu elde etmek için tahminlenmiş olduğumuz model sınırlandırılmış ve

sadece sabit terim kullanılarak yeniden tahminlenmişdir.

Page 4: Sayma Modelleri Count Model

4

PRM-2

. poisson cocuksayisi, nolog

Poisson regression Number of obs = 9035

LR chi2(0) = 0.00

Prob > chi2 = .

Log likelihood = -16489.495 Pseudo R2 = 0.0000

cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]

_cons | .726294 .0073168 99.26 0.000 .7119532 .7406347

Dikkat edilirse PRM-2’de iterasyonları görmemek amacı ile ‘nolog’ komutu

kullanılmıştır. PRM-1 ve PRM-2 modellerinden hangisinin geçerli olduğunu test etmede her

iki modelin Log Likelihood değerleri kullanılmaktadır. Elde edilen test istatistiği 𝜒2 istatistiği

ile kıyaslanarak hipotez kabül yada reddedilmektedir.

1. Adım:

H0 :Sınırlamalar geçerlidir (β1 =β2 =0 )

H1 : Sınırlamalar geçersizdir. (PRM-1 modeli tercih edilmelidir)

2. Adım: Testistatistiği=2(LPRM-1 –LPRM-2)

Test istatistiği = 2*(-14197.259-(-16489.495))= 4584.472

3. Adım :

. disp chi2tail(7, 4584.472)

0

4. Adım: 0<p=0.05 olduğundan sıfır hipotezi reddedilmektedir.

Yani model sınırlaması geçerli değildir. PRM-1 modeli geçerlidir.PRM-1

modelinin geçerli olduğunun tespit etdikten sonra tahminlenen ve gözlenen

dağılımı karşılaştırmak için ‘prcounts’ komutu kullanılmıştır. Bu komut her

gözlem için sıfırdan maksimuma kadar her saymanın tahmin oranını ve

olasılıklarını hesaplamaktadır.

Page 5: Sayma Modelleri Count Model

5

. prcounts psn, plot max(9)

. list psnval psnobeq psnpreq in 1/10

+------------------------------+

| psnval psnobeq psnpreq |

|------------------------------|

1. | 0 .1685667 .1265137 |

2. | 1 .2178196 .261555 |

3. | 2 .2989485 .27037 |

4. | 3 .1648035 .1863214 |

5. | 4 .0753735 .0963004 |

|------------------------------|

6. | 5 .031876 .0398184 |

7. | 6 .0220255 .0137201 |

8. | 7 .0100719 .0040521 |

9. | 8 .0064195 .0010472 |

10. | 9 .0014388 .0002405 |

+------------------------------+

Yukarıdaki tablo, ortalama 2.067 olduğu durumda tahminlenen ve gözlenen değerleri

göstermektedir. Bu tabloda verilenlere göre Poisson dağılımı olayların %12.6’sının sıfır

olacağını tahmin ederken, gözlenen değerlere göre ise olayların %16.8’i sıfırdır. Gözlenen

değerler ile Poisson dağılımının grafiği aşağıdaki gibidir.

Page 6: Sayma Modelleri Count Model

6

Grafikten görüldügü gibi gözlenen dağılım, Poisson dağılımından daha fazla sıfıra

sahiptir.

‘fitstat’ komutu kullnarak Log Likelihood, McFadden’s R2 (or Pseudo R2), Akaike

Information Criterion (AIC) ve Bayesion Information Criterion (BIC) gibi çeşitli iyi uyum

istatistikleri hesaplanmaktadır. Bu komutu kullanarak elde edilen modele ilişkin uyum

ölçüleri aşağıdaki sonuçta yer almaktadır.

. fitstat

Measures of Fit for poisson of cocuksayisi

Log-Lik Intercept Only: -16489.495 Log-Lik Full Model: -16489.495

D(9034): 32978.989 LR(0): 0.000

Prob > LR: .

McFadden's R2: 0.000 McFadden's Adj R2: -0.000

ML (Cox-Snell) R2: 0.000 Cragg-Uhler(Nagelkerke) R2: 0.000

AIC: 3.650 AIC*n: 32980.989

BIC: -49310.463 BIC': 0.000

BIC used by Stata: 32988.098 AIC used by Stata: 32980.989

PRM’nin tahmin sonuçları ‘listcoef’ komutu kullnılarak yourmlanabilmektedir. Bu

komutla standartlaştırılmamış katsayıların faktör ve yüzde değişimleri listelenmekte ve

regresyon sonuçları yorumlanabilmektedir.

0.1

.2.3

Pro

babi

lity

0 1 2 3 4 5 6 7 8 9Count

Observed Pr(y=k) from poisson Predicted Pr(y=k) from poisson

Page 7: Sayma Modelleri Count Model

7

. listcoef, help

poisson (N=7905): Factor Change in Expected Count

Observed SD: 1.6484507

cocuksayisi | b z P>|z| e^b e^bStdX SDofX

kadinyas | -0.00574 -3.143 0.002 0.9943 0.9321 12.2513

erkekyas | 0.00527 2.965 0.003 1.0053 1.0696 12.7653

erkek_ozel | 0.28854 12.002 0.000 1.3345 1.1516 0.4892

erkek_devl~t | 0.31607 11.051 0.000 1.3717 1.1265 0.3768

kadin_ozel | 0.05815 2.591 0.010 1.0599 1.0215 0.3659

kadin_devl~t | -0.46457 -7.893 0.000 0.6284 0.9277 0.1616

kent | 0.03693 1.586 0.113 1.0376 1.0134 0.3617

b = raw coefficient

z = z-score for test of b=0

P>|z| = p-value for z-test

e^b = exp(b) = factor change in expected count for unit increase in X

e^bStdX = exp(b*SD of X) = change in expected count for SD increase in X

SDofX = standard deviation of X

Elde edilen bulgulara göre, diğer değişkenler sabitken kadının yaşındaki artış, çocuk

sayısını 0.9943 faktörü kadar artırmaktadır. Diğer bir ifade ile kadının yaşındaki artış, çocuk

sayısını %0.57 azaltmaktadır.

(100*( 0.9943-1))= %-0.57

‘prtab’ komutu listelenmiş kategorik değişkenlerinin bütün kombinasyonları için

tahminlenen değerlerinin oranını vermektedir. Uygulamamızda bu komutu çalışırarak,

aşağıdaki sonuçlara ulaşabiliriz.

Page 8: Sayma Modelleri Count Model

8

. prtab kadin_ozel

poisson: Predicted rates for cocuksayisi

kadinisst |

atuy== |

1.0000 | Prediction

0 | 2.1253

1 | 2.2525

kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent

x= 40.130803 44.581784 .60354206 .171284 .15926629 .02681847 .84528779

Elde edilen sonuçlara göre, özel sektörde çalışan kadınlarda çocuk sayısı oranı

2.25’tir. Çocuk sayısı sürekli değer alamayacağından, çalışan kadınların 2 çocuk sahibi

oluduğu şeklinde yorum yapmak daha doğru olacaktır.

‘prvalue’ komutu bağımsız değişkenler için tahminlenen değerleri vermektedir. Bu

komutla kadının yaşı dikkate alındığında çocuk sayısı olasılığının sayma sayısının sıfır

değerleri için 0.0687 olduğu elde edilmiştir. Bu komutla elde edilen sonuçlara göre

tahminlenen oran değeri, “prtab”ile tahminlenen oran değeri 2.2525”e eşittir

. prvalue, x(kadin_ozel=1) maxcnt(6)

poisson: Predictions for cocuksayisi

Confidence intervals by delta method

95% Conf. Interval

Rate: 2.2525 [ 2.1631, 2.3419]

Pr(y=0|x): 0.1051 [ 0.0957, 0.1145]

Pr(y=1|x): 0.2368 [ 0.2250, 0.2486]

Pr(y=2|x): 0.2667 [ 0.2640, 0.2694]

Pr(y=3|x): 0.2003 [ 0.1943, 0.2062]

Pr(y=4|x): 0.1128 [ 0.1049, 0.1206]

Pr(y=5|x): 0.0508 [ 0.0453, 0.0563]

Pr(y=6|x): 0.0191 [ 0.0162, 0.0219]

kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent

x= 40.130803 44.581784 .60354206 .171284 1 .02681847 .84528779

Page 9: Sayma Modelleri Count Model

9

Marjinal etkiler (değişiklikler) ‘prchange’ komutuyla hesaplanabilmektedir. Bu

komutla, kentte yaşayan kadınlar için standart sapmanın bir birim artması, kadınların kentte

yaşamadığı durumda (yani kent=0) çocuk sayısı olayı 0.0278 artmaktadır.

. prchange, x(kent=0)

poisson: Changes in Rate for cocuksayisi

min->max 0->1 -+1/2 -+sd/2 MargEfct

kadinyas -0.7992 -0.0150 -0.0119 -0.1462 -0.0119

erkekyas 0.9380 0.0087 0.0110 0.1399 0.0110

erkek_ozel 0.5843 0.5843 0.6020 0.2937 0.5999

erkek_devl~t 0.7321 0.7321 0.6599 0.2477 0.6572

kadin_ozel 0.1233 0.1233 0.1209 0.0442 0.1209

kadin_devl~t -0.7823 -0.7823 -0.9746 -0.1561 -0.9659

kent 0.0782 0.0782 0.0768 0.0278 0.0768

exp(xb): 2.0791

kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent

x= 40.1308 44.5818 .603542 .171284 .159266 .026818 0

sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653

Negatif Binom Regresyon Modeli (NBRM)

STATA’da NBRM kurmak için ‘nbreg’ komutu kullanılır. Bu komut üç log likelihood

istatistiğini raporlamaktadır.

. nbreg cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel

kadin_devlet_kit kent

S1. Fitting Poisson model:

Iteration 0: log likelihood = -14197.26

Iteration 1: log likelihood = -14197.259

S2. Fitting constant-only model:

Iteration 0: log likelihood = -15610.691

Iteration 1: log likelihood = -14267.651

Iteration 2: log likelihood = -14267.104

Iteration 3: log likelihood = -14267.104

Page 10: Sayma Modelleri Count Model

10

S3. Fitting full model:

Iteration 0: log likelihood = -14135.529

Iteration 1: log likelihood = -14132.907

Iteration 2: log likelihood = -14132.884

Iteration 3: log likelihood = -14132.884

Negative binomial regression Number of obs = 7905

LR chi2(7) = 268.44

Dispersion = mean Prob > chi2 = 0.0000

Log likelihood = -14132.884 Pseudo R2 = 0.0094

cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]

kadinyas | -.0057932 .0019786 -2.93 0.003 -.0096712 -.0019152

erkekyas | .0050688 .0019216 2.64 0.008 .0013026 .0088351

erkek_ozel | .2845887 .0257408 11.06 0.000 .2341376 .3350399

erkek_devlet_kit | .3122562 .0308079 10.14 0.000 .2518738 .3726385

kadin_ozel | .05946 .024519 2.43 0.015 .0114036 .1075163

kadin_devlet_kit | -.4651256 .0623233 -7.46 0.000 -.587277 -.3429742

kent | .036558 .0253132 1.44 0.149 -.013055 .0861711

_cons | .51651 .0577134 8.95 0.000 .4033937 .6296262

/lnalpha | -2.508874 .1019698 -2.708731 -2.309016

alpha | .0813598 .0082962 .0666213 .0993589

Likelihood-ratio test of alpha=0: chibar2(01) = 128.75 Prob>=chibar2 = 0.000

NBRM tahmin sonuçları hesaplandığında S1,S2 ve S3 şeklinde tanımladığımız üç

istatistik sonucu raporlanmaktadır. S1-PRM sonuçlarını, S2-sadece sabitle tahminlenmiş

NBRM sonuçlarını, S3 ise tüm açıklayıcı değişkenlerin yer aldığı NBRM likelihood

değerlerini ifade etmektedir. Öncelikle S2 ve S3 modellerinin uyum iyiliği test edilmiştir.

Uyum iyiliğinin testi için aşağıdaki adımlar sırasıyla takip edilmelidir.

1. Adım:

H0 :Sınırlamalar geçerlidir (S2 modeli tercih edilmelidir. )

H1 : Sınırlamalar geçersizdir. (S3 modeli tercih edilmelidir.)

2. Adım: Testistatistiği=2(LS3 –LS2)

Test istatistiği = 2*(-14132.884-( -14267.104))= 268.44

Page 11: Sayma Modelleri Count Model

11

3. Adım : Testistatistiği p değeri

. disp chi2tail(7, 268.44)

3.274e-54≈0

4. Adım: 3.274e-54<p=0.05 olduğundan sıfır hipotezi reddedilmektedir.

Yani, model sınırlanması geçerli değildir. S3 modeli geçerlidir.

NBRM sonuçlarını elde etdiğimize göre artık, aşırı yayılımın test

edilmesine geçebiliriz. PRM ve NBRM modellerinden hangisinin tercih

edileceği ile ilgili test istatistiği aşağıdaki gibidir.

1. Adım:

H0 : α=0 NBRM, PRM’ye yaklaşmaktadır.

H1 : α≠0 PRM yerine NBRM seçilmelidir.

2. Adım: Testistatistiği=2(LNBRM –LPRM)

Test istatistiği = 2*(-14132.884-( -14.197)= 128.75

3. Adım : Test istatistiği p değeri

. disp chi2tail(1, 128.75)

7.692e-30≈0

4. Adım: 7.692e-30<0.05 olduğundan sıfır hipotezi reddedilmektedir.

Yukarıdaki sonuçlara göre NBRM tercih edilir. Test sonuçlarına göre aşırı

yayılım istatistiki olarak önemlidir. Bağımsız değişkenler açısından marjinal

etkiler hesaplandığında aşağıdaki sonuçlar elde edilmektedir.

Page 12: Sayma Modelleri Count Model

12

. prchange

nbreg: Changes in Rate for cocuksayisi

min->max 0->1 -+1/2 -+sd/2 MargEfct

kadinyas -0.8319 -0.0156 -0.0124 -0.1523 -0.0124

erkekyas 0.9279 0.0087 0.0109 0.1388 0.0109

erkek_ozel 0.5947 0.5947 0.6125 0.2989 0.6104

erkek_devl~t 0.7452 0.7452 0.6725 0.2525 0.6698

kadin_ozel 0.1302 0.1302 0.1276 0.0467 0.1275

kadin_devl~t -0.8078 -0.8078 -1.0067 -0.1612 -0.9977

kent 0.0774 0.0774 0.0784 0.0284 0.0784

exp(xb): 2.1450

kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent

x= 40.1308 44.5818 .603542 .171284 .159266 .026818 .845288

sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653

Kadının yaşında bir standart sapmanın bir birim artması çocuk sayısı 0.1523

azaltırken, erkeğin yaşında bir birimlik standart sapma çocuk sayısı olayını 0.1388

artırmaktadır.

Sıfır Değer Ağırlıklı Poisson Regresyon Modeli (ZIP)

ZIP modellerinde tahminleme yaparken STATA programında zip komutu

kullanılmaktadır. ‘Inflate’ komutu gözlemlenen saymaların sıfır olup olmadığını

belirlemektedir. ‘vuong’ komutu ZIP ve PRM modellerini karşılaştıran Vuong istatistiğini

hesaplamaktadır.

. zip cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel

kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong

Fitting constant-only model:

Iteration 0: log likelihood = -17439.751

Iteration 1: log likelihood = -14266.653

Iteration 2: log likelihood = -13936.927

Iteration 3: log likelihood = -13854.591

Iteration 4: log likelihood = -13848.61

Iteration 5: log likelihood = -13848.547

Iteration 6: log likelihood = -13848.547

Page 13: Sayma Modelleri Count Model

13

Fitting full model:

Iteration 0: log likelihood = -13848.547

Iteration 1: log likelihood = -13670.277

Iteration 2: log likelihood = -13667.555

Iteration 3: log likelihood = -13667.551

Iteration 4: log likelihood = -13667.551

Zero-inflated Poisson regression Number of obs = 7905

Nonzero obs = 6852

Zero obs = 1053

Inflation model = logit LR chi2(7) = 361.99

Log likelihood = -13667.55 Prob > chi2 = 0.0000

cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]

cocuksayisi |

kadinyas | .0024465 .0018807 1.30 0.193 -.0012397 .0061326

erkekyas | .0096927 .0018152 5.34 0.000 .006135 .0132504

erkek_ozel | .2846757 .0246053 11.57 0.000 .2364502 .3329011

erkek_devlet_kit | .2741242 .0290103 9.45 0.000 .2172651 .3309833

kadin_ozel | .0216681 .0228175 0.95 0.342 -.0230535 .0663896

kadin_devlet_kit | -.4625541 .0590356 -7.84 0.000 -.5782617 -.3468466

kent | -.0338247 .0238986 -1.42 0.157 -.0806651 .0130157

_cons | .1386855 .0547979 2.53 0.011 .0312836 .2460874

inflate |

kadinyas | .1124803 .013006 8.65 0.000 .086989 .1379716

erkekyas | .0749122 .0124531 6.02 0.000 .0505047 .0993198

kent | -.5958122 .1481865 -4.02 0.000 -.8862523 -.3053721

_cons | -11.93036 .4788086 -24.92 0.000 -12.86881 -10.99191

Vuong test of zip vs. standard Poisson: z = 13.53 Pr>z = 0.0000

ZIP modeli için, sınırlandırılmış modelin geçerliliği için önceki test adımları

tekrarlanırsa, aşağıdaki sonuçlara ulaşılır.

Page 14: Sayma Modelleri Count Model

14

1. Adım:

H0 : Sınırlamalar geçerlidir

H1 : Sınırlamalar geçersizdir.

2. Adım: Testistatistiği=2*(LZIPFULL –LZIPONLYCONSTANT)

Test istatistiği = 2*(-13667.551-( -13848.547))= 361.994

3. Adım : Testistatistiği p değeri

. disp chi2tail(7, 361.994)

3.335e-74

p=3.335e-74≈0

4. Adım: 3.335e-74<0.05 olduğundan sıfır hipotezi reddedilmektedir.

Yukarıdaki sonuçlarla beraber LR chi2(7)=361.994 ve Prob > chi2=0.0000”dır. Yani

sırnırlandırılmamış ZIPFULL modeli tercih edilmelidir. Bir sonraki aşama sınırlandırılmamış

ZIP modeli ile sınırlandırılmamış PRM modelini karşılaştırmaktır. ZIP modelinde ‘inflate’

kısmı PRM’ye denk geldiğinden modeli tekrar kurmaya gerek yoktur. Yukarıda verilmiş olan

model hem ZIP hem de PRM’nin sınırlandırılmamış durumdaki sonuçlarıdır. Bu nedenle

hangi modelin geçerli olduğunu belirlemek için aşağıdaki hipotezler altında z testistatistiği

kullanılır.

H0 : V(ZIP/PRM)< kritikdeğer (PRM modeli tercih edilmelidir.)

H1 :V(ZIP/PRM)> kritikdeğer (ZIP modeli tercih edilmelidir.)

ZIP ve PRM modellerini karşılaştıran Vuong istatistiği ile, 7 serbestlik derecesi ve %5

anlamılık düzeyinde ki-kare tablo değeri ile karşılaştırılır. z =13.53<14.067 olduğundan sıfır

hipotezi kabüledilir. Yani bu durumda PRM modeli tercih edilmelidir.

Page 15: Sayma Modelleri Count Model

15

Sıfır Değer Ağırlıklı Negatif Binom Regresyon Modeli (ZINB)

ZINB modelini STATA’da tahmin etmek için ‘zinb’ komutu kullanılır.

ZINB(SDANBRM) ile NBRM modellerini karşılaştırmak için Vuong istatistiği

kullanılmaktadır.

. zinb cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel

kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong

Fitting constant-only model:

Iteration 0: log likelihood = -19587.346

Iteration 1: log likelihood = -14543.951

Iteration 2: log likelihood = -13971.594

Iteration 3: log likelihood = -13848.536

Iteration 4: log likelihood = -13836.06

Iteration 5: log likelihood = -13835.704

Iteration 6: log likelihood = -13835.703

Fitting full model:

Iteration 0: log likelihood = -13835.703

Iteration 1: log likelihood = -13670.929

Iteration 2: log likelihood = -13665.927

Iteration 3: log likelihood = -13665.915

Iteration 4: log likelihood = -13665.915

Page 16: Sayma Modelleri Count Model

16

Zero-inflated negative binomial regression Number of obs = 7905

Nonzero obs = 6852

Zero obs = 1053

Inflation model = logit LR chi2(7) = 339.58

Log likelihood = -13665.91 Prob > chi2 = 0.0000

cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]

cocuksayisi |

kadinyas | .0024276 .0019066 1.27 0.203 -.0013092 .0061645

erkekyas | .0096377 .0018401 5.24 0.000 .0060311 .0132443

erkek_ozel | .2849298 .0248941 11.45 0.000 .2361383 .3337212

erkek_devlet_kit | .2747582 .0293596 9.36 0.000 .2172144 .3323019

kadin_ozel | .0219024 .0231373 0.95 0.344 -.0234459 .0672507

kadin_devlet_kit | -.4624387 .0595268 -7.77 0.000 -.579109 -.3457684

kent | -.0332589 .0242428 -1.37 0.170 -.080774 .0142562

_cons | .1400732 .0555595 2.52 0.012 .0311786 .2489678

inflate |

kadinyas | .1131801 .0131371 8.62 0.000 .0874319 .1389282

erkekyas | .0753217 .0125822 5.99 0.000 .0506611 .0999824

kent | -.6018759 .1497853 -4.02 0.000 -.8954498 -.308302

_cons | -12.01194 .4872847 -24.65 0.000 -12.967 -11.05688

/lnalpha | -4.479384 .568162 -7.88 0.000 -5.592961 -3.365807

alpha | .0113404 .0064432 .003724 .0345341

Vuong test of zinb vs. standard negative binomial: z = 13.74 Pr>z = 0.0000

Öncelikle ZINB ve ZIP modelleri karşılaştırılarak aşırı yayılımın varlığı

incelenecektir. Bu nedenle test süreci aşağıdaki adımlardan oluşmaktadır.

1. Adım:

H0 : α=0 (ZIP modeli tercih edilmelidir.)

H1 : α≠0 (ZINB modeli tercih edilmelidir)

2. Adım: Testistatistiği=2*(LZINB –LZIP)

Test istatistiği = 2*(- 13665.91 -( -13667.551))= 3.282

Page 17: Sayma Modelleri Count Model

17

3. Adım : Testistatistiği p değeri

. disp chi2tail(7, 3.282)=0.85774764

p=0.86

4. Adım: 0.86>0.05 olduğundan sıfır hipotezi reddedilememektedir.

Test istatistiği sonuçlarına göre ZIP modeli tercih edilmelidir.

ZINB ve NBRM modellerini karşılaştıran Vuong istatistiğine bakıldığında;

H0 : V(ZINB/NBRM)<kritikdeğer (NBRM modeli tercih edilir.)

H1 : V(ZINB/NBRM)>kritik değer (ZINB modeli tercih edilir.)

Vuong istatistiğine göre hesaplanan z = 13.74<χ7,0.052 =14.067 olduğundan H0

hipotezi reddedilemez.

Son olarak, kurulan modellerden hangisinin verilere daha iyi uyum sağladığını

belirlemek amacı ile aşağıda test istatistikleri ve grafik verilmiştir.

. countfit cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit

kadin_ozel kadin_devlet_kit kent

Variable | PRM NBRM ZIP ZINB

cocuksayisi |

kadinyas | 0.994 0.994 1.002 1.002

| -3.14 -2.93 1.27 1.24

erkekyas | 1.005 1.005 1.010 1.010

| 2.97 2.64 5.35 5.25

erkekisstatuy== ..0000 | 1.334 1.329 1.327 1.327

| 12.00 11.06 11.30 11.18

erkekisstatuy== ..0000 | 1.372 1.367 1.305 1.306

| 11.05 10.14 9.03 8.94

kadinisstatuy== ..0000 | 1.060 1.061 1.019 1.019

| 2.59 2.43 0.81 0.81

kadinisstatuy== ..0000 | 0.628 0.628 0.628 0.628

| -7.89 -7.46 -7.91 -7.83

kirkent== 1.0000 | 1.038 1.037 0.964 0.965

| 1.59 1.44 -1.52 -1.47

Constant | 1.652 1.676 1.157 1.159

| 9.45 8.95 2.65 2.63

Page 18: Sayma Modelleri Count Model

18

lnalpha |

Constant | 0.081 0.011

| -24.60 -7.95

inflate |

kadinyas | 1.117 1.117

| 8.51 8.48

erkekyas | 1.074 1.075

| 5.67 5.65

erkekisstatuy== ..0000 | 1.038 1.042

| 0.21 0.23

erkekisstatuy== ..0000 | 0.319 0.298

| -1.49 -1.47

kadinisstatuy== ..0000 | 0.746 0.747

| -1.37 -1.34

kadinisstatuy== ..0000 | 0.000 0.000

| -0.02 -0.02

kirkent== 1.0000 | 0.488 0.486

| -3.95 -3.93

Constant | 0.000 0.000

| -19.62 -19.45

Statistics |

alpha | 0.081

N | 7905 7905 7905 7905

ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04

bic | 28466.321 28346.546 27470.772 27476.401

aic | 28410.519 28283.768 27359.168 27357.821

legend: b/t

Page 19: Sayma Modelleri Count Model

19

Comparison of Mean Observed and Predicted Count

Maximum At Mean

Model Difference Value |Diff|

PRM 0.055 2 0.017

NBRM 0.073 2 0.016

ZIP 0.079 2 0.020

ZINB 0.081 2 0.020

PRM: Predicted and actual probabilities

Count Actual Predicted |Diff| Pearson

0 0.133 0.120 0.013 11.670

1 0.220 0.248 0.029 25.938

2 0.318 0.264 0.055 89.785

3 0.172 0.190 0.019 14.499

4 0.079 0.105 0.026 52.548

5 0.033 0.047 0.014 34.382

6 0.024 0.018 0.006 15.342

7 0.011 0.006 0.005 37.860

8 0.007 0.002 0.005 116.178

9 0.002 0.000 0.001 22.355

Sum 0.997 1.000 0.173 420.556

Page 20: Sayma Modelleri Count Model

20

NBRM: Predicted and actual probabilities

Count Actual Predicted |Diff| Pearson

0 0.133 0.141 0.008 3.328

1 0.220 0.251 0.031 29.710

2 0.318 0.245 0.073 172.688

3 0.172 0.175 0.003 0.384

4 0.079 0.101 0.023 40.021

5 0.033 0.051 0.018 49.954

6 0.024 0.022 0.001 0.377

7 0.011 0.009 0.002 2.972

8 0.007 0.003 0.003 22.290

9 0.002 0.001 0.000 0.548

Sum 0.997 0.999 0.161 322.272

ZIP: Predicted and actual probabilities

Count Actual Predicted |Diff| Pearson

0 0.133 0.168 0.034 55.778

1 0.220 0.211 0.009 2.788

2 0.318 0.240 0.079 203.897

3 0.172 0.185 0.014 7.962

4 0.079 0.110 0.031 70.290

5 0.033 0.053 0.020 62.071

6 0.024 0.022 0.002 1.110

7 0.011 0.008 0.003 10.252

8 0.007 0.003 0.004 52.181

9 0.002 0.001 0.001 6.703

Sum 0.997 1.000 0.197 473.033

Page 21: Sayma Modelleri Count Model

21

ZINB: Predicted and actual probabilities

Count Actual Predicted |Diff| Pearson

0 0.133 0.170 0.037 62.198

1 0.220 0.212 0.007 2.024

2 0.318 0.238 0.081 216.958

3 0.172 0.183 0.011 5.389

4 0.079 0.109 0.030 66.848

5 0.033 0.053 0.021 63.908

6 0.024 0.022 0.001 0.382

7 0.011 0.008 0.003 6.640

8 0.007 0.003 0.004 40.307

9 0.002 0.001 0.001 3.987

Sum 0.997 1.000 0.195 468.640

Tests and Fit Statistics

PRM BIC=-42483.036 AIC= 3.594 Prefer Over Evidence

vs NBRM BIC=-42602.812 dif= 119.775 NBRM PRM Very strong

AIC= 3.578 dif= 0.016 NBRM PRM

LRX2= 128.751 prob= 0.000 NBRM PRM p=0.000

vs ZIP BIC=-43478.585 dif= 995.549 ZIP PRM Very strong

AIC= 3.461 dif= 0.133 ZIP PRM

Vuong= 13.621 prob= 0.000 ZIP PRM p=0.000

vs ZINB BIC=-43472.957 dif= 989.920 ZINB PRM Very strong

AIC= 3.461 dif= 0.133 ZINB PRM

NBRM BIC=-42602.812 AIC= 3.578 Prefer Over Evidence

vs ZIP BIC=-43478.585 dif= 875.773 ZIP NBRM Very strong

AIC= 3.461 dif= 0.117 ZIP NBRM

vs ZINB BIC=-43472.957 dif= 870.145 ZINB NBRM Very strong

AIC= 3.461 dif= 0.117 ZINB NBRM

Vuong= 13.835 prob= 0.000 ZINB NBRM p=0.000

Page 22: Sayma Modelleri Count Model

22

ZIP BIC=-43478.585 AIC=3.461 Prefer Over Evidence

vs ZINB BIC=-43472.957 dif= -5.628 ZIP ZINB Positive

AIC= 3.461 dif= 0.000 ZINB ZIP

LRX2= 3.347 prob= 0.034 ZINB ZIP p=0.000

-------------------------------+--PRM------------NBRM--------ZİP---------ZİNB

Statistics |

alpha | 0.081

N | 7905 7905 7905 7905

ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04

bic | 28466.321 28346.546 27470.772 27476.401

aic | 28410.519 28283.768 27359.168 27357.821

POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ

Yukarıda verilen test istatistiklerini incelediğimizde uyum iyiliğini ölüçütleri olan AIC

ve BIC değerleri diğer modellerle kıyasla ZIP modelinde daha küçük değer almıştır. Bundan

dolayı ZIP modeli verilerimize en iyi uyum sağlayan model olarak belirlenmiştir.

-.1-.0

5

0

.05.1

Obse

rved-P

redict

ed

0 1 2 3 4 5 6 7 8 9Count

PRM NBRM

ZIP ZINB

POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ