Upload
dokuz-eyluel-university
View
133
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile incelenmesi hedeflenmiştir. Çalışmada Sayma modellerine ait Poisson Regresyon(PR), Negatif Binom Regresyon(NBREG), Sıfır Değer Ağırlıklı Poisson Regresyon(ZIP) ve Sıfır Değer Ağırlıklı Negatif Binom Regresyon modelleri tahmin edilmiş ve verilere en iyi uyum sağlayan model seçilmiştir.
Citation preview
1
T.C.
DOKUZ EYLÜL ÜNİVERSİTESİ
SOSYAL BİLİMLER ENSTİTÜSÜ
EKONOMETRİ ANABİLİM DALI
EKONOMETRİ DOKTORA PROGRAMI
Sayma Regresyon Modeli
Hazırlayan: Nicat GASIM
Öğretim Üyesi
Prof. Dr. Şenay ÜÇDOĞRUK
İzmir-2014
2
Bu çalışmada çocuk sayısını etkileyen faktörlerin sayma modelleri aracılığı ile
incelenmesi hedeflenmiştir. Model kurmaya başlamadan önce, çocuk sayısını etkilediği
düşünülen faktörler ve onlara ait tanımlayıcı istatistikler Tablo 1’de verilmiştir.
Tablo 1: Değişkenlerin tanımlayıcı istatistikleri
. summarize cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit
kadin_ozel kadin_devlet_kit kent
Variable | Obs Mean Std. Dev. Min Max
cocuksayisi | 9035 2.067405 1.664989 0 16
kadinyas | 9035 40.21638 14.68212 0 95
erkekyas | 9035 40.44416 18.15721 0 98
erkek_ozel | 8167 .5982613 .4902797 0 1
erkek_devl~t | 8167 .1697074 .3753985 0 1
kadin_ozel | 8773 .1590106 .3657068 0 1
kadin_devl~t | 8773 .0280406 .1650982 0 1
kent | 9035 .8469286 .3600762 0 1
Sayma modellerinde öncelikli olarak aşırı veya eksik yayılımın olup olmadığına karar
vermek gerekir. Bizim örneğimizde bağımlı değişkene ait ortalama varyansdan küçük
olduğu için (2.06<1.662=2.75) aşırı yayılımın olduğunu söyleyebiliriz. Ancak aşırı yayılımı
test etmeden önce Poisson Regresyon Modeli (PRM) tahmin edilmelidir.
3
PRM-1
. poisson cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel
kadin_devlet_kit kent
Iteration 0: log likelihood = -14197.26
Iteration 1: log likelihood = -14197.259
Poisson regression Number of obs = 7905
LR chi2(7) = 317.14
Prob > chi2 = 0.0000
Log likelihood = -14197.259 Pseudo R2 = 0.0110
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]
kadinyas | -.0057392 .001826 -3.14 0.002 -.009318 -.0021604
erkekyas | .0052688 .0017769 2.97 0.003 .0017862 .0087514
erkek_ozel | .2885364 .0240408 12.00 0.000 .2414173 .3356555
erkek_devlet_kit | .3160742 .0286015 11.05 0.000 .2600163 .372132
kadin_ozel | .0581524 .0224478 2.59 0.010 .0141556 .1021492
kadin_devlet_kit | -.4645722 .0588564 -7.89 0.000 -.5799286 -.3492158
kent | .0369273 .0232888 1.59 0.113 -.008718 .0825725
_cons | .502281 .0531456 9.45 0.000 .3981176 .6064444
Poisson regresyon modeli tahmin sonuçları incelendiğinde, %5 anlamlılık düzeyinde
kent değişkeninin katsayısı dışındaki katsayıların anlamlı olduğu görülmektedir. Modelin
doğru spesifikasyonunu elde etmek için tahminlenmiş olduğumuz model sınırlandırılmış ve
sadece sabit terim kullanılarak yeniden tahminlenmişdir.
4
PRM-2
. poisson cocuksayisi, nolog
Poisson regression Number of obs = 9035
LR chi2(0) = 0.00
Prob > chi2 = .
Log likelihood = -16489.495 Pseudo R2 = 0.0000
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]
_cons | .726294 .0073168 99.26 0.000 .7119532 .7406347
Dikkat edilirse PRM-2’de iterasyonları görmemek amacı ile ‘nolog’ komutu
kullanılmıştır. PRM-1 ve PRM-2 modellerinden hangisinin geçerli olduğunu test etmede her
iki modelin Log Likelihood değerleri kullanılmaktadır. Elde edilen test istatistiği 𝜒2 istatistiği
ile kıyaslanarak hipotez kabül yada reddedilmektedir.
1. Adım:
H0 :Sınırlamalar geçerlidir (β1 =β2 =0 )
H1 : Sınırlamalar geçersizdir. (PRM-1 modeli tercih edilmelidir)
2. Adım: Testistatistiği=2(LPRM-1 –LPRM-2)
Test istatistiği = 2*(-14197.259-(-16489.495))= 4584.472
3. Adım :
. disp chi2tail(7, 4584.472)
0
4. Adım: 0<p=0.05 olduğundan sıfır hipotezi reddedilmektedir.
Yani model sınırlaması geçerli değildir. PRM-1 modeli geçerlidir.PRM-1
modelinin geçerli olduğunun tespit etdikten sonra tahminlenen ve gözlenen
dağılımı karşılaştırmak için ‘prcounts’ komutu kullanılmıştır. Bu komut her
gözlem için sıfırdan maksimuma kadar her saymanın tahmin oranını ve
olasılıklarını hesaplamaktadır.
5
. prcounts psn, plot max(9)
. list psnval psnobeq psnpreq in 1/10
+------------------------------+
| psnval psnobeq psnpreq |
|------------------------------|
1. | 0 .1685667 .1265137 |
2. | 1 .2178196 .261555 |
3. | 2 .2989485 .27037 |
4. | 3 .1648035 .1863214 |
5. | 4 .0753735 .0963004 |
|------------------------------|
6. | 5 .031876 .0398184 |
7. | 6 .0220255 .0137201 |
8. | 7 .0100719 .0040521 |
9. | 8 .0064195 .0010472 |
10. | 9 .0014388 .0002405 |
+------------------------------+
Yukarıdaki tablo, ortalama 2.067 olduğu durumda tahminlenen ve gözlenen değerleri
göstermektedir. Bu tabloda verilenlere göre Poisson dağılımı olayların %12.6’sının sıfır
olacağını tahmin ederken, gözlenen değerlere göre ise olayların %16.8’i sıfırdır. Gözlenen
değerler ile Poisson dağılımının grafiği aşağıdaki gibidir.
6
Grafikten görüldügü gibi gözlenen dağılım, Poisson dağılımından daha fazla sıfıra
sahiptir.
‘fitstat’ komutu kullnarak Log Likelihood, McFadden’s R2 (or Pseudo R2), Akaike
Information Criterion (AIC) ve Bayesion Information Criterion (BIC) gibi çeşitli iyi uyum
istatistikleri hesaplanmaktadır. Bu komutu kullanarak elde edilen modele ilişkin uyum
ölçüleri aşağıdaki sonuçta yer almaktadır.
. fitstat
Measures of Fit for poisson of cocuksayisi
Log-Lik Intercept Only: -16489.495 Log-Lik Full Model: -16489.495
D(9034): 32978.989 LR(0): 0.000
Prob > LR: .
McFadden's R2: 0.000 McFadden's Adj R2: -0.000
ML (Cox-Snell) R2: 0.000 Cragg-Uhler(Nagelkerke) R2: 0.000
AIC: 3.650 AIC*n: 32980.989
BIC: -49310.463 BIC': 0.000
BIC used by Stata: 32988.098 AIC used by Stata: 32980.989
PRM’nin tahmin sonuçları ‘listcoef’ komutu kullnılarak yourmlanabilmektedir. Bu
komutla standartlaştırılmamış katsayıların faktör ve yüzde değişimleri listelenmekte ve
regresyon sonuçları yorumlanabilmektedir.
0.1
.2.3
Pro
babi
lity
0 1 2 3 4 5 6 7 8 9Count
Observed Pr(y=k) from poisson Predicted Pr(y=k) from poisson
7
. listcoef, help
poisson (N=7905): Factor Change in Expected Count
Observed SD: 1.6484507
cocuksayisi | b z P>|z| e^b e^bStdX SDofX
kadinyas | -0.00574 -3.143 0.002 0.9943 0.9321 12.2513
erkekyas | 0.00527 2.965 0.003 1.0053 1.0696 12.7653
erkek_ozel | 0.28854 12.002 0.000 1.3345 1.1516 0.4892
erkek_devl~t | 0.31607 11.051 0.000 1.3717 1.1265 0.3768
kadin_ozel | 0.05815 2.591 0.010 1.0599 1.0215 0.3659
kadin_devl~t | -0.46457 -7.893 0.000 0.6284 0.9277 0.1616
kent | 0.03693 1.586 0.113 1.0376 1.0134 0.3617
b = raw coefficient
z = z-score for test of b=0
P>|z| = p-value for z-test
e^b = exp(b) = factor change in expected count for unit increase in X
e^bStdX = exp(b*SD of X) = change in expected count for SD increase in X
SDofX = standard deviation of X
Elde edilen bulgulara göre, diğer değişkenler sabitken kadının yaşındaki artış, çocuk
sayısını 0.9943 faktörü kadar artırmaktadır. Diğer bir ifade ile kadının yaşındaki artış, çocuk
sayısını %0.57 azaltmaktadır.
(100*( 0.9943-1))= %-0.57
‘prtab’ komutu listelenmiş kategorik değişkenlerinin bütün kombinasyonları için
tahminlenen değerlerinin oranını vermektedir. Uygulamamızda bu komutu çalışırarak,
aşağıdaki sonuçlara ulaşabiliriz.
8
. prtab kadin_ozel
poisson: Predicted rates for cocuksayisi
kadinisst |
atuy== |
1.0000 | Prediction
0 | 2.1253
1 | 2.2525
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent
x= 40.130803 44.581784 .60354206 .171284 .15926629 .02681847 .84528779
Elde edilen sonuçlara göre, özel sektörde çalışan kadınlarda çocuk sayısı oranı
2.25’tir. Çocuk sayısı sürekli değer alamayacağından, çalışan kadınların 2 çocuk sahibi
oluduğu şeklinde yorum yapmak daha doğru olacaktır.
‘prvalue’ komutu bağımsız değişkenler için tahminlenen değerleri vermektedir. Bu
komutla kadının yaşı dikkate alındığında çocuk sayısı olasılığının sayma sayısının sıfır
değerleri için 0.0687 olduğu elde edilmiştir. Bu komutla elde edilen sonuçlara göre
tahminlenen oran değeri, “prtab”ile tahminlenen oran değeri 2.2525”e eşittir
. prvalue, x(kadin_ozel=1) maxcnt(6)
poisson: Predictions for cocuksayisi
Confidence intervals by delta method
95% Conf. Interval
Rate: 2.2525 [ 2.1631, 2.3419]
Pr(y=0|x): 0.1051 [ 0.0957, 0.1145]
Pr(y=1|x): 0.2368 [ 0.2250, 0.2486]
Pr(y=2|x): 0.2667 [ 0.2640, 0.2694]
Pr(y=3|x): 0.2003 [ 0.1943, 0.2062]
Pr(y=4|x): 0.1128 [ 0.1049, 0.1206]
Pr(y=5|x): 0.0508 [ 0.0453, 0.0563]
Pr(y=6|x): 0.0191 [ 0.0162, 0.0219]
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent
x= 40.130803 44.581784 .60354206 .171284 1 .02681847 .84528779
9
Marjinal etkiler (değişiklikler) ‘prchange’ komutuyla hesaplanabilmektedir. Bu
komutla, kentte yaşayan kadınlar için standart sapmanın bir birim artması, kadınların kentte
yaşamadığı durumda (yani kent=0) çocuk sayısı olayı 0.0278 artmaktadır.
. prchange, x(kent=0)
poisson: Changes in Rate for cocuksayisi
min->max 0->1 -+1/2 -+sd/2 MargEfct
kadinyas -0.7992 -0.0150 -0.0119 -0.1462 -0.0119
erkekyas 0.9380 0.0087 0.0110 0.1399 0.0110
erkek_ozel 0.5843 0.5843 0.6020 0.2937 0.5999
erkek_devl~t 0.7321 0.7321 0.6599 0.2477 0.6572
kadin_ozel 0.1233 0.1233 0.1209 0.0442 0.1209
kadin_devl~t -0.7823 -0.7823 -0.9746 -0.1561 -0.9659
kent 0.0782 0.0782 0.0768 0.0278 0.0768
exp(xb): 2.0791
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent
x= 40.1308 44.5818 .603542 .171284 .159266 .026818 0
sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653
Negatif Binom Regresyon Modeli (NBRM)
STATA’da NBRM kurmak için ‘nbreg’ komutu kullanılır. Bu komut üç log likelihood
istatistiğini raporlamaktadır.
. nbreg cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel
kadin_devlet_kit kent
S1. Fitting Poisson model:
Iteration 0: log likelihood = -14197.26
Iteration 1: log likelihood = -14197.259
S2. Fitting constant-only model:
Iteration 0: log likelihood = -15610.691
Iteration 1: log likelihood = -14267.651
Iteration 2: log likelihood = -14267.104
Iteration 3: log likelihood = -14267.104
10
S3. Fitting full model:
Iteration 0: log likelihood = -14135.529
Iteration 1: log likelihood = -14132.907
Iteration 2: log likelihood = -14132.884
Iteration 3: log likelihood = -14132.884
Negative binomial regression Number of obs = 7905
LR chi2(7) = 268.44
Dispersion = mean Prob > chi2 = 0.0000
Log likelihood = -14132.884 Pseudo R2 = 0.0094
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]
kadinyas | -.0057932 .0019786 -2.93 0.003 -.0096712 -.0019152
erkekyas | .0050688 .0019216 2.64 0.008 .0013026 .0088351
erkek_ozel | .2845887 .0257408 11.06 0.000 .2341376 .3350399
erkek_devlet_kit | .3122562 .0308079 10.14 0.000 .2518738 .3726385
kadin_ozel | .05946 .024519 2.43 0.015 .0114036 .1075163
kadin_devlet_kit | -.4651256 .0623233 -7.46 0.000 -.587277 -.3429742
kent | .036558 .0253132 1.44 0.149 -.013055 .0861711
_cons | .51651 .0577134 8.95 0.000 .4033937 .6296262
/lnalpha | -2.508874 .1019698 -2.708731 -2.309016
alpha | .0813598 .0082962 .0666213 .0993589
Likelihood-ratio test of alpha=0: chibar2(01) = 128.75 Prob>=chibar2 = 0.000
NBRM tahmin sonuçları hesaplandığında S1,S2 ve S3 şeklinde tanımladığımız üç
istatistik sonucu raporlanmaktadır. S1-PRM sonuçlarını, S2-sadece sabitle tahminlenmiş
NBRM sonuçlarını, S3 ise tüm açıklayıcı değişkenlerin yer aldığı NBRM likelihood
değerlerini ifade etmektedir. Öncelikle S2 ve S3 modellerinin uyum iyiliği test edilmiştir.
Uyum iyiliğinin testi için aşağıdaki adımlar sırasıyla takip edilmelidir.
1. Adım:
H0 :Sınırlamalar geçerlidir (S2 modeli tercih edilmelidir. )
H1 : Sınırlamalar geçersizdir. (S3 modeli tercih edilmelidir.)
2. Adım: Testistatistiği=2(LS3 –LS2)
Test istatistiği = 2*(-14132.884-( -14267.104))= 268.44
11
3. Adım : Testistatistiği p değeri
. disp chi2tail(7, 268.44)
3.274e-54≈0
4. Adım: 3.274e-54<p=0.05 olduğundan sıfır hipotezi reddedilmektedir.
Yani, model sınırlanması geçerli değildir. S3 modeli geçerlidir.
NBRM sonuçlarını elde etdiğimize göre artık, aşırı yayılımın test
edilmesine geçebiliriz. PRM ve NBRM modellerinden hangisinin tercih
edileceği ile ilgili test istatistiği aşağıdaki gibidir.
1. Adım:
H0 : α=0 NBRM, PRM’ye yaklaşmaktadır.
H1 : α≠0 PRM yerine NBRM seçilmelidir.
2. Adım: Testistatistiği=2(LNBRM –LPRM)
Test istatistiği = 2*(-14132.884-( -14.197)= 128.75
3. Adım : Test istatistiği p değeri
. disp chi2tail(1, 128.75)
7.692e-30≈0
4. Adım: 7.692e-30<0.05 olduğundan sıfır hipotezi reddedilmektedir.
Yukarıdaki sonuçlara göre NBRM tercih edilir. Test sonuçlarına göre aşırı
yayılım istatistiki olarak önemlidir. Bağımsız değişkenler açısından marjinal
etkiler hesaplandığında aşağıdaki sonuçlar elde edilmektedir.
12
. prchange
nbreg: Changes in Rate for cocuksayisi
min->max 0->1 -+1/2 -+sd/2 MargEfct
kadinyas -0.8319 -0.0156 -0.0124 -0.1523 -0.0124
erkekyas 0.9279 0.0087 0.0109 0.1388 0.0109
erkek_ozel 0.5947 0.5947 0.6125 0.2989 0.6104
erkek_devl~t 0.7452 0.7452 0.6725 0.2525 0.6698
kadin_ozel 0.1302 0.1302 0.1276 0.0467 0.1275
kadin_devl~t -0.8078 -0.8078 -1.0067 -0.1612 -0.9977
kent 0.0774 0.0774 0.0784 0.0284 0.0784
exp(xb): 2.1450
kadinyas erkekyas erkek_ozel erkek_devl~t kadin_ozel kadin_devl~t kent
x= 40.1308 44.5818 .603542 .171284 .159266 .026818 .845288
sd_x= 12.2513 12.7653 .489193 .376781 .365947 .161563 .361653
Kadının yaşında bir standart sapmanın bir birim artması çocuk sayısı 0.1523
azaltırken, erkeğin yaşında bir birimlik standart sapma çocuk sayısı olayını 0.1388
artırmaktadır.
Sıfır Değer Ağırlıklı Poisson Regresyon Modeli (ZIP)
ZIP modellerinde tahminleme yaparken STATA programında zip komutu
kullanılmaktadır. ‘Inflate’ komutu gözlemlenen saymaların sıfır olup olmadığını
belirlemektedir. ‘vuong’ komutu ZIP ve PRM modellerini karşılaştıran Vuong istatistiğini
hesaplamaktadır.
. zip cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel
kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong
Fitting constant-only model:
Iteration 0: log likelihood = -17439.751
Iteration 1: log likelihood = -14266.653
Iteration 2: log likelihood = -13936.927
Iteration 3: log likelihood = -13854.591
Iteration 4: log likelihood = -13848.61
Iteration 5: log likelihood = -13848.547
Iteration 6: log likelihood = -13848.547
13
Fitting full model:
Iteration 0: log likelihood = -13848.547
Iteration 1: log likelihood = -13670.277
Iteration 2: log likelihood = -13667.555
Iteration 3: log likelihood = -13667.551
Iteration 4: log likelihood = -13667.551
Zero-inflated Poisson regression Number of obs = 7905
Nonzero obs = 6852
Zero obs = 1053
Inflation model = logit LR chi2(7) = 361.99
Log likelihood = -13667.55 Prob > chi2 = 0.0000
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]
cocuksayisi |
kadinyas | .0024465 .0018807 1.30 0.193 -.0012397 .0061326
erkekyas | .0096927 .0018152 5.34 0.000 .006135 .0132504
erkek_ozel | .2846757 .0246053 11.57 0.000 .2364502 .3329011
erkek_devlet_kit | .2741242 .0290103 9.45 0.000 .2172651 .3309833
kadin_ozel | .0216681 .0228175 0.95 0.342 -.0230535 .0663896
kadin_devlet_kit | -.4625541 .0590356 -7.84 0.000 -.5782617 -.3468466
kent | -.0338247 .0238986 -1.42 0.157 -.0806651 .0130157
_cons | .1386855 .0547979 2.53 0.011 .0312836 .2460874
inflate |
kadinyas | .1124803 .013006 8.65 0.000 .086989 .1379716
erkekyas | .0749122 .0124531 6.02 0.000 .0505047 .0993198
kent | -.5958122 .1481865 -4.02 0.000 -.8862523 -.3053721
_cons | -11.93036 .4788086 -24.92 0.000 -12.86881 -10.99191
Vuong test of zip vs. standard Poisson: z = 13.53 Pr>z = 0.0000
ZIP modeli için, sınırlandırılmış modelin geçerliliği için önceki test adımları
tekrarlanırsa, aşağıdaki sonuçlara ulaşılır.
14
1. Adım:
H0 : Sınırlamalar geçerlidir
H1 : Sınırlamalar geçersizdir.
2. Adım: Testistatistiği=2*(LZIPFULL –LZIPONLYCONSTANT)
Test istatistiği = 2*(-13667.551-( -13848.547))= 361.994
3. Adım : Testistatistiği p değeri
. disp chi2tail(7, 361.994)
3.335e-74
p=3.335e-74≈0
4. Adım: 3.335e-74<0.05 olduğundan sıfır hipotezi reddedilmektedir.
Yukarıdaki sonuçlarla beraber LR chi2(7)=361.994 ve Prob > chi2=0.0000”dır. Yani
sırnırlandırılmamış ZIPFULL modeli tercih edilmelidir. Bir sonraki aşama sınırlandırılmamış
ZIP modeli ile sınırlandırılmamış PRM modelini karşılaştırmaktır. ZIP modelinde ‘inflate’
kısmı PRM’ye denk geldiğinden modeli tekrar kurmaya gerek yoktur. Yukarıda verilmiş olan
model hem ZIP hem de PRM’nin sınırlandırılmamış durumdaki sonuçlarıdır. Bu nedenle
hangi modelin geçerli olduğunu belirlemek için aşağıdaki hipotezler altında z testistatistiği
kullanılır.
H0 : V(ZIP/PRM)< kritikdeğer (PRM modeli tercih edilmelidir.)
H1 :V(ZIP/PRM)> kritikdeğer (ZIP modeli tercih edilmelidir.)
ZIP ve PRM modellerini karşılaştıran Vuong istatistiği ile, 7 serbestlik derecesi ve %5
anlamılık düzeyinde ki-kare tablo değeri ile karşılaştırılır. z =13.53<14.067 olduğundan sıfır
hipotezi kabüledilir. Yani bu durumda PRM modeli tercih edilmelidir.
15
Sıfır Değer Ağırlıklı Negatif Binom Regresyon Modeli (ZINB)
ZINB modelini STATA’da tahmin etmek için ‘zinb’ komutu kullanılır.
ZINB(SDANBRM) ile NBRM modellerini karşılaştırmak için Vuong istatistiği
kullanılmaktadır.
. zinb cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit kadin_ozel
kadin_devlet_kit kent, inflate( kadinyas erkekyas kent) vuong
Fitting constant-only model:
Iteration 0: log likelihood = -19587.346
Iteration 1: log likelihood = -14543.951
Iteration 2: log likelihood = -13971.594
Iteration 3: log likelihood = -13848.536
Iteration 4: log likelihood = -13836.06
Iteration 5: log likelihood = -13835.704
Iteration 6: log likelihood = -13835.703
Fitting full model:
Iteration 0: log likelihood = -13835.703
Iteration 1: log likelihood = -13670.929
Iteration 2: log likelihood = -13665.927
Iteration 3: log likelihood = -13665.915
Iteration 4: log likelihood = -13665.915
16
Zero-inflated negative binomial regression Number of obs = 7905
Nonzero obs = 6852
Zero obs = 1053
Inflation model = logit LR chi2(7) = 339.58
Log likelihood = -13665.91 Prob > chi2 = 0.0000
cocuksayisi | Coef. Std. Err. z P>|z| [95% Conf. Interval]
cocuksayisi |
kadinyas | .0024276 .0019066 1.27 0.203 -.0013092 .0061645
erkekyas | .0096377 .0018401 5.24 0.000 .0060311 .0132443
erkek_ozel | .2849298 .0248941 11.45 0.000 .2361383 .3337212
erkek_devlet_kit | .2747582 .0293596 9.36 0.000 .2172144 .3323019
kadin_ozel | .0219024 .0231373 0.95 0.344 -.0234459 .0672507
kadin_devlet_kit | -.4624387 .0595268 -7.77 0.000 -.579109 -.3457684
kent | -.0332589 .0242428 -1.37 0.170 -.080774 .0142562
_cons | .1400732 .0555595 2.52 0.012 .0311786 .2489678
inflate |
kadinyas | .1131801 .0131371 8.62 0.000 .0874319 .1389282
erkekyas | .0753217 .0125822 5.99 0.000 .0506611 .0999824
kent | -.6018759 .1497853 -4.02 0.000 -.8954498 -.308302
_cons | -12.01194 .4872847 -24.65 0.000 -12.967 -11.05688
/lnalpha | -4.479384 .568162 -7.88 0.000 -5.592961 -3.365807
alpha | .0113404 .0064432 .003724 .0345341
Vuong test of zinb vs. standard negative binomial: z = 13.74 Pr>z = 0.0000
Öncelikle ZINB ve ZIP modelleri karşılaştırılarak aşırı yayılımın varlığı
incelenecektir. Bu nedenle test süreci aşağıdaki adımlardan oluşmaktadır.
1. Adım:
H0 : α=0 (ZIP modeli tercih edilmelidir.)
H1 : α≠0 (ZINB modeli tercih edilmelidir)
2. Adım: Testistatistiği=2*(LZINB –LZIP)
Test istatistiği = 2*(- 13665.91 -( -13667.551))= 3.282
17
3. Adım : Testistatistiği p değeri
. disp chi2tail(7, 3.282)=0.85774764
p=0.86
4. Adım: 0.86>0.05 olduğundan sıfır hipotezi reddedilememektedir.
Test istatistiği sonuçlarına göre ZIP modeli tercih edilmelidir.
ZINB ve NBRM modellerini karşılaştıran Vuong istatistiğine bakıldığında;
H0 : V(ZINB/NBRM)<kritikdeğer (NBRM modeli tercih edilir.)
H1 : V(ZINB/NBRM)>kritik değer (ZINB modeli tercih edilir.)
Vuong istatistiğine göre hesaplanan z = 13.74<χ7,0.052 =14.067 olduğundan H0
hipotezi reddedilemez.
Son olarak, kurulan modellerden hangisinin verilere daha iyi uyum sağladığını
belirlemek amacı ile aşağıda test istatistikleri ve grafik verilmiştir.
. countfit cocuksayisi kadinyas erkekyas erkek_ozel erkek_devlet_kit
kadin_ozel kadin_devlet_kit kent
Variable | PRM NBRM ZIP ZINB
cocuksayisi |
kadinyas | 0.994 0.994 1.002 1.002
| -3.14 -2.93 1.27 1.24
erkekyas | 1.005 1.005 1.010 1.010
| 2.97 2.64 5.35 5.25
erkekisstatuy== ..0000 | 1.334 1.329 1.327 1.327
| 12.00 11.06 11.30 11.18
erkekisstatuy== ..0000 | 1.372 1.367 1.305 1.306
| 11.05 10.14 9.03 8.94
kadinisstatuy== ..0000 | 1.060 1.061 1.019 1.019
| 2.59 2.43 0.81 0.81
kadinisstatuy== ..0000 | 0.628 0.628 0.628 0.628
| -7.89 -7.46 -7.91 -7.83
kirkent== 1.0000 | 1.038 1.037 0.964 0.965
| 1.59 1.44 -1.52 -1.47
Constant | 1.652 1.676 1.157 1.159
| 9.45 8.95 2.65 2.63
18
lnalpha |
Constant | 0.081 0.011
| -24.60 -7.95
inflate |
kadinyas | 1.117 1.117
| 8.51 8.48
erkekyas | 1.074 1.075
| 5.67 5.65
erkekisstatuy== ..0000 | 1.038 1.042
| 0.21 0.23
erkekisstatuy== ..0000 | 0.319 0.298
| -1.49 -1.47
kadinisstatuy== ..0000 | 0.746 0.747
| -1.37 -1.34
kadinisstatuy== ..0000 | 0.000 0.000
| -0.02 -0.02
kirkent== 1.0000 | 0.488 0.486
| -3.95 -3.93
Constant | 0.000 0.000
| -19.62 -19.45
Statistics |
alpha | 0.081
N | 7905 7905 7905 7905
ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04
bic | 28466.321 28346.546 27470.772 27476.401
aic | 28410.519 28283.768 27359.168 27357.821
legend: b/t
19
Comparison of Mean Observed and Predicted Count
Maximum At Mean
Model Difference Value |Diff|
PRM 0.055 2 0.017
NBRM 0.073 2 0.016
ZIP 0.079 2 0.020
ZINB 0.081 2 0.020
PRM: Predicted and actual probabilities
Count Actual Predicted |Diff| Pearson
0 0.133 0.120 0.013 11.670
1 0.220 0.248 0.029 25.938
2 0.318 0.264 0.055 89.785
3 0.172 0.190 0.019 14.499
4 0.079 0.105 0.026 52.548
5 0.033 0.047 0.014 34.382
6 0.024 0.018 0.006 15.342
7 0.011 0.006 0.005 37.860
8 0.007 0.002 0.005 116.178
9 0.002 0.000 0.001 22.355
Sum 0.997 1.000 0.173 420.556
20
NBRM: Predicted and actual probabilities
Count Actual Predicted |Diff| Pearson
0 0.133 0.141 0.008 3.328
1 0.220 0.251 0.031 29.710
2 0.318 0.245 0.073 172.688
3 0.172 0.175 0.003 0.384
4 0.079 0.101 0.023 40.021
5 0.033 0.051 0.018 49.954
6 0.024 0.022 0.001 0.377
7 0.011 0.009 0.002 2.972
8 0.007 0.003 0.003 22.290
9 0.002 0.001 0.000 0.548
Sum 0.997 0.999 0.161 322.272
ZIP: Predicted and actual probabilities
Count Actual Predicted |Diff| Pearson
0 0.133 0.168 0.034 55.778
1 0.220 0.211 0.009 2.788
2 0.318 0.240 0.079 203.897
3 0.172 0.185 0.014 7.962
4 0.079 0.110 0.031 70.290
5 0.033 0.053 0.020 62.071
6 0.024 0.022 0.002 1.110
7 0.011 0.008 0.003 10.252
8 0.007 0.003 0.004 52.181
9 0.002 0.001 0.001 6.703
Sum 0.997 1.000 0.197 473.033
21
ZINB: Predicted and actual probabilities
Count Actual Predicted |Diff| Pearson
0 0.133 0.170 0.037 62.198
1 0.220 0.212 0.007 2.024
2 0.318 0.238 0.081 216.958
3 0.172 0.183 0.011 5.389
4 0.079 0.109 0.030 66.848
5 0.033 0.053 0.021 63.908
6 0.024 0.022 0.001 0.382
7 0.011 0.008 0.003 6.640
8 0.007 0.003 0.004 40.307
9 0.002 0.001 0.001 3.987
Sum 0.997 1.000 0.195 468.640
Tests and Fit Statistics
PRM BIC=-42483.036 AIC= 3.594 Prefer Over Evidence
vs NBRM BIC=-42602.812 dif= 119.775 NBRM PRM Very strong
AIC= 3.578 dif= 0.016 NBRM PRM
LRX2= 128.751 prob= 0.000 NBRM PRM p=0.000
vs ZIP BIC=-43478.585 dif= 995.549 ZIP PRM Very strong
AIC= 3.461 dif= 0.133 ZIP PRM
Vuong= 13.621 prob= 0.000 ZIP PRM p=0.000
vs ZINB BIC=-43472.957 dif= 989.920 ZINB PRM Very strong
AIC= 3.461 dif= 0.133 ZINB PRM
NBRM BIC=-42602.812 AIC= 3.578 Prefer Over Evidence
vs ZIP BIC=-43478.585 dif= 875.773 ZIP NBRM Very strong
AIC= 3.461 dif= 0.117 ZIP NBRM
vs ZINB BIC=-43472.957 dif= 870.145 ZINB NBRM Very strong
AIC= 3.461 dif= 0.117 ZINB NBRM
Vuong= 13.835 prob= 0.000 ZINB NBRM p=0.000
22
ZIP BIC=-43478.585 AIC=3.461 Prefer Over Evidence
vs ZINB BIC=-43472.957 dif= -5.628 ZIP ZINB Positive
AIC= 3.461 dif= 0.000 ZINB ZIP
LRX2= 3.347 prob= 0.034 ZINB ZIP p=0.000
-------------------------------+--PRM------------NBRM--------ZİP---------ZİNB
Statistics |
alpha | 0.081
N | 7905 7905 7905 7905
ll | -1.42e+04 -1.41e+04 -1.37e+04 -1.37e+04
bic | 28466.321 28346.546 27470.772 27476.401
aic | 28410.519 28283.768 27359.168 27357.821
POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ
Yukarıda verilen test istatistiklerini incelediğimizde uyum iyiliğini ölüçütleri olan AIC
ve BIC değerleri diğer modellerle kıyasla ZIP modelinde daha küçük değer almıştır. Bundan
dolayı ZIP modeli verilerimize en iyi uyum sağlayan model olarak belirlenmiştir.
-.1-.0
5
0
.05.1
Obse
rved-P
redict
ed
0 1 2 3 4 5 6 7 8 9Count
PRM NBRM
ZIP ZINB
POISSON, NBRM, ZIP VE ZINB MODELLERİNİN GRAFİKLERİ