Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Bogor Agricultural University (IPB)Seminar Online
Dr. Kusman Sadik, MSi
MASALAH OVERDISPERSI DALAM PEMODELAN STATISTIKA
Departemen Statistika IPB20 Mei 2020
1
Inspiring Innovation with Integrity
Pemodelan Statistika
Pemodelan Statistika(Statistical Modelling)
Model Linear
Generalized Linear Model (GLM)
Generalized Linear Mixed Model (GLMM)
Model Non-Linear
2
Inspiring Innovation with Integrity
Generalized Linear Model (GLM)
3
Tiga Komponen dalam GLM
1. Komponen Acak (Random Component)
Komponen acaknya adalah peubah respon y.
Dalam GLM, peubah respon diasumsikan
mempunyai sebaran yang termasuk ke dalam
keluarga eksponensial, yaitu :
Inspiring Innovation with Integrity
Generalized Linear Model (GLM)
4
2. Komponen Sistematik (Systematic Component)
Komponen sistematik adalah kombinasi linear
dari kovariat x1, x2, …, xp. Sehingga dapat
dituliskan sebagai berikut:
= (ixi)
disebut juga sebagai penduga linear (linear
predictor), i adalah konstanta.
Inspiring Innovation with Integrity
Generalized Linear Model (GLM)
5
3. Fungsi Hubung (Link Function)
Yaitu fungsi yang menghubungkan antara komponen
acak dengan komponen sistematik. Misalkan E(y) = ,
selanjutnya dapat dibuat hubungan sebagai berikut :
g() = = (ixi)
g(.) disebut sebagai fungsi hubung. Fungsi ini harus
bersifat terdiferensialkan monoton (monotonic
differentiable)
Inspiring Innovation with Integrity6
Sebaran Keluarga Eksponensial
(Sebaran Y)
Binomial
Multinomial
Poisson
Negatif Binomial
Normal
Gamma
Eksponensial
Beta
dsb.
Inspiring Innovation with Integrity7
Fungsi Hubung
Sebaran y Fungsi Hubung
Normal Identitas
Binomial Logit
Gamma Invers
Poisson Log
Multinomial Logit Kumulatif
Negatif Binomial Log
Inverse Gaussian Invers Kuadrat
Inspiring Innovation with Integrity
Overdispersi
8
Overdispersion is the presence of greater
variability in a data set than would be expected
based on a given statistical model (Agresti, 2014)
Inspiring Innovation with Integrity
Penyebab Overdispersi
Heterogeneity
Mixture Population
Clustering
9
Inspiring Innovation with Integrity
Akibat Overdispersi
Galat baku (standard error)
terlalu kecil
Banyak peubah bebas (x) disebut signifikan padahal sebenarnya tidak
Penarikan kesimpulan
menjadi tidak valid
Agresti (2014, p.248):
Overdispersion is common in the modeling of counts.
The ML estimators of model parameters are still consistent, but standard errors
are too small.10
Inspiring Innovation with Integrity
Penanganan Overdispersi
Solusi
Adjusting Variance
(Quasi-likelihood, GEE, dll)
Adjusting Distribution
(Negative-Binomial, ZIP, ZINB, dll)
11
Inspiring Innovation with Integrity
Studi Kasus Data Cacahan: Poisson
Regresi Poisson menggambarkan hubungan peubah penjelas (X)
dan peubah respon (Y) yang mengikuti sebaran Poisson.
Sebaran Poisson merupakan sebaran peubah acak diskret yang
menyatakan peluang jumlah peristiwa yang terjadi pada interval waktu
atau ruang tertentu.
Kasus khusus: kejadian yang jarang terjadi di suatu wilayah tertentu
(seperti penyakit langka, kematian ibu melahirkan, dsb).
Hal tersebut dapat menyebabkan terlalu banyaknya amatan bernilai nol.
Terlalu banyaknya amatan bernilai nol (excess zeros) pada peubah
respon dapat menyebabkan terjadinya overdispersi (Liu X et al. 2017).
12
Inspiring Innovation with Integrity
Studi Kasus Data Cacahan: Poisson
Kematian ibu hamil
Kejadian yang jarang terjadi Nilai nol berlebih
Regresi Zero-inflatedZero-inflated Poisson
Zero-inflated Negative Binomial
Solusi: Adjusting Distribution
Overdispersi
Pelanggaran asumsiregresi Poisson
Amalia, Sadik, Notodiputro (2020)
13
Inspiring Innovation with Integrity
Sebaran Poisson
Sebaran Zero-inflated Poisson (ZIP)
14
Inspiring Innovation with Integrity
Sebaran Zero-inflated Negative Binomial (ZINB)
15
Inspiring Innovation with Integrity
Kajian Data SimulasiAmalia, Sadik, Notodiputro (2020)
Data simulasi digunakan untuk mengevaluasi kebaikan
model regresi Poisson, regresi ZIP, dan regresi ZINB.
Data simulasinya berupa data dengan kondisi excess
zeros pada peubah respon dalam kondisi overdispersi
dan tidak overdispersi.
Ukuran contoh yang digunakan yaitu n = 30, 100, 200,
dan 500.
Simulasi dilakukan dengan 500 kali ulangan untuk
setiap kombinasi n, µ, dan ω.16
Inspiring Innovation with Integrity
Hasil Kajian Data Simulasi
Amalia, Sadik, Notodiputro (2020)
Kebaikan ModelModel
Poisson ZIP ZINB
MSE 0.99 0.95 0.95
RMSE 0.99 0.97 0.97
AIC 555.11 557.52 558.52
ARB 𝛽0 1.670 1.627 1.638
ARB 𝛽1 0.300 0.297 0.293
Abs Bias 0.78 0.76 0.76Perbedaan nilai MSE, RMSE, AIC, ARB, dan Abs Bias regresi Poisson,
regresi ZIP dan regresi ZINB tidak signifikan
Kebaikan Model untuk n = 200 pada Data Tanpa Overdispersi
17
Inspiring Innovation with Integrity
Amalia, Sadik, Notodiputro (2020)
Kebaikan Model (MSE dan RMSE) untuk n = 200
Pada Data Excess-Zeros (Overdispersi)
18
Inspiring Innovation with Integrity
Amalia, Sadik, Notodiputro (2020)
Kebaikan Model (AIC) untuk n = 200
Pada Data Excess-Zeros (Overdispersi)
19
Inspiring Innovation with Integrity
Kajian Data AktualAmalia, Sadik, Notodiputro (2020)
Data aktual yang digunakan yaitu kematian ibu hamil di Provinsi
Jawa Timur.
Data didapatkan dari Publikasi Profil Kesehatan Provinsi Jawa
Timur Tahun 2018 oleh Dinas Kesehatan Provinsi Jawa Timur.
Peubah Definisi
Y
X1
X2
X3
X4
Jumlah kematian ibu hamil tahun 2018
Persentase ibu hamil mendapat tablet FE1
Persentase ibu hamil mendapat tablet FE3
Persentase kunjungan ibu hamil K1
Persentase kunjungan ibu hamil K4
20
Inspiring Innovation with Integrity
Kajian Data AktualAmalia, Sadik, Notodiputro (2020)
21
Inspiring Innovation with Integrity
Kajian Data Aktual
Amalia, Sadik, Notodiputro (2020)
Kebaikan Model (AIC, MSE, RMSE) untuk Data Aktual
yang Mengandung Excess-Zeros (Overdispersi)
22
Inspiring Innovation with Integrity
Kajian Data Aktual
Hasil Pemodelan ZINB:
23
Inspiring Innovation with Integrity
Kajian Data Aktual
Catatan: Daerah bewarna merah merupakan daerah dengan nilai
kematian yang tinggi.24
Inspiring Innovation with Integrity
Pustaka
1. Amalia RN, Sadik K, dan Notodiputro KA. (2020). A Study of Statistical Modelling
for Count Data with Excess Zeros. Makalah Seminar Akademik, Dept. Statistika
IPB.
2. Agresti A. (2014). Foundation of Linear and Generalized Linear Models. New
Jersey (US): John Wiley and Sons, Inc.
3. Rajitha CS, Sakthivel KM. (2019). Model selection for count data with
excess number of zero counts. American Journal of Applied Mathematics
and Statistics. 7(1):43-51.
4. Sreelatha CH, Muniswamy B. 2018. A Wald Test for Overdispersion in
Zero Inflated Poisson Regression Model. International Journal of Mathematical.
9(6): 201-212.
25
Bogor Agricultural University (IPB)
26