Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Dr. Kusman Sadik, M.Si
Program Studi Doktor Departemen Statistika IPB
Semester Genap 2019/2020
Model Linier Terampat - STK731(Generalized Linear Model)
Algoritma Komputasi dan
Program R pada Model Linier Terampat
2
Pada model linear klasik, seperti regresi linear,memerlukan asumsi bahwa peubah respon ymenyebar Normal.
Pada kenyataanya banyak ditemukan bahwapeubah respon y tidak menyebar Normal.Misalnya menyebar Binomial, Poisson,Gamma, Eksponensial, dsb.
Maka dikembangkan Model Linear Terampat(Generalized Linear Model) untuk mengatasimasalah ini.
3
1. Komponen Acak (Random Component)
Komponen acaknya adalah peubah respony. Dalam GLM, peubah respon diasumsikanmempunyai sebaran yang termasuk kedalam keluarga eksponensial, yaitu :
4
2. Komponen Sistematik (Systematic Component)
Komponen sistematik adalah kombinasilinear dari kovariat x1, x2, …, xp. Sehinggadapat dituliskan sebagai berikut:
= (ixi)
disebut juga sebagai penduga linear(linear predictor), i adalah konstanta.
5
3. Fungsi Hubung (Link Function)
Yaitu fungsi yang menghubungkan antarakomponen acak dengan komponensistematik. Misalkan E(y) = , selanjutnyadapat dibuat hubungan sebagai berikut :
g() = = (ixi)
g(.) disebut sebagai fungsi hubung. Fungsi iniharus bersifat terdiferensialkan monoton(monotonic differentiable)
7
Pendugaan parameter melalui metodekemungkinan maksimum (maximum likelihood)dapat dilakukan secara analitik maupun secaranumerik.
Pada GLM terkadang metode analitik tidak dapatdilakukan karena tidak ditemukan bentuk closed-form pada fungsi kemungkinan maksimumnya.
Salah satu metode numerik yang banyakdigunakan pada GLM adalah metode Fisher-Scoring atau Newton-Raphson.
18
Contoh 1:
Tentukan nilai x yang memenuhi persamaan : x3 + 2x – 1 = 0
Iterasi 0 1 2 3 4 5
x 1 0,600000 0.4649351 0.4534672 0.4533977 0.4533977
)('
)(
12)(
)1(
)1()1()(
3
m
mmm
xf
xfxx
xxxf
19
#Solusi untuk : x^3 + 2*x - 1 = 0
x <- 1
for (i in 2:6)
{x[i] <- x[i-1] - ((x[i-1])^3 + 2*x[i-1] - 1)/(3*((x[i-1])^2) + 2)}
Output:
[1] 1.0000000 0.6000000 0.4649351 0.4534672 0.4533977 0.4533977
Jadi solusi persamaan tersebut secara iteratif: x = 0.4533977
21
Bentuk umum fungsi kemungkinan (likelihood function):
Fungsi log-kemungkinan (log-likelihood function):
27
Jadi perbedaan Fisher-Scoring dari Newton-Raphson adalah
dari sisi penggunaan E(U’) sebagai pendekatan bagi U’
29
Pemodelan GLM dapat diimplementasikan dalamProgram R.
Pada program ini, pendugaan parameter GLM dilakukanmelalui teknik Fisher-Scoring.
Disamping bersifat open-source, program R memilikibanyak kelebihan dibandingkan program lainnya (SAS,dll) untuk pemodelan GLM.
Diantaranya adalah ketersedian di R berbagai sebarankeluarga eksponensial yang lebih luas, pendekatanQuasi-likelihood, metode Bayes, dsb.
Karena itu, pada kuliah GLM ini lebih direkomendasikanuntuk menggunakan Program R.
30
Bentuk Umum Metode Fisher Scoring
L(,y) adalah fungsi kemungkinan (likelihood), I disebutmatrik informasi Fisher. Maka penduga secara iteratifadalah sebagai berikut :
srr
r
LE
LU
),( ;
),( 2yβ
Iyβ
)1()1()1()()1( ˆˆ kkkkkUβIβI
)1()1()1()( )(ˆˆ kkkkUIββ
Model GLM : g((E(y)) = g() = = X
41
#Contoh Simulasi Data GLM (1)
set.seed(1001)
n <- 50
x <- runif(n,1,6)
b0 <- 1.5
b1 <- 3.0
y <- c(1:n)
for (i in 1:n) {y[i] <- rnorm(1,b0+b1*x[i],1)}
cbind(x,y)
plot(x,y)
fit.dataku <- glm(y ~ x, family=gaussian(link="identity"))
summary(fit.dataku)
y_duga <- fitted(fit.dataku)
sisaan <- resid(fit.dataku)
cbind(x,y,y_duga,sisaan)
plot(x,y)
par(col="red")
abline(fit.dataku)
par(col="black")
plot(y_duga,sisaan)
qqnorm(sisaan); qqline(sisaan)
42
> cbind(x,y)
x y
[1,] 5.928444 18.690387
[2,] 3.063142 8.788586
[3,] 3.147696 11.136597
[4,] 3.095861 10.205783
[5,] 3.132533 9.352388
[6,] 5.438988 18.295776
[7,] 1.030480 4.820782
[8,] 1.406079 5.580310
[9,] 2.443287 11.240599
[10,] 4.826711 14.057338
.
.
.
[48,] 1.008779 3.946260
[49,] 4.527118 13.109931
[50,] 4.646557 17.004236
44
> summary(fit.dataku)
Call:
glm(formula = y ~ x, family = gaussian(link = "identity"))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.1868 -0.8818 0.0415 0.7586 3.1982
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.0186 0.4436 4.551 3.65e-05 ***
x 2.8581 0.1176 24.308 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
Null deviance: 1044.593 on 49 degrees of freedom
Residual deviance: 78.483 on 48 degrees of freedom
AIC: 170.44
Number of Fisher Scoring iterations: 2
45
> cbind(x,y,y_duga,sisaan)
x y y_duga sisaan
1 5.928444 18.690387 18.962859 -0.27247193
2 3.063142 8.788586 10.773441 -1.98485474
3 3.147696 11.136597 11.015107 0.12148961
4 3.095861 10.205783 10.866956 -0.66117247
5 3.132533 9.352388 10.971768 -1.61938059
6 5.438988 18.295776 17.563928 0.73184798
7 1.030480 4.820782 4.963818 -0.14303598
8 1.406079 5.580310 6.037330 -0.45701975
9 2.443287 11.240599 9.001810 2.23878933
10 4.826711 14.057338 15.813957 -1.75661973
.
.
.
48 1.008779 3.946260 4.901792 -0.95553208
49 4.527118 13.109931 14.957682 -1.84775158
50 4.646557 17.004236 15.299055 1.70518141
49
McCullagh, P. and Nelder, J.A. (1989) GeneralizedLinear Models, 2nd. C&H.
Dobson and Barnett. (2008). An Introduction toGeneralized Linear Models, New York: C&H, 3rded.
Agresti, A. (2015). Foundations of Linear andGeneralized Linear Models. New Jersey: Wiley.
50
Jiang, J. (2007). Linear and Generalized LinearMixed Models and Their Applications, Springer.
McCulloch, C.E. and Searle, S.R. (2001)Generalized, Linear, and Mixed Models, Wiley
Pawitan, Y. (2001) In All Likelihood. Oxford.
Lee, Y., Nelder, J.A. and Pawitan, Y. (2006).Generalized Linear Models with Random Effects.C&H.