9
  egresi Logistik Biner http://ariyoso.wordpress.com/2009/11/11/regresi-logistik Regresi linier seperti yang kita ketahui tidak dapat menyelesaikan kasus dimana variabel dependent bersiat dikotomi dan kategori dengan dua atau lebih kemungkinan !e". sukses atau #agal$ terpilih atau tidak terpilih$ lulus atau tidak lulus$ melakukan pembelian atau tidak$ mendapat promosi atau tidak% dan lain-lain&.  Regresi logistik  umumnya melibatkan  berbagai macam variabel prediktor baik numerik ataupun kategorik% termasuk variabel dummy. 'ada regresi linier% variabel prediktor yang digunakan biasanya numerik% tetapi (ika kita melibatkan campuran antara numerik maupun kategorik kita dapat menggunakan regresi logistik .  Regresi logistik  membentuk persamaan atau ungsi dengan pendekatan maximum likelihood % yang memaksimalkan peluang pengklasiikasian ob(ek yang diamati men(adi kategori yang sesuai kemudian mengubahnya men(adi koeisien regresi yang sederhana. )ua nilai yang  biasa digunakan sebagai variabel dependen yang dipredik si adalah 0 dan 1 !e". 1*berhasil% 0*gagal&.  Regresi logistik  menghasilkan rasio peluang ! odds ratios& antara keberhasilan atau kegagalan suatu dari analisis. )apat kita contohkan dengan seorang tokoh yang ingin men(adi presiden% akan lebih baik peluangnya (ika men(adi ketua partai politik tertentu. )isini odds ratio yang dimaksud adalah seberapa besar peluang tokoh tersebut dengan mempertimbangkan variabel  prediktor yang ada.  Regresi logistik  akan membentuk variabel prediktor/respon !log !p/!1-p&& yang merupakan kombinasi linier dari variabel independen. +ilai variabel prediktor ini kemudian ditransormasikan men(adi probabilitas dengan fungsi logit . Asumsi-asumsi dalam regresi logistik: ,idak mengasumsikan hubungan linier antar variabel dependen dan independent a riabel dependen harus bersiat dikotomi !2 variabel& a riabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel ategori dalam variabel independent harus terpisah satu sama lain atau bersiat eksklusi ampel yang diperlukan dalam (umlah r elati besar% minimum dibutuhkan hingga 0 sampel data untuk sebuah variabel prediktor !bebas&. Persamaan Regresi Logis tik  Regresi logistik  menghasilkan rasio peluang yang dinyatakan dengan transormasi ungsi logaritma !log &% dengan demikian ungsi transormasi log  ataupun ln diperlukan untuk p- value% dengan demikian dapat dinyatakan bahwa logit(p) merupakan log  dari peluang !odds ratio& atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1% dengan demikian persamaan regresi logistik men(adi:

REGRESI LOGISTIK

  • Upload
    zellius

  • View
    15

  • Download
    1

Embed Size (px)

DESCRIPTION

regresi logistik

Citation preview

Regresi Logistik Biner

http://ariyoso.wordpress.com/2009/11/11/regresi-logistikRegresi linier seperti yang kita ketahui tidak dapat menyelesaikan kasus dimana variabel dependent bersifat dikotomi dan kategori dengan dua atau lebih kemungkinan (ex. sukses atau Gagal; terpilih atau tidak terpilih; lulus atau tidak lulus; melakukan pembelian atau tidak; mendapat promosi atau tidak, dan lain-lain). Regresi logistik umumnya melibatkan berbagai macam variabel prediktor baik numerik ataupun kategorik, termasuk variabel dummy. Pada regresi linier, variabel prediktor yang digunakan biasanya numerik, tetapi jika kita melibatkan campuran antara numerik maupun kategorik kita dapat menggunakan regresi logistik.

Regresi logistik membentuk persamaan atau fungsi dengan pendekatan maximum likelihood, yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Dua nilai yang biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (ex. 1=berhasil, 0=gagal).

Regresi logistik menghasilkan rasio peluang (odds ratios) antara keberhasilan atau kegagalan suatu dari analisis. Dapat kita contohkan dengan seorang tokoh yang ingin menjadi presiden, akan lebih baik peluangnya jika menjadi ketua partai politik tertentu. Disini odds ratio yang dimaksud adalah seberapa besar peluang tokoh tersebut dengan mempertimbangkan variabel prediktor yang ada.

Regresi logistik akan membentuk variabel prediktor/respon (log (p/(1-p)) yang merupakan kombinasi linier dari variabel independen. Nilai variabel prediktor ini kemudian ditransformasikan menjadi probabilitas dengan fungsi logit.

Asumsi-asumsi dalam regresi logistik: Tidak mengasumsikan hubungan linier antar variabel dependen dan independent

Variabel dependen harus bersifat dikotomi (2 variabel)

Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel

Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif

Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).

Persamaan Regresi LogistikRegresi logistik menghasilkan rasio peluang yang dinyatakan dengan transformasi fungsi logaritma (log), dengan demikian fungsi transformasi log ataupun ln diperlukan untuk p-value, dengan demikian dapat dinyatakan bahwa logit(p) merupakan log dari peluang (odds ratio) atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1, dengan demikian persamaan regresi logistik menjadi:

logit(p) = log (p/1-p) = ln (p/1-p)dimana p bernilai antara 0-1.

Model yang digunakan pada regresi logistik adalah:

Log (P / 1 p) = 0 + 1X1 + 2X2 + . + kXkDimana p adalah kemungkinan bahwa Y = 1, dan X1, X2, X3 adalah variabel independen, dan b adalah koefisien regresi.

Konsep Odds dan Relative OddsKita lihat sampel berikut ini:

Data berikut ini diberikan oleh pengurus mesjid di yang terletak diantara 2 kampung, data tersebut dapat dilihat sebagai berikut:

- Persepsi pengurus mesjid terhadap 100 orang warga di kedua kampung yang memiliki penyakit PELIT dalam memberikan sumbangan bagi keropak amal mesjid mereka,

- Variable prediktor yang digunakan adalah kampung A dan kampung B,

- Data disajikan dalam bentuk tabulasi silang (crosstab).

Penyakit PelitKampung AKampung BTOTAL

Ya80 (0,8)27 (0,27)130 (0,65)

Tidak20 (0,2)73 (0,73)70 (0,35)

TOTAL100 (50%)100 (50%)200 (100%)

Dari data diatas konsep odds (peluang) dapat dijelaskan sebagai berikut:

- Warga kampung A yang memiliki kecenderungan PELIT adalah 80/20 = 40 terhadap 1 (anggaplah konsep taruhan yang artinya 4 : 1).

- Warga kampung A yang memiliki kecenderungan tidak PELIT adalah 20/80 = 0,25 terhadap 1 (dalam konsep taruhan artinya 1: 4).

- Demikian juga dengan warga kampung B yang memiliki kecenderungan PELIT dan tidak PELIT adalah 27/73 = 0,37 terhadap 1 (dalam konsep taruhan artinya 1 : 2)

Sedangkan konsep Relative Odds berdasarkan data diatas menunjukkan bahwa warga kampung A memiliki kecenderungan PELIT daripada warga kampung B sebesar 4/0,73 = 5,5 terhadap 1, dengan kata lain warga kampung A lebih pelit 5,5 kali daripada warga kampung B, atau dengan kata lain pengurus mesjid mempersepsikan bahwa warga yang memiliki penyakit PELIT kebanyakan berasal dari kampung A yaitu 5,5 kali daripada warga kampung B.

Konsep Log Odds, Odds RatioLogit (log odds) merupakan koefisien slope (b) dari persamaan regresi. Slope disini adalah perubahan nilai rata-rata dari Y dari satu unit perubahan nilai X. Regresi logistik melihat perubahan pada nilai variabel dependen yang ditransformasi menjadi peluang, bukan nilai aslinya seperti pada regresi linier. Sebagai ilustrasi jika nilai peluang adalah 0,25, maka nilai odds adalah 3 (25 : 75), sedangkan jika nilai peluang 50, maka nilai odds adalah 1 (50 : 50), atau jika nilai peluang 0,33, maka nilai odds adalah 2 (33 : 67) dengan total keseluruhan nilai peluang adalah 1. Nilai odds ratio biasanya dapat kita lihat pada kolom B pada variables in the equation output SPSS.

Kecocokan Model (model fit) dan fungsi likelihoodLikelihood berarti juga peluang atau probabilitas untuk hipotesis tertentu. Seperti yang kita ketahui pada kurva regresi linier kita lihat adanya hubungan linier, peningkatan pada sumbu Y akan diikuti dengan peningkatan pada sumbu X dan sebaliknya. Tetapi pada regresi logistik dengan nilai Y antara 0 dan 1, pendekatan linier tidak bisa kita gunakan. Oleh karena itu metode maximum likelihood sangat berguna dalam menentukan kecocokan model yang tepat bagi persamaan yang kita miliki.

Hipotesis dalam regresi logistik antara lain:

1. h0 = ketika persamaan regresi bernilai 0 [logit(p) = 0].

2. h1 = persamaan regresi berbeda nyata dari 0 [logit(p) 0].

Regresi logistik merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva linier seperti gambar di bawah ini.

Regresi logistik juga menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi predictor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.

Lebih jelasnya kita dapat mengikuti ilustrasi berikut ini:Jika kita ingin mengetahui pembelian kosmetik merk tertentu oleh beberapa orang wanita dengan beberapa variabel penjelas antara lain adalah umur, tingkat pendapatan (low, medium, high), dan status (M menikah; S untuk single). Pada data tersebut, pembelian merupakan variabel prediktor yang dijelaskan dengan angka 1 sebagai membeli dan 0 sebagai tidak membeli.

1. Dengan SPSS 17.0 data yang diinput dapat berupa:

2. Setelah data diinput, pilih Analyze Regression Binary logistic seperti berikut:

3. Setelah muncul kotak dialog logistic regression, masukkan variabel dependen purchase ke kolom Dependent, dan ketiga variabel independen ke dalam kolom covariates, lalu pilih button categorical untuk memasukkan variabel kategorik yaitu pendapatan dan status klik continue:

4. Setelah itu pilih option, checklist classification plot dan Hosmer-lemeshow goodness of fit, kemudian continue:

5. Kemudian pada method pilih enter, kemudian klik OK:

6. Output dan adalah sebagai berikut:

Output Case Processing Summary menghilangkan variabel yang tidak diperhitungkan dalam model.

Output classification table diatas menjelaskan bahwa persentase variabel yang diprediksi sebesar 88,9 persen adalah baik, dan dari perbandingan antara kedua nilai mengindikasikan tidak terdapatnya masalah homoskedastisitas.

Pada output variables in equation signifikansi adalah 0,05 artinya model tidak signifikan dan dengan demikian terima H0.

Pada output omnibus test menyatakan bahwa hasil uji chi-square goodness of fit lebih kecil dari 0,05, ini mengindikasikan bahwa model adalah signifikan.

Hasil output pada Cox-Snell R2 dan Nagelkerke R memiliki analogi sama dengan nilai R-square pada regresi linier, menyakatan bahwa sebanyak 50,2 persen keragaman dapat dijelaskan oleh model, sedangkan sisanya diluar model.

Hasil pada output Hosmer and Lemeshow Goodness-of-Fit Test mengindikasikan bahwa kita dapat menerima H0 karena lebih dari 0,05 (1 > 0,05).

output classification table mengindikasikan dalam model regresi logistik, masih terdapat masalah homoskedastisitas karena nilai persentase keseluruhan adalah sama (100%).

output variables in the equation menunjukkan nilai signifikansi berdasarkan Wald Statistic, jika model signifikan, maka nilai sig. adalah kurang dari 0,05.

Kolom Exp(B) menunjukkan nilai odds ratio yang dihasilkan. Nilai odds ratio yang mendekati 1,0 mengindikasikan bahwa variabel independen tidak mempengaruhi variabel dependen.

Output classplot diatas menunjukkan prediksi pada regresi logistik. Sumbu X menujukkan probabilitas yang diprediksi, sedangkan sumbu Y menunjukkan jumlah kasus yang diamati.