View
39
Download
0
Category
Preview:
Citation preview
Klasifikasi Data Debitur untuk Menentukan
Kelayakan Kredit dengan Menggunakan
Algoritma C4.5 dan Naïve Bayes
Artikel Ilmiah
Peneliti:
Hilda Savitri (672015078)
Hindriyanto Dwi Purnomo, S.T., MIT., Ph.D.
Program Studi Teknik Informatika
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Salatiga
November 2018
Klasifikasi Data Debitur untuk Menentukan
Kelayakan Kredit dengan Menggunakan
Algoritma C4.5 dan Naïve Bayes
Artikel Ilmiah
Diajukan kepada
Fakultas Teknologi Informasi
untuk memperoleh Gelar Sarjana Komputer
Peneliti:
Hilda Savitri (672015078)
Hindriyanto Dwi Purnomo, S.T., MIT., Ph.D.
Program Studi Teknik Informatika
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana
Salatiga
November 2018
1
Klasifikasi Data Debitur untuk Menentukan Kelayakan
Kredit dengan Menggunakan
Algoritma C4.5 dan Naïve Bayes
1) Hilda Savitri , 2) Hindriyanto Dwi Purnomo
Fakultas Teknologi Informasi
Universitas Kristen Satya Wacana Jl. Dr. O. Notohamidjojo, Salatiga, 50714, Indonesia
E-mail: 1) 672015078@student.uksw.edu, 2) hindriyanto.purnomo@uksw.edu
Abstract
One of the reasons for credits is that the bank does not examine the survey and
credit analysis. Thereofer, credit analysis with data mining techniques needs to be done in
order to minimize customer delay and also shorter the time of credit analysis. This study
aims to from the C4.5 decsion tree model and naïve bayes algorithm for customer’s credit
classification. Preprocessing data which consists of data cleaning, data integration, data selection, and data transformation is done to improve the quality of the classification
model. The process of making the C4.5 decision tree model and the Naive Bayes algorithm
using RapidMiner software. The accuracy results of the C4.5 decision tree model and naïve
bayes algorithm with 10-fold cross validation testing. From the results of accuracy testing
and AUC (Area Under Cover) included in the predicate Exellent Classification (0.90-1.00).
Key Words : credits, data mining, decision tree C4.5, naïve bayes, RapidMiner software
Abstrak
Salah satu penyebab kredit bermasalah adalah kurang telitinya pihak bank dalam
survei dan analisis pemberian kredit. Oleh karena itu, analisis kredit dengan teknik data
mining perlu dilakukan sehingga dapat meminimalisir nasabah terlambat membayar
angsuran serta mempersingkat waktu analisis pemberian kredit. Penelitian ini bertujuan
untuk membentuk model decision tree C4.5 dan algoritma naïve bayes untuk klasifikasi
nasabah kredit. Preprocessing data yang terdiri dari data cleaning, data integration, data
selection, dan data transformation dilakukan untuk meningkatkan kualitas model
klasifikasi. Proses pembentukan model decision tree C4.5 dan algoritma naive bayes
dilakukan menggunakan bantuan software RapidMiner. Hasil akurasi dari model decision
tree C4.5 dan algoritma naïve bayes dengan pengujian 10-fold cross validation. Dari hasil
pengujian akurasi dan AUC (Area Under Cover) termasuk dalam predikat Exellent
Classification (0,90-1,00).
Kata Kunci: kredit, data mining, decision tree C4.5, naïve bayes, software RapidMiner
1) Mahasiswa Program Studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas
Kristen Satya Wacana Salatiga.
2) Staff Pengajar Fakultas Teknologi Informasi, Universitas Kristen Satya Wacana Salatiga.
2
1. Pendahuluan
Bank memiliki peranan yang sangat penting dalam menggerakan roda
perekonomian nasional. Sebagaimana umumnya negara berkembang, sumber
pembiayaan dunia usaha di Indonesia masih didominasi oleh penyaluran kredit
perbankan yang diharapkan dapat mendorong pertumbuhan ekonomi [1]. Bank
merupakan salah satu lembaga yang bertugas memberikan pelayanan masyarakat
berupa pelayanan jasa [2]. Salah satu pelayanan jasa di perbankan adalah pemberian
pinjaman kredit pada nasabah yang memenuhi syarat yang ditentukan bank tersebut.
Produk-produk pinjaman bank berupa pinjaman modal usaha atau pinjaman untuk
kredit rumah atau KPR. Dengan ketentuan yang sudah ditetapakan dan melakukan
pembayaran dan bunga yang telah ditentukan pihak bank. Pemberian pinjaman dana
untuk masyarakat atau calon nasabah yang akan melakukan pinjaman di bank tidak
dapat diberikan secara sembarangan, melainkan harus melalui beberapa prosedur-
prosedur yang harus diperhitungkan baik dari pihak calon nasabah maupun pihak
bank sendiri agar tidak terjadi kemacetan pada saat melakukan angsuran
pembayaran pinjaman .
Pada perbankan pemberian pinjaman kredit merupakan sumber utama
penghasilan bank dan sekaligus juga sumber resiko bisnis paling besar, karena
sering terjadinya kredit macet atau penurunan hasil kredit dari pinjaman yang
mempunyai kriteria tidak produktif atau beresiko [3]. Kesalahan analisa kredit dapat
menyebabkan risiko kredit, seperti menghilangnya nasabah, ketidakpastian
pembayaran dana pinjaman bahkan ketidakmampuan nasabah dalam
mengembalikan pinjaman dana kredit [4]. Analisa kredit pada perbankan
menggunakan prinsip 5C yaitu The Five C’s of Credit Analysis. The Five C’s of
Credit Analysis merupakan alay untuk mrnganalisis kredit yang mencakup
character, capacity, capital, collateral dan condition [5]. Sehigga berdasarkan
analisa kredit tersebut didapatkan beberapa variabel antara lain: usia, status,
pendidikan, penghasilan, pekerjaan, jenis kelamin, collateral, jangka waktu/tahun,
plafond pinjaman, angsuran, jaminan, suku bunga. Variabel-variabel tersebut
memiliki keterhubungan satu sama lain salam penentuan kelayakan pemberian
kredit.
Teknik klasifikasi data mining dapat digunakan untuk menentukan risiko kredit.
Data mining adalah kegiatan yang meliputi pengumpulan data historis untuk
menemukan keteraturan, pola atau hubungan dalam set data yang berukuran besar
[6]. Keluaran yang dihasilkan oleh klasifikasi data mining dapat digunakan untuk
memperbaiki pengambilan keputusan bagi analis kredit dalam pemberian kredit.
Pemilihan algoritma klasifikasi data mining untuk menentukan resiko kredit yang
terjadi pada transaksi pinjaman nasabah. Dalam klasifikasi terdapat beberapa
metode diantaranya decision tree C4.5 dan naïve bayes. Algoritma tersebut
merupakan metode yang paling baik perfomanya dalam mendeteksi resiko kredit
[7].
Permasalahan dari uraian di atas melatarbelakangi perlunya penelitian
mengenai penerapan teknik data mining khususnya metode decision tree C4.5 dan
naïve bayes untuk mengklasifikasikan nasabah kredit berdasarkan status kelancaran
dan untuk mengetahui model yang paling baik dalam menangani data kredit di bank
XYZ. Sebagai perbandingan hasil klasifikasi menggunakan decision tree C4.5 dan
naïve bayes dalam menangani data kredit di bank XYZ.
3
2. Tinjauan Pustaka
Terkait dengan topik penelitian, Ahadiyah Nurul K. dan Nur Insani telah
melakukan penelitian untuk analisis klasifikasi nasabah dengan data kredit
menggunakan algoritma decision tree C4.5 dan naïve bayes. Penelitian ini
menjelaskan bahwa salah satu penyebab kredit bermasalah adalah kurang telitinya
pihak koperasi dalam survei dan analisis pemberian kredit oleh karena itu, analisis
kedit dengan teknik data mining perlu dilakukan sehingga dapat meminimalisir
nasabah terlambat membayar angsuran serta mempersingkat waktu analisis
pemberian kredit. Penelitian ini bertujuan untuk membentuk model decision tree
C4.5 dan naïve bayes untuk klasifikasi nasabah kredit berdasarkan nilai
kolektibitasnya. Preprocessing data yang terdiri dari data cleaning, data
integration, data selection dan data transformation dilakukan untuk meningkatkan
kualitas model klasifikasi [8].
Nandang Iriadi dan Nia Nuraeni melakukan penelitian mengenai metode
klasifikasi data mining dengan algoritma C4.5. Data mining mengenai pinjaman
yang memiliki potensial besar untuk menjelajahi bagian pola yang tersembunyi
dalam sebuah data set dari domain pinjaman termasuk pinjaman kredit. Algoritma
C4.5 merupakan pengklasifikasian yang paling sederhana, mudah
diimplementasikan. Penelitian ini bertujuan untuk menerapkan algoritma C4.5
dengan seleksi atribut sehingga dapat mengurangi dimensi, serta mengidentifikasi
fitur dalam kumpulan data dengan algoritma C4.5 [9].
Heri Hidayanto dan Achmad Wahid Kurniawan melakukan penelitian
menggunakan teknik data mining dengan algoritma C4.5. Resiko kredit yang terjadi
dalam pemberian kredit, dalam halnya nasabah tidak mampu membayar pinjamann
yang diterima. Resiko utama untuk bank dan lembaga keuangan adalah
membedakan nasabah yang memiliki potensi terjadinya kredit macet, krisis ini
menjadi perhatian lembaga keuangan tentang resiko kredit. Dalam pengambilan
keputusan untuk memberikan ke pemohon digunakan prinsip The Five C’s of Credit
Analysis [10].
Deny Cahya Mahendra dan Achmad dalam penelitiannya mengenai klasifikasi
data debitur untuk menenukan kelayakan kredit dengan menggunakan metode naïve
bayes. Kredit merupakan sumber utama penghasilan dalam sebuah bank dan resiko
bisnis. Karena dalam proses pemberian kredit tidak jarang terjadi kredit macet, di
mana akan terjadi tunggakan kredit dalam masa angsuran. Data mining merupakan
teknik yang memanfaatkan data dengan jumlah yang besar untuk mendapatkan
informasi atau data yang berharga untuk mengambil keputusan yang penting. Data
mining juga terbukti digunakan dalam perbankan yang mengklasifikasi data yang
berguna dan berukuran besar. Dari hasil penelitia ini untuk menentukan kelayakan
kredit lancar atau kredit macet dan evaluasi perfomance naïve bayes [11].
Berdasarkan empat penelitian tersebut telah membahas tentang data mining
terkait klasifikasi, algoritma decision tree C4.5 dan algoritma naïve bayes.
Berdasarkan empat penelitian tersebut, maka penelitian ini memiliki beberapa
perbedaan. Perbedaan mendasar yaitu objek studi kasus yang berbeda dengan
penelitian sebelumnya, pada penelitian ini menggunakan dua algoritma decision
tree C4.5 dan algoritma naïve bayes. Penelitian ini menggunakan prinsip The Five
C’s of Credit Analysis dengan memisahkan atribut-atribut kedalam bagian yaitu
capacity, capital, collateral, condition dan character. Maka pada penelitian ini
dilakukan untuk mengetahui prosedur analisis klasifikasi pada data nasabah kredit
4
Bank XYZ meggunakan dua algoritma yaitu decision tree C4.5 dan naïve bayes
serta mengetahui hasil klasifikasi menggunakan decision tree C4.5 dan naïve bayes
Adapun manfaat yang diharapkan adalah membantu perusahaan untuk
mengklasifikasi data nasabah kredit Bank XYZ sebagai pertimbangan untuk
pengambilan keputusan untuk kelayakan pemberian kedit pada nasabah. Hal ini
membantu untuk menghindari terjadinya resiko kredit macet menggunakan
algoritma decision tree C4.5 dan naïve bayes.
Data mining, sering disebut sebagai Knowledge Discovery in Database (KDD).
KDD adalah kegitan yang meliputi pengumpulan, pemakaian data, historis untuk
menemukan keteraturan, pola atau hubungan dalam set data berukuran besar.
Menurut, Larose data mining dibagi menjadi beberapa kelompok berdasarkan
tugas, yaitu [12]:
1. Deskripsi
2. Estimasi
3. Prediksi
4. Klasifikasi
5. Pengklusteran
6. Asosiasi
Data mining dibagi menjadi beberapa tahap yang bersifat interaktif, pemakai
terlibat langsung dengan perantaran knowlegde base. Tahap – tahap digambarkan
pada Gambar 2.1 [13].
Gambar 2.1 Tahap-tahap data mining [13]
Tahap – tahap dalam data mining, meliputi:
1. Pembersihan data (data cleaning)
2. Integrasi data (data integration)
3. Seleksi data (data selection)
4. Transformasi data (data transformation)
5. Proses data mining
6. Evaluasi pola (pattern evaluation)
7. Presentasi pengetahuan (knowledge presentation)
5
Klasifikasi merupakan bagian dari algoritma data mining, klasifikasi ini adalah
algoritma yang menggunakan data dengan target (class/label) yang berupa nilai
kategorikal/nominal. Menurut Gorunescu [14] proses klasifikasi didasarkan pada
empat komponen mendasar, yaitu:
1. Kelas (Class)
Kelas merupakan variabel dependen yang berupa kategorikal yang
merepresentasikan ‘label’ yang terdapat pada objek. Contohnya: resiko
penyakit jantung, resiko kredit, customer loyalty, jenis gempa.
2. Prediktor (Predictor)
Predictor merupakan variabel independen yang direpresentasikan oleh
karakteristik (atribut) data. Contohnya: merokok, minum alkohol, tekanan
darah, tabungan, aset, gaji.
3. Pelatihan dataset (Training dataset)
Training dataset merupakan satu set data yang berisi nilai dari kedua
komponen di atas yang digunakan untuk menentukan kelas yang cocok
berdasarkan predictor.
4. Dataset pengujian (Testing dataset)
Testing dataset berisi data baru yang akan diklasifikasikan oleh model yang
telah dibuat dan akurasi klasifikasi dievaluasi.
Dalam klasifikasi terdapat beberapa metode diantaranya decision tree C4.5 dan
naïve bayes. Decision tree adalah metode klasifikasi paling terkenal karena mudah
untuk diinterpretasi oleh manusia [14]. Decision tree merupakan salah satu metode
yang dapat diterapkan pada data kredit karena dapat mengubah data seperti
pekerjaan, umur, penghasilan, dan kolektibilitas menjadi pohon keputusan dan
aturan-aturan keputusan yang kemudian dapat digunakan untuk klasifikasi nasabah
kredit berdasarkan status kelancaran. Decision tree juga dapat mem-break down
proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga
pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.
Beberapa pengembangan yang dilakukan pada C4.5 adalah antara lain dapat
mengatasi missing value, dapat mengatasi contiu data dan pruning. Algotitma C4.5
merupakan salah satu teknik decision tree yang sering digunakan, yang
menghasilkan beberapa aturan-aturan dan sebuah pohon keputusan denga tujuan
meningkatkan keakuratan dari prediksi yng sedang dilakukan, disamping itu
algoritma C4.5 merupakan algoritma yang mudah dimengerti dan dipahami.
Algoritma C4.5 dipilih untuk membangun pohon keputusan karena secara rekursif
mengunjungi setiap simpul keputusan, memilih cabang optimal, sampai tidak ada
cabang lagi yang mungkin dihasilkan.
Naïve bayes juga merupakan salah satu metode yang dapat diterapkan pada
klasifikasi nasabah kredit yang didasarkan pada teorema Bayes dengan menghitung
peluang dari satu kelas pada masing-masing kelompok atribut yang ada dan
menentukan kelas mana yang paling optimal. Hasil yang diperoleh dari perhitungan
naïve bayes dapat mengklasifikasikan nasabah kredit berdasarkan status kelancaran
[15].
6
3. Penerapan Algoritma C4.5 dan Naïve Bayes untuk Kelayakan Kredit
Dalam penelitian ini dilakukan tahap-tahap untuk menyelesaikan penelitian ini
agar sesuai dengan tujuan. Tahapan penelitian seperti gambar 3.1.
Gambar 3.1 Tahapan Penelitian [17]
Tahapan penelitian pada Gambar 3.1 dimulai dengan 1) tahap pertama yaitu
mengidentifikasi masalah, pada tahap ini dilakukan identifikasi permasalahan yang
terjadi pada bank XYZ. 2) Tahap kedua yaitu proses pengumpulan data, sumber
data diperolah dari bank XYZ di Jakarta yang terdiri dari satu file excel yang
merupakan data kredit nasabah berupa data peminjam yang memilik kredit macet
dan lancar. Jumlah data 21.079 dataset periode 2018. 3) Tahap ketiga merupakan
tahap preprocesing data , berikut adalah penjelasan singkat mengenai tahap
preprocesing data :
a. Pembersihan Data (Data Cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten. Pada tahap ini data-data yang memiliki isian tidak
sempurna seperti data yang tidak memiliki kelengkapan atribut yang
dibutuhkan dan data yang tidak valid dihapus dari database.
Identifikasi Masalah
Pengumpulan Data
Data Cleaning
Data Integration
Data Selection
Data Transformation
Proses Klasifikasi Menggunakan Data Mining
Dengan Algoritma decision tree C4.5 dan naïve
bayes
Hasil dan Pembahasan
Proses Data Mining
7
b. Integrasi Data (Data Integration)
Integrasi data merupakan proses kombinasi beberapa sumber data ke dalam
database. Pada tahap ini dilakukan penggabungan data dari berbagai
sumber untuk dibentuk penyimpanan data yang koheren.
c. Seleksi Data (Data Selection)
Seleksi data merupakan pemilihan data yang digunakan untuk proses data
mining. Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan suatu berkas dan terpisah dari basis data operasional.
d. Transformasi Data (Data Transformation)
Transformasi data merupakan proses mentransformasikan dan
mengkonsolidasikan data yang digunakan untuk proses mining. Pada tahap
ini dilakukan pengubahan format data menjadi format yang sesuai dengan
teknik data mining yang digunakan.
4) Tahap keempat yaitu tahap klasifikasi dengan menggunakan decision tree
dan naïve bayes. Decision Tree atau pohon keputusan merupakan salah satu metode
klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap
simpul internal (internal node) merupakan sebuah atribut, setiap cabang merupakan
nilai atribut, dan setiap simpul daun (leaf node) atau simpul terminal merupakan
label class, serta simpul yang paling atas adalah simpul akar (root node). Pohon
keputusan memiliki beberapa cara dalam menentukan ukuran data dalam bentuk
pohon, salah satunya adalah dengan algoritma C4.5. Algoritma C4.5 menggunakan
gain ratio sebagai penentu simpul akar, internal, dan daun. Sedangkan Naive Bayes
Classifier Bayesian Classification mengklasifikasian statistik yang bisa digunakan
dalam memprediksi probabilitas keanggotaan suatu class.Pada proses ini
menggunakan bntuan tools yaitu Rapid Miner. 5) Tahap kelima yaitu hasil dan
pembahasan, pada tahap ini menganalisa atau membahas dari hasil data yang telah
diolah. Serta pada tahap ini pengujian hasil. Pada tahap ini dilakukan pengujian
untuk membuktikan data-data yang telah dihasilakan dibantu dengan tools yaitu
Rapid Miner.
Dari beberapa atrribut yang terdapat pada data debitur di bank XYZ di Jakarta,
ini memiliki 14 atribut seperti yang sudah dijelaskan di Tabel 1. Berdasarkan
atribut dibawah ini, atribut-atribut digolongkan kedalam kategori The Five C’s of
Credit Analysis yaitu capacity, capital, collateral, condition dan character.
Capital adalah jumlah dana/modal sendiri yang dimiliki oleh calon nasabah.
Semakin besar modal sendiri dalam perusahaan atau usaha atau pendapatan dari
nasabah , tentu semakin tinggi kesungguhan calon nasabah dalam menjalankan
usahanya dan bank akan merasa akan lebih yakin dalam memberikan kredit. Dalam
hal ini capital dalam pengolahan data ini mencakup atribut penghasilan dari calon
debitur dan berapa besar pinjaman yang diterima oleh debitur dalam hal ini atribut
plafond pinjman.
Capacity adalah kemampuan yang dimiliki calon nasabah dalam menjalankan
usahanya guna memperoleh laba yang diharapkan, Kegunaan dari penilaian ini
adalah untuk mengetahui sampai sejauh mana calon nasabah mampu untuk
mengembalikan atau melunasi kewajiban debitur dengan tepat waktu dari usaha
yang diperolehnya. Capacity dapat diambil dari atribut usia, status, pendidikan,
pekerjaan dan jenis kelamin dari debitur. Selain itu besarnya angsuran juga penting
untuk mengetahui kemampuan debitur terhadapa proses pelunasan. Terdapat atribut
angsuran.
8
Collateral adalah barang-barang yang diserahkan nasabah sebagai angunan
terhadap kredit yang diterima. Collateral tersebut harus dinilai oleh bank untuk
mengetahui sejauh mana resiko kewajiban finansial nasabah kepada bank. Dalam
hal ini collateral yang terdapat pada atriput ialah jaminan. Jaminan berupa sertifikat
tanah atau rumah.
Condition yaitu situasi dan kondisi politik, sosial, ekonomi, budaya yang
mempengaruhi keadaan perekonomian pada suatu saat yang kemungkinannya
mempengaruhi kelancaran perusahaaan calon debitur. Dalam hal ini melibatkan
suku bunga pada atribut data yang ada. Dimana suku bunga ditetapkan berdasarkan
berapa besar pinjaman. Selain suku bunga jangka waktu pinjaman juga ditetapakan
dapat berupa lama angsuran perbulan atau tahun, termasuk dalam dua atribut jangka
waktu perbulan dan jangka waktu pertahun.
Character adalah proses penilaian masing-masing kriteria terhadap debitur.
Dalam hal ini penilaian debitur dilihat dari atribut Collect atribut ini menjelaskan
bagaimana debitur dalam upaya melunasi kewajibanya. Atribut ini di bagi menjadi
lima bagian berupa lancar, kurang lancar, dalam pengawasan, macet, dan
diragukan. Selain atribut collect atribut aman dan beresiko juga meniai tentang
character debitur. Tabel 1 Atribut pada data kredit
Usia Jangka waktu/bulan
Status Jangka waktu/tahun
Pendidikan Plafond pinjaman
Penghasilan Angsuran
Pekejaan Jaminan
Jenis Kelamin Suku Bunga
Collect Aman atau Beresiko
Tabel 1 menunjukan atribut dari data yang terdapat pada bank XYZ,
Jakarta. Dari atribut diatas akan diolah dan dianalisis. Data-data yang
dikumpulkan dikelompokkan berdasarkan atribut-atribut yang ada.
Algoritma C4.5 menggunakan konsep information gain atau enropy reduction
untuk memilih pembagian besar yang optimal. Tahapan Algoritma C4.5 adalah,
sebagai berikut [15] :
1. Mempersiapkan data training, dapat dambil data historis yang pernah
terjadi sebelumnya dan sudah dikelompokkan dalam kelas-kelas tertentu.
2. Pilih atribut sebagai akar.
Pemilihan atribut sebagai akar tidak lepas dari Entropy dan Informasi Gain.
Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai Entropy-
nya. Entropy adalah ukuran dari teori informasi yang dapat megetahui
karakteristik dan impuryt dan homogenity dari kumpulan data. Dari nilai
Entropy tersebut kemudian dihitung nilai information gain (IG) masing-
masing atribut. Entropy (S) merupakan jumlah bit yang diperkirakan
dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah
data acak pada ruang sampel S. Berdasarkan penjelasan di atas yang
dimaksud suatu kelas (+ atau -) merupakan atribut “AMAN dan
BERESIKO” untuk kelas + berupa “AMAN” dan untuk kelas - berupa
“BERESIKO” yang Entropy dapat dikatakan sebagai kebutuhan bit untuk
menyatakan suatu kelas. Semakin kecil nilai Entropy maka akan semakin
Entropy digunakan dalam mengekstrak suatu kelas. Entropy digunakan
9
untuk mengukur ketidakaslian S. Sistem informasi atau disebut dengan
processing system.
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2𝑝𝑖𝑛
𝑖=1
(1)
Keterangan :
S : merupakan atribut yang akan dihitung
n : jumlah dari keseluruhan kasus atau (S)
Si: jumlah kasus untuk nilai –“BERESIKO”(S1) dan + “AMAN” (S2)
-pi : proporsi Si terhadap S
pi : proporsi Si terhadap S
Bila dijabarkan untuk menyelesaikan masalah dalam penelitian berikut
maka rumus untuk menghitung entropy yaitu : 𝐸ntropy(atribut)=
(-jumlah kasus atribut "BERESIKO"
jumlah keseluruhan kasus atribut) *log2 (
jumlah kasus atribut "BERESIKO"
jumlah keseluruhan kasus atribut) +
(-jumlah kasus atribut "AMAN"
jumlah keseluruhan kasus atribut) *log2 (
jumlah kasus atribut "AMAN"
jumlah keseluruhan kasus atribut)
(2)
Information gain adalah salah satu attribute selection measure yang
digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan
informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Lorena,
2014). Gain (S,A) merupakan perolehan informasi dari atribut A relative
terhadap output data S. Perolehan informasi didapat dari output data atau
variable dependent S berupa kategori yang ada didalam setiap atribut atau
yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A)
[16] .
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑|𝑆𝑖|
|𝑆|
𝑛
𝑖=1∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
(3)
Keterangan :
S : himpunan kasus total
A : atribut
n : jumlah keseluruhan atribut A
|Si| : jumlah kasus pada atribut yang akan dihitung gainnya
|S| : jumlah kasus S
Bila dijabarkan untuk menyelesaikan masalah dalam penelitian berikut
maka rumus untuk menghitung gain yaitu : Gain(Total, gain atribut)=
Entropy(Total)- ((jumlah kasus pada kategori atribut
jumlah kasus keseluruhan ) *entropy dari kategori atribut)
(4)
Kemudian lakukan hal yang sama pada perhitungan dikategori per-atribut.
3. Buat cabang untuk tiap-tiap nilai.
4. Bagi kasus dalam cabang.
5. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
10
Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis dan
bukti klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label
kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti
merupakan fitur-fitur yang menjadikan masukkan dalam model klasifikasi. Jika X
adalah vektor masukkan yang berisi fitur dan Y adalah label kelas, Naïve Bayes
dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y
didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir
(posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior
probability) Y.
Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir
P(Y|X) pada model untuk setiap kombinasi X dan Y bedasarkan informasi yang
didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’
dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan nilai
P(X’|Y’) yang didapat. Formulasi Naïve Bayes untuk klasifikasi adalah [15] :
𝑃(𝑌|𝑋) =𝑃(𝑌) ∑ 𝑃(𝑋𝑖|𝑌)
𝑞𝑖=1
𝑃(𝑋)
(5)
Keterangan :
X : Data dengan class yang belum diketahui
Y : Hipotesi data merupakan suatu class spesifik
P(Y|X) : Probabilitas hipotesis Y berdasar kondisi X (Posteriori Probabilitas)
P(Y) : Probabilitas hipotesis Y (Prior Probabilitas)
P(X|Y) : Probabilitas X berdasarkan kondisi hipotesis Y
P(X) : Probabilitas X
P(Y|X) adalah probabilitas data dengan vektor X pada kelas Y. P(Y)
adalah probabilitas awal kelas Y. ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 adalah probabilitas independen
kelas Y dari semua fitur dalam vektor X. Nilai P(X) selalu tetap sehingga dalam
perhitungan prediksi nantinya kita tinggal menghitung bagian
𝑃(𝑌) ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 dengan memilih yang terbesar sebagai kelas yag dipilih
sebagai hasil prediksi. Sementara probabilitas independen ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 tersebut
merupakan pengaruh semua fitur dari data terhadap setiap kelas Y [15].
Bila dijabarkan untuk menyelesaikan masalah dalam penelitian berikut
maka rumus untuk menghitung posterior yaitu :
𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒
(6)
Dimana posterior adalah munculnya kelas, prior kelas sebelum masuknya
sampel, Likelihood adalah kemunculan karakteristik sampel pada kelas dan
evidence kemunculan karakteristik sampel secara global.
4. Hasil dan Pembahasan
Pengolahan awal data dengan jumlah data mentah yang diperoleh dari data
excel bank XYZ yaitu sebanyak 21.079 dataset. Data ini merupakan data kredit
periode tahun 2018. Data mentah yang telah diolah dengan beberapa tahapan
preprocesing data. Pembersihan data dilakukan terhadap data yang tidak memiliki
kelengkapan atribut dengan cara menghapus data tersebut, dengan menghapus
beberapa data yang tidak lengkap menghasilkan jumlah data sebanyak 8.888
dataset dengan jumlah data aman sejumlah 8.548 dataset dan data beresiko
11
sebanyak 340 dataset. Pada data kredit periode tahun 2018 ini memiliki 14 atribut
yang terdiri dari 13 atribut precdictor berupa usia, status, pendidikan, penghasilan,
pekerjan, jenis kelamin, collect, jangka waktu/tahun, jangka waktu/bulan, plafond
pinjaman, angsuran, jaminan, suku bunga dan 1 atribut tujuan yaitu atribut
penentu hasil yaitu data aman dan beresiko.
Pada tahap ini dilakukan eksperimen dan pegujian metode yang digunakan
yaitu menghitung dan mendapatkan rule-rule yang ada pada algoritma C4.5.
Langkah-langkah yang dilakukan sebagai berikut:
1. Menghitug jumlah kasus “AMAN” dan “BERESIKO” serta nilai entropy dari
semua kasus. Dari data training yang ada diketahui jumlah kasus yang
“AMAN” sebanyak 8.548 record, dan jumlah kasus yang “BERESIKO” adalah
sebanyak 340 record total kasus keseluruhan adalah 8.888 kasus. Sehingga
didapatkan entropy keseluruhan :
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2𝑝𝑖𝑛
𝑖=1
= (-8548/8888 *log2(8548/8888)) + (-340/8888 * log2(340/8888))
= 0,234227949
2. Hitung nilai entropy dan nilai gain masing-masing atribut. Nilai gain tertinggi
adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.
Entropy aribut dihitung dengan rumus sebagai berikut:
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑|𝑆𝑖|
|𝑆|
𝑛
𝑖=1∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
Terdapat 13 Atribut yaitu usia, status, pendidikan, penghasilan, pekerjan, jenis
kelamin, collect, jangka waktu/tahun, jangka waktu/bulan, plafond pinjaman,
angsuran, jaminan dan suku bunga.
Menghitung entropy dan nilai gain bagi atribut jangka waktu/bulan.
<= 54 = 107/8888
> 54 = 8781/8888
<= 78 = 757/8888
> 78 = 8131/8888
Atribut jangka waktu/bulan <= 54 terdiri dari 92 class “AMAN” dan 15 class
“BERESIKO”, untuk atribut jangka waktu/bulan >54 terdiri dari 8456 class
“AMAN” dan untuk 325 class “BERESIKO” untuk atribut jangka waktu/bulan
<=78 terdiri dari 713 class “AMAN” dan 44 class “BERESIKO”, untuk atribut
jangka waktu/bulan >78 terdiri dari 7830 class “AMAN” dan 296 class
“BERESIKO”.
Maka entropy untuk atribut jangka waktu/bulan adalah sebagai berikut :
E<=54 [92,15] = (-92/107*log2(92/170)) + (-15/107*log2(15/170))
= 0,584728118
E>54 [8456,325] = (-8456/8781*log2(92/8781)+
(-325/8781*log2(325/8781))
= 0,228419176
E<=78 [713,44] = (-713/757*log2(713/757)) + (-44/757*log2(44/757))
= 0,319953142
E>78 [7830,296] = (-7830/78131*log2(7830/8131)) +
(-296/78131*log2(296/8131))
= 0,22640788
E split jangka waktu/bulan = (107/8888*(0,584728118)) +
(8781/8888*(0,228419176))
12
= (757/8888*(0,319953142)) +
(8131/8888*(0,22640788)
Gain jangka waktu/bulan = -0,23285595
Dengan cara yang sama, dilakukan perhitungan entropy dan gain bagi
atribut lainnya yaitu berupa usia, status, pendidikan, penghasilan, pekerjan, jenis
kelamin, collect, jangka waktu/tahun, plafond pinjaman, angsuran, jaminan, suku
bunga.
Berdasarkan dari perhitungan menggunakan dua algoritma yaitu algoritma
naïve bayes dan algoritma C4.5 berikut hasildan pembahasan dari perhitungan yang
telah dilakukan.
Tabel 2 Nilai Entropy dan gain untuk penentuan root
Dari Tabel 2 dapat dilihat nilai gain tertinggi ada pada atribut plafond
pinjaman yakni 1,87379 sehingga didapat bahwa atribut plafond pinjaman adalah
akar (root) dari pohon keputusan. Kemudian dilakukan kembali perhitungan nilai
entropy dan gain untuk menentukan simpul 1.1, nilai yang dihitung berdasarkan
atribut colect berupa Untuk menetukan simpul selanjutnya, dilakukan perhitungan
nilai entropy dan gain dengan cara yang sama, sehingga diperoleh pohon keputusan
seperti di bawah ini:
Simpul Jumlah
Kasus
Beresiko Aman Entropy Gain
Jumlah Kasus 8888 340 8548 0.234228
PLAFOND PINJAMAN
1.87379
<= 31.303.884,280 8884 340 8544 0.234308
> 31.303.884,280 4 0 4 0
<= 38.568.853,550 8887 340 8547 0.234248
> 38.568.853,550 1 0 1 0
<= 65.654.947,570 8887 340 8547 0.234248
> 65.654.947,570 1 0 1 0
<= 242.558.061,750 8888 340 8548 0.234228
> 242.558.061,750 0 0 0 0
<= 434.052.968,120 8888 340 8548 0.234228
> 434.052.968,120 0 0 0 0
<= 503.878.300,890 8888 340 8548 0.234228
> 503.878.300,890 0 0 0 0
<= 509.902.161,430 8888 340 8548 0.234228
> 509.902.161,430 0 0 0 0
<= 570.926.031,050 8888 340 8548 0.234228
> 570.926.031,050 0 0 0 0
<= 681.330.048,835 8888 340 8548 0.234228
> 681.330.048,835 0 0 0 0
13
PLAFOND PINJAMAN > 31303884.280
| COLLECT = DOUBTFUL / DIRAGUKAN: BERESIKO {AMAN=0, BERESIKO=20}
| COLLECT = LOSS / MACET: BERESIKO {AMAN=0, BERESIKO=58}
| COLLECT = PASS / LANCAR: AMAN {AMAN=8334, BERESIKO=0}
| COLLECT = SPECIAL MENTION / DALAM PENGAWASAN KHUSUS
| | PENGHASILAN > 7750000: BERESIKO {AMAN=0, BERESIKO=11}
| | PENGHASILAN ≤ 7750000
| | | JANGKA WAKTU /BLN > 54
| | | | ANGSURAN > 327399.771
| | | | | PLAFOND PINJAMAN > 681330048.835: AMAN {AMAN=3, BERESIKO=0}
| | | | | PLAFOND PINJAMAN ≤ 681330048.835
| | | | | | PLAFOND PINJAMAN > 570926031.050: BERESIKO {AMAN=0, BERESIKO=5}
| | | | | | PLAFOND PINJAMAN ≤ 570926031.050
| | | | | | | ANGSURAN > 4196971.906: BERESIKO {AMAN=0, BERESIKO=4}
| | | | | | | ANGSURAN ≤ 4196971.906
| | | | | | | | ANGSURAN > 2840174.768: AMAN {AMAN=27, BERESIKO=0}
| | | | | | | | ANGSURAN ≤ 2840174.768
| | | | | | | | | ANGSURAN > 2352608.514: BERESIKO {AMAN=0, BERESIKO=27}
| | | | | | | | | ANGSURAN ≤ 2352608.514
| | | | | | | | | | PLAFOND PINJAMAN > 38568853.550
| | | | | | | | | | | PLAFOND PINJAMAN > 503878300.890: BERESIKO {AMAN=0, BERESIKO=2}
| | | | | | | | | | | PLAFOND PINJAMAN ≤ 503878300.890
| | | | | | | | | | | | PLAFOND PINJAMAN > 434052968.120: AMAN {AMAN=7, BERESIKO=0}
| | | | | | | | | | | | PLAFOND PINJAMAN ≤ 434052968.120: BERESIKO {AMAN=153, BERESIKO=172}
| | | | | | | | | | PLAFOND PINJAMAN ≤ 38568853.550: BERESIKO {AMAN=0, BERESIKO=2}
| | | | ANGSURAN ≤ 327399.771: AMAN {AMAN=4, BERESIKO=0}
| | | JANGKA WAKTU /BLN ≤ 54: AMAN {AMAN=5, BERESIKO=0}
| COLLECT = SUB STANDARD / KURANG LANCAR
| | JANGKA WAKTU /BLN > 78
| | | PLAFOND PINJAMAN > 65654947.570
| | | | PENGHASILAN > 4250000
| | | | | STATUS = LAJANG: BERESIKO {AMAN=1, BERESIKO=9}
| | | | | STATUS = MENIKAH
| | | | | | PLAFOND PINJAMAN > 242558061.750
| | | | | | | PLAFOND PINJAMAN > 509902161.430
| | | | | | | | JENIS KELAMIN = LAKI
| | | | | | | | | PENDIDIKAN = SMA: AMAN {AMAN=1, BERESIKO=1}
| | | | | | | | | PENDIDIKAN = UNIVERSITAS: BERESIKO {AMAN=0, BERESIKO=3}
| | | | | | | | JENIS KELAMIN = PEREMPUAN: AMAN {AMAN=2, BERESIKO=0}
| | | | | | | PLAFOND PINJAMAN ≤ 509902161.430: BERESIKO {AMAN=0, BERESIKO=5}
| | | | | | PLAFOND PINJAMAN ≤ 242558061.750: AMAN {AMAN=6, BERESIKO=0}
| | | | PENGHASILAN ≤ 4250000: AMAN {AMAN=5, BERESIKO=1}
| | | PLAFOND PINJAMAN ≤ 65654947.570: BERESIKO {AMAN=0, BERESIKO=2}
| | JANGKA WAKTU /BLN ≤ 78: BERESIKO {AMAN=0, BERESIKO=2}
PLAFOND PINJAMAN ≤ 31303884.280: BERESIKO {AMAN=0, BERESIKO=16}
Naïve bayes adalah model kedua yang akan dihitung. Langah-langkah yang
akan dilakukan adalah menghitung nilai probabilitas prior, yaitu probabilitas nilai
“AMAN” dan “BERESIKO” masing-masing atribut terdapat total kasus “AMAN”
dan “BERESIKO” dari seluruh data. Untuk menentukan kelas dari kasus baru
makan dilakukan perhitungan probabilias posterior berdasarkan probabilitas
posterior yang telah dihitung sebelumnya. Dari hasil perhitungan ini akan
menghasilkan rule atau aturan.
14
Tabel 3 Perhitugan nilai probabilitas prior
Atribut Jumlah
Kasus
(S)
Beresiko
(S1)
Aman
(S2)
P(X|C(i)
P(Beresiko) P(Aman)
TOTAL 8888 340 8548 0.038253825 0.961746175
USIA <= 30 2110 49 2061 0.023222749 0.976777251
31-40 4556 196 4360 0.043020193 0.956979807
>= 41 2222 95 2127 0.042754275 0.957245725
STATUS LAJANG 8488 152 8336 0.017907634 0.982092366
MENIKAH 400 188 212 0.47 0.53
PENDIDIKAN SD 15 2 13 0.133333333 0.866666667
SMP 53 2 51 0.037735849 0.962264151
SMA 1707 79 1628 0.046280023 0.953719977
UNIVERSITAS 6374 201 6173 0.031534358 0.968465642
AKADEMI 739 56 683 0.075778078 0.924221922
PENGHASILAN <= 4.250.000 91 60 31 0.659340659 0.340659341
> 4.250.000 8797 280 8517 0.031829033 0.968170967
<= 7.750.000 8285 325 7960 0.03922752 0.96077248
>7.750.000 603 15 588 0.024875622 0.975124378
PEKERJAAN
AKUNTAN 4 0 4 0 1
DOKTER 45 0 45 0 1
IBU RUMAH TANGGA 1 0 1 0 1
KARYAWAN SWASTA 5796 224 5572 0.038647343 0.961352657
LAINNYA 67 3 64 0.044776119 0.955223881
NOTARIS 22 0 22 0 1
PEDAGANG 2464 103 2361 0.041801948 0.958198052
PEJABAT NEGARA 1 0 1 0 1
PELAJAR/MAHASISWA 52 0 52 0 1
PENGACARA 4 0 4 0 1
PENGUSAHA JASA 200 6 194 0.03 0.97
PENGUSAHA PABRIKAN 11 0 11 0 1
PENSIUNAN 1 0 1 0 1
PROFESIONAL LAINNYA 185 4 181 0.021621622 0.978378378
SENIMAN 3 0 3 0 1
TNI/POLRI 4 0 4 0 1
JENIS KELAMIN LAKI-LAKI 6186 224 5962 0.036210799 0.963789201
PEREMPUAN 2702 116 2586 0.042931162 0.957068838
COLLECT PASS/LANCAR 8334 0 8334 0 1
SUB STANDARD/KURANG
LANCAR
45 30 15 0.666666667 0.333333333
SPECIAL MENTION/DALAM
PENGAWASAN KHUSUS
429 230 199 0.536130536 0.463869464
LOSS/MACET 59 59 0 1 0
DOUBTFUL/DIRAGUKAN 21 21 0 1 0
JANGKA WAKTU
/ BULAN
<= 54 107 15 92 0.140186916 0.859813084
> 54 8781 325 8456 0.03701173 0.96298827
<= 78 757 44 713 0.058124174 0.941875826
>78 8131 296 7830 0.036403886 0.962981183
ANGSURAN <= 327.399,773 7 3 4 0.428571429 0.571428571
> 327.399,773 8881 337 8544 0.037946177 0.962053823
<= 2.352.608,514 6348 266 6082 0.041902962 0.958097038
> 2.352.608,514 2540 74 2466 0.029133858 0.970866142
<= 2.840.170,768 7453 307 7146 0.041191467 0.958808533
> 2.840.170,768 1435 33 1402 0.022996516 0.977003484
<= 4.196.971,906 8363 322 8041 0.03850293 0.96149707
> 4.196.971,906 525 18 507 0.034285714 0.965714286
PLAFOND
PINJAMAN
<= 31.303.884,280 8884 340 8544 0.038271049 0.961728951
> 31.303.884,280 4 0 4 0 1
<= 38.568.853,550 8887 340 8547 0.03825813 0.96174187
> 38.568.853,550 1 0 1 0 1
<= 65.654.947,570 8887 340 8547 0.03825813 0.96174187
> 65.654.947,570 1 0 1 0 1
<= 242.558.061,750 8888 340 8548 0.038253825 0.961746175
> 242.558.061,750 0 0 0
<= 434.052.968,120 8888 340 8548 0.038253825 0.961746175
> 434.052.968,120 0 0 0
<= 503.878.300,890 8888 340 8548 0.038253825 0.961746175
> 503.878.300,890 0 0 0
<= 509.902.161,430 8888 340 8548 0.038253825 0.961746175
> 509.902.161,430 0 0 0
<= 570.926.031,050 8888 340 8548 0.038253825 0.961746175
> 570.926.031,050 0 0 0
<= 681.330.048,835 8888 340 8548 0.038253825 0.961746175
> 681.330.048,835 0 0 0
SUKU BUNGA 8.50% 76 6 70 0.078947368 0.921052632
8.75% 572 12 560 0.020979021 0.979020979
9.00% 8240 322 7918 0.03907767 0.96092233
15
Untuk menentukan kelas dari kasus baru maka dilakukan perhitungan
probabilitas posterior berdasarkan probabilitas prior yang telah dihitung
sebelumnya dan telah disajikan pada tabel 3. Perhitungan probabilitas posterior
untuk menentukan data testing termasuk klasifikasi yang mana, sebagai contoh
diambill kasus seperti tabel 4 berikut dimana X tersebut adalah data yang akan
diprediksi hasilnya. Tabel 4 Perhitungan nilai probabilitas prior
Atribut Nilai Beresiko Aman
Usia 31-40 0.043020193 0.956979807
Status Menikah 0.47 0.53
Pendidikan SD 0.133333333 0.866666667
Penghasilan <=4.250.000 0.659340659 0.340659341
Pekerjaan Lainnya 0.044776119 0.955223881
Jenis Kelamin Perempuan 0.042931162 0.957068838
Collect Lancar 1 1
Jangka waktu/bln <=54 0.140186916 0.859813084
Angsuran <=327.399,773 0.428571429 0.571428571
Plafond pinjaman <=31.303.884,280 0.038271049 0.961728951
Suku bunga 8.50% 0.078947368 0.921052632
Berdasarkan nilai probabilitas prior masing-masing atribut yang telah
dihitung pada tabel 4 maka dapat dilihat rule yang akan di peroleh untuk atribut
diatas seperti berikut ini :
1. Hitung probabilitas “BERESIKO” untuk setiap atribut
P(BERESIKO)P(Usia 31-40)P(Status Menikah)P(Pendidikan
SD)P(Penghasilan <=4.250.000)P(Pekerjaan Lainnya)(Jenis Kelamin
Perempuan)P(Collect Lancar)P(Jangka Waktu /bln <=54)P(Angsuran
<= 327.399.773)P(Plafond Pinjaman <=31.303.884,280)P(Suku Bunga
8.50%)
2. Hitung probabilitas “AMAN” untuk setiap atribut
P(AMAN)P(Usia 31-40)P(Status Menikah)P(Pendidikan
SD)P(Penghasilan <=4.250.000)P(Pekerjaan Lainnya)(Jenis Kelamin
Perempuan)P(Collect Lancar)P(Jangka Waktu /bln <=54)P(Angsuran
<= 327.399.773)P(Plafond Pinjaman <=31.303.884,280)P(Suku Bunga
8.50%)
3. Bandingkan hasil dari probabilitas “BERESIKO” dan “AMAN”
Probabilitas “BERESIKO” = 6.20264E-10
Probabilitas “AMAN” = 0.059580278
Dengan algoritma naïve bayes berikut hasil analisis. Dikarenakan
0.059580278 > 6.20264E-10, maka dapat disimpulkan bahwa data testing tesebut
diklasifikasi “AMAN”.
Rule 1: Jika Probabilitas “AMAN” lebih besar dari probabilitas “BERESIKO”
maka hasil adalah “AMAN”.
Rule 2: Jika Probabilitas “BERESIKO” lebih besar dari probabilitas “AMAN”
maka hasil adalah “BERESIKO”.
16
Berdasarkan dari analisa pengujian masing-masing algoritma, maka
pengujian untuk model C4.5 dan naïve bayes ini menggunakan aplikasi RapidMiner
seperti berikut.
Setelah data diolah maka dapat diuji tingkat akurasinya untuk melihat
kinerja dari metode Algoritma C4.5. Penelitian ini bertujuan untuk melihat akurasi
analisi data kredit,menilai kemungkinan aman dan beresikonya pada debitur
sebagai kelayakn kredit. Pengujian tingkat akurasi dilakukan dengan menggunakan
confussion matrix dan kurva ROC/AUC (Area Under Cover). Tabel 5 merupakan
hasil perhitungan akurasi data training menggunakan Algoritma C4.5. Diketahui
tingkat akurasi 98,01%. Dari 8.888 data sebanyak 8.386 data diprediksikan sesuai
yaitu 8.386 data “AMAN” dan 15 data yang diprediksikan “AMAN” tetapi ternyata
“BERESIKO”. Dan sebanyak 162 data diprediksikan “BERESIKO” ternyata
termasuk klasifikasi “AMAN” dan sebanyak 325 data diprediksi sesuai yaitu
“BERESIKO”. Tabel confusion matrix disajikan pada tabel 5 dan gambar 4.1
adalah grafik AUC (Area Under Cover) dari model Algoritma C4.5 yaitu 0.999.
Garis horizontal adalah false positif dan garis vertikal false negatif. Tabel 5 Confussion Matrix algoritma C4.5
true AMAN true BERESIKO class precision
pred. AMAN 8386 15 99.82%
pred. BERESIKO 162 325 66.74%
class recall 98.10% 95.59%
Gambar 4.1 Gambar AUC (Area Under Cover) Algoritma C4.5
Tabel 4 merupakan hasil perhitungan akurasi data training menggunakan
naïve bayes. Diketahui tingkat akurasinya 97,36 % . Dari 8.888 data sebanyak 8.375
data diprediksikan sesuai yaitu 8.375 data “AMAN” dan 62 data yang diprediksikan
“AMAN” tetapi ternyata “BERESIKO”. Dan 173 data diprediksikan “BERESIKO”
ternyata temasuk klasifikasi “AMAN” dan sebanyak 278 data diprediksikan sesuai
yaitu “BERESIKO”. Tabel 5 confusion matrix disajikan pada tabel 6 dan gambar
4.2 adalah grafik AUC (Area Under Cover) dari model naïve bayes yaitu 0.990.
Garis horizontal adalah false positif dan garis vertikal false negatif Tabel 6 Confussion Matrix algoritma naïve bayes
true AMAN true BERESIKO class precision
pred. AMAN 8375 62 99.27%
pred. BERESIKO 173 278 61.64%
class recall 97.98% 81.76%
17
Gambar 4.2 Gambar AUC (Area Under Cover) Algoritma Naïve Bayes
Dari hasil analisa untuk kedua algoritma C4.5 dan algoritma naïve bayes
yang telah dipakai maka banyak hal yang dapat dianalasis melalui pengolahan data
kredit yang telah diolah. Mengenai data yang telah diolah dan dari hasil pohon
keputusan dengan agoritma C4.5 dengan plafond pinjaman >31.303.884,280 yang
memiliki collect macet dan diragukan sebanyak 80 data dikategorikan sebagai
debitur “BERESIKO”. Berdasarkan proses analisa terhadap 80 data yang
dikategorikan “BERESIKO”. Berdasarkan data real pada atribut status dari debitur
semua status debitur merupakan menikah dengan rata-rata penghasilan setiap bulan
dari beberapa nasabah < 7.000.000, beberapa debitur ini mendapat plafond
pinjaman yang besar. Dari hasil analisa berikut untuk debitur dengan status sudah
menikah dan besar pendapatan debitur dapat diperhitungkan lagi, guna mengetahui
berapa jumlah pinjaman yang dapat diberikan terhadap debitur dengan melihat rule
dari pohon keputusan dan rule dari naïve bayes yang ada. Sehingga dengan
perhitungan yang tepat, maka bank dapat meminimalisir terjadinya kredit macet.
Selain debitur “BERESIKO” terdapat juga debitur dengan kategori
“AMAN” berdasarkan pohon keputusan, sebanyak 8834 data dikategorikan sebagai
debitur “AMAN” berdasarkan data real yang diolah semua debitur yang
dikategorikan “AMAN” merupakan debitur yang memiliki collect dengan status
“LANCAR” dengan melihat hal ini dipastikan bila debitur dengan collect status
“LANCAR” dkategorikan kedalam debitur “AMAN” dengan rule naïve bayes.
Berdasarkan dengan hal ini maka sangat penting bagi pihak bank untuk
menawarkan kembali produk-produk pinjaman bagi kaegori nasabah berikut, guna
mendapatkan calon debitur dengan kemungkinan untuk terjadinya kredit macet
sangat kecil. Dari beberapa atribut yang dianalisis debitur dengan usia dibawah 40
tahun masih dapat diberi pinjaman serta debitur dengan pendapatan >7.000.000
banyak mendapat predikat lancar dalam mengangsur kewajibannya.
Debitur dengan collect kurang lancar ini berdasarkan data real sebanyak 45
data. Debitur ini dikategorikan menjadi dua kategori yaitu “AMAN” dan
“BERESIKO”. Berdarkan 45 data real yang telah dianalisa jumlah kategori
“BERESIKO” lebih banyak dari pada kategori “AMAN” . Kategori “BERESIKO”
dari plafond pinjaman yang besar dan angsuran yang cukup besar yang dibayarkan
perbulan, hal ini menjadi bahan evaluasi untuk peberian plafond pinjaman dan
angsuran yang sudah ditetakan. Bank juga perlu melihat beberaap hal penunjang
seperti pekerjaan debitur, usia debitur dan status debitur sebagai bahan
pertimbangan kelayakan pemberian kredit, sehingga meminimalisir terjadinya
18
kredit macet dikarenakan jumlah pinjaman yang besar dan angsran yang dibayarkan
perbulan terlalu besar.
Berdasarkan pohon keputusan debitur dengan collect dalam pengawasan
khusus maka sebanyak 429 debitur dikategorikan “AMAN “ dan “BERESIKO”
rata-rata debitur dengan collect dalam pengawasan khusus merupakan debitur yang
memiliki suku bunga sebesar 9.00 % dalam artian pinjaman ini merupakan
pinjaman dengan masa angsuran yang panjang dan plafond pinjaman yang besar,
bagai debitur dengan kategori “AMAN” perlu menawarkan produk dengan
pembayaran angsuran dalam jangka pendek, sedangan untuk debitur dengan
kategori “BERESIKO” berdasarkan pohon keputusan perlu memperhatikan
plafond pinjaman dan angsuran yang diberikan kepada debitur lagi, sebagai bahan
evaluasi atas kelayakan debitur mendapat pinjaman dan meminimalisir terjdainya
kredit macet.
Hasil dari perhitungan dengan menggunakan algoritma C4.5 dan algoritma
naïve bayes ini juga dapat menjadi bahan seleksi debitur yang atributnya telah
dipisahkan kedalam The Five C’s of Credit Analysis. Memisahkan atribut-atribut
kedalam bagian yaitu capacity, capital, collateral, condition dan character..
Berdasarkan pohon keputusan dari algoritma C4.5. Plafond pinjaman dan collect
menerupakan nilai gain tertinggi. Mengenai hal ini maka plafond pinjaman
termasuk dalam bagian capacity, dengan besar plafond pinjaman ≤ 31.303.884,280
merupakan pinjaman “BERESIKO” hal ini dapat menjadi saran bagi pihak bank
XYZ melihat capacity dari debitur yang akan mendapat pinjaman. Plafond
pinjaman diberikan berdasarkan perhitungan dari penghasilan calon debitur serta
anggunan yang diajukan kepada pihak bank. Hal ini dapat menjadi pertimbangan
pihak bank untuk memberikan plafond pinjaman yang tepat bagi calon debitur yang
akan menerima pinjaman dari bank. Sehingga dapat mengurangi kredit beresiko.
Selain perhitungan plafond pinjaman, collect juga dapat menjadi pertimbangan
dalam pemberian kredit yang layak bagi calon debitur, collect masuk dalam atribut
dengan kategori character. Collect sendiri merupakan status debitur yang telah
mendapat pinjaman, status ini berupa kesanggupan dari debitur dalam membayar
cicilan yang setiap bulannya, dibagi menjadi lima status. Mengenai hal ini
berdasarkann hasil analisi collect dengan status macet, diragukan dan dalam
pengawasan khusus harus menjadi perhatian pihak bank, guna menghindari
terjadinya debitur yang kredit macet dan tidak dapat mengembalikan pinjaman.
Berikut ini adalah pengujian perfomance dengan menggunakan Confusion
Marix dan ROC Curve. Berdasarkan dari analisa pengujian masing-masing
algoritma di atas maka dapat dirangumkan hasilnya sebagai berikut pada tabel 7 :
Tabel 7 Perbandingan Perfomance Metode
C4.5 Naïve Bayes
Accuracy 98,01% 97,36 %
AUC 0.999 0.990
Performance keakurasian AUC (Gorunescu, 2010) dapat diklasifikasikan
menjadi lima kelompok yaitu [14] :
1. 0,90 – 1,00 = Exellent Classification
2. 0,80 – 0,90 = Good Classification
3. 0,70 – 0,80 = Fair Classification
4. 0,60 – 0,70 = Poor Classification
5. 0,50 – 0,60 = Failure Classification
19
Berdasarkan klasifikasi tersebut maka dapat disimpulkan bahwa Algoritma
C4.5 dan Naïve Bayes termasuk algoritma yang akurat untuk memprediksi
kelayakan kredit karena nilai AUC termasuk dalam predikat Exellent Classification
(0,90-1,00).
5. Kesimpulan dan Saran
Dari hasil penelitian yang telah dilakukan pada data kredit debitur maka
dapat disimpulkan bahwa metode klasifikasi data mining Algoritma C4.5
menghasilkan akurasi 98,01% dan nilai AUC 0,999 yang termasuk dalam Excellent
Classification. Naive Bayes menghasilkan akurasi 97,36% dan nilai AUC 0,990.
Dengan demikian dapat disimpulkan bahwa kedua metode ini akurat dalam
melakukan prediksi untuk data kredit.
Melihat dari hasil perbandingan kedua algoritma tersebut memang dapat
dinyatakan bahwa Algoritma C4.5 lebih unggul dari Naive Bayes karena memiliki
nilai AUC 0,999 dengan kategori Excellent Clasification.
Akan tetapi jika ditelusuri lebih lanjut ternyata masih belum bisa dinyatakan
sebagai algoritma yang lebih unggul. Menurut pengujian berdasarkan Accuracy,
algoritma terbaik adalah Naive Bayes. Sedangkan menurut pengujian berdasarkan
ROC Curve (AUC) algoritma yang terbaik adalah Algoritma C4.5. Agar penelitian
ini bisa ditingkatkan berikut ini adalah saran-saran untuk mendapatkan hasil yang
lebih baik:
1. Penelitian ini dapat dikembangkan lebih lanjut dengan melakukan uji
statistik dengan menggunakan uji T-Test dengan membandingkan kedua
algoritma untuk melihat algoritma mana yang lebih dominan atau signifikan
berdasarkan nilai probabilitas.
2. Penelitian ini dapat dikembangkan dengan metode optimasi seperti GA
(Genetic Algorithm) dan lainnya untuk meningkatkan akurasi dari metode.
3. Penelitian ini dapat dikembangkan lagi dengan membandingkan dengan
metode lainnya seperti Neural Network, KNN, dan lain-lain.
4. Tidak semua kasus atau permasalahan harus diselesaikan dengan satu
algoritma pada data mining. Karena belum tentu algoritma yang digunakan
merupakan algoritma yang paling akurat. Oleh karena itu untuk
menentukkan algoritma yang paling akurat ini perlu dilakukan komparasi
beberapa algortima.
6. Daftar Pustaka
[1] Rafika Lihani, Ngadiman, Nurhasan Hamidi, “Analisis Manajemen Kredit
Guna Meminimalkan Risiko Kredit (Studi pada PD BPR BKK Tasikmadu
Karanganyar),” Jupe UNS, Vol 1, No. 3 Hal 1 s/d 11, Juli, 2013.
[2] Bustami, "Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data
Nasabah Asuransi," TECHSI, vol. III, pp. 11-14, Oktober 2014.
[3] Cahyani Damayanti, "Manfaat Laporan Keuangan Debitur Perusahaan
Dagang Sebagai Bahan Pertimbangan Dalam Efektivitas Pengambilan
Keputusan Pemberian Kredit Investasi," bandung, 2007.
[4] Rina Fiati & Putri Kurnia Handayani. (2015). Model Klasifikasi Kelayakan
Kredit Koperasi Karyawam Berbasis Dcision Tree. Prosiding SNATIF Ke-2.
Universitas Muria Kudus.
[5] Thamrin Abdullah dan Francis Tantri, 2012 Bank dan Lembaga Keuangan,
Ed.1-1, Jakarta, Penerbit: Rajawali Pers.
20
[6] Santosa, B., 2007,Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis. Yogyakarta: Graha Ilmu.
[7] Kusrini & Emha Taufiq Luthfi. (2009). Algoritma Data Mining. Yogyakarta:
Andi.
[8] Kholifah, Ahadiyah Nurul dan Nur Insani.2016.“Analisi Klasifikasi Pada
Nasabah Kredit Koperasi X Menggunakan Decision Tree C4.5 dan Naïve
Bayes”.Program Studi Matematika Universitas UNY. Yogyakarta.
[9] Nuraeni Nia dan Nandang Iriadi .2016. “Kajian Penerapan Model Klasifikasi
Data Mining Algoritma C.5 untuk Prediksi Kelayakan Kredit Pada Bank
Mayapada Jakarta”. Jurnal Teknik Komputer AMIK BSI Vol. II No.1
Februari 2016. Jakarta.
[10] Hidayanto Heri dan Achmad Wahid Kurniawan.2016. “Klasifikasi Kelayakan
Kredit Calon Debitur Bank Menggunakan Algoritma Decision Tree C4.5 ”.
Jurnal Teknik Komputer Informatika Universitas Dian Nuswantoro.
Semarang.
[11] Mahendra Deny Cahya .2015. “Klasifikasi Data Debitur untuk Menentukan
Kelayakan Kredit dengan Menggunakan Metode Naïve Bayes”. Dian
Nuswantoro, Semarang
[12] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data
Mining, Hoboken: John Wiley & Sons Inc., 2005.
[13] Han, J. dan M. Kamber. 2006. Data aMining: Concepts and Techniques,
Second Edition. Morgan Kaufmann Publishers. San Francisco.
[14] F. Gorunescu, Data Mining Concept Model Technique, Craiova, Romania:
Springer, 2011.
[15] Dwi Septiani, Wisti.2017. “Komparasi Metode Klasifikasi Data Mining
Algoritma C4.5 dan Naïve Bayes untuk Prediksi Penyakit Hepatitis”. Jurnal
Pilar Nusa Mandiri Volume 13 No.1, Maret 2017. AMIK BSI Jakarta.
[16] Evaluasi Algoritma Untuk Klasifikasi Nasabah Kredit Bank "X"
Menggunakan Beberapa Algoritma Klasifikasi. Marcos, Hendra dan
Hidayah, Indriana. 2014, Seminar Nasional Teknologi Informasi dan
Multimedia ISSN : 2302-3805, Vol. 2.02, hal. 31-36.
[17] Hasibuan, Z (2007). “Metodologi Penelitian pad Bidang Ilmu Komputer dan
Teknologi Informasi”. Jakarta : Fakultas Ilmu Komputer Universitas
Indonesia.
Recommended