Klasifikasi Data Debitur untuk Menentukan Kelayakan Kredit ......Klasifikasi Data Debitur untuk...

Klasifikasi Data Debitur untuk Menentukan

Kelayakan Kredit dengan Menggunakan

Algoritma C4.5 dan Naïve Bayes

Artikel Ilmiah

Peneliti:

Hilda Savitri (672015078)

Hindriyanto Dwi Purnomo, S.T., MIT., Ph.D.

Program Studi Teknik Informatika

Fakultas Teknologi Informasi

Universitas Kristen Satya Wacana

Salatiga

November 2018

Klasifikasi Data Debitur untuk Menentukan

Kelayakan Kredit dengan Menggunakan

Artikel Ilmiah

Diajukan kepada

untuk memperoleh Gelar Sarjana Komputer

Peneliti:

Hilda Savitri (672015078)

Hindriyanto Dwi Purnomo, S.T., MIT., Ph.D.

Program Studi Teknik Informatika

Universitas Kristen Satya Wacana

Salatiga

November 2018

Klasifikasi Data Debitur untuk Menentukan Kelayakan

Kredit dengan Menggunakan

1) Hilda Savitri , 2) Hindriyanto Dwi Purnomo

Universitas Kristen Satya Wacana Jl. Dr. O. Notohamidjojo, Salatiga, 50714, Indonesia

E-mail: 1) 672015078@student.uksw.edu, 2) hindriyanto.purnomo@uksw.edu

Abstract

One of the reasons for credits is that the bank does not examine the survey and

credit analysis. Thereofer, credit analysis with data mining techniques needs to be done in

order to minimize customer delay and also shorter the time of credit analysis. This study

aims to from the C4.5 decsion tree model and naïve bayes algorithm for customer’s credit

classification. Preprocessing data which consists of data cleaning, data integration, data selection, and data transformation is done to improve the quality of the classification

model. The process of making the C4.5 decision tree model and the Naive Bayes algorithm

using RapidMiner software. The accuracy results of the C4.5 decision tree model and naïve

bayes algorithm with 10-fold cross validation testing. From the results of accuracy testing

and AUC (Area Under Cover) included in the predicate Exellent Classification (0.90-1.00).

Key Words : credits, data mining, decision tree C4.5, naïve bayes, RapidMiner software

Abstrak

Salah satu penyebab kredit bermasalah adalah kurang telitinya pihak bank dalam

survei dan analisis pemberian kredit. Oleh karena itu, analisis kredit dengan teknik data

mining perlu dilakukan sehingga dapat meminimalisir nasabah terlambat membayar

angsuran serta mempersingkat waktu analisis pemberian kredit. Penelitian ini bertujuan

untuk membentuk model decision tree C4.5 dan algoritma naïve bayes untuk klasifikasi

nasabah kredit. Preprocessing data yang terdiri dari data cleaning, data integration, data

selection, dan data transformation dilakukan untuk meningkatkan kualitas model

klasifikasi. Proses pembentukan model decision tree C4.5 dan algoritma naive bayes

dilakukan menggunakan bantuan software RapidMiner. Hasil akurasi dari model decision

tree C4.5 dan algoritma naïve bayes dengan pengujian 10-fold cross validation. Dari hasil

pengujian akurasi dan AUC (Area Under Cover) termasuk dalam predikat Exellent

Classification (0,90-1,00).

Kata Kunci: kredit, data mining, decision tree C4.5, naïve bayes, software RapidMiner

1) Mahasiswa Program Studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas

Kristen Satya Wacana Salatiga.

2) Staff Pengajar Fakultas Teknologi Informasi, Universitas Kristen Satya Wacana Salatiga.

1. Pendahuluan

Bank memiliki peranan yang sangat penting dalam menggerakan roda

perekonomian nasional. Sebagaimana umumnya negara berkembang, sumber

pembiayaan dunia usaha di Indonesia masih didominasi oleh penyaluran kredit

perbankan yang diharapkan dapat mendorong pertumbuhan ekonomi [1]. Bank

merupakan salah satu lembaga yang bertugas memberikan pelayanan masyarakat

berupa pelayanan jasa [2]. Salah satu pelayanan jasa di perbankan adalah pemberian

pinjaman kredit pada nasabah yang memenuhi syarat yang ditentukan bank tersebut.

Produk-produk pinjaman bank berupa pinjaman modal usaha atau pinjaman untuk

kredit rumah atau KPR. Dengan ketentuan yang sudah ditetapakan dan melakukan

pembayaran dan bunga yang telah ditentukan pihak bank. Pemberian pinjaman dana

untuk masyarakat atau calon nasabah yang akan melakukan pinjaman di bank tidak

dapat diberikan secara sembarangan, melainkan harus melalui beberapa prosedur-

prosedur yang harus diperhitungkan baik dari pihak calon nasabah maupun pihak

bank sendiri agar tidak terjadi kemacetan pada saat melakukan angsuran

pembayaran pinjaman .

Pada perbankan pemberian pinjaman kredit merupakan sumber utama

penghasilan bank dan sekaligus juga sumber resiko bisnis paling besar, karena

sering terjadinya kredit macet atau penurunan hasil kredit dari pinjaman yang

mempunyai kriteria tidak produktif atau beresiko [3]. Kesalahan analisa kredit dapat

menyebabkan risiko kredit, seperti menghilangnya nasabah, ketidakpastian

pembayaran dana pinjaman bahkan ketidakmampuan nasabah dalam

mengembalikan pinjaman dana kredit [4]. Analisa kredit pada perbankan

menggunakan prinsip 5C yaitu The Five C’s of Credit Analysis. The Five C’s of

Credit Analysis merupakan alay untuk mrnganalisis kredit yang mencakup

character, capacity, capital, collateral dan condition [5]. Sehigga berdasarkan

analisa kredit tersebut didapatkan beberapa variabel antara lain: usia, status,

pendidikan, penghasilan, pekerjaan, jenis kelamin, collateral, jangka waktu/tahun,

plafond pinjaman, angsuran, jaminan, suku bunga. Variabel-variabel tersebut

memiliki keterhubungan satu sama lain salam penentuan kelayakan pemberian

kredit.

Teknik klasifikasi data mining dapat digunakan untuk menentukan risiko kredit.

Data mining adalah kegiatan yang meliputi pengumpulan data historis untuk

menemukan keteraturan, pola atau hubungan dalam set data yang berukuran besar

[6]. Keluaran yang dihasilkan oleh klasifikasi data mining dapat digunakan untuk

memperbaiki pengambilan keputusan bagi analis kredit dalam pemberian kredit.

Pemilihan algoritma klasifikasi data mining untuk menentukan resiko kredit yang

terjadi pada transaksi pinjaman nasabah. Dalam klasifikasi terdapat beberapa

metode diantaranya decision tree C4.5 dan naïve bayes. Algoritma tersebut

merupakan metode yang paling baik perfomanya dalam mendeteksi resiko kredit

Permasalahan dari uraian di atas melatarbelakangi perlunya penelitian

mengenai penerapan teknik data mining khususnya metode decision tree C4.5 dan

naïve bayes untuk mengklasifikasikan nasabah kredit berdasarkan status kelancaran

dan untuk mengetahui model yang paling baik dalam menangani data kredit di bank

XYZ. Sebagai perbandingan hasil klasifikasi menggunakan decision tree C4.5 dan

naïve bayes dalam menangani data kredit di bank XYZ.

2. Tinjauan Pustaka

Terkait dengan topik penelitian, Ahadiyah Nurul K. dan Nur Insani telah

melakukan penelitian untuk analisis klasifikasi nasabah dengan data kredit

menggunakan algoritma decision tree C4.5 dan naïve bayes. Penelitian ini

menjelaskan bahwa salah satu penyebab kredit bermasalah adalah kurang telitinya

pihak koperasi dalam survei dan analisis pemberian kredit oleh karena itu, analisis

kedit dengan teknik data mining perlu dilakukan sehingga dapat meminimalisir

nasabah terlambat membayar angsuran serta mempersingkat waktu analisis

pemberian kredit. Penelitian ini bertujuan untuk membentuk model decision tree

C4.5 dan naïve bayes untuk klasifikasi nasabah kredit berdasarkan nilai

kolektibitasnya. Preprocessing data yang terdiri dari data cleaning, data

integration, data selection dan data transformation dilakukan untuk meningkatkan

kualitas model klasifikasi [8].

Nandang Iriadi dan Nia Nuraeni melakukan penelitian mengenai metode

klasifikasi data mining dengan algoritma C4.5. Data mining mengenai pinjaman

yang memiliki potensial besar untuk menjelajahi bagian pola yang tersembunyi

dalam sebuah data set dari domain pinjaman termasuk pinjaman kredit. Algoritma

C4.5 merupakan pengklasifikasian yang paling sederhana, mudah

diimplementasikan. Penelitian ini bertujuan untuk menerapkan algoritma C4.5

dengan seleksi atribut sehingga dapat mengurangi dimensi, serta mengidentifikasi

fitur dalam kumpulan data dengan algoritma C4.5 [9].

Heri Hidayanto dan Achmad Wahid Kurniawan melakukan penelitian

menggunakan teknik data mining dengan algoritma C4.5. Resiko kredit yang terjadi

dalam pemberian kredit, dalam halnya nasabah tidak mampu membayar pinjamann

yang diterima. Resiko utama untuk bank dan lembaga keuangan adalah

membedakan nasabah yang memiliki potensi terjadinya kredit macet, krisis ini

menjadi perhatian lembaga keuangan tentang resiko kredit. Dalam pengambilan

keputusan untuk memberikan ke pemohon digunakan prinsip The Five C’s of Credit

Analysis [10].

Deny Cahya Mahendra dan Achmad dalam penelitiannya mengenai klasifikasi

data debitur untuk menenukan kelayakan kredit dengan menggunakan metode naïve

bayes. Kredit merupakan sumber utama penghasilan dalam sebuah bank dan resiko

bisnis. Karena dalam proses pemberian kredit tidak jarang terjadi kredit macet, di

mana akan terjadi tunggakan kredit dalam masa angsuran. Data mining merupakan

teknik yang memanfaatkan data dengan jumlah yang besar untuk mendapatkan

informasi atau data yang berharga untuk mengambil keputusan yang penting. Data

mining juga terbukti digunakan dalam perbankan yang mengklasifikasi data yang

berguna dan berukuran besar. Dari hasil penelitia ini untuk menentukan kelayakan

kredit lancar atau kredit macet dan evaluasi perfomance naïve bayes [11].

Berdasarkan empat penelitian tersebut telah membahas tentang data mining

terkait klasifikasi, algoritma decision tree C4.5 dan algoritma naïve bayes.

Berdasarkan empat penelitian tersebut, maka penelitian ini memiliki beberapa

perbedaan. Perbedaan mendasar yaitu objek studi kasus yang berbeda dengan

penelitian sebelumnya, pada penelitian ini menggunakan dua algoritma decision

tree C4.5 dan algoritma naïve bayes. Penelitian ini menggunakan prinsip The Five

C’s of Credit Analysis dengan memisahkan atribut-atribut kedalam bagian yaitu

capacity, capital, collateral, condition dan character. Maka pada penelitian ini

dilakukan untuk mengetahui prosedur analisis klasifikasi pada data nasabah kredit

Bank XYZ meggunakan dua algoritma yaitu decision tree C4.5 dan naïve bayes

serta mengetahui hasil klasifikasi menggunakan decision tree C4.5 dan naïve bayes

Adapun manfaat yang diharapkan adalah membantu perusahaan untuk

mengklasifikasi data nasabah kredit Bank XYZ sebagai pertimbangan untuk

pengambilan keputusan untuk kelayakan pemberian kedit pada nasabah. Hal ini

membantu untuk menghindari terjadinya resiko kredit macet menggunakan

algoritma decision tree C4.5 dan naïve bayes.

Data mining, sering disebut sebagai Knowledge Discovery in Database (KDD).

KDD adalah kegitan yang meliputi pengumpulan, pemakaian data, historis untuk

menemukan keteraturan, pola atau hubungan dalam set data berukuran besar.

Menurut, Larose data mining dibagi menjadi beberapa kelompok berdasarkan

tugas, yaitu [12]:

1. Deskripsi

2. Estimasi

3. Prediksi

4. Klasifikasi

5. Pengklusteran

6. Asosiasi

Data mining dibagi menjadi beberapa tahap yang bersifat interaktif, pemakai

terlibat langsung dengan perantaran knowlegde base. Tahap – tahap digambarkan

pada Gambar 2.1 [13].

Gambar 2.1 Tahap-tahap data mining [13]

Tahap – tahap dalam data mining, meliputi:

1. Pembersihan data (data cleaning)

2. Integrasi data (data integration)

3. Seleksi data (data selection)

4. Transformasi data (data transformation)

5. Proses data mining

6. Evaluasi pola (pattern evaluation)

7. Presentasi pengetahuan (knowledge presentation)

Klasifikasi merupakan bagian dari algoritma data mining, klasifikasi ini adalah

algoritma yang menggunakan data dengan target (class/label) yang berupa nilai

kategorikal/nominal. Menurut Gorunescu [14] proses klasifikasi didasarkan pada

empat komponen mendasar, yaitu:

1. Kelas (Class)

Kelas merupakan variabel dependen yang berupa kategorikal yang

merepresentasikan ‘label’ yang terdapat pada objek. Contohnya: resiko

penyakit jantung, resiko kredit, customer loyalty, jenis gempa.

2. Prediktor (Predictor)

Predictor merupakan variabel independen yang direpresentasikan oleh

karakteristik (atribut) data. Contohnya: merokok, minum alkohol, tekanan

darah, tabungan, aset, gaji.

3. Pelatihan dataset (Training dataset)

Training dataset merupakan satu set data yang berisi nilai dari kedua

komponen di atas yang digunakan untuk menentukan kelas yang cocok

berdasarkan predictor.

4. Dataset pengujian (Testing dataset)

Testing dataset berisi data baru yang akan diklasifikasikan oleh model yang

telah dibuat dan akurasi klasifikasi dievaluasi.

Dalam klasifikasi terdapat beberapa metode diantaranya decision tree C4.5 dan

naïve bayes. Decision tree adalah metode klasifikasi paling terkenal karena mudah

untuk diinterpretasi oleh manusia [14]. Decision tree merupakan salah satu metode

yang dapat diterapkan pada data kredit karena dapat mengubah data seperti

pekerjaan, umur, penghasilan, dan kolektibilitas menjadi pohon keputusan dan

aturan-aturan keputusan yang kemudian dapat digunakan untuk klasifikasi nasabah

kredit berdasarkan status kelancaran. Decision tree juga dapat mem-break down

proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga

pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.

Beberapa pengembangan yang dilakukan pada C4.5 adalah antara lain dapat

mengatasi missing value, dapat mengatasi contiu data dan pruning. Algotitma C4.5

merupakan salah satu teknik decision tree yang sering digunakan, yang

menghasilkan beberapa aturan-aturan dan sebuah pohon keputusan denga tujuan

meningkatkan keakuratan dari prediksi yng sedang dilakukan, disamping itu

algoritma C4.5 merupakan algoritma yang mudah dimengerti dan dipahami.

Algoritma C4.5 dipilih untuk membangun pohon keputusan karena secara rekursif

mengunjungi setiap simpul keputusan, memilih cabang optimal, sampai tidak ada

cabang lagi yang mungkin dihasilkan.

Naïve bayes juga merupakan salah satu metode yang dapat diterapkan pada

klasifikasi nasabah kredit yang didasarkan pada teorema Bayes dengan menghitung

peluang dari satu kelas pada masing-masing kelompok atribut yang ada dan

menentukan kelas mana yang paling optimal. Hasil yang diperoleh dari perhitungan

naïve bayes dapat mengklasifikasikan nasabah kredit berdasarkan status kelancaran

3. Penerapan Algoritma C4.5 dan Naïve Bayes untuk Kelayakan Kredit

Dalam penelitian ini dilakukan tahap-tahap untuk menyelesaikan penelitian ini

agar sesuai dengan tujuan. Tahapan penelitian seperti gambar 3.1.

Gambar 3.1 Tahapan Penelitian [17]

Tahapan penelitian pada Gambar 3.1 dimulai dengan 1) tahap pertama yaitu

mengidentifikasi masalah, pada tahap ini dilakukan identifikasi permasalahan yang

terjadi pada bank XYZ. 2) Tahap kedua yaitu proses pengumpulan data, sumber

data diperolah dari bank XYZ di Jakarta yang terdiri dari satu file excel yang

merupakan data kredit nasabah berupa data peminjam yang memilik kredit macet

dan lancar. Jumlah data 21.079 dataset periode 2018. 3) Tahap ketiga merupakan

tahap preprocesing data , berikut adalah penjelasan singkat mengenai tahap

preprocesing data :

a. Pembersihan Data (Data Cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak konsisten. Pada tahap ini data-data yang memiliki isian tidak

sempurna seperti data yang tidak memiliki kelengkapan atribut yang

dibutuhkan dan data yang tidak valid dihapus dari database.

Identifikasi Masalah

Pengumpulan Data

Data Cleaning

Data Integration

Data Selection

Data Transformation

Proses Klasifikasi Menggunakan Data Mining

Dengan Algoritma decision tree C4.5 dan naïve

Hasil dan Pembahasan

Proses Data Mining

b. Integrasi Data (Data Integration)

Integrasi data merupakan proses kombinasi beberapa sumber data ke dalam

database. Pada tahap ini dilakukan penggabungan data dari berbagai

sumber untuk dibentuk penyimpanan data yang koheren.

c. Seleksi Data (Data Selection)

Seleksi data merupakan pemilihan data yang digunakan untuk proses data

mining. Data hasil seleksi yang akan digunakan untuk proses data mining,

disimpan suatu berkas dan terpisah dari basis data operasional.

d. Transformasi Data (Data Transformation)

Transformasi data merupakan proses mentransformasikan dan

mengkonsolidasikan data yang digunakan untuk proses mining. Pada tahap

ini dilakukan pengubahan format data menjadi format yang sesuai dengan

teknik data mining yang digunakan.

4) Tahap keempat yaitu tahap klasifikasi dengan menggunakan decision tree

dan naïve bayes. Decision Tree atau pohon keputusan merupakan salah satu metode

klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap

simpul internal (internal node) merupakan sebuah atribut, setiap cabang merupakan

nilai atribut, dan setiap simpul daun (leaf node) atau simpul terminal merupakan

label class, serta simpul yang paling atas adalah simpul akar (root node). Pohon

keputusan memiliki beberapa cara dalam menentukan ukuran data dalam bentuk

pohon, salah satunya adalah dengan algoritma C4.5. Algoritma C4.5 menggunakan

gain ratio sebagai penentu simpul akar, internal, dan daun. Sedangkan Naive Bayes

Classifier Bayesian Classification mengklasifikasian statistik yang bisa digunakan

dalam memprediksi probabilitas keanggotaan suatu class.Pada proses ini

menggunakan bntuan tools yaitu Rapid Miner. 5) Tahap kelima yaitu hasil dan

pembahasan, pada tahap ini menganalisa atau membahas dari hasil data yang telah

diolah. Serta pada tahap ini pengujian hasil. Pada tahap ini dilakukan pengujian

untuk membuktikan data-data yang telah dihasilakan dibantu dengan tools yaitu

Rapid Miner.

Dari beberapa atrribut yang terdapat pada data debitur di bank XYZ di Jakarta,

ini memiliki 14 atribut seperti yang sudah dijelaskan di Tabel 1. Berdasarkan

atribut dibawah ini, atribut-atribut digolongkan kedalam kategori The Five C’s of

Credit Analysis yaitu capacity, capital, collateral, condition dan character.

Capital adalah jumlah dana/modal sendiri yang dimiliki oleh calon nasabah.

Semakin besar modal sendiri dalam perusahaan atau usaha atau pendapatan dari

nasabah , tentu semakin tinggi kesungguhan calon nasabah dalam menjalankan

usahanya dan bank akan merasa akan lebih yakin dalam memberikan kredit. Dalam

hal ini capital dalam pengolahan data ini mencakup atribut penghasilan dari calon

debitur dan berapa besar pinjaman yang diterima oleh debitur dalam hal ini atribut

plafond pinjman.

Capacity adalah kemampuan yang dimiliki calon nasabah dalam menjalankan

usahanya guna memperoleh laba yang diharapkan, Kegunaan dari penilaian ini

adalah untuk mengetahui sampai sejauh mana calon nasabah mampu untuk

mengembalikan atau melunasi kewajiban debitur dengan tepat waktu dari usaha

yang diperolehnya. Capacity dapat diambil dari atribut usia, status, pendidikan,

pekerjaan dan jenis kelamin dari debitur. Selain itu besarnya angsuran juga penting

untuk mengetahui kemampuan debitur terhadapa proses pelunasan. Terdapat atribut

angsuran.

Collateral adalah barang-barang yang diserahkan nasabah sebagai angunan

terhadap kredit yang diterima. Collateral tersebut harus dinilai oleh bank untuk

mengetahui sejauh mana resiko kewajiban finansial nasabah kepada bank. Dalam

hal ini collateral yang terdapat pada atriput ialah jaminan. Jaminan berupa sertifikat

tanah atau rumah.

Condition yaitu situasi dan kondisi politik, sosial, ekonomi, budaya yang

mempengaruhi keadaan perekonomian pada suatu saat yang kemungkinannya

mempengaruhi kelancaran perusahaaan calon debitur. Dalam hal ini melibatkan

suku bunga pada atribut data yang ada. Dimana suku bunga ditetapkan berdasarkan

berapa besar pinjaman. Selain suku bunga jangka waktu pinjaman juga ditetapakan

dapat berupa lama angsuran perbulan atau tahun, termasuk dalam dua atribut jangka

waktu perbulan dan jangka waktu pertahun.

Character adalah proses penilaian masing-masing kriteria terhadap debitur.

Dalam hal ini penilaian debitur dilihat dari atribut Collect atribut ini menjelaskan

bagaimana debitur dalam upaya melunasi kewajibanya. Atribut ini di bagi menjadi

lima bagian berupa lancar, kurang lancar, dalam pengawasan, macet, dan

diragukan. Selain atribut collect atribut aman dan beresiko juga meniai tentang

character debitur. Tabel 1 Atribut pada data kredit

Usia Jangka waktu/bulan

Status Jangka waktu/tahun

Pendidikan Plafond pinjaman

Penghasilan Angsuran

Pekejaan Jaminan

Jenis Kelamin Suku Bunga

Collect Aman atau Beresiko

Tabel 1 menunjukan atribut dari data yang terdapat pada bank XYZ,

Jakarta. Dari atribut diatas akan diolah dan dianalisis. Data-data yang

dikumpulkan dikelompokkan berdasarkan atribut-atribut yang ada.

Algoritma C4.5 menggunakan konsep information gain atau enropy reduction

untuk memilih pembagian besar yang optimal. Tahapan Algoritma C4.5 adalah,

sebagai berikut [15] :

1. Mempersiapkan data training, dapat dambil data historis yang pernah

terjadi sebelumnya dan sudah dikelompokkan dalam kelas-kelas tertentu.

2. Pilih atribut sebagai akar.

Pemilihan atribut sebagai akar tidak lepas dari Entropy dan Informasi Gain.

Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai Entropy-

nya. Entropy adalah ukuran dari teori informasi yang dapat megetahui

karakteristik dan impuryt dan homogenity dari kumpulan data. Dari nilai

Entropy tersebut kemudian dihitung nilai information gain (IG) masing-

masing atribut. Entropy (S) merupakan jumlah bit yang diperkirakan

dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah

data acak pada ruang sampel S. Berdasarkan penjelasan di atas yang

dimaksud suatu kelas (+ atau -) merupakan atribut “AMAN dan

BERESIKO” untuk kelas + berupa “AMAN” dan untuk kelas - berupa

“BERESIKO” yang Entropy dapat dikatakan sebagai kebutuhan bit untuk

menyatakan suatu kelas. Semakin kecil nilai Entropy maka akan semakin

Entropy digunakan dalam mengekstrak suatu kelas. Entropy digunakan

untuk mengukur ketidakaslian S. Sistem informasi atau disebut dengan

processing system.

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2𝑝𝑖𝑛

𝑖=1

Keterangan :

S : merupakan atribut yang akan dihitung

n : jumlah dari keseluruhan kasus atau (S)

Si: jumlah kasus untuk nilai –“BERESIKO”(S1) dan + “AMAN” (S2)

-pi : proporsi Si terhadap S

pi : proporsi Si terhadap S

Bila dijabarkan untuk menyelesaikan masalah dalam penelitian berikut

maka rumus untuk menghitung entropy yaitu : 𝐸ntropy(atribut)=

(-jumlah kasus atribut "BERESIKO"

jumlah keseluruhan kasus atribut) *log2 (

jumlah kasus atribut "BERESIKO"

jumlah keseluruhan kasus atribut) +

(-jumlah kasus atribut "AMAN"

jumlah keseluruhan kasus atribut) *log2 (

jumlah kasus atribut "AMAN"

jumlah keseluruhan kasus atribut)

Information gain adalah salah satu attribute selection measure yang

digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan

informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Lorena,

2014). Gain (S,A) merupakan perolehan informasi dari atribut A relative

terhadap output data S. Perolehan informasi didapat dari output data atau

variable dependent S berupa kategori yang ada didalam setiap atribut atau

yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A)

[16] .

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑|𝑆𝑖|

|𝑆|

𝑖=1∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

Keterangan :

S : himpunan kasus total

A : atribut

n : jumlah keseluruhan atribut A

|Si| : jumlah kasus pada atribut yang akan dihitung gainnya

|S| : jumlah kasus S

maka rumus untuk menghitung gain yaitu : Gain(Total, gain atribut)=

Entropy(Total)- ((jumlah kasus pada kategori atribut

jumlah kasus keseluruhan ) *entropy dari kategori atribut)

Kemudian lakukan hal yang sama pada perhitungan dikategori per-atribut.

3. Buat cabang untuk tiap-tiap nilai.

4. Bagi kasus dalam cabang.

5. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang

memiliki kelas yang sama.

Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis dan

bukti klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label

kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti

merupakan fitur-fitur yang menjadikan masukkan dalam model klasifikasi. Jika X

adalah vektor masukkan yang berisi fitur dan Y adalah label kelas, Naïve Bayes

dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y

didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir

(posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior

probability) Y.

Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir

P(Y|X) pada model untuk setiap kombinasi X dan Y bedasarkan informasi yang

didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’

dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan nilai

P(X’|Y’) yang didapat. Formulasi Naïve Bayes untuk klasifikasi adalah [15] :

𝑃(𝑌|𝑋) =𝑃(𝑌) ∑ 𝑃(𝑋𝑖|𝑌)

𝑞𝑖=1

𝑃(𝑋)

Keterangan :

X : Data dengan class yang belum diketahui

Y : Hipotesi data merupakan suatu class spesifik

P(Y|X) : Probabilitas hipotesis Y berdasar kondisi X (Posteriori Probabilitas)

P(Y) : Probabilitas hipotesis Y (Prior Probabilitas)

P(X|Y) : Probabilitas X berdasarkan kondisi hipotesis Y

P(X) : Probabilitas X

P(Y|X) adalah probabilitas data dengan vektor X pada kelas Y. P(Y)

adalah probabilitas awal kelas Y. ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 adalah probabilitas independen

kelas Y dari semua fitur dalam vektor X. Nilai P(X) selalu tetap sehingga dalam

perhitungan prediksi nantinya kita tinggal menghitung bagian

𝑃(𝑌) ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 dengan memilih yang terbesar sebagai kelas yag dipilih

sebagai hasil prediksi. Sementara probabilitas independen ∑ 𝑃(𝑋𝑖|𝑌)𝑞𝑖=1 tersebut

merupakan pengaruh semua fitur dari data terhadap setiap kelas Y [15].

maka rumus untuk menghitung posterior yaitu :

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒

Dimana posterior adalah munculnya kelas, prior kelas sebelum masuknya

sampel, Likelihood adalah kemunculan karakteristik sampel pada kelas dan

evidence kemunculan karakteristik sampel secara global.

4. Hasil dan Pembahasan

Pengolahan awal data dengan jumlah data mentah yang diperoleh dari data

excel bank XYZ yaitu sebanyak 21.079 dataset. Data ini merupakan data kredit

periode tahun 2018. Data mentah yang telah diolah dengan beberapa tahapan

preprocesing data. Pembersihan data dilakukan terhadap data yang tidak memiliki

kelengkapan atribut dengan cara menghapus data tersebut, dengan menghapus

beberapa data yang tidak lengkap menghasilkan jumlah data sebanyak 8.888

dataset dengan jumlah data aman sejumlah 8.548 dataset dan data beresiko

sebanyak 340 dataset. Pada data kredit periode tahun 2018 ini memiliki 14 atribut

yang terdiri dari 13 atribut precdictor berupa usia, status, pendidikan, penghasilan,

pekerjan, jenis kelamin, collect, jangka waktu/tahun, jangka waktu/bulan, plafond

pinjaman, angsuran, jaminan, suku bunga dan 1 atribut tujuan yaitu atribut

penentu hasil yaitu data aman dan beresiko.

Pada tahap ini dilakukan eksperimen dan pegujian metode yang digunakan

yaitu menghitung dan mendapatkan rule-rule yang ada pada algoritma C4.5.

Langkah-langkah yang dilakukan sebagai berikut:

1. Menghitug jumlah kasus “AMAN” dan “BERESIKO” serta nilai entropy dari

semua kasus. Dari data training yang ada diketahui jumlah kasus yang

“AMAN” sebanyak 8.548 record, dan jumlah kasus yang “BERESIKO” adalah

sebanyak 340 record total kasus keseluruhan adalah 8.888 kasus. Sehingga

didapatkan entropy keseluruhan :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2𝑝𝑖𝑛

𝑖=1

= (-8548/8888 *log2(8548/8888)) + (-340/8888 * log2(340/8888))

= 0,234227949

2. Hitung nilai entropy dan nilai gain masing-masing atribut. Nilai gain tertinggi

adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.

Entropy aribut dihitung dengan rumus sebagai berikut:

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑|𝑆𝑖|

|𝑆|

𝑖=1∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

Terdapat 13 Atribut yaitu usia, status, pendidikan, penghasilan, pekerjan, jenis

kelamin, collect, jangka waktu/tahun, jangka waktu/bulan, plafond pinjaman,

angsuran, jaminan dan suku bunga.

Menghitung entropy dan nilai gain bagi atribut jangka waktu/bulan.

<= 54 = 107/8888

> 54 = 8781/8888

<= 78 = 757/8888

> 78 = 8131/8888

Atribut jangka waktu/bulan <= 54 terdiri dari 92 class “AMAN” dan 15 class

“BERESIKO”, untuk atribut jangka waktu/bulan >54 terdiri dari 8456 class

“AMAN” dan untuk 325 class “BERESIKO” untuk atribut jangka waktu/bulan

<=78 terdiri dari 713 class “AMAN” dan 44 class “BERESIKO”, untuk atribut

jangka waktu/bulan >78 terdiri dari 7830 class “AMAN” dan 296 class

“BERESIKO”.

Maka entropy untuk atribut jangka waktu/bulan adalah sebagai berikut :

E<=54 [92,15] = (-92/107*log2(92/170)) + (-15/107*log2(15/170))

= 0,584728118

E>54 [8456,325] = (-8456/8781*log2(92/8781)+

(-325/8781*log2(325/8781))

= 0,228419176

E<=78 [713,44] = (-713/757*log2(713/757)) + (-44/757*log2(44/757))

= 0,319953142

E>78 [7830,296] = (-7830/78131*log2(7830/8131)) +

(-296/78131*log2(296/8131))

= 0,22640788

E split jangka waktu/bulan = (107/8888*(0,584728118)) +

(8781/8888*(0,228419176))

= (757/8888*(0,319953142)) +

(8131/8888*(0,22640788)

Gain jangka waktu/bulan = -0,23285595

Dengan cara yang sama, dilakukan perhitungan entropy dan gain bagi

atribut lainnya yaitu berupa usia, status, pendidikan, penghasilan, pekerjan, jenis

kelamin, collect, jangka waktu/tahun, plafond pinjaman, angsuran, jaminan, suku

bunga.

Berdasarkan dari perhitungan menggunakan dua algoritma yaitu algoritma

naïve bayes dan algoritma C4.5 berikut hasildan pembahasan dari perhitungan yang

telah dilakukan.

Tabel 2 Nilai Entropy dan gain untuk penentuan root

Dari Tabel 2 dapat dilihat nilai gain tertinggi ada pada atribut plafond

pinjaman yakni 1,87379 sehingga didapat bahwa atribut plafond pinjaman adalah

akar (root) dari pohon keputusan. Kemudian dilakukan kembali perhitungan nilai

entropy dan gain untuk menentukan simpul 1.1, nilai yang dihitung berdasarkan

atribut colect berupa Untuk menetukan simpul selanjutnya, dilakukan perhitungan

nilai entropy dan gain dengan cara yang sama, sehingga diperoleh pohon keputusan

seperti di bawah ini:

Simpul Jumlah

Beresiko Aman Entropy Gain

Jumlah Kasus 8888 340 8548 0.234228

PLAFOND PINJAMAN

1.87379

<= 31.303.884,280 8884 340 8544 0.234308

> 31.303.884,280 4 0 4 0

<= 38.568.853,550 8887 340 8547 0.234248

> 38.568.853,550 1 0 1 0

<= 65.654.947,570 8887 340 8547 0.234248

> 65.654.947,570 1 0 1 0

<= 242.558.061,750 8888 340 8548 0.234228

> 242.558.061,750 0 0 0 0

<= 434.052.968,120 8888 340 8548 0.234228

> 434.052.968,120 0 0 0 0

<= 503.878.300,890 8888 340 8548 0.234228

> 503.878.300,890 0 0 0 0

<= 509.902.161,430 8888 340 8548 0.234228

> 509.902.161,430 0 0 0 0

<= 570.926.031,050 8888 340 8548 0.234228

> 570.926.031,050 0 0 0 0

<= 681.330.048,835 8888 340 8548 0.234228

> 681.330.048,835 0 0 0 0

PLAFOND PINJAMAN > 31303884.280

| COLLECT = DOUBTFUL / DIRAGUKAN: BERESIKO {AMAN=0, BERESIKO=20}

| COLLECT = LOSS / MACET: BERESIKO {AMAN=0, BERESIKO=58}

| COLLECT = PASS / LANCAR: AMAN {AMAN=8334, BERESIKO=0}

| COLLECT = SPECIAL MENTION / DALAM PENGAWASAN KHUSUS

| | PENGHASILAN > 7750000: BERESIKO {AMAN=0, BERESIKO=11}

| | PENGHASILAN ≤ 7750000

| | | JANGKA WAKTU /BLN > 54

| | | | ANGSURAN > 327399.771

| | | | | PLAFOND PINJAMAN > 681330048.835: AMAN {AMAN=3, BERESIKO=0}

| | | | | | PLAFOND PINJAMAN > 570926031.050: BERESIKO {AMAN=0, BERESIKO=5}

| | | | | | | ANGSURAN > 4196971.906: BERESIKO {AMAN=0, BERESIKO=4}

| | | | | | | | ANGSURAN > 2840174.768: AMAN {AMAN=27, BERESIKO=0}

| | | | | | | | | ANGSURAN > 2352608.514: BERESIKO {AMAN=0, BERESIKO=27}

| | | | | | | | | | | PLAFOND PINJAMAN > 503878300.890: BERESIKO {AMAN=0, BERESIKO=2}

| | | | | | | | | | | | PLAFOND PINJAMAN > 434052968.120: AMAN {AMAN=7, BERESIKO=0}

| | | | | | | | | | | | PLAFOND PINJAMAN ≤ 434052968.120: BERESIKO {AMAN=153, BERESIKO=172}

| | | | | | | | | | PLAFOND PINJAMAN ≤ 38568853.550: BERESIKO {AMAN=0, BERESIKO=2}

| | | | ANGSURAN ≤ 327399.771: AMAN {AMAN=4, BERESIKO=0}

| | | JANGKA WAKTU /BLN ≤ 54: AMAN {AMAN=5, BERESIKO=0}

| COLLECT = SUB STANDARD / KURANG LANCAR

| | JANGKA WAKTU /BLN > 78

| | | PLAFOND PINJAMAN > 65654947.570

| | | | PENGHASILAN > 4250000

| | | | | STATUS = LAJANG: BERESIKO {AMAN=1, BERESIKO=9}

| | | | | | | | | PENDIDIKAN = SMA: AMAN {AMAN=1, BERESIKO=1}

| | | | | | | | | PENDIDIKAN = UNIVERSITAS: BERESIKO {AMAN=0, BERESIKO=3}

| | | | | | | | JENIS KELAMIN = PEREMPUAN: AMAN {AMAN=2, BERESIKO=0}

| | | | | | | PLAFOND PINJAMAN ≤ 509902161.430: BERESIKO {AMAN=0, BERESIKO=5}

| | | | | | PLAFOND PINJAMAN ≤ 242558061.750: AMAN {AMAN=6, BERESIKO=0}

| | | | PENGHASILAN ≤ 4250000: AMAN {AMAN=5, BERESIKO=1}

| | | PLAFOND PINJAMAN ≤ 65654947.570: BERESIKO {AMAN=0, BERESIKO=2}

| | JANGKA WAKTU /BLN ≤ 78: BERESIKO {AMAN=0, BERESIKO=2}

PLAFOND PINJAMAN ≤ 31303884.280: BERESIKO {AMAN=0, BERESIKO=16}

Naïve bayes adalah model kedua yang akan dihitung. Langah-langkah yang

akan dilakukan adalah menghitung nilai probabilitas prior, yaitu probabilitas nilai

“AMAN” dan “BERESIKO” masing-masing atribut terdapat total kasus “AMAN”

dan “BERESIKO” dari seluruh data. Untuk menentukan kelas dari kasus baru

makan dilakukan perhitungan probabilias posterior berdasarkan probabilitas

posterior yang telah dihitung sebelumnya. Dari hasil perhitungan ini akan

menghasilkan rule atau aturan.

Tabel 3 Perhitugan nilai probabilitas prior

Atribut Jumlah

Beresiko

P(X|C(i)

P(Beresiko) P(Aman)

TOTAL 8888 340 8548 0.038253825 0.961746175

USIA <= 30 2110 49 2061 0.023222749 0.976777251

31-40 4556 196 4360 0.043020193 0.956979807

>= 41 2222 95 2127 0.042754275 0.957245725

STATUS LAJANG 8488 152 8336 0.017907634 0.982092366

MENIKAH 400 188 212 0.47 0.53

PENDIDIKAN SD 15 2 13 0.133333333 0.866666667

SMP 53 2 51 0.037735849 0.962264151

SMA 1707 79 1628 0.046280023 0.953719977

UNIVERSITAS 6374 201 6173 0.031534358 0.968465642

AKADEMI 739 56 683 0.075778078 0.924221922

PENGHASILAN <= 4.250.000 91 60 31 0.659340659 0.340659341

> 4.250.000 8797 280 8517 0.031829033 0.968170967

<= 7.750.000 8285 325 7960 0.03922752 0.96077248

>7.750.000 603 15 588 0.024875622 0.975124378

PEKERJAAN

AKUNTAN 4 0 4 0 1

DOKTER 45 0 45 0 1

IBU RUMAH TANGGA 1 0 1 0 1

KARYAWAN SWASTA 5796 224 5572 0.038647343 0.961352657

LAINNYA 67 3 64 0.044776119 0.955223881

NOTARIS 22 0 22 0 1

PEDAGANG 2464 103 2361 0.041801948 0.958198052

PEJABAT NEGARA 1 0 1 0 1

PELAJAR/MAHASISWA 52 0 52 0 1

PENGACARA 4 0 4 0 1

PENGUSAHA JASA 200 6 194 0.03 0.97

PENGUSAHA PABRIKAN 11 0 11 0 1

PENSIUNAN 1 0 1 0 1

PROFESIONAL LAINNYA 185 4 181 0.021621622 0.978378378

SENIMAN 3 0 3 0 1

TNI/POLRI 4 0 4 0 1

JENIS KELAMIN LAKI-LAKI 6186 224 5962 0.036210799 0.963789201

PEREMPUAN 2702 116 2586 0.042931162 0.957068838

COLLECT PASS/LANCAR 8334 0 8334 0 1

SUB STANDARD/KURANG

LANCAR

45 30 15 0.666666667 0.333333333

SPECIAL MENTION/DALAM

PENGAWASAN KHUSUS

429 230 199 0.536130536 0.463869464

LOSS/MACET 59 59 0 1 0

DOUBTFUL/DIRAGUKAN 21 21 0 1 0

JANGKA WAKTU

/ BULAN

<= 54 107 15 92 0.140186916 0.859813084

> 54 8781 325 8456 0.03701173 0.96298827

<= 78 757 44 713 0.058124174 0.941875826

>78 8131 296 7830 0.036403886 0.962981183

ANGSURAN <= 327.399,773 7 3 4 0.428571429 0.571428571

> 327.399,773 8881 337 8544 0.037946177 0.962053823

<= 2.352.608,514 6348 266 6082 0.041902962 0.958097038

> 2.352.608,514 2540 74 2466 0.029133858 0.970866142

<= 2.840.170,768 7453 307 7146 0.041191467 0.958808533

> 2.840.170,768 1435 33 1402 0.022996516 0.977003484

<= 4.196.971,906 8363 322 8041 0.03850293 0.96149707

> 4.196.971,906 525 18 507 0.034285714 0.965714286

PLAFOND

PINJAMAN

<= 31.303.884,280 8884 340 8544 0.038271049 0.961728951

> 31.303.884,280 4 0 4 0 1

<= 38.568.853,550 8887 340 8547 0.03825813 0.96174187

> 38.568.853,550 1 0 1 0 1

<= 65.654.947,570 8887 340 8547 0.03825813 0.96174187

> 65.654.947,570 1 0 1 0 1

<= 242.558.061,750 8888 340 8548 0.038253825 0.961746175

> 242.558.061,750 0 0 0

<= 434.052.968,120 8888 340 8548 0.038253825 0.961746175

> 434.052.968,120 0 0 0

<= 503.878.300,890 8888 340 8548 0.038253825 0.961746175

> 503.878.300,890 0 0 0

<= 509.902.161,430 8888 340 8548 0.038253825 0.961746175

> 509.902.161,430 0 0 0

<= 570.926.031,050 8888 340 8548 0.038253825 0.961746175

> 570.926.031,050 0 0 0

<= 681.330.048,835 8888 340 8548 0.038253825 0.961746175

> 681.330.048,835 0 0 0

SUKU BUNGA 8.50% 76 6 70 0.078947368 0.921052632

8.75% 572 12 560 0.020979021 0.979020979

9.00% 8240 322 7918 0.03907767 0.96092233

Untuk menentukan kelas dari kasus baru maka dilakukan perhitungan

probabilitas posterior berdasarkan probabilitas prior yang telah dihitung

sebelumnya dan telah disajikan pada tabel 3. Perhitungan probabilitas posterior

untuk menentukan data testing termasuk klasifikasi yang mana, sebagai contoh

diambill kasus seperti tabel 4 berikut dimana X tersebut adalah data yang akan

diprediksi hasilnya. Tabel 4 Perhitungan nilai probabilitas prior

Atribut Nilai Beresiko Aman

Usia 31-40 0.043020193 0.956979807

Status Menikah 0.47 0.53

Pendidikan SD 0.133333333 0.866666667

Penghasilan <=4.250.000 0.659340659 0.340659341

Pekerjaan Lainnya 0.044776119 0.955223881

Jenis Kelamin Perempuan 0.042931162 0.957068838

Collect Lancar 1 1

Jangka waktu/bln <=54 0.140186916 0.859813084

Angsuran <=327.399,773 0.428571429 0.571428571

Plafond pinjaman <=31.303.884,280 0.038271049 0.961728951

Suku bunga 8.50% 0.078947368 0.921052632

Berdasarkan nilai probabilitas prior masing-masing atribut yang telah

dihitung pada tabel 4 maka dapat dilihat rule yang akan di peroleh untuk atribut

diatas seperti berikut ini :

1. Hitung probabilitas “BERESIKO” untuk setiap atribut

P(BERESIKO)P(Usia 31-40)P(Status Menikah)P(Pendidikan

SD)P(Penghasilan <=4.250.000)P(Pekerjaan Lainnya)(Jenis Kelamin

Perempuan)P(Collect Lancar)P(Jangka Waktu /bln <=54)P(Angsuran

<= 327.399.773)P(Plafond Pinjaman <=31.303.884,280)P(Suku Bunga

8.50%)

2. Hitung probabilitas “AMAN” untuk setiap atribut

P(AMAN)P(Usia 31-40)P(Status Menikah)P(Pendidikan

SD)P(Penghasilan <=4.250.000)P(Pekerjaan Lainnya)(Jenis Kelamin

Perempuan)P(Collect Lancar)P(Jangka Waktu /bln <=54)P(Angsuran

<= 327.399.773)P(Plafond Pinjaman <=31.303.884,280)P(Suku Bunga

8.50%)

3. Bandingkan hasil dari probabilitas “BERESIKO” dan “AMAN”

Probabilitas “BERESIKO” = 6.20264E-10

Probabilitas “AMAN” = 0.059580278

Dengan algoritma naïve bayes berikut hasil analisis. Dikarenakan

0.059580278 > 6.20264E-10, maka dapat disimpulkan bahwa data testing tesebut

diklasifikasi “AMAN”.

Rule 1: Jika Probabilitas “AMAN” lebih besar dari probabilitas “BERESIKO”

maka hasil adalah “AMAN”.

Rule 2: Jika Probabilitas “BERESIKO” lebih besar dari probabilitas “AMAN”

maka hasil adalah “BERESIKO”.

Berdasarkan dari analisa pengujian masing-masing algoritma, maka

pengujian untuk model C4.5 dan naïve bayes ini menggunakan aplikasi RapidMiner

seperti berikut.

Setelah data diolah maka dapat diuji tingkat akurasinya untuk melihat

kinerja dari metode Algoritma C4.5. Penelitian ini bertujuan untuk melihat akurasi

analisi data kredit,menilai kemungkinan aman dan beresikonya pada debitur

sebagai kelayakn kredit. Pengujian tingkat akurasi dilakukan dengan menggunakan

confussion matrix dan kurva ROC/AUC (Area Under Cover). Tabel 5 merupakan

hasil perhitungan akurasi data training menggunakan Algoritma C4.5. Diketahui

tingkat akurasi 98,01%. Dari 8.888 data sebanyak 8.386 data diprediksikan sesuai

yaitu 8.386 data “AMAN” dan 15 data yang diprediksikan “AMAN” tetapi ternyata

“BERESIKO”. Dan sebanyak 162 data diprediksikan “BERESIKO” ternyata

termasuk klasifikasi “AMAN” dan sebanyak 325 data diprediksi sesuai yaitu

“BERESIKO”. Tabel confusion matrix disajikan pada tabel 5 dan gambar 4.1

adalah grafik AUC (Area Under Cover) dari model Algoritma C4.5 yaitu 0.999.

Garis horizontal adalah false positif dan garis vertikal false negatif. Tabel 5 Confussion Matrix algoritma C4.5

true AMAN true BERESIKO class precision

pred. AMAN 8386 15 99.82%

pred. BERESIKO 162 325 66.74%

class recall 98.10% 95.59%

Gambar 4.1 Gambar AUC (Area Under Cover) Algoritma C4.5

Tabel 4 merupakan hasil perhitungan akurasi data training menggunakan

naïve bayes. Diketahui tingkat akurasinya 97,36 % . Dari 8.888 data sebanyak 8.375

data diprediksikan sesuai yaitu 8.375 data “AMAN” dan 62 data yang diprediksikan

“AMAN” tetapi ternyata “BERESIKO”. Dan 173 data diprediksikan “BERESIKO”

ternyata temasuk klasifikasi “AMAN” dan sebanyak 278 data diprediksikan sesuai

yaitu “BERESIKO”. Tabel 5 confusion matrix disajikan pada tabel 6 dan gambar

4.2 adalah grafik AUC (Area Under Cover) dari model naïve bayes yaitu 0.990.

Garis horizontal adalah false positif dan garis vertikal false negatif Tabel 6 Confussion Matrix algoritma naïve bayes

true AMAN true BERESIKO class precision

pred. AMAN 8375 62 99.27%

pred. BERESIKO 173 278 61.64%

class recall 97.98% 81.76%

Gambar 4.2 Gambar AUC (Area Under Cover) Algoritma Naïve Bayes

Dari hasil analisa untuk kedua algoritma C4.5 dan algoritma naïve bayes

yang telah dipakai maka banyak hal yang dapat dianalasis melalui pengolahan data

kredit yang telah diolah. Mengenai data yang telah diolah dan dari hasil pohon

keputusan dengan agoritma C4.5 dengan plafond pinjaman >31.303.884,280 yang

memiliki collect macet dan diragukan sebanyak 80 data dikategorikan sebagai

debitur “BERESIKO”. Berdasarkan proses analisa terhadap 80 data yang

dikategorikan “BERESIKO”. Berdasarkan data real pada atribut status dari debitur

semua status debitur merupakan menikah dengan rata-rata penghasilan setiap bulan

dari beberapa nasabah < 7.000.000, beberapa debitur ini mendapat plafond

pinjaman yang besar. Dari hasil analisa berikut untuk debitur dengan status sudah

menikah dan besar pendapatan debitur dapat diperhitungkan lagi, guna mengetahui

berapa jumlah pinjaman yang dapat diberikan terhadap debitur dengan melihat rule

dari pohon keputusan dan rule dari naïve bayes yang ada. Sehingga dengan

perhitungan yang tepat, maka bank dapat meminimalisir terjadinya kredit macet.

Selain debitur “BERESIKO” terdapat juga debitur dengan kategori

“AMAN” berdasarkan pohon keputusan, sebanyak 8834 data dikategorikan sebagai

debitur “AMAN” berdasarkan data real yang diolah semua debitur yang

dikategorikan “AMAN” merupakan debitur yang memiliki collect dengan status

“LANCAR” dengan melihat hal ini dipastikan bila debitur dengan collect status

“LANCAR” dkategorikan kedalam debitur “AMAN” dengan rule naïve bayes.

Berdasarkan dengan hal ini maka sangat penting bagi pihak bank untuk

menawarkan kembali produk-produk pinjaman bagi kaegori nasabah berikut, guna

mendapatkan calon debitur dengan kemungkinan untuk terjadinya kredit macet

sangat kecil. Dari beberapa atribut yang dianalisis debitur dengan usia dibawah 40

tahun masih dapat diberi pinjaman serta debitur dengan pendapatan >7.000.000

banyak mendapat predikat lancar dalam mengangsur kewajibannya.

Debitur dengan collect kurang lancar ini berdasarkan data real sebanyak 45

data. Debitur ini dikategorikan menjadi dua kategori yaitu “AMAN” dan

“BERESIKO”. Berdarkan 45 data real yang telah dianalisa jumlah kategori

“BERESIKO” lebih banyak dari pada kategori “AMAN” . Kategori “BERESIKO”

dari plafond pinjaman yang besar dan angsuran yang cukup besar yang dibayarkan

perbulan, hal ini menjadi bahan evaluasi untuk peberian plafond pinjaman dan

angsuran yang sudah ditetakan. Bank juga perlu melihat beberaap hal penunjang

seperti pekerjaan debitur, usia debitur dan status debitur sebagai bahan

pertimbangan kelayakan pemberian kredit, sehingga meminimalisir terjadinya

kredit macet dikarenakan jumlah pinjaman yang besar dan angsran yang dibayarkan

perbulan terlalu besar.

Berdasarkan pohon keputusan debitur dengan collect dalam pengawasan

khusus maka sebanyak 429 debitur dikategorikan “AMAN “ dan “BERESIKO”

rata-rata debitur dengan collect dalam pengawasan khusus merupakan debitur yang

memiliki suku bunga sebesar 9.00 % dalam artian pinjaman ini merupakan

pinjaman dengan masa angsuran yang panjang dan plafond pinjaman yang besar,

bagai debitur dengan kategori “AMAN” perlu menawarkan produk dengan

pembayaran angsuran dalam jangka pendek, sedangan untuk debitur dengan

kategori “BERESIKO” berdasarkan pohon keputusan perlu memperhatikan

plafond pinjaman dan angsuran yang diberikan kepada debitur lagi, sebagai bahan

evaluasi atas kelayakan debitur mendapat pinjaman dan meminimalisir terjdainya

kredit macet.

Hasil dari perhitungan dengan menggunakan algoritma C4.5 dan algoritma

naïve bayes ini juga dapat menjadi bahan seleksi debitur yang atributnya telah

dipisahkan kedalam The Five C’s of Credit Analysis. Memisahkan atribut-atribut

kedalam bagian yaitu capacity, capital, collateral, condition dan character..

Berdasarkan pohon keputusan dari algoritma C4.5. Plafond pinjaman dan collect

menerupakan nilai gain tertinggi. Mengenai hal ini maka plafond pinjaman

termasuk dalam bagian capacity, dengan besar plafond pinjaman ≤ 31.303.884,280

merupakan pinjaman “BERESIKO” hal ini dapat menjadi saran bagi pihak bank

XYZ melihat capacity dari debitur yang akan mendapat pinjaman. Plafond

pinjaman diberikan berdasarkan perhitungan dari penghasilan calon debitur serta

anggunan yang diajukan kepada pihak bank. Hal ini dapat menjadi pertimbangan

pihak bank untuk memberikan plafond pinjaman yang tepat bagi calon debitur yang

akan menerima pinjaman dari bank. Sehingga dapat mengurangi kredit beresiko.

Selain perhitungan plafond pinjaman, collect juga dapat menjadi pertimbangan

dalam pemberian kredit yang layak bagi calon debitur, collect masuk dalam atribut

dengan kategori character. Collect sendiri merupakan status debitur yang telah

mendapat pinjaman, status ini berupa kesanggupan dari debitur dalam membayar

cicilan yang setiap bulannya, dibagi menjadi lima status. Mengenai hal ini

berdasarkann hasil analisi collect dengan status macet, diragukan dan dalam

pengawasan khusus harus menjadi perhatian pihak bank, guna menghindari

terjadinya debitur yang kredit macet dan tidak dapat mengembalikan pinjaman.

Berikut ini adalah pengujian perfomance dengan menggunakan Confusion

Marix dan ROC Curve. Berdasarkan dari analisa pengujian masing-masing

algoritma di atas maka dapat dirangumkan hasilnya sebagai berikut pada tabel 7 :

Tabel 7 Perbandingan Perfomance Metode

C4.5 Naïve Bayes

Accuracy 98,01% 97,36 %

AUC 0.999 0.990

Performance keakurasian AUC (Gorunescu, 2010) dapat diklasifikasikan

menjadi lima kelompok yaitu [14] :

1. 0,90 – 1,00 = Exellent Classification

2. 0,80 – 0,90 = Good Classification

3. 0,70 – 0,80 = Fair Classification

4. 0,60 – 0,70 = Poor Classification

5. 0,50 – 0,60 = Failure Classification

Berdasarkan klasifikasi tersebut maka dapat disimpulkan bahwa Algoritma

C4.5 dan Naïve Bayes termasuk algoritma yang akurat untuk memprediksi

kelayakan kredit karena nilai AUC termasuk dalam predikat Exellent Classification

(0,90-1,00).

5. Kesimpulan dan Saran

Dari hasil penelitian yang telah dilakukan pada data kredit debitur maka

dapat disimpulkan bahwa metode klasifikasi data mining Algoritma C4.5

menghasilkan akurasi 98,01% dan nilai AUC 0,999 yang termasuk dalam Excellent

Classification. Naive Bayes menghasilkan akurasi 97,36% dan nilai AUC 0,990.

Dengan demikian dapat disimpulkan bahwa kedua metode ini akurat dalam

melakukan prediksi untuk data kredit.

Melihat dari hasil perbandingan kedua algoritma tersebut memang dapat

dinyatakan bahwa Algoritma C4.5 lebih unggul dari Naive Bayes karena memiliki

nilai AUC 0,999 dengan kategori Excellent Clasification.

Akan tetapi jika ditelusuri lebih lanjut ternyata masih belum bisa dinyatakan

sebagai algoritma yang lebih unggul. Menurut pengujian berdasarkan Accuracy,

algoritma terbaik adalah Naive Bayes. Sedangkan menurut pengujian berdasarkan

ROC Curve (AUC) algoritma yang terbaik adalah Algoritma C4.5. Agar penelitian

ini bisa ditingkatkan berikut ini adalah saran-saran untuk mendapatkan hasil yang

lebih baik:

1. Penelitian ini dapat dikembangkan lebih lanjut dengan melakukan uji

statistik dengan menggunakan uji T-Test dengan membandingkan kedua

algoritma untuk melihat algoritma mana yang lebih dominan atau signifikan

berdasarkan nilai probabilitas.

2. Penelitian ini dapat dikembangkan dengan metode optimasi seperti GA

(Genetic Algorithm) dan lainnya untuk meningkatkan akurasi dari metode.

3. Penelitian ini dapat dikembangkan lagi dengan membandingkan dengan

metode lainnya seperti Neural Network, KNN, dan lain-lain.

4. Tidak semua kasus atau permasalahan harus diselesaikan dengan satu

algoritma pada data mining. Karena belum tentu algoritma yang digunakan

merupakan algoritma yang paling akurat. Oleh karena itu untuk

menentukkan algoritma yang paling akurat ini perlu dilakukan komparasi

beberapa algortima.

6. Daftar Pustaka

[1] Rafika Lihani, Ngadiman, Nurhasan Hamidi, “Analisis Manajemen Kredit

Guna Meminimalkan Risiko Kredit (Studi pada PD BPR BKK Tasikmadu

Karanganyar),” Jupe UNS, Vol 1, No. 3 Hal 1 s/d 11, Juli, 2013.

[2] Bustami, "Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data

Nasabah Asuransi," TECHSI, vol. III, pp. 11-14, Oktober 2014.

[3] Cahyani Damayanti, "Manfaat Laporan Keuangan Debitur Perusahaan

Dagang Sebagai Bahan Pertimbangan Dalam Efektivitas Pengambilan

Keputusan Pemberian Kredit Investasi," bandung, 2007.

[4] Rina Fiati & Putri Kurnia Handayani. (2015). Model Klasifikasi Kelayakan

Kredit Koperasi Karyawam Berbasis Dcision Tree. Prosiding SNATIF Ke-2.

Universitas Muria Kudus.

[5] Thamrin Abdullah dan Francis Tantri, 2012 Bank dan Lembaga Keuangan,

Ed.1-1, Jakarta, Penerbit: Rajawali Pers.

[6] Santosa, B., 2007,Data Mining Teknik Pemanfaatan Data untuk Keperluan

Bisnis. Yogyakarta: Graha Ilmu.

[7] Kusrini & Emha Taufiq Luthfi. (2009). Algoritma Data Mining. Yogyakarta:

[8] Kholifah, Ahadiyah Nurul dan Nur Insani.2016.“Analisi Klasifikasi Pada

Nasabah Kredit Koperasi X Menggunakan Decision Tree C4.5 dan Naïve

Bayes”.Program Studi Matematika Universitas UNY. Yogyakarta.

[9] Nuraeni Nia dan Nandang Iriadi .2016. “Kajian Penerapan Model Klasifikasi

Data Mining Algoritma C.5 untuk Prediksi Kelayakan Kredit Pada Bank

Mayapada Jakarta”. Jurnal Teknik Komputer AMIK BSI Vol. II No.1

Februari 2016. Jakarta.

[10] Hidayanto Heri dan Achmad Wahid Kurniawan.2016. “Klasifikasi Kelayakan

Kredit Calon Debitur Bank Menggunakan Algoritma Decision Tree C4.5 ”.

Jurnal Teknik Komputer Informatika Universitas Dian Nuswantoro.

Semarang.

[11] Mahendra Deny Cahya .2015. “Klasifikasi Data Debitur untuk Menentukan

Kelayakan Kredit dengan Menggunakan Metode Naïve Bayes”. Dian

Nuswantoro, Semarang

[12] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data

Mining, Hoboken: John Wiley & Sons Inc., 2005.

[13] Han, J. dan M. Kamber. 2006. Data aMining: Concepts and Techniques,

Second Edition. Morgan Kaufmann Publishers. San Francisco.

[14] F. Gorunescu, Data Mining Concept Model Technique, Craiova, Romania:

Springer, 2011.

[15] Dwi Septiani, Wisti.2017. “Komparasi Metode Klasifikasi Data Mining

Algoritma C4.5 dan Naïve Bayes untuk Prediksi Penyakit Hepatitis”. Jurnal

Pilar Nusa Mandiri Volume 13 No.1, Maret 2017. AMIK BSI Jakarta.

[16] Evaluasi Algoritma Untuk Klasifikasi Nasabah Kredit Bank "X"

Menggunakan Beberapa Algoritma Klasifikasi. Marcos, Hendra dan

Hidayah, Indriana. 2014, Seminar Nasional Teknologi Informasi dan

Multimedia ISSN : 2302-3805, Vol. 2.02, hal. 31-36.

[17] Hasibuan, Z (2007). “Metodologi Penelitian pad Bidang Ilmu Komputer dan

Teknologi Informasi”. Jakarta : Fakultas Ilmu Komputer Universitas

Indonesia.

Klasifikasi Data Debitur untuk Menentukan Kelayakan Kredit ......Klasifikasi Data Debitur untuk...

Documents

Monitoring Debitur Bhi

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK ...eprints.dinus.ac.id/18761/2/jurnal_17742.pdf · KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK MENGGUNAKAN ALGORITMA DECISION TREE

Page 1 KLAUSULA-KLAUSULAYANG MERUGIKAN DEBITUR

ANALISIS KARAKTER DEBITUR

ANALISIS KELAYAKAN KREDIT CALON DEBITUR SEBAGAI …

KLASIFIKASI KELAYAKAN KREDIT CALON DEBITUR BANK ...eprints.dinus.ac.id/18218/2/jurnal_17742.pdf · peneliti di bidang mesin pembelajaran ... 4.1 Pembersihan Data Atau Data ... Pengujian

FAKTOR-FAKTOR YANG DIPERTIMBANGKAN DEBITUR …

analisis pengaruh kualitas pelayanan dengan kepuasan debitur

TANGGUNG JAWAB DEBITUR TERHADAP BENDA JAMINAN …

Memahami Kebutuhan Kredit Debitur

PENYELESAIAN DEBITUR WANPRESTASI DENGAN …

TINJAUAN YURIDIS PERBUATAN MELAWAN HUKUM DEBITUR …

ANALISIS PENYELESAIAN DEBITUR GAGAL BAYAR DALAM …

SISTEM INFORMASI DEBITUR (SID) BANK INDOENSIA SEBAGAI …

KLASIFIKASI PERKHIDMATAN : PERTANIAN · 2016. 6. 22. · (c) (i) Sijil Pertanian yang diiktiraf oleh Kerajaan daripada institusi latihan tempatan atau kelayakan yang setaraf dengannya

ANALISIS HUBUNGAN RASIO LAPORAN KEUANGAN DEBITUR …

ANALISIS LAPORAN KEUANGAN DEBITUR SEBAGAI BAHAN

PERTANGGUNGJAWABAN PIDANA DEBITUR DALAM KASUS …

Sistem Informasi Debitur

Pedoman Penyusunan Laporan Debitur Melalui Sistem Layanan