ANALISA DATA MINING UNTUK SEGMENTASI DAERAH …

ANALISA DATA MINING UNTUK SEGMENTASI DAERAH PRIORITAS

PENERIMA VAKSIN COVID-19 MENGGUNAKAN ALGORITMA K-

MEANS PADA PROVINSI JAWA BARAT

Riki Hermawan

Program StudiTeknik Informatika, Universitas Pelita BangsaJl. Inspeksi Kalimalang Tegal

Danas Arah DELTAMAS,Cikarang Pusat-Kab. Bekasi, Indonesia

[email protected]

ABSTRAK

Coronavirus merupakan suatu kelompok virus yang dapat menyebabkan penyakit pada hewan atau

manusia. Model algoritma K-Means yang diterapkan menunjukkan sebuah pengetahuan dan perspektif

baru, dengan mengelompokkan kota atau kabupaten Provinsi Jawa Barat berdasarkan tiga klaster, yakni

klaster satu (C0) merupakan tingkat prioritas tinggi yang terdiri dari enam kota atau kabupaten, klaster

dua (C1) adalah prioritas utama yang terdiri dari sembilan belas kota atau kabupaten, dan klaster tiga

(C2) yakni prioritas rendah yang hanya terdiri dari dua kota atau kabupaten. Pengujian menggunakan

aplikasi RapidMiner Studio menghasilkan wawasan yang serupa yaitu masing-masing klaster memiliki

anggota kelompok yang terbagi menjadi tiga klaster, yaitu (C0) dengan anggota kelompok klaster

sebanyak enam data, dan (C1) dengan anggota klaster sebanyak Sembilan belas data serta (C2) sebanyak

dua data. Masing-masing klaster memiliki nilai optimal pada klaster pertama (C0) yakni 2.433.388 dan

2.002.647,33, klaster kedua (C1) adalah 607.842,42 dan 476.223,47, dan klaster ketiga (C2) adalah

6.269.200,5 dan 5.372.599, dengan nilai evaluasi Davies-Bouldin Index untuk model algoritma yang

dijalankan adalah sebesar 0,322.

I. Pendahuluan

Coronavirus merupakan suatu kelompok

virus yang dapat menyebabkan penyakit

pada hewan atau manusia. Jenis

coronavirus diketahui menyebabkan

infeksi saluran nafas pada manusia mulai

dari batuk pilek hingga yang lebih serius

seperti Middle East Respiratory Syndrome

(MERS) dan Severe Acute Respiratory

Syndrome (SARS) [1]. Penularan Covid-19

juga dapat terjadi jika orang menghirup

percikan batuk atau orang yang terjangkit

Covid-19. Penting bagi kita untuk menjaga

jarak lebih dari 1 meter dari orang yang

sakit. Penyebaran pandemi Covid-19

semakin pesat salah satu masyarakat Jawa

Barat yang terinfeksi pandemi Covid-19.

Vaksin Covid-19 merupakan bentuk

mailto:[email protected]

pencegahan yang berfungsi mendorong

pembentukan kekebalan tubuh spesifik

pada penyakit Covid-19 agar terhindar dari

Covid-19 atau kemungkinan sakit berat.

Data mining adalah salah satu bentuk

implementasi yang diterapkan untuk

mencari sebuah model dan pola yang

mampu melakukan prediksi pada suatu

data berdasarkan data sebelumnya di

periode waktu tertentu. Data mining

merupakan bentuk penggalian data yang

digunakan untuk menggali pengetahuan

dari jumlah data yang besar. Algoritma

yang digunakan dalam teknik data mining

yang memakai teori klasterisasi adalah K-

Means merupakan teknik klaster

pemodelan tanpa supervisi (unsupervised)

dan merupakan salah satu metode yang

melakukan pengelompokan data dengan

sistem partisi.

II. Landasan Teori

2.1 Virus Corona

Virus corona merupakan zoonosis,

sehingga terdapat kemungkinan virus

berasal dari hewan dan ditularkan ke

manusia. Pada Covid-19 belum diketahui

dengan pasti proses penularan dari hewan

ke manusia, tetapi data filogenetik

memungkinkan, Covid-19 juga merupakan

zoonosis [4]. Perkembangan data

selanjutnya menunjukkan penularan antar

manusia (human to human), yaitu

diprediksi melalui droplet dan kontak

dengan virus yang dikeluarkan dalam

droplet. Hal ini sesuai dengan kejadian

penularan kepada petugas kesehatan yang

merawat pasien Covid-19, disertai bukti

lain penularan di luar Cina dari seorang

yang datang dari Kota Shanghai, Cina ke

Jerman dan diiringi penemuan hasil positif

pada orang yang ditemui dalam kantor.

Pada laporan kasus ini bahkan dikatakan

penularan terjadi pada saat kasus indeks

belum mengalami gejala (asimtomatik)

atau masih dalam masa inkubasi. Laporan

lain mendukung penularan antar manusia

adalah laporan sembilan kasus penularan

langsung antar manusia di luar Cina dari

kasus index ke orang kontak erat yang

tidak memiliki riwayat perjalanan

manapun. dua, sebelas penularan ini

terjadi umumnya melalui droplet dan

kontak dengan virus kemudian virus dapat

masuk ke dalam mukosa yang terbuka.

Suatu analisis mencoba mengukur laju

penularan berdasarkan masa inkubasi,

gejala dan durasi antara gejala dengan

pasien yang diisolasi. Analisis tersebut

mendapatkan hasil penularan dari satu

pasien ke sekitar tiga orang di sekitarnya,

tetapi kemungkinan penularan di masa

inkubasi menyebabkan masa kontak

pasien ke orang sekitar lebih lama

sehingga risiko jumlah kontak tertular dari

satu pasien mungkin dapat lebih besar [5].

2.2 Data Mining

Data mining adalah sebuah proses

pencarian secara otomatis informasi yang

berguna dalam tempat penyimpanan data

berukuran besar. Data mining adalah

analisa terhadap data untuk menemukan

hubungan yang jelas serta

menyimpulkannya yang belum diketahui

sebelumnya dengan cara terkini dipahami

dan berguna bagi pemilik data tersebut [6].

Data Mining adalah proses yang

mempekerjakan satu atau lebih teknik

pembelajaran komputer (Machine

Learning) untuk menganalisis dan

mengekstraksi pengetahuan (Knowledge)

secara otomatis. Definisi lain diantaranya

yaitu pembelajaran berbasis induksi

(Induction-based learning) adalah proses

pembentukan definisi-definisi konsep

umum yang dilakukan dengan cara

mengobservasi contoh-contoh spesifik

dari konsep-konsep yang akan dipelajari

[7].

Data Mining dibagi menjadi beberapa

kelompok berdasarkan tugas yang dapat

dilakukan yaitu [7]:

1. Deskripsi (Description)

Terkadang peneliti dan analisis secara

sederhana ingin mencoba mencari cara

untuk menggambarkan pola dan

kecenderungan yang terdapat dalam data.

Sebagai contoh, petugas pengumpulan

surat suara mungin tidak dapat

menemukan keterangan atau fakta bahwa

siapa saja yang tidak cukup profesional,

maka akan sedikit didukung dalam

pemilihan presiden. Deskripsi dari pola

dan kecenderungan sering memberikan

kemungkinan untuk suatu pola atau

kecenderungan.

2. Estimasi (Estimation)

Estimasi hampir sama dengan

klasifikasi, kecuali variabel target estimasi

lebih ke arah numerik dari pada kearah

kategori. Model dibangun menggunakan

record lengkap yang menyediakan nilai

dari variabel target sebagai nilai prediksi.

Selanjutnya, pada peninjauan berikutnya

estimasi nilai dari variabel target dibuat

berdasarkan nilai variabel prediksi.

Sebagai contoh yaitu estimasi nilai indeks

prestasi kumulatif mahasiswa program

pasca sarjana dengan melihat nilai indeks

prestasi mahasiswa tersebut pada saat

mengikuti program sarjana.

3. Prediksi (Prediction)

Prediksi hampir sama dengan klasifikasi

dan estimasi, kecuali bahwa dalam

prediksi nilai dari hasil akan ada dimasa

mendatang. Contoh prediksi dalam bisnis

dan penelitian diantaranya seperti prediksi

harga beras dan tiga bulan yang akan

datang, prediksi tingkat pengangguran

lima tahun yang akan datang, dan prediksi

persentase kanaikan kecelakaan lalu lintas

tahun depan jika batas bawah kecepatan

dinaikan.

4. Klasifikasi (Classification)

Dalam klasifikasi terdapat target variabel

kategori. Sebagai contoh, penggolongan

pendapatan dapat dipisahkan dalam tiga

kategori, yaitu pendapatan tinggi,

pandapatan sedang, dan pendapatan

rendah.

5. Pengklusteran (Clustering)

Pengklusteran merupakan pengelompokan

record, pengamatan, atau memperhatikan

dan membentuk kelas objek-objek yang

memiliki kemiripan. Kluster adalah

kumpulan record yang memiliki

kemiripan antara yang satu dengan yang

lainnya dan memiliki ketidakmiripan

dengan record dalam kluster lain.

Pengklusteran berbeda dengan klasifikasi

yaitu tidak adanya variabel target dalam

pengklusteran. Pengklusteran tidak

mencoba untuk melakukan klasifikasi,

mengestimasi, atau memprediksi nilai dari

varabel target. Akan tetapi, algoritma

pengklusteran mencoba untuk melakukan

pembagian terhadap keseluruhan data

menjadi kelompok-kelompok yang

memiliki kemiripan (hommogen), yang

mana kemiripan record dalam satu

kelompok akan bernilai maksimal,

sedangkan kemiripan dengan record

dalam kelompok lain akan bernilai

minimal.

6. Asosiasi (Association)

Tugas asosiasi dalam data mining adalah

menemukan atribut yang muncul dalam

satu waktu. Dalam dunia bisnis lebih

umum disebut analisis keranjang belanja.

Contoh asosiasi dalam bisnis penelitian

adalah:

a. Meneliti jumah pelanggan dari

perusahaan telekomunikasi seluler

yang diharapkan untuk memberikan

respon positif terhadap penawaran

upgrade layanan yang diberikan.

b. Menemukan barang dalam

supermarket yang dibeli secara

bersamaan dan barang yang tidak

pernah dibeli secara bersamaan.

2.3 Tahap Tahap Data Mining

Data mining merupakan suatu bidang

ilmu pengetahuan yang digunakan untuk

mengeksplorasikan terkait dengan

sejumlah pengetahuan yang tersembunyi

dalam suatu database. Data mining

merupakan suatu proses yang didalamnya

melibatkan teknik matematik, statistik,

machine learning, dan kecerdasan buatan

untuk mengidentifikasi berbagai macam

informasi berupa knowladge yang

bersumber dari database dalam ukuran

yang sangat besar [8].

Data mining juga sering disebut dengan

istilah Knowladge Discovery in Database

(KDD) yang artinya menggali,

mengumpulkan, menemukan, menambang

database dalam jumlah yang besar.

Kenyataannya data mining dan KDD

merupakan dua konsep yang berbeda,

namun keduanya memiliki keterkaitan

satu dengan yang lain. Keterkaitan

tersebut dapat dibuktikan dalam tahapan

KDD yaitu adanya proses data mining [9].

Gambar 2. 1 Tahapan Knowladge

Discovery in Database. (D. Nofriansya,

2017 )

Berdasarkan gambar 2.1 dapat

dijelaskan tahapan-tahapan yang dimiliki

KDD sebagai berikut:

1. Data Selection

Memasuki tahapan KDD yang pertama

yaitu penyeleksian data dari sekumpulan

data operasional. Kemudian data yang

telah terseleksi akan ditempatkan ke dalam

berkas berbeda dari data awal yang akan

dibutuhkan pada proses data mining.

2. Pre-processing

Sebelum melalui proses data mining, perlu

dilakukan proses preprocessing atau

cleaning pada data yang sudah ditargetkan

dalam KDD. Proses cleaning itu sendiri

yaitu pemeriksaan data yang tidak

konsisten. Pembuangan data yang

terduplikasi, perbaikan data yang salah

seperti salah ketik. Hal yang dilakukan

agar dapat menciptakan hasil data atau

informasi yang cukup relevan dalam

tahapan KDD.

3. Transformation

Dalam kategorikal dan data numerik

adalah inputan yang dapat ditampung oleh

proses data mining. Data-data kemudian

akan ditransformasikan kedalam bentuk

yang sesuai dengan mekanisme yang

dibutuhkan dalam mempermudah proses

data mining. Hal ini ditunjukan untuk

menghasilkan sebuah pola informasi

sesuai yang direncanakan.

4. Data Mining

Data mining adalah proses mencari pola,

mengekstrak pengetahuan atau menggali

informasi menggunakan metode tertentu.

Teknik, metode dan algortima yang

dimiliki data mining sangat bervariasi dan

data yang digunakan juga harus memenuhi

standar. Pemakaian data berjumlah banyak

sangat dianjurkan dalam teknik data

mining agar tidak terjadi invalid data atau

kesalahan lainnya.

5. Interpretation (Evaluation)

Informasi atau pola yang dihasilkan dari

proses data mining harus digambarkan

dengan cara yang mudah difahami. Hal ini

menjadi tahapan terakhir dalam KDD yang

disebut interpretation atau evaluation.

Tahapan ini mencakup evaluasi pola atau

informasi yang dihasilkan apakah

bertentangan dengan hipotesis

sebelumnya (D. Nofriansya).

2.4 Algoritma K-Means

Algoritma K-Means merupakan

algoritma yang mudah dan efektif untuk

menemukan kluster dalam data. Adapun

tahapan dalam proses clustering dengan

K-Means antara lain [10].

1. Menentukan berapa banyak data yang

akan dipartisi.

2. Secara acak menetapkan k record

menjadi lokasi cluster center awal.

3. Menemukan pusat cluster terdekat.

Jadi, dalam arti tertentu, masing-

masing cluster center "memiliki"

subset dari catatan, sehingga mewakili

sebuah partisi dari kumpulan data. Oleh

karena itu kami memiliki cluster, C1,

C2,. . . , Ck.

4. Menemukan cluster centroid dan

memperbarui lokasi masing-masing

cluster ke dalam nilai centroid yang

baru pada masing-masing cluster.

5. Mengulang langka tiga sampai lima

sampai konvergensi atau terhenti.

Kriteria terdekat pada langkah ketiga,

biasanya jarang Euclidean, walaupun

kriteria lainnya dapat diterapkan. Cluster

centroid pada langkah empat ditemukan

sebagai berikut. Misalkan terdapat nilai n

titik data (a1, b1, c1), (a2, b2, c2) ,...,

(an,bn,cn), centroid dari masing-masing

titik ini adalah proses gravitasi titik dan

terletak di titik (∑a i /n, ∑b i /n, ∑c i /n ).

Algoritma K-Means akan berakhir

apabila centroid tidak lagi berubah.

Maksudnya, algoritma berakhir ketika

semua kluster C1, C2, C3 ….., Ck. Semua

catatan yang dimiliki oleh masing-masing

cluster centermain di cluster tersebut. Dan

juga algoritma K-Means akan berakhir

ketika beberapa kriteria konvergensi

dipenuhi, seperti tidak ada penyusutan

signifikan dalam jumlah kesalahan kuadrat

[10].

Vij =1

𝑁𝑖∑ Xkj𝑁𝑖𝑘=0 (1)

Keterangan:

Vij = Centroid rata-rata cluster ke-i untuk

variabel ke-i

Ni = jumlah cluster ke -i

i, k = indeks dari cluster

j = indeks dari variabel

Xkj = nilai data ke –k

variabel ke –j dalam cluster

𝐷 = √(𝑋𝑖 − 𝑆𝑖)2 + (𝑦𝑖 − 𝑡𝑖)2 (2)

Keterangan:

D = Euclidean Distance

i = banyaknya objek

(x,y) = koordinat objek

(s,t) = koordinat centroid

2.5 Davies-bouldin index

Davies-bouldin index merupakan

salah satu metode evaluasi internal yang

mengukur evaluasi cluster pada suatu

metode pengelompokan yang didasarkan

pada nilai kohesi dan separasi. Dalam

suatu pengelompokan, kohesi

didefinisikan sebagai jumlah dari

kedekatan data terhadap centroid. Pada

suatu metode pengelompokan yang

didasarkan pada nilai kohesi dan separasi.

Dalam suatu pengelompokan, kohesi

didefinisikan sebagai jumlah dari

kedekatan data terhadap centroid dari

cluster yang diikuti. Sedangkan separasi

didasarkan pada jarak antar centroid dari

cluster. (Sum of square within cluster)

SSW merupakan persamaan yang

digunakan untuk mengetahui matrik

kohesi dalam sebuah cluster kesatu.

2.6 RapidMiner

RapidMiner merupakan perangkat

lunak yang dibuat oleh Dr. Markus

Hofmann dari Institute of Technologi

Blanchardstown dan Ralf Klinkenberg

dari rapid-i.com dengan tampilan GUI

(Graphical User Interface) sehingga

memudahkan pengguna dalam

menggunakan perangkat lunak ini.

Perangkat lunak ini bersifat open source

dan dibuat dengan menggunakan program

Java di bawah lisensi GNU Public Licence

dan RapidMiner dapat dijalankan di sistem

operasi manapun. Dengan menggunakan

RapidMiner, tidak dibutuhkan

kemampuan koding khusus, karena semua

fasilitas sudah disediakan. RapidMiner

dikhususkan untuk penggunaan data

mining. Model yang disediakan juga

cukup banyak dan lengkap, seperti Model

Bayesian, Modelling, Tree Induction dan

Neural Network. Banyak metode yang

disediakan oleh RapidMiner mulai dari

klasifikasi, klustering, asosiasi dan lain

sebagainya [11]

RapidMiner sebelumnya bernama

YALE (Yet Another Learning

Environtment), dimana versi awalnya

dimulai dikembangkan pada tahun 2001

oleh Ralfklinkenberg, Inge Mierswa dan

Simon Fischer di Artificial Intelligence

Unit dari University of Dortmund.

RapidMiner di distribusikan dibawah

lisensi AGPL (GNU Affero General public

license) versi tiga. Hingga saat ini telah

ribuan aplikasi yang dikembangkan

menggunakan RapidMiner lebih dari

empat puluh Negara. RapidMiner sebagai

Software open source untuk data mining

tidak perlu diragukan lagi karena software

ini sudah terkemuka di dunia.

Sifat-sifat RapidMiner yaitu sebagai

berikut:

1. Ditulis dengan pemrograman Java

sehingga dapat dijalankan di berbagai

sistem operasi.

2. Proses penemuan pengetahuan

dimodelkan sebagai operatortrees.

3. Representasi XML, internal untuk

memastikan format standar

pertukaran data.

4. Bahasa scripting memungkinkan

untuk eksperimen skala besar dan

otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin

tampilan data yang efisien dan

menjamin penanganan data.

6. Memiliki GUI, command line mode,

dan Java API yang dapat dipanggil

dari program lain.

Beberapa fitur dari RapidMiner

yaitu:

a. Banyaknya algoritma data mining,

seperti decision tree, dan

selforganization map.

b. Bentuk grafis yang canggih, seperti

tumpang tindih diagram histogram,

tree chart dan 3Dscatter plots.

c. Banyaknya variasi plugin, seperti text

plugin untuk melakukan analisis teks.

d. Menyediakan prosedur data mining

dan machine learning termasuk: ETL

(extraction, transformation, loading),

data processing, visualisasi, dan

modelling.

III. Tahapan Penelitian

3.1 Pengumpulan Data

Pada tahap ini menjelaskan tentang

bagaimana dan dari mana sumber data

didapatkan, diantaranya adalah:

1. Sumber Data Primer

Dalam penelitian ini data yang digunakan

didapat melalui website informasi dan

koordinasi kasus Covid-19 milik

Pemerintah Provinsi Jawa Barat yaitu

melalui akses portal

pikobar.jabarprov.go.id.

Data tersebut kemudian yang nantinya

akan dijadikan dataset yang isinya

meliputi angka penyebaran kasus Covid-

19 di Provinsi Jawa Barat untuk tingkat

kota dan kabupaten selama rentang waktu

Agustus 2020 – Juni 2021 (Tgl. 4 Juni).

Untuk mendapatkan dataset yang akan

digunakan dalam penelitian ini akan

dilakukan proses pre-processing data

dengan cara penyederhanaan

menggunakan pivot data dan melakukan

beberapa tahapan yang ada dalam pra-

pemrosesan data.

3.2 Pengolahan Data

Pada tahap ini menjelaskan tentang

tahap awal data mining. Data yang telah

didapatkan akan diolah keformat yang

dibutuhkan, pengelompokan dan

penentuan atribut data. Dalam melakukan

pengolahan data awal, akan dilakukan

beberapa tahapan agar didapatkan data

yang bisa digunakan untuk tahap

selanjutnya. Beberapa tahapan tersebut

yaitu:

1. Pembersihan Data

Pada tahap pertama pra-pemrosesan data

ini penulis melakukan pembersihan data

untuk membuang data yang missing value,

duplikasi data dan memeriksa

inkonsistensi data dan memperbaiki

kesalahan pada data yang rusak. Proses

pembersihan data dilakukan secara manual

untuk memastikan bahwa data yang telah

dipilih layak untuk dilakukan proses

permodelan. Pada tahapan ini,

pembersihan data dilakukan dengan

menggunakan bantuan aplikasi pengolah

angka yakni Microsoft Excel.

Tabel 3. 1 Contoh Data Cleaning

nama_pr

ov

kode_k

ab nama_kab

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

Provinsi

Jawa

Barat

0000

BELUM

TERIDENTIFIK

ASI

2. Seleksi Data

Pada tahap seleksi data penulis melakukan

pemilihan variabel data yang akan

dianalisis, karena sering ditemukan bahwa

tidak semua data yang dibutuhkan dengan

mempertimbangkan tujuan penulisan,

sehingga diperoleh beberapa variabel yang

akan digunakan untuk menjadi masukan

variabel input. Pada tahapan ini penulis

melakukan proses pivot data dan juga

seleksi atribut.

1. Pivot Data

Data yang berjumlah 8624 record data

kemudian dipivot berdasarkan kota dan

kabupaten di Jawa Barat serta

mengakumulasikan angka kasus dari

masing-masing kabupaten dan kota

terhadap penyebaran kasus Covid-19.

Sebanyak dua puluh tujuh data berdasar

pada kota dan kabupaten di Jawa Barat ini

nantinya yang akan digunakan dalam

proses data mining menggunakan

algoritma K-Means.

2. Seleksi Atribut

Penggunaan atribut atau label pada proses

penerapan algoritma K-Means hanya

menggunakan empat atribut yaitu atribut

total kasus suspect (terkonfirmasi) dan

total kasus sembuh (terkonfirmasi) sebagai

atribut yang dijadikan indicator

pengelompokkan klaster, dan dua atribut

identitas yaitu kode kabupaten atau kota

dan nama kabupaten atau kota. Sedangkan

untuk atribut lain yang mengandung

angka-angka akumulasi penyebaran kasus

Covid-19 ditiadakan karena tidak

bersinggungan langsung dengan proses

selanjutnya.

Tabel 3. 2 Contoh Data Selection

3. Transformasi Data

Penulis melakukan tahapan transformasi

data yang merupakan proses mengubah

format data awal menjadi sebuah format

data standar untuk proses pembacaan data

dengan algoritma pada program maupun

tool yang digunakan, yakni ketika

menentukan unsur pertama data yang akan

diambil, dalam hal ini untuk proses

pembacaan data dengan algoritma K-

Means pada aplikasi RapidMiner Studio

yang digunakan dalam penelitian ini.

Tabel 3. 3 Transformasi Data pada

RapidMiner Studio

Berikut adalah hasil pengolahan data awal

setelah melawati tahapan diatas untuk

dijadikan dataset pada tahap selanjutnya,

ditunjukkan pada Tabel 3.4.

3.2 Pemodelan

Algoritma K-Means merupakan

algoritma yang mudah dan efektif untuk

menemukan kluster dalam data. Adapun

tahapan dalam proses clustering dengan K-

Means antara lain [10].

1. Menentukan berapa banyak data yang

akan dipartisi.

2. Secara acak menetapkan k record

menjadi lokasi cluster center awal.

3. Menemukan pusat cluster terdekat.

Jadi, dalam arti tertentu, masing-

masing cluster center "memiliki"

subset dari catatan, sehingga mewakili

sebuah partisi dari kumpulan data. Oleh

karena itu kami memiliki cluster, C1,

C2,. . . , Ck.

4. Menemukan centroid cluster dan

memperbarui lokasi masing-masing

cluster ke dalam nilai centroid yang

baru pada masing-masing cluster.

5. Mengulang langkah tiga sampai

lima sampai konvergensi atau terhenti.

Kriteria terdekat pada langkah ketiga,

biasanya jarang euclidean, walaupun

kriteria lainnya dapat diterapkan. Cluster

centroid pada langkah empat ditemukan

sebagai berikut. Misalkan terdapat nilai n

titik data (a1, b1, c1), (a2, b2, c2) ,...,

(an,bn,cn), centroid dari masing-masing

titik ini adalah proses gravitasi titik dan

terletak di titik (∑a i /n, ∑b i /n, ∑c i /n ).

Algoritma K-Means akan berakhir

apabila centroid tidak lagi berubah.

Maksudnya, algoritma berakhir ketika

semua cluster C1, C2, C3 ….., Ck. Semua

catatan yang dimiliki oleh masing-masing

cluster centermain di cluster tersebut. Dan

juga algoritma K-Means akan berakhir

ketika beberapa kriteria konvergensi

dipenuhi, seperti tidak ada penyusutan

signifikan dalam jumlah kesalahan kuadrat

[10].

Vij =1

𝑁𝑖∑ Xkj𝑁𝑖𝑘=0 (3)

Keterangan:

Vij = Centroid rata-rata cluster ke-i untuk

variabel ke-i

Ni = jumlah cluster ke -i

i, k = indeks dari cluster

j = indeks dari variabel

Xkj = nilai data ke –k variabel ke –j dalam

cluster

𝐷 = √(𝑋𝑖 − 𝑆𝑖)2 + (𝑦𝑖 − 𝑡𝑖)2

(4)

Keterangan:

D = Euclidean Distance

i = banyaknya objek

(x,y) = koordinat objek

(s,t) = koordinat centroid

3.3 Evaluasi Pengujian

Evaluasi dapat dilakukan dengan cara

mengamati dan menganalisa hasil dari

algoritma yang digunakan untuk

memastikan bahwa hasil pengujian benar-

benar sesuai dengan pembahasan.

Melakukan pengecekan terhadap setiap

nilai atribut dan model yang sudah

dibangun. Kemudian melakukan evaluasi

dengan cara mengamati dan menganalisa

hasil dari algoritma yang digunakan untuk

memastikan bahwa hasil pengujian

menghasilkan nilai cluster benar dan

sesuai hasil pembahasan, pengujian

dilakukan untuk mengukur keakuratan

data hasil dari tiap model yang diusulkan.

IV. Hasil Pengujian dan Pembahasan

Dengan menggunakan skenario yang

dimodelkan dalam mencari kelompok

klaster melalui metode klasterisasi,

pemanfaatan algoritma K-Means yang

digunakan menghasilkan suatu pn

mengelompokan klaster terhadap masing-

masing data. Dataset penyebaran kasus

Covid-19 Provinsi Jawa Barat yang

digunakan adalah sebanyak dua puluh

tujuh record data yang akan diuji pada

proses pembentukan kelompok klaster

dengan algoritma K-Means. Hasil cluster

model pada pengujian aplikasi

RapidMiner Studio terdapat enam data

kota atau kabupaten masuk kelompok

klaster pertama (C0), sembilan belas data

kota atau kabupaten masuk pada kelompok

klaster kedua (C1) dan dua data kota atau

kabupaten masuk pada kelompok klaster

ketiga (C2), yang dapat dilihat pada

gambar berikut.

Gambar 4. 1 Hasil Cluster Model pada

aplikasi RapidMiner Studio

Adapun gambaran umum

kelompok klaster dari masing-masing

klaster nol, satu dan dua dapat dilihat pada

pohon klasterisasi seperti berikut ini.

Gambar 4. 2 Cluster Tree yang terbentuk

pada aplikasi RapidMiner Studio

Gambar diatas menunjukkan bahwa

sebagian besar data yang digunakan

terkelompok pada klaster kedua, diikuti

kemudian oleh klaster pertama dan yang

terakhir adalah klaster ketiga.

Kemudian juga dari hasil diatas dapat

dilihat bahwa pembentukan anggota

klaster yang didapat melalui pengujian

dengan aplikasi RapidMiner Studio ini

memiliki hasil yang sejalan dengan contoh

perhitungan model K-Means yang

dilakukan secara manual. Anggota dari

masing-masing cluster juga memiliki

kemiripan jumlah dengan perhitungan

manual yang dilakukan. Hanya saja dalam

proses menggunakan tools RapidMiner

tidak ditentukan nilai cluster awal

sebagaimana yang dilakukan dalam proses

perhitungan manual.

Titik klaster optimal yang terbentuk dari

masing-masing atribut yang digunakan

yakni atribut kasus konfirmasi dan kasus

konfirmasi sembuh untuk klaster pertama

(C0) yakni 2.433.388 dan 2.002.647,33,

klaster kedua (C1) adalah 607.842,42 dan

476.223,47, dan klaster ketiga (C2) adalah

6.269.200,5 dan 5.372.599 seperti yang

dapat dilihat pada gambar dibawah ini.

Tabel 4. 1 Hasil Optimal Cluster pada

aplikasi RapidMiner Studio

Titik optimal klaster ini jika disandingkan

dengan hasil perhitungan model K-Means

yang dilakukan secara manual juga

memiliki angka yang sama yakni seperti

pada tabel berikut.

Tabel 4. 2 Nilai klaster optimal pada

perhitungan algoritma K-Means secara

manual

Pengujian performa terhadap model

dan algoritma dilakukan dengan maksud

mengetahui hasil perhitungan yang

dianalisa dan mengukur metode serta

algoritma yang digunakan apakah

berfungsi dengan baik atau tidak.

Gambar 4. 3 Hasil Davies-Bouldin Index


Hasil nilai evaluasi dengan Davies

Bouldin Index atau DBI berdasar pada

aplikasi RapidMiner Studio yang didapat

dari pengujian yang didapat dari hasil uji


meunjukkan angka 0,322 seperti pada

gambar 4.7.

V. Kesimpulan dan Saran

5.1 Kesimpulan

Berdasarkan hasil penelitian yang

dilakukan oleh penulis, kesimpulan yang

didapat yaitu sebagai berikut:

1. Pendekatan metode klasterisasi dapat

diterapkan dalam menganalisis

kebutuhan pendistribusian vaksin

berdasar tingkat prioritas dengan

memanfaatkan data sebaran kasus

Covid-19 di Provinsi Jawa Barat.

2. Model algoritma K-Means yang

diterapkan menunjukkan sebuah

pengetahuan dan perspektif baru,

dengan mengelompokkan kota atau

kabupaten Provinsi Jawa Barat

berdasarkan tiga klaster, yakni klaster

satu (C0) merupakan tingkat prioritas

tinggi yang terdiri dari enam kota atau

kabupaten, klaster dua (C1) adalah

prioritas utama yang terdiri dari

sembilan belas kota atau kabupaten,

dan klaster tiga (C2) yakni prioritas

rendah yang hanya terdiri dari dua kota

atau kabupaten.

3. Pengujian menggunakan aplikasi

RapidMiner Studio menghasilkan

wawasan yang serupa yaitu masing-

masing klaster memiliki anggota

kelompok yang terbagi menjadi tiga

klaster, yaitu C0 dengan anggota

kelompok klaster sebanyak enam data,

dan C1 dengan anggota klaster

sebanyak Sembilan belas data serta C2

sebanyak dua data. Masing-masing

klaster memiliki nilai optimal pada

klaster pertama (C0) yakni 2.433.388

dan 2.002.647,33, klaster kedua (C1)

adalah 607.842,42 dan 476.223,47, dan

klaster ketiga (C2) adalah 6.269.200,5

dan 5.372.599, dengan nilai evaluasi

Davies-Bouldin Index untuk model

algoritma yang dijalankan adalah

sebesar 0,322.

5.2 Saran

Beberapa saran dalam penelitian ini

untuk pengembangan lebih lanjut antara

lain yaitu:

1. Perluas dimensi data yang akan

digunakan dalam penelitian selanjutnya

agar lebih banyak lagi kelompok klaster

yang dapat dilihat dan dapat

memetakan kebutuhan prioritas

pendistribusian vaksin Covid-19 yang

lebih representatif.

2. Adanya sistem yang saling ter-integrasi

sehingga pemanfaatan data menjadi

lebih luas dan dapat digunakan sebagai

pengetahuan baru bagi setiap pihak

yang terlibat dalam penentuan

kebijakan dan pengambilan keputusan

baik dari lingkungan internal maupun

pihak eksternal baik yang bersifat lokal

maupun nasional.

3. Membantu perencanaan jumlah

vaksinasi di masing - masing daerah,

dan menentukan jadwal vaksinasi

prioritas utama, dengan stok vaksin

yang ada di tingkat nasional dan tingkat

daerah.

Daftar Pustaka

[1] P. Penyebaran et al., “Analisis

algoritma k-medoids clustering

dalam pengelompokan penyebaran

covid-19 di indonesia,” vol. 4, no. 1,

pp. 166–173, 2020.

[2] R. E. Reigal, J. L. Pastrana-

Brincones, S. L. González-Ruiz, A.

Hernández-Mendo, J. P. Morillo-

Baro, and V. Morales-Sánchez, “Use

of Data Mining to Determine Usage

Patterns of an Online Evaluation

Platform During the COVID-19

Pandemic,” Front. Psychol., vol. 11,

no. September, pp. 1–16, 2020, doi:

10.3389/fpsyg.2020.588843.

[3] A. P. Windarto, U. Indriani, M. R.

Raharjo, and L. S. Dewi, “Bagian 1:

Kombinasi Metode Klastering dan

Klasifikasi (Kasus Pandemi Covid-

19 di Indonesia),” J. Media Inform.

Budidarma, vol. 4, no. 3, p. 855,

2020, doi: 10.30865/mib.v4i3.2312.

[4] I. Romli, S. Prameswari R, and A. Z.

Kamalia, “Sentiment Analysis about

Large-Scale Social Restrictions in

Social Media Twitter Using

Algoritm K-Nearest Neighbor,” J.

Online Inform., vol. 6, no. 1, p. 96,

2021, doi: 10.15575/join.v6i1.670.

[5] P. D. O. Davies, “Multi-drug

resistant tuberculosis,” CPD Infect.,

vol. 3, no. 1, pp. 9–12, 2002.

[6] C. Medel-ramírez, H. Medel-lópez,

U. Veracruzana, I. De

Investigaciones, and S. Económicos,

“Data Article . Data mining for the

study of the Epidemic ( SARS- CoV-

2 ) COVID-19 : Algorithm for the

Authors Corresponding author A

bstract Keywords,” pp. 1–8.

[7] Suyanto, Data Mining. Yogyakarta:

Informatika, 2017.

[8] Retno Tri vulandari, Data Mining.

Yogyakarta: Gava Media, 2017.

[9] O. Villacampa, “(Weka - Thesis)

Feature Selection and Classification

Methods for Decision Making: A

Comparative Analysis,” ProQuest

Diss. Theses, no. 63, p. 188, 2015.

[10] G. widi N. Dicky Nofriansyah,

Algoritma Data Mining Dan

pengujian. Yogyakarta: Cv Budi

Utama, 2015.

[11] M. Miftakhul and S. Prihandoko,

“Penerapan Algoritma K-Means dan

Cure Dalam Menganalisa Pola

Perubahan Belanja Dari Retail ke E-

Commerce,” vol. 7, no. 2, pp. 44–49,

2017.

[12] S. Haryati, A. Sudarsono, and E.

(2015) Suryana, “Implementasi Data

Mining untuk Memprediksi Masa

Studi Mahasiswa Menggunakan

Algoritma C4.5,” J. Media

Infotama, vol. 11, no. 2, pp. 130–

138, 2015.

[13] 1M. Nanda Variestha Waworuntu,

2Muhammad Faisal Amin,

"Penerapan Metode K-Means

Pemetaan Calon Penerima

Jamkesda", Kumpulan jurnaL Ilmu

Komputer (KLIK) Volume 05,

No.02 September 2018.

Documents

ANALISA DATA MINING UNTUK SEGMENTASI DAERAH …