Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining

I. Pendahuluan

Kanker payudara merupakan salah satu ancaman serius bagi nyawa manusia dan juga menempati peringkat kedua penyebab kematian pada wanita, khususnya bagi negara berkembang yang mencapai 50%, dan juga 70% bagi total keseluruhan pengidap kanker apapun (WHO 2002). Banyak sekali faktor-‐faktor yang menyebabkan timbulnya kanker payudara, yaitu diklasifikasikan menjadi 2 bagian, modifiable (dapat berubah) dan unmodifiable (tidak dapat berubah). Dimana faktor modifiable biasanya mencakup kebiasaan serta lingkungan. Sedangkan unmodifiable merupakan sesuatu hal yang biasanya disebut sebagai bawaan masing-‐masing orang, yaitu jenis kelamin, dan riwayat dari anggota keluarga lain. Faktor utama yang menyebabkan seseorang mampu mengidap kanker ialah mereka yang biasanya di usia paruh baya dengan jenis kelamin wanita. Namun ada juga beberapa potensi yang mampu meningkatkan resiko munculnya kanker payudara menurut Collaborative Group on Hormonal Factors in Breast Cancer (2002), antara lain berat badan (BMI), alcohol, paparan radiasi (termasuk pestisida pada sayuran, ataupun kandungan kimia pada makanan), tingkat hormon yang tinggi dan lainnya. Penekanan resiko pada munculnya kanker payudara dapat dilakukan dengan pemeriksaan secara dini, dimana dengan dilakukan pendeteksian ini mampu mengurangi penyebaran pertumbuhan dari sel kanker atau tumor. Pendeteksian tersebut dapat dilakukan dengan 3 metode, yaitu: • Pemeriksaan klinis (dilakukan setiap tahun bagi wanita berusia diatas 40 tahun, dan

dilakukan 3 tahun sekali bagi wanita dalam rentang usia 20-‐40 tahun). • Pemeriksaan payudara secara mandiri (dengan cara melakukan pemijatan pada sekitar

daerah payudara dan mengetahui perubahan-‐perubahan fisik yang terjadi dengan tahap-‐tahap yang ada).

• Mamografi (menggunakan x-‐ray dengan radiasi rendah dengan tingkat keakuratan mencapai 85 % -‐ 90%, dan mampu mengurangi ancaman sel kanker yang lebih ganas sampai dengan 30 %.

Klasifikasi merupakan teknik pada data mining untuk melibatkan penggunaan mesin pembelajaran yang terpandu, dengan menetapkan label atau kelas kepada objek dan grup yang berbeda. Proses ini melibatkan konstruksi model (analisa untuk pola) dan penggunaan model dimana model yang telah terkonstruksi tersebut digunakan untuk klasifikasi. Keakuratan dari metode ini biasanya diukur dari persentase jumlah uji coba dari sampel yang terklasifikasi secara benar. Metode yang akan diterapkan ini ialah Naïve Bayes, J48 Decision Tree dan software WEKA dan data yang akan digunakan ialah informasi pasien yang diambil dari LASUTH (Lagos State University Teaching Hospital).

II. Proses Data Mining

Penerapan data mining dapat menggunakan berbagai parameter berbeda untuk mengecek data yang mengandung;

• asosiasi (pola yang menjelaskan keterkaitan antar data) • sekuensial/analisa pola (dimana 1 pola yang ada merujuk ke informasi lain) • klasifikasi (identifikasi dari pola yang baru dengan sasaran yang telah ditentukan) • klustering (pengelompokkan objek-‐objek serupa yang berukuran lebih kecil)

Tahap-‐tahap yang mampu dilakukan:

• Definisi permasalahan Pendefinisian hasil akhir, obyektifitas dan pengidentifikasian dari sarana yang digunakan untuk membangun model yang telah ditentukan.

• Eksplorasi data Merupakan rekomendasi untuk sekumpulan dataset yang berguna apabila keberadaan dataset tersebut tidak memenuhi kebutuhan untuk analisis.

• Persiapan data Merupakan proses dari pembersihan dan transformasi data untuk menghilangkan data yang hilang dan invalid untuk analisis yang lebih kuat.

• Permodelan Didasari oleh data dan hasil (keluaran) yang diinginkan. Dimana melibatkan algoritma data mining (untuk kasus ini digunakan; naïve bayes, decision tree, dan multi layer perceptron) untuk menemui obyektifitas yang diperlukan, dimana tujuan dari pembelajaran ini ialah klasifikasi.

• Evaluasi dan penyebaran Merupakan analisis dan interpretasi dari hasil analisis untuk membuat rekomendasi untuk pertimbangan.

III. Bahan dan Metode Pada tahap ini telah dilakukan data preprocessing untuk menghilangkan data yang tidak konsisten dan data dikonversikan ke dalam format yang lebih bermanfaat untuk simulasi lingkungan (environment). Software WEKA merupakan environment yang digunakan untuk simulasi prediksi model untuk kanker payudara; dimana software ini open-‐source untuk tujuan akademis. Data yang dikumpulkan dibawah ini diambil dari LASUTH, dimana terdapat:

• 69 instances dan 17 attributes • Pendistribusian kelas disini dibagi menjadi 3, yaitu

-‐ tidak mungkin, -‐ mungkin dan -‐ jinak.

• 16 variabel yang tidak saling ketergantungan, dan 1 variabel yang ketergantungan (11 modifiable, 5 unmodifiable)

Faktor Resiko Nilai 1 Sejarah keluarga tentang kanker payudara Iya, Tidak 2 Keberadaan penyakit payudara bersifat jinak Tidak Pernah, Pernah 3 Payudara padat teruji di mamografi Tidak Pernah, Pernah 4 Usia dari awal kelahiran Tidak, ≤30 tahun, >30 tahun 5 Usia menopause Tidak, ≤50 tahun, >50 tahun 6 Massa tubuh (BMI) <25, ≥25 tahun 7 Usia awal menstruasi (menarche) Tidak, ≤12 tahun, >12 tahun 8 Level estrogen endogen Rendah, Tinggi 9 Rasio lingkar pinggang < 0.81, ≥ 0.81 10 Usia ≤50 tahun, >50 tahun 11 Jenis Kelamin Laki-‐laki, Perempuan 12 Frekuensi merokok Tidak Pernah, Dulu, Masih 13 Penggunaan alcohol Tidak Pernah, Dulu, Masih 14 Pekerjaan yang berbahaya Tidak, Iya 15 Kontrasepsi Tidak Pernah, Pernah, Masih 16 Menyusui Tidak Pernah, Pernah 17 Resiko kanker payudara Tidak Mungkin, Mungkin, Jinak IV. Naïve Bayes Classifier

Jenis-‐jenis variable yang ada dan keterangannya: X = data sampel yang memiliki kejadian Xi = dimana setiap kejadian adalah faktor risiko kanker payudara (modifiable & non modifiable) H = hipotesa dimana X termasuk ke dalam kelas C yang memiliki 3 nilai; tidak mungkin, mungkin dan jinak

Klasifikasi digunakan untuk menentukan P (Hj | X) (contohnya: probabilitas posteriori (bersangkutan dengan alasan yang didapat dari fakta yang telah diobservasi): dimana probabilitas dari suatu hipotesis dengan Hj (tidak mungkin, mungkin dan jinak) mengamati data yang diobservasi dari sampel X. P(Hj) (prior probability): probabilitas awal dari suatu hipotesis di suatu kelas P(Xi): probabilitas yang sampel datanya di observasi untuk setiap atribut, i: P(Xi | H): kemungkinan mengobservasi atribut sampel Probabilitas posteriori dari hipotesis Hj c P(Hj | Xi) mengikuti teori Bayes, Dengan contoh: X = { X1, X2, X3, X4, …..X1} dan Hj = {tidak mungkin, mungkin dan jinak}; j=3 Output resiko kanker payudara = maksimum [P (Hj | X)] for j=1,2,3

V. Decision Tree

J48 merupakan algoritma untuk pohon keputusan yang sederhana, dimana hanya menerima data yang termasuk ke dalam kategori. Ide dasar dari ID3 adalah dengan mengadopsi metode top down greedy, yaitu mencari setiap data pada setiap atribut untuk menguji setiap node di pohon. Metode ini baik digunakan untuk data yang memiliki kategori atau terus menerus. Nilai S untuk setiap kasus kanker payudara, J48 muncul pertama kali dengan menggunakan algoritma divide and conquer.

• Apabila setiap kejadian di S masuk ke dalam kelas yang sama, maka pohon tersebut ditandai dengan,

• Atau, memilih pengujian yang berdasarkan dari atribut tunggal dengan 2 atau lebih keluaran. Buatlah pengujian ini sebagai akar dari pohon, dengan satu cabang keluaran untuk pengujian, lalu bagilah S menjadi subset S1, S2, …, Sn, untuk set data yang memiliki kejadian ke-‐n, menurut hasil dari setiap kejadian, dan lakukan prosedur yang sama secara rekursif ke setiap subset.

VI. Evaluasi Performa Merupakan pengukuran keakuratan dari model yang dikembangkan dengan data set yang terpandu. Hasil dari klasifikasi tersimpan di confusion matrix, dimana matriks ini menunjukan klasifikasi aktual secara vertikal, dan prediksi-‐prediksi secara vertikal.

ü Klasifikasi yang benar melintang dari barat laut (pojok kiri atas) sampai ke tenggara (pojok kanan bawah), yang disebut dengan True Positive (TP) dan True Negative (TN)

ü Dimana bagian lain disebut dengan False Positive (FP) dan False Negative (FN). Lalu apabila kejadian yang tidak mungkin dianggap positif (+), maka kejadian mungkin dan jinak dianggap negatif (-‐), dan begitu juga dengan nilai lainnya apabila dibalik (diubah) keadaannya.

VII. Hasil eksperimen dan diskusi

a b c

17 1 0 6 22 5 0 0 18 **decision tree

a b c

17 1 0 2 31 0 0 1 17 **naïve bayes

Ket: a: jinak; b: mungkin; c: tidak mungkin Keakuratan: Naïve Bayes J48

Klasifikasi yang benar 57 65 Klasifikasi yang salah 12 4 Keakuratan (%) 82.6 94.2 TP (True Positive) = 87%

*(diambil dari nilai positif yang aktual) Naïve Bayes & J48 = 94% FP (False Positive) = 8.1%

*(kejadian positif namun terjadi kesalahan dalam pengklasifikasian) Naïve Bayes & J48 = 3.1% Evaluasi performa dari kedua model:

VIII. Kesimpulan Pada studi kasus ini dilakukan dua metode data mining yang berbeda untuk menentukan teknik mana yang lebih baik untuk memprediksi dari resiko kanker payudara dan performanya dibandingkan dengan tujuan untuk mengevaluasi metode mana yang lebih baik. Percobaan ini menunjukkan bahwa J48 memiliki hasil yang lebih baik dari segi keakuratan, presisi serta tingkat kesalahan yang mungkin.

Documents

Prediksi Resiko Kanker Payudara Menggunakan Teknik Klasifikasi Data Mining