View
19
Download
0
Category
Preview:
Citation preview
I
KLASIFIKASI AKREDITASI SMA DI PULAU
SUMATERA MENGGUNAKAN METODE NAÏVE
BAYES
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
HALAMAN JUDUL
Oleh:
Dodi Fernando Tambunan
165314124
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
CLASSIFICATION OF HIGH SCHOOL
ACCREDITATION IN SUMATERA ISLAND USING
NAÏVE BAYES METHOD
THESIS
Present as Patrial Fullfillment of the Requirements
to Obtain Sarjana Komputer Degree
in Informatics Study Program
Created by:
Dodi Fernando Tambunan
Student ID : 165314124
INFORMATICS STUDY PROGRAM
INFORMATICS DEPARTMENT
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
v
HALAMAN PERSEMBAHAN
“Sebab TUHAN, Dia sendiri akan berjalan di depanmu, Dia sendiri akan
menyertai engkau, Dia tidak akan membiarkan engkau dan tidak akan
meninggalkan engkau; janganlah takut dan janganlah patah hati”
Ulangan 31:8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
vii
ABSTRAK
Akreditasi adalah pengakuan terhadap lembaga pendidikan setelah dinilai bahwa
lembaga itu memenuhi syarat kebakuan atau kriteria yang telah ditentukan.
Akreditasi ini biasanya dikategorikan ke dalam 4 kategori yaitu A (Sangat baik), B
(Baik), C (cukup), dan Tidak terakreditasi.
Dalam dunia pendidikan, akreditasi sangatlah penting dan tidak jarang dijadikan
sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu
sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu
sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran
tentang kinerja sekolah. dalam penilaian akreditasi tentunya di perlukan sistem
yang dapat melakukan penilaian atau pengklasifikasian dengan tepat dan benar.
Metode yang digunakan adalah naive bayes, metode ini adalah metode
probabilistik yang menghitung probabilitas setiap atribut yang telah ditentukan.
Sebelum menghitung probabilitas, data dibagi menggunakan 3-fold cross-
validation, dan untuk mengetahui akurasi dari klasifiakasi mengggunakan
confusion matrix.
Penggunaan metode naive bayes pada penelitian ini dengan 1511 data
menghasilkan akurasi 94,165% dengan menggunakan 8 dan 9 attribut yaitu Standar
kopetensi lulusan, Standar pendidik dan tenaga pendidikan, Standar sarana dan
prasarana, Standar isi, Standar pengelolaan, Standar penilaian pendidikan, Standar
proses, Standar pembiayaan dan total ruang kelas.
Kata kunci: Klasifikasi, Akreditasi, naive bayes, cross-validation, confusion
matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
Accreditation is a recognition to an educational institution after it meets the
rigid requirements or the predetermined criteria. There a 4 categories of
accreditation, there are A grade for very good accreditation, B grade for good
accreditation, C grade for enough accreditation and Not accredited.
In the world of education, accreditation is important and it also used as the
benchmark for every person who wants to get an education in a school or the other
educational institutions. Because the objective of accreditation is to determine the
level of eligibility of an educational institution in organizing educational services
and receiving the visualization of the performance. In doing the accreditation
grading process, an accurate and correct methods are needed to classify and will
resulting in the right value.
The method that used in grading or accrediting is naive bayes method. This is
a probabilistic method that will counts the probability of every predetermined
attribute. Before computing for the probability, every data will be divided using 3-
fold cross-validation, and will be using the confusion matrix in classifying.
Applying naive bayes method in this research with allocating 1511 data
resulting in 94,165% of accuracy by using 8 and 9 attributes, there are graduation
competence standard, standard of Teacher’s and element of teaching, facilities and
infrastructure standard, content standard, management standard, education grading
standard, progress standard, financing standard and classroom total.
Key words: Classification, Accreditation, naive bayes, cross-validation,
confusion matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
HALAMAN PERSETUJUAN PEMBIMBING .................................................... iii
HALAMAN PENGESAHAN ................................................................................ iv
HALAMAN PERSEMBAHAN ............................................................................. v
PERNYATAAN KEASLIAN KARYA ................................................................ vi
ABSTRAK ............................................................................................................ vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI................................. ix
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI ......................................................................................................... xii
DAFTAR GAMBAR ............................................................................................ xv
DAFTAR TABEL ................................................................................................ xvi
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang .............................................................................................. 1
1.2 Rumusan Masalah ......................................................................................... 3
1.3 Tujuan ............................................................................................................ 3
1.4 Manfaat .......................................................................................................... 3
1.5 Batasan Masalah ............................................................................................ 3
1.6 Metodologi Penelitian ................................................................................... 4
1.7 Sistematika Penulisan .................................................................................... 4
BAB II LANDASAN TEORI ................................................................................. 6
2.1 Standar Nasional Pendidikan ......................................................................... 6
2.1.1 Akreditasi ................................................................................................ 6
2.2 Data Mining .................................................................................................. 7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
xiii
2.2.1 Pengertian Data Mining .......................................................................... 7
2.2.2 Pengelompokan Data Mining ................................................................. 9
2.2.3 Supervised and Unsupervised Learning ............................................... 10
2.2.3.1 Supervised learning ........................................................................ 10
2.2.3.2 Unsupervised learning ................................................................... 11
2.3 Naive bayes .................................................................................................. 12
2.3.1 Persamaan Metode Naive Bayes ........................................................... 12
2.4 Cross validation .......................................................................................... 14
2.5 Akurasi dengan Confusion Matix ................................................................ 15
BAB III METODE PENELITIAN........................................................................ 16
3.1 Gambaran Umum ........................................................................................ 16
3.1.1 Algoritma Naive bayes .................................................................... 17
3.2 Tahap-tahap Penelitian ................................................................................ 19
3.2.1 Pengumpulan Data ................................................................................ 19
3.2.2 Pengolahan Awal Data.......................................................................... 19
3.2.3 Pembuatan model .................................................................................. 19
3.2.4 Evaluasi dan Validasi Hasil .................................................................. 20
3.3 Data ............................................................................................................. 21
3.4 Perhitungan menggunakan naive bayes....................................................... 24
3.4.1 Preprocessing ....................................................................................... 24
3.4.2 Modelling Naive Bayes ......................................................................... 25
3.4.3 Uji Akurasi dengan Confusion Matrix .................................................. 36
3.5 Variasi percobaan ........................................................................................ 37
3.6 Peralatan Penelitian ..................................................................................... 38
3.7 Desain User Interface .................................................................................. 39
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
BAB IV HASIL DAN ANALISIS ........................................................................ 41
4.1 Data Preprocessing ...................................................................................... 41
4.1.1 Attribut Selection .................................................................................. 41
4.1.2 Data transformation ............................................................................. 42
4.1.3 Data Cleaning ....................................................................................... 43
4.1.4 Normalisasi data ................................................................................... 44
4.2 Klasifikasi .................................................................................................... 47
4.3 Klasifikasi Optimal ...................................................................................... 51
4.3.1 Penggunaan 8 atribut ............................................................................ 51
4.3.2 Penggunaan 9 atribut ............................................................................ 52
4.4 Outlier .......................................................................................................... 53
4.5 Uji Data ....................................................................................................... 54
4.5.1 Uji data tunggal ..................................................................................... 55
4.5.2 Uji data dalam jumlah banyak .............................................................. 57
BAB V PENUTUP ................................................................................................ 55
5.1 Kesimpulan .................................................................................................. 55
5.2 Saran ............................................................................................................ 56
DAFTAR PUSTAKA ........................................................................................... 57
LAMPIRAN .......................................................................................................... 59
1. Perangkingan atribut ...................................................................................... 59
2. Akurasi Setiap Atribut ................................................................................... 60
3. Source Code Program .................................................................................... 65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
xv
DAFTAR GAMBAR
Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006) ...... 7
Gambar 2. 2 3-Fold Validation ............................................................................. 15
Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi ................. 16
Gambar 3. 2 Diagram Flowchart Uji sistem ......................................................... 18
Gambar 3. 3 flowchart uji data tunggal ................................................................. 19
Gambar 3. 4 Tahap Preprocessing ........................................................................ 19
Gambar 3. 5 Tahap Pembuatan Model .................................................................. 20
Gambar 3. 6 Alur confusion matrix ...................................................................... 21
Gambar 3. 7 Desain User Interface ....................................................................... 39
Gambar 4. 1 Grafik akurasi setiap attribut ............................................................ 50
Gambar 4. 2 Confusion matrix 8 dan 9 atribut ..................................................... 50
Gambar 4. 3 outlier ............................................................................................... 54
Gambar 4. 4 Uji data tunggal akreditasi A ............................................................ 55
Gambar 4. 5 Uji data tunggal akreditasi B ............................................................ 56
Gambar 4. 6 Uji data tunggal akreditasi C ............................................................ 56
Gambar 4. 7 Uji data tunggal Tidak terakreditasi ................................................. 57
Gambar 4. 8 Tampilan uji data banyak ................................................................. 58
Gambar 4. 9 Tampilan hasil akreditasi dari uji data banyak ................................. 58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
file:///D:/kuliah/semester%208/Peryaratan%20pendadaran/Folder%20pendadaran/Skripsi%20v.4.docx%23_Toc45290409
xvi
DAFTAR TABEL
Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006) ............. 15
Tabel 3. 1 Contoh data .......................................................................................... 21
Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005) ................................................. 22
Tabel 3. 3 ketentuan transformasi data ................................................................. 24
Tabel 3. 4 Data training ......................................................................................... 26
Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1 ................................... 27
Tabel 3. 6 Hasil rata-rata (mean) dan Standar Deviasi A2 ................................... 27
Tabel 3. 7 Hasil rata-rata (mean) dan Standar Deviasi A3 ................................... 27
Tabel 3. 8 Hasil rata-rata (mean) dan Standar Deviasi A4 ................................... 27
Tabel 3. 9 Hasil rata-rata (mean) dan Standar Deviasi A5 ................................... 28
Tabel 3. 10 Hasil rata-rata (mean) dan Standar Deviasi A6 ................................. 28
Tabel 3. 11 Hasil rata-rata (mean) dan Standar Deviasi A7 ................................. 28
Tabel 3. 12 Hasil rata-rata (mean) dan Standar Deviasi A8 ................................. 28
Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas .................................... 28
Tabel 3. 14 Data testing ........................................................................................ 29
Tabel 3. 15 Probabilitas setiap atribut ................................................................... 34
Tabel 3. 16 Hasil Pengujian Data .......................................................................... 36
Tabel 3. 17 Perhitungan Confusion Matrix ........................................................... 37
Tabel 3. 18 akurasi setiap model dari 3-fold cross validation............................... 37
Tabel 4. 1 Atribut yang akan dihapus ................................................................... 41
Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas ................................................ 42
Tabel 4. 3 Data Transformasi ................................................................................ 42
Tabel 4. 4 Data cleaning........................................................................................ 43
Tabel 4. 5 Normalisasi data ................................................................................... 44
Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56) ................................ 45
Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi ........ 45
Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut .................................................... 47
Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut ......................................... 51
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
xvii
Tabel 4. 10 Confusion matrix 2 menggunakan 8 atribut ....................................... 51
Tabel 4. 11 Confusion matrix 3 menggunakan 8 atribut ....................................... 52
Tabel 4. 12 Confusion matrix 1 menggunakan 9 atribut ....................................... 52
Tabel 4. 13 Confusion matrix 2 menggunakan 9 atribut ....................................... 52
Tabel 4. 14 Confusion matrix 3 menggunakan 9 atribut ...................................... 53
Tabel 4. 15 Keluaran uji data banyak.................................................................... 58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Akreditasi adalah pengakuan terhadap lembaga pendidikan yang diberikan
oleh badan yang berwenang setelah dinilai bahwa lembaga itu memenuhi syarat
kebakuan atau kriteria tertentu (KBBI). Akreditasi ini biasanya dikategorikan ke
dalam 4 kategori yaitu A (Sangat baik), B (Baik), C (cukup), dan Tidak
terakreditasi. Berdasarkan pengertian tersebut masyarakat dapat memperoleh
gambaran kualitas pendidikan maupun kinerja di suatu lembaga pendidikan.
Dalam dunia pendidikan akreditasi sangatlah penting dan tak jarang dijadikan
sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu
sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu
sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran
tentang kinerja sekolah. Penilaian akreditasi disuatu sekolah tentu saja
mempertimbangkan poin-poin tertentu sebagai tolak ukurnya. Melihat dari
penjelasan diatas kita bisa lihat bagaimana akreditasi itu dianggap penting karena
bisa berdampak pada penentu pilihan seseorang untuk masuk dan menempuh
pendidikan di suatu sekolah, sehingga harus berhati-hati dalam melakukan
penilaian dan dibutuhkan suatu sistem yang dapat melakukan pengklasifikasian
akreditasi secara tepat dan efisen melalui variabel-variabel yang menjadi penentu.
Indonesia terdiri dari beberapa pulau dan tentunya di masing-masing pulau
terdapat sekolah-sekolah baik dari jenjang TK, SD, SMP, SMA/SMK, dan
Universitas. Pada penelitian ini penulis berfokus pada jenjang SMA di Pulau
Sumatera. Karena banyaknya data dan juga variabel penentu tentunya akan
menyulitkan tim penilai dalam melakukan penilaian dan tidak bisa dihindari jika
terjadi kesalahan(human error) dalam proses penilaian. Prediksi tersebut dapat
diketahui dengan proses pendekatan matematik hingga diketahui polanya, proses
itu dinamakan data mining.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
Ketepatan dalam pengklasifikasian objek sangat penting, metode klasifikasi
yang baik adalah metode yang menghasilkan kesalahan yang kecil (Johnson. R.
A., 2007). Ada beberapa metode pengklasifikasian salah satunya adalah Naive
bayes. Keuntungan penggunaan Naive Bayes adalah bahwa metode ini hanya
membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan
estimasi paremeter yang diperlukan dalam proses pengklasifikasian. Naive Bayes
sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks
dari pada yang diharapkan (Pattekari, Shadab Adam, & Asma Parveen, 2012).
Penelitian ini akan menggunakan metode Naive bayes dengan data DAPODIK
SMA tahun 2018 di Pulau Sumatera. Data Pokok Pendidikan (DAPODIK) adalah
sistem pendataan skala nasional yang terpadu, dan merupakan sumber data
utama pendidikan nasional, yang merupakan bagian dari Program perancanaan
pendidikan nasional dalam mewujudkan insan Indonesia yang Cerdas dan
Kompetitif (KBBI).
Adapun penilitian sebelumnya terkait dengan akreditasi yang dilakukan oleh
Octaviani, P. A., Wilandari, Y., & Ispriyanti, D. (2014) dalam jurnal nya yang
berjudul “Penerapan Metode Klasifikasi Support Vector Machine (SVM) pada
Data Akreditasi Sekolah Dasar (SD) di Kabupaten Magelang” mendapat akurasi
93.90%. Melihat hal tersebut peneliti ingin mencoba menggunakan metode naive
bayes dengan data DAPODIK SMA tahun 2018 di Pulau Sumatera karena
penelitian-penelitian yang menggunakan metode naive bayes mendapat akurasi
yang baik.
Berikut ini adalah beberapa judul serta akurasi penelitian klasifikasi yang
menggunakan metode naive bayes. Yang pertama adalah penelitian yang dilakukan
Kusumadewi, S. (2009) dengan judul penelitian Klasifikasi Status Gizi
Menggunakan Naive Bayesian Classification dan menghasilkan akurasi 93,2% ,
penelitian yang kedua dilakukan oleh Ting, S. L., Ip, W. H., & Tsang, A. H. (2011)
dengan judul penelitian Is Naïve Bayes a Good Classifier for Document
Classification mendapatkan akurasi sebesar 97% , dan penelitian terakhir yang
dilakukan oleh Widiastuti, N. A., Santosa, S., & Supriyanto, C. (2014) dengan judul
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
https://id.wikipedia.org/w/index.php?title=Sistem_pendataan&action=edit&redlink=1https://id.wikipedia.org/wiki/Nasionalhttps://id.wikipedia.org/w/index.php?title=Pendidikan_nasional&action=edit&redlink=1https://id.wikipedia.org/wiki/Indonesia
3
Algoritme Klasifikasi data mining naïve bayes berbasis Particle Swarm
Optimization untuk deteksi penyakit jantung menghasilkan akurasi 82,14%.
1.2 Rumusan Masalah
1. Bagaimana metode naive bayes mampu mengkasifikasikan akreditasi SMA
di Pulau Sumatera dengan baik?
2. Berapa besar akurasi yang didapat dalam klasifikasi akreditasi SMA di
pulau Sumatera menggunakan metode naive bayes?
1.3 Tujuan
1. Mengetahui hasil klasifikasi akreditasi SMA di Pulau Sumatera
menggunakan algoritme naive bayes.
2. Mengetahui besar akurasi dari sistem yang dibangun dalam
pengklasifikasian akreditasi.
1.4 Manfaat
Dengan adanya tujuan dari penelitian diatas maka diharapkan dapat bermanfaat
bagi semua pihak. Manfaat penelitian ini yaitu:
1. Membantu BAN maupun orang yang berkepentingan dalam dibidang
akreditasi dalam mengetahui sistem pengkasifikasian Akreditasi sekolah
dengan menggunakan algoritme Naive Bayes
2. Menambah pengalaman dan pengetahuan mengenai klasifikasi akreditasi
dari data DAPODIK menggunakan metode naive bayes
3. Hasil dari penelitian ini dapat dijadikan bahan rujuan dan referensi bagi
semua ilmu yang berhubungan dan melakukan kajian menggunakan metode
naive bayes.
1.5 Batasan Masalah
Terdapat beberapa batasan masalah yang dijadikan dasar dalam pengerjaannya:
1. Algoritme yang digunakan dalam penelitian adalah naive bayes.
2. Data yang digunakan dalam penelitian ini adalah data DAPODIK SMA
tahun 2018 di pulau Sumatera meliputi 10 provinsi yaitu: (1) Provinsi Aceh,
(2) Provinsi Bangka Belitung, (3) Provinsi Bengkulu, (4) Provinsi Jambi,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
(5) Provinsi Kepulauan Riau, (6) Provinsi Lampung, (7) Provinsi Riau, (8)
Provinsi Sumatera Barat, (9) Provinsi Sumatera Selatan, (10) Provinsi
Sumatera Utara.
1.6 Metodologi Penelitian
Penelitian ini menggunakan beberapa tahap sebagai berikut:
1. Studi Pustaka
Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan
dengan Data Mining, Proses penilaian akreditasi SMA, Undang-undang
yang berkaitan dan algoritme Naïve Bayes melalui jurnal, buku, artikel, dan
web dari Badan akreditasi nasional (BAN).
2. Pengumpulan data
Data yang diperoleh mempunyai beberapa atribut dan record. Data
tersebut kemudian akan diintegrasikan dan dijadikan sebagai data set yang
nantinya akan diproses lebih lanjut menggunakan metode naive bayes.
3. Pengolahan awal data
Pada tahap ini melakukan preprocessing, dimana data akan melalui
tahap data selection, data tranformation, dan data cleaning. Setelah data
melewati tahap preprocessing data tersebut dianggap siap pakai.
4. Pengujian model
Model yang akan diuji pada tahap ini adalah dengan menggunakan
algoritme Naïve Bayes.
5. Evaluasi dan validasi hasil
Evaluasi pada model dilakukan pada tahap ini dimana untuk
mengetahui tingkat akurasi dari data, untuk mengetahui akurasi pada
penelitian ini menggunakan confusion matrix.
1.7 Sistematika Penulisan
Untuk memberikan gambaran dan kerangka yang jelas pada tiap bab dalam
penelitian, maka diperlukan sistematika penulisan. Berikut gambaran
sistematika penulisan masing-masing bab:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,
manfaat penelitian, batasan masalah dan sistematika penulisan.
BAB II LANDASAN TEORI
Bab ini menjelaskan tentang landasan teori yang berhubungan dengan
penelitian yang akan dilakukan untuk memecahkan masalah yang diteliti.
BAB III METODE PENELITIAN
Bab ini berisi tentang Gambaran umum, tahap-tahap peneliian, data,
perhitungan naive bayes, variasi percobaaan, peralatan penelitian, dan desain
user interface.
BAB IV HASIL DAN ANALISI
Bab ini berisi tentang hasil dari setiap percobaan-percobaan yang dilakukan
dalam penelitian seperti percobaan yang dilakukan mulai dari data
preprocessing, klasifikasi, klasifikasi optimal, outlier, dan uji data
BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang Kesimpulan dan saran dari penelitian yang telah
dilakukan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
LANDASAN TEORI
Bab ini berisi tentang teori teori yang berhubungan dengan penulisan tugas
akhir, seperti Standar nasional pendidikan, Akreditasi, Data mining,
Pengelompokan data mining, Superviced and Unsuperviced learning, Naive bayes,
Cross validation, Akurasi dengan Confusion matrix
2.1 Standar Nasional Pendidikan
Standar Nasional Pendidikan adalah kriteria minimal tentang sistem pendidikan
di seluruh wilayah hukum Negara Kesatuan Republik Indonesia. Pemerintah ikut
serta dalam proses peningkatan kualitas pendidikan yang ada di Indonesia dengan
menujuk Badan Akreditasi Nasional Sekolah/Madrasah (BAN-S/M) sebagai tim
penilai kelayakan suatu sekolah dengan peraturan Mendiknas Nomor 29 Tahun
2005 yang hasilnya diwujudkan dalam bentuk pengakuan peringkat kelayakan.
Dengan ada nya standar nasional pendidikan dapat menjadi patokan ataupun
landasan dalam suatu penilaian kelayakan suatu sekolah untuk menciptatakan
kualitas pendidikan yang baik dan berkualitas. Adanya standar nasional pendidikan
ini dapat menjadi menjadi motivasi juga patokan bagi sekolah-sekolah untuk
meningkatkan kualitas masing-masing agar sesuai dengan standar nasional
pendidikan yang ada di Indonesia. Hasil dari penilaian tersebut disebut akreditasi.
2.1.1 Akreditasi
Akreditasi Menurut Kamus Besar Bahasa Indonesia adalah pengakuan
terhadap lembaga pendidikan yang diberikan oleh badan yang berwenang
setelah dinilai bahwa lembaga itu memenuhi syarat kebakuan atau kriteria
tertentu. Dalam Peraturan Pemerintah(PP) No.19 tahun 2005 disebutkan
bahwa penilaian dilakukan berdasar 8 komponen standar nasional
pendidikan meliputi: (1) Standar isi, (2) Standar proses, (3) Standar
kopetensi lulusan, (4) Standar pendidik dan tenaga pendidikan, (5) Standar
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
sarana dan prasarana, (6) Standar pengelolaan, (7) Standar pembiayaan, dan
(8) Standar penilaian pendidikan.
Menurut UU No 29 Tahun 2005 Pelaksanaan akreditasi
sekolah/madrasah dilakukan setiap 5 tahun sekali tetapi dapat juga
dilakukan kurang dari 5 tahun apabila sekolah/madrasah yang bersangkutan
mengajukan permohonan untuk akreditasi ulang.
Data yang akan digunakan tentu harus melalui tahap proses dimana pada
tahap proses ini kita melihat lebih jauh masing masing variable atau atribut
yang akan digunakan. Proses tersebut disebut data mining.
2.2 Data Mining
2.2.1 Pengertian Data Mining
Data Mining merupakan proses pengekstraksian informasi dari
sekumpulan data yang sangat besar melalui penggunaan algoritme dan
teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem
manajemen basis data (Taruna R., 2013). Data Mining merupakan proses
ataupun kegiatan untuk mengumpulkan data yang berukuran besar
kemudian mengekstraksi data tersebut menjadi informasi -informasi yang
nantinya dapat digunakan (Saleh, 2015).
Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006)
Data mining mengacu pada mining knowledge dari data dalam
jumlah besar (Han & Kamber, 2006). Secara umum data mining
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
dikenal dengan proses Knowledge Discovery from Data (KDD).
Proses KDD sebagai berikut :
1. Pembersihan data (Data Cleaning).
Proses pembersihan data atau data cleaning dilakukan untuk
menghilangkan noise dan data yang tidak konsisten.
2. Integrasi data (Data Integration).
Proses data integrasi adalah proses menggabungkan data dari
sumber data yang berbeda.
3. Seleksi data ( Data Selection).
Seleksi data atau data selection adalah proses memilih data
atau atribut yang relevan untuk atribut ini. Pada tahap ini
dilakukan analisis korelasi atribut data. Atribut – atribut data
tersebut dicek apakah relevan untuk dilakukan penambangan
data.
4. Transformasi data (Data Transformation).
Transformasi atau data transformation proses
menggabungkan data ke dalam bank yang sesuai untuk
ditambang.
5. Penambangan data (Data Mining).
Langkah ini adalah langkah paling penting yaitu melakukan
pengaplikasian metode yang tepat untuk pola data.
6. Evaluasi pola (Pattern Evaluation).
Pada langkah ini dilakukan identifikasi pola dalam bentuk
pengetahuan berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan (Knowledge Presentation).
Pada langkah ini dilakukan proses penyajian pengetahuan
dari hasil penambangan data. hasil klasifikasi data nasabah akan
ditampilkan ke dalam bentuk yang mudah dipahami
user/pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
2.2.2 Pengelompokan Data Mining
Penambangan data dibagi menjadi beberapa kelompok berdasarkan
tugas yang dapat dilakukan, yaitu (Kusrini & Luthfi, E.T, 2019):
1. Deskripsi
Tugas deskripsi pada penambangan data adalah
menggambarkan pola dan keenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola atau kecenderungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, namun pada
variable target, estimasi lebih kearah numerik dari pada kearah
kategori. Peninjauan estimasi nilai dari variable target dibuat
berdasarkan nilai prediksi. Sebagai contoh, estimasi nilai indeks
prestasi kumulatif mahasiswa program pascasarjana dengan melihat
nilai indeks prestasi mahasiswa tersebut pada saat mengikuti
program sarjana.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi.
Namun dalam prediksi niali dari hasil akan merujuk ke masa
mendatang. Contoh prediksi dalam bisnis dan penelitian adalah
prediksi harga beras dalam 6 bulan yang akan datang.
4. Klasifikasi
Klasifikasi adalah proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan
tujuan untuk dapat memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui. Dalam klasifikasi, terdapat target variable
kategori. Sebagai contoh, penggolongan pendapatan dapat
dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan
sedang, dan pendapatan rendah.
5. Pengklusteran
Pengklusteran merupakan pengelompokan record,
pengamatan, atau memprihatinkan dan membentuk kelas objek –
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
objek yang memiliki kemiripan. Contoh pengklusteran dalam dunia
bisnis atau penelitian adalah mendapatkan kelompok – kelompok
konsumen untuk target pemasaran dari suatu produk sebuah
perusahaan yang tidak memiliki dana pemasaran yang besar.
6. Asosiasi
Tugas asosiasi dalam penambangan data adalah menemukan
atribut yang muncul satu waktu. Dalam dunia bisnis lebih umum
disebut analisis keranjang belanja. Contoh asosiasi dalam dunia
bisnis atau penelitian adalah menemukan barang dalam supermarket
yang dibeli secara bersamaan dan barang yang tidak pernah dibeli
secara samaan.
2.2.3 Supervised and Unsupervised Learning
2.2.3.1 Supervised learning
Supervised learning adalah sebuah pendekatan dimana
sudah terdapat data yang dilatih, dan terdapat variable yang
ditargetkan sehingga tujuan dari pendekatan ini adalah
mengkelompokan suatu data ke data yang sudah ada. Algoritme
supervised learning:
1) K-Nearest Neighbor(KNN)
Algoritme K-Nearest neighbor(KNN) adalah sebuah metode
untuk melakukan klasifikasi terhadap objek berdasar data
pembelajaran yang jaraknya paling dekat dengan objek tersebut
(Liantoni, 2015)
2) Decision tree
Decision tree atau pohon keputusan adalah pohon yang
digunakan sebagai prosedur penalaran untuk mendapat jawaban
dari dari masalah yang dimasukkan(Prasetyo,2012).
3) Naive Bayes
Metode naive bayes bekerja secara vitur independent yang
artinya sebuah fitur dalam sebuah data tidak berkaitan dengan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
ada atau tidaknya fitur yang lain dalam data yang sama(Prasetyo,
2012).
4) Support Vector Machine (SVM)
Metode ini berakar dari teori pembelajaran statistik dan
menggunakan teknik karnel yang harus memetakan data asli dari
dimensi asal menjadi dimensi lain yang relative tinggi(Prasetyo,
2012).
5) Jaringan saraf Tiruan(JST)
Jaringan Syaraf Tiruan (JST) merupakan suatu sistem
pemrosesan informasi yang mempunyai karakteristik
menyerupai jaringan syaraf biologi (Siang, 2009).
2.2.3.2 Unsupervised learning
Unsupervised learning merupakan suatu pendekatan dimana
tidak terdapat data latih sehingga mengharuskan kita
mengelompokkan data yang ada menjadi 2 kategori, tiga kategori
dan seterusnya. Algoritme Unsupervised learning:
1) Hierarchical clustering
Merupakan metode pengelompokkan berbasis hierarki
dengan pendekatan bottom up, yaitu proses pengelompokkan
dimulai dari masing-masing data sebagai satu buah cluster,
kemudian secara rekursif mencari cluster terdekat sebagai pasangan
untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,
2013)
2) K-Means
Algortima K-Means merupakan algoritme pengelompokan
iteratif yang melakukan partisi set data ke dalam sejumlah K cluster
yang sudah ditetapkan di awal. Algortima K-Means sederhana untuk
diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi,
umum penggunaannya dalam praktek (Wulan dan Kumar, 2009).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
3) Fuzzy C-Means
Fuzzy C-Means adalah suatu teknik peng-cluster-an yang
mana keberadaannya tiap-tiap titik data dalam suatu cluster
ditentukan oleh derajat keanggotaan (Bezdek, Jim,1981).
2.3 Naive bayes
Algoritma Naive Bayes adalah pengelompokan probabilistik sederhana yang
menghitung sekumpulan probabilitas dengan menghitung frekuensi dan kombinasi
nilai-nilai dalam suatu kumpulan data yang diberikan. Algoritme menggunakan
teorema Bayes mengasumsikan semua atribut bersifat independen (Patil, Tina R &
S. S. Sherekar, 2013).
2.3.1 Persamaan Metode Naive Bayes
Persamaan dari teorema naive bayes adalah:
𝑃(H|X) =𝑃(𝑋|𝐻). 𝑃(𝐻)
𝑃(𝑋) (2.1)
Dimana:
X :Data dengan class yang belum diketahui.
H :Hipotesis data merupakan suatu class spesifik.
P(H|X) :Probabilitas hipotesis H berdasar kondisi X (Posteriori
Probabilitas).
P(H) :Probabilitas hipotesis H (prior probabilitas).
P(X|H) :Probabilitas X berdaasarkan kondisi pada hipotesis H.
P(X) :Probabilitas X.
Untuk menjelaskan metode Naive Bayes, perlu diketahui bahwa
proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas
apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, metode
Naive Bayes di atas disesuaikan sebagai berikut:
𝑃(𝐶|𝐹1 … 𝐹𝑛) =𝑃(𝐶)𝑃(𝐹1 … 𝐹𝑛|𝐶)
𝑃(𝐹1 … 𝐹𝑛) (2.2)
Di mana Variabel C merepresentasikan kelas, sementara variabel F1
... Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang
masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah
peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali
disebut prior), dikali dengan peluang kemunculan karakteristik-
karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan
peluang kemunculan karakteristik-karakteristik sampel secara global
(disebut juga evidence). Atau dengan kata lain dapat ditulis dengan
sederhana seperti rumus dibawah ini:
𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑦 =𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑥 𝑝𝑟𝑖𝑜𝑟
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)
Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari
posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior
kelas lainnya untuk menentukan ke kelas apa suatu sampel akan
diklasifikasikan.
Untuk klasifikasi dengan data kontinyu digunakan rumus densitas
gauss:
P(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑌𝑗) =1
√2𝜋𝜎𝑒
−(𝑥𝑖−𝜇)2(𝜎)2 (2.4)
Dimana:
P = Peluang
Xi = Atribut ke-i
xi = Nilai atribut ke-i
Y = Kelas yang dicari
µ = mean, menyatakan rata-rata dari seluruh atribut
σ = Standar Deviasi
Menghitung rata-rata digunakan rumus:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
𝑛𝑖𝑙𝑎𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖
𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (2.5)
Untuk menghitung standar deviasi gunakan rumus dibawah:
𝑆 = √∑𝑖=1
𝑛 (𝑥𝑖 − 𝑥−)2
𝑛 − 1 (2.6)
Dimana:
S = Standar deviasi
xi = Nilai x ke-i
x- = Rata-rata
n = Ukuran sampel
2.4 Cross validation
Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk
pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut
dengan k-fold cross–validation, yang memecah set data menjadi k bagian set data
dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data
set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut
dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat
satu kali dan menjadi data latih sebanyak k-1 kali. Total error didapatkan dengan
menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Gambar 2. 2 3-Fold Validation
2.5 Akurasi dengan Confusion Matix
Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi
dapat diuji dengan benar. Nilai akurasi berdasarkan hasil klasifikasi dihitung dari
jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi pada
klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix (Tan,
Steinbach, dan Kumar, 2006)
Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006)
Hasil Pengujian
1 0
Target
kelas
1 F11 F10
0 F01 F00
Fij adalah jumlah data yang dikenali sebagai kelas ke-j dengan target kelas ke-i.
Persamaan untuk menghitung akurasi klasifikasi
akurasi =𝐹11 + 𝐹00
𝐹11 + 𝐹10 + 𝐹01 + 𝐹00∗ 100 (2.7)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
BAB III
METODE PENELITIAN
Bagian ini menguraikan mengenai rencana langkah-langkah yang akan
dilakukan dalam penelitian. Termasuk bagaimana cara mendapatkan data, cara
mengolah data, cara membuat alat uji jika diperlukan, cara analisis data, cara
pengujian, dan di bagian akhir diberikan desain alat uji serta user interface dari alat
uji yang akan dibangun.
3.1 Gambaran Umum
Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi
Berdasarkan gambar 3.1 adalah tahap-tahap bagaimana data diproses. Adapun
tahapnya dimana data masuk ke dalam tahap preprocessing yang dimana
melakukan seleksi atribut, transformasi data, dan cleaning data. Setelah melewati
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
tahap preprocessing data dianggap siap pakai dimana data akan masuk ke tahap
pembentukan model.
Pada tahap pembentukan model, data dipisah menjadi 2 bagian yaitu data
training dan data testing dengan menggunakan 3-fold validation. Setelah itu pada
setiap atribut dihitung rata-rata (mean) dan standar deviasinya, lalu hitung
menggunakan perhitungan naive bayes jika sudah terbentuk model uji data testing
terhadap model yang didapat, setelah dihitung akan mendapatkan hasil. Hasil yang
didapat yang telah diproses menggunakan naive bayes tadi di bandingkan terhadap
label testing, setelah dibandingkan akan mendapat akurasi menggunakan confusion
matrix. Setelah itu kita melakukan uji data tunggal dimana kita memasukkan data
baru sebagai data test. Data test yang dimasukkan diuji terhadap model dan akan
mendapat hasil klasifikasi dari data yang diuji.
3.1.1 Algoritma Naive bayes
Untuk algoritme naive bayes yang dibangun pada sistem seperti
tapat-tahap dibawah ini:
1. Tahap pertama sistem yang dibangun membaca data masukkan file
bertipe .xlsx atau .xls
2. Data tersebut di dilakukan preprocessing, yaitu seleksi data,
transformasi data dan cleaning data.
3. Mendapat hasil preprocessing, Data yang sudah dipreprocessing
dianggap menjadi data siap pakai.
4. Lakukan k-fold cross validation terhadap data siap pakai.
5. Tahap permodelan, pada tahap ini perhitungan menggunakan naive
bayes dilakukan, yaitu menghitung probabilitas-probabilitas pada setiap
atribut dan membandingkan probabilitas
6. Hasil probabilitas tertinggi diambil dan dijadikan kelas dari data yang
diuji.
7. Menguji akurasi dengan confusion matrix , Label testing dibandingkan
dengan label yang didapat setelah dilakukan nya perhitungan naive
bayes dan dimasukkan ke hasilnya dimasukkan ke dalam matrix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
8. Dilakukan perhitungan untuk menggunakan rumus confusion matrix
hingga diketahui besar akurasi,
Gambar 3. 2 Diagram Flowchart Uji sistem
Untuk uji data tunggal dilakukan dengan langkah-langkah seperti dibawah
1. Siapkan uji data tunggal
2. Lakukan pengujian data tunggal terhadap modeling, modeling yang
dimaksud disini adalah modeling yang didapat pada Gambar 3.2
Diagram Flowchart Uji Sistem
3. Menghitung probabilitas-probabilitas dari data tunggal terhadap
masinng-masing kelas, probabilitas tertinggi akan dijadikan kelas (hasil
klasifikasi) dari data tunggal yang diuji.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Gambar 3. 3 flowchart uji data tunggal
3.2 Tahap-tahap Penelitian
3.2.1 Pengumpulan Data
Data yang digunakan pada penelitian ini adalah data DAPODIK
(Data pokok pendidikan) tahun 2018 SMA di Pulau Sumatera.
3.2.2 Pengolahan Awal Data
Pada tahap ini, data akan diolah terlebih dahulu sebelum data
tersebut siap dipakai. Tahap preprocessing nya adalah seleksi data. Tahap-
tahap nya akan seperti gambar dibawah
Gambar 3. 4 Tahap Preprocessing
Setelah tahap tersebut data dianggap siap pakai dan di proses ke tahap
berikutnya pembuatan model naive bayes.
3.2.3 Pembuatan model
Pada tahap ini, proses pembuatan modelnya akan dijelaskan dalam
tahap-tahap seperti dibawah:
1. Sebelum ke tahap pembuatan model ada proses yang dinamakan cross-
validation dimana ini membagi data menjadi 2 yaitu data training dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
data testing. Menggunakan 3-fold cross validation seperti pada Gambar
2.2 3-Fold Validation.
2. Setelah itu akan masuk ke dalam perhitungan naive bayes, dikarenakan
data nya kontinyu hitung rata-rata (mean) dan standar deviasi setiap
atribut menggunakan rumus persamaan 2.5 dan persamaan 2.6.
3. Hitung probabilitas setiap atribut menggunakan persamaan 2.4
4. Cari likelihood setiap kelas dengan cara mengkalikan hasil yang didapat
pada langkah ke-3 pada setiap kelas.
5. Bandingkan hasil setiap kelas, probabilitas tertinggi itu adalah kelas dari
data testing yang diuji.
Tahap-tahap nya seperti gambar dibawah:
Gambar 3. 5 Tahap Pembuatan Model
3.2.4 Evaluasi dan Validasi Hasil
Pada tahap ini untuk mengetahui akurasi dari data yang diuji
menggunakan confusion matix. Tahap-tahap confusion matrix:
1. Label (kelas) pada data testing di bandingkan dengan label (kelas) yang
didapat setelah dilakukan perhitungan dengan metode naive bayes
2. Hasil perbandingannya di masukkan ke dalam matrix, pada kasus
pengklasifikasian ini karna label (kelas) ada 4 yaitu A, ,B ,C, dan TT
maka confusion matrix nya adalah 4*4
3. Setelah itu hitung akurasi dengan menggunakan persamaan 2.7
4. Hasil akurasi akan diketahui
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Gambar 3. 6 Alur confusion matrix
3.3 Data
Data yang digunakan dalam penelitian ini adalah data DAPODIK (data
pokok pendidikan) SMA tahun 2018 di Pulau Sumatera yang diberasal dari
Kemdikbud dengan jumlah 1511 data.
Untuk contoh data menggunakan 8 atribut sesuai dengan Peraturan
Pemerintah(PP) No.19 tahun 2005 dan 1 atribut kelas dimana disebutkan bahwa
mengenai komponen-komponen yang dipakai dalam penilaian Akreditasi
dilakukan berdasar 8 komponen standar nasional pendidikan meliputi:
1. Standar isi
2. Standar proses
3. Standar kopetensi lulusan
4. Standar pendidik dan tenaga pendidikan
5. Standar sarana dan prasarana
6. Standar pengelolaan
7. Standar pembiayaan
8. Standar penilaian pendidikan.
Berikut merupakan contoh data dan atribut yang akan digunakan pada penelitian
ini:
Tabel 3. 1 Contoh data
No Standar
Sarana
Prasarana
Standar
Isi
Standar
Penilaian
Standar
Pengelolaan
Standar
Kelulusan
Standar
Tenaga
Pendidik
Standar
Pembiayaan
Standar
Proses
Akre
ditasi
1 56 50 78 60 63 68 82 64 C
2 86 83 75 84 82 70 93 81 B
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
3 79 81 80 88 73 88 85 83 B
4 91 92 96 94 91 91 91 94 A
5 52 50 59 56 51 54 67 44 TT
6 57 67 61 66 61 63 59 67 C
7 90 92 86 91 84 88 93 89 A
8 65 71 78 68 54 64 92 61 C
9 74 88 86 79 76 78 82 86 B
10 92 75 88 95 82 68 90 75 B
11 7 15 30 23 17 28 30 25 TT
12 56 58 63 60 57 58 57 58 C
13 76 89 83 95 86 90 95 92 A
14 98 99 95 98 97 99 92 100 A
15 89 94 93 99 87 79 98 92 A
16 39 44 34 38 39 29 45 53 TT
17 80 99 96 88 97 96 96 92 A
18 71 94 91 88 74 71 80 78 B
19 59 78 74 73 74 69 86 72 B
20 40 68 68 58 56 50 85 72 C
21 58 60 63 71 62 71 63 67 C
Berikut adalah penjelasan masing-masing atribut yang digunakan dalam penelitian
ini:
Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005)
No Atribut Keterangan
1 Standar isi Ruang lingkup materi dan tingkat kompetensi yang
dituangkan dalam kriteria tentang kompetensi tamatan,
kompetensi bahan kajian, kompetensi mata pelajaran,
dan silabus pembelajaran yang harus dipenuhi oleh
peserta didik pada jenjang dan jenis pendidikan
tertentu.
2 Standar proses Standar nasional pendidikan yang berkaitan dengan
pelaksanaan pembelajaran pada satu satuan pendidikan
untuk mencapai standar kompetensi lulusan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
3 Standar
kopetensi
lulusan
Kualifikasi kemampuan lulusan yang mencakup sikap,
pengetahuan, dan keterampilan
4 Standar
pendidik dan
tenaga
pendidikan
Kriteria pendidikan prajabatan dan kelayakan fisik
maupun mental, serta pendidikan dalam jabatan.
5 Standar sarana
dan prasarana
Standar nasional pendidikan yang berkaitan dengan
kriteria minimal tentang ruang belajar, tempat
berolahraga, tempat beribadah, perpustakaan,
laboratorium, bengkel kerja, tempat bermain, tempat
berkreasi dan berekreasi, serta sumber belajar lain,
yang diperlukan untuk menunjang proses
pembelajaran, termasuk penggunaan teknologi
informasi dan komunikasi.
6 Standar
pengelolaan
Standar nasional pendidikan yang berkaitan dengan
perencanaan, pelaksanaan, dan pengawasan kegiatan
pendidikan pada tingkat satuan pendidikan,
kabupaten/kota, provinsi, atau nasional agar tercapai
efisiensi dan efektivitas penyelenggaraan pendidikan.
7 Standar
pembiayaan
Standar yang mengatur komponen dan besarnya biaya
operasi satuan pendidikan yang berlaku selama satu
tahun.
8 Standar
penilaian
pendidikan
Standar nasional pendidikan yang berkaitan dengan
mekanisme, prosedur, dan instrumen penilaian hasil
belajar peserta didik.
9 Akeditasi Kegiatan penilaian kelayakan program dan/atau satuan
pendidikan berdasarkan kriteria yang telah ditetapkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
3.4 Perhitungan menggunakan naive bayes
3.4.1 Preprocessing
Tahap ini akan dilakukan Proses Preprocessing
Atribut Selection
Seleksi atribut melakukan dua tahapan, tahap yang pertama adalah
melakukan penghapusan terlebih dahulu terhadap atribut-atribut yang
dianggap tidak penting dan juga atribut-atribut yang tidak memiliki nilai
pembanding. Maksud dari nilai pembanding dalam penelitian ini adalah
dimana atribut dalam data harus mempunyai nilai yang berbeda. Contoh
atribut(x) memiliki isian true/false, tahap ini mengharuskan dalam
atribut(x) harus memiliki kedua nilai tidak boleh hanya memiliki salah
satu nilai saja. Tahap yang kedua adalah melakukan perangkingan
atribut berdasarkan information gain menggunakan Weka Tool 3.9
Transformasi data
Pada tahap ini melakukan tranformasi data, dimana data ber-type
string akan di ubah ke number agar dapat diproses pada mathlab. Atribut-
atribut yang akan di transformasi sebagai berikut:
Tabel 3. 3 ketentuan transformasi data
Atribut Data asli Data transformasi
Provinsi Nama-nama provinsi
dipulau sumatera,
terdiri dari 10 provinsi
1 sampai 10
Jenis sekolah Negeri/Swasta 1/0
Akses internet True/False 1/0
Sumber listrik True/False 1/0
Akreditasi A/B/C/Tidak
Terakreditasi
1/2/3/4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Cleaning data
Pada tahap ini melakukan cleaning data, cleaning data ini bertujuan
untuk menghapus data kosong(missing value).
Normalisasi data
Tahap ini melakukan normalisasi menggunakan normalissasi min-
max dimana normalisasi ini akan dilakukan pada data yang memiliki
rentang jauh. Maksud rentang jauh dalam penelitian ini adalah ketika
data memiliki rentang yang perbedaan nya jauh dari data-data pada
atribut lain seperti pada atribut daya listrik dan luas tanah. Pada daya
listrik memiliki rentang 0 sampai 529.999 dan pada atribut luas tanah
memiliki rentang 0 sampai 2.528.390.
3.4.2 Modelling Naive Bayes
Pada tahap ini kita akan melakukan perhitungan data dengan
menggunakan metode naive bayes. Data yang akan kita gunakan adalah data
pada tabel 3.1 Contoh data adapun perhitungannya melalui tahap-tahap
berikut:
1. Data terlebih dahulu dibagi menjadi 2 bagian yaitu data training dan
data testing dimana pembagian data tersebut disebut cross validation
dimana menggunakan 3-fold validation.
2. Setelah itu hitung probabilitas dari masing-masing atribut menggunakan
algoritme perhitungan naive bayes.
3. Hitung confusion matrix
Berikut ini adalah contoh perhitungan untuk mencari nilai
probabilitas, data yang akan diuji terlebih dahulu kita bagi 2 dengan
ketentuan data training adalah data 1-14 dan data testing adalah 15-21 pada
tabel 3.1 Contoh data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Tabel 3. 4 Data training
No A1 A2 A3 A4 A5 A6 A7 A8 Kelas
1 56 50 78 60 63 68 82 64 C
2 86 83 75 84 82 70 93 81 B
3 79 81 80 88 73 88 85 83 B
4 91 92 96 94 91 91 91 94 A
5 52 50 59 56 51 54 67 44 TT
6 57 67 61 66 61 63 59 67 C
7 90 92 86 91 84 88 93 89 A
8 65 71 78 68 54 64 92 61 C
9 74 88 86 79 76 78 82 86 B
10 92 75 88 95 82 68 90 75 B
11 7 15 30 23 17 28 30 25 TT
12 56 58 63 60 57 58 57 58 C
13 76 89 83 95 86 90 95 92 A
14 98 99 95 98 97 99 92 100 A
Keterangan:
A1: Standar Sarana dan Prasarana
A2: Standar Isi
A3: Standar Penilaian Pendidikan
A4: Standar Pengelolahan
A5:Standar Kelulusan
A6: Standar Pendidikan dan Tenaga Pendidikan
A7: Standar Pembiayaan
A8: Standar Proses
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Berikut ini penyelesaian contoh kasus menggunakan algoritme naive bayes.
a. Menghitung rata-rata (mean) menggunakan persamaan 2.5 dan standar
deviasi menggunakan persamaan 2.6 pada setiap atribut.
Berikut ini merupakan hasil perhitungan rata-rata(mean) dan standar deviasi
dari setiap atribut
Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1
A1 A B C TT
Rata-rata 88,75 82,75 58,5 29,5
Standar Deviasi 9,215024 7,889867 4,358899 31,81981
Tabel 3. 6 Hasil rata-rata (mean) dan Standar Deviasi A2
A2 A B C TT
Rata-rata 93 81,75 61,5 32,5
Standar Deviasi 4,242641 5,377422 9,398581 24,74874
Tabel 3. 7 Hasil rata-rata (mean) dan Standar Deviasi A3
A3 A B C TT
Rata-rata 90 82,25 70 44,5
Standar Deviasi 6,480741 5,909033 9,273618 20,5061
Tabel 3. 8 Hasil rata-rata (mean) dan Standar Deviasi A4
A4 A B C TT
Rata-rata 94,5 86,5 63,5 39,5
Standar Deviasi 2,886751 6,757712 4,123106 23,33452
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Tabel 3. 9 Hasil rata-rata (mean) dan Standar Deviasi A5
A5 A B C TT
Rata-rata 89,5 78,25 58,75 34
Standar Deviasi 5,802298 4,5 4,031129 24,04163
Tabel 3. 10 Hasil rata-rata (mean) dan Standar Deviasi A6
A6 A B C TT
Rata-rata 92 76 63,25 41
Standar Deviasi 4,830459 9,092121 4,112988 18,38478
Tabel 3. 11 Hasil rata-rata (mean) dan Standar Deviasi A7
A7 A B C TT
Rata-rata 92,75 87,5 72,5 48,5
Standar Deviasi 1,707825 4,932883 17,25302 26,16295
Tabel 3. 12 Hasil rata-rata (mean) dan Standar Deviasi A8
A8 A B C TT
Rata-rata 93,75 81,25 62,5 34,5
Standar Deviasi 4,645787 4,645787 3,872983 13,43503
b. Menghitung Probabilitas dari kelas(A9)
Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas
Jumlah Kategori Akreditasi Probabilitas kategori Akreditasi
A B C TT A B C TT
Jumlah 4 4 4 2 4/14 4/14 4/14 2/14
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
c. Melakukan perhitungan probabilitas terhadap data testing yang telah
ditentukan yaitu pada data 15- 21
Tabel 3. 14 Data testing
No A1 A2 A3 A4 A5 A6 A7 A8 Kelas
15 89 94 93 99 87 79 98 92 A
16 39 44 34 38 39 29 45 53 TT
17 80 99 96 88 97 96 96 92 A
18 71 94 91 88 74 71 80 78 B
19 59 78 74 73 74 69 86 72 B
20 40 68 68 58 56 50 85 72 C
21 58 60 63 71 62 71 63 67 C
Perhitungan pada data testing no.15
Untuk A1=89, maka hitung berdasarkan persamaan 2.4
P(A1=89 | Akreditasi = A)
=1
√2𝜋(9,215)𝑒
−(89−88,75)2
2(9,215)2 = 0,043277
P(A1=89 | Akreditasi = B)
=1
√2𝜋(7,890)𝑒
−(89−82,75)2
2(7,890)2 = 0,036947
P(A1=89 | Akreditasi = C)
=1
√2𝜋(4,359)𝑒
−(89−58,5)2
2(4,359)2 = 0,0000000000021
P(A1=89 | Akreditasi = TT)
=1
√2𝜋(31,820)𝑒
−(89−29,5)2
2(31,820)2 = 0,002182
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Untuk A2=94, maka hitung berdasarkan persamaan 2.4
P(A2=94 | Akreditasi = A)
=1
√2𝜋(4,243)𝑒
−(94−93)2
2(4,243)2 = 0,091456
P(A2=94 | Akreditasi = B)
=1
√2𝜋(5,377)𝑒
−(94−81,75)2
2(5,377)2 = 0,005539
P(A2=94 | Akreditasi = C)
=1
√2𝜋(9,399)𝑒
−(94−61,5)2
2(9,399)2 = 0,000107
P(A2=94 | Akreditasi = TT)
=1
√2𝜋(24,749)𝑒
−(94−32,5)2
2(24,749)2 = 0,000735
Untuk A3=93, maka hitung berdasarkan persamaan 2.4
P(A3=93 | Akreditasi = A)
=1
√2𝜋(6,481)𝑒
−(93−90)2
2(6,481)2 = 0,055304
P(A3=93 | Akreditasi = B)
=1
√2𝜋(5,909)𝑒
−(93−82,25)2
2(5,909)2 = 0,012904
P(A3=93 | Akreditasi = C)
=1
√2𝜋(9,274)𝑒
−(93−70)2
2(9,274)2 = 0,001986
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
P(A3=93 | Akreditasi = TT)
=1
√2𝜋(20,506)𝑒
−(93−44,5)2
2(20,506)2 = 0,001187
Untuk A4=99, maka hitung berdasarkan persamaan 2.4
P(A4=99 | Akreditasi = A)
=1
√2𝜋(2,887)𝑒
−(99−94,5)2
2(2,887)2 = 0,041005
P(A4=99 | Akreditasi = B)
=1
√2𝜋(6,758)𝑒
−(99−86,5)2
2(6,758)2 = 0,010669
P(A4=99 | Akreditasi = C)
=1
√2𝜋(4,123)𝑒
−(99−63,5)2
2(4,123)2 = 0,000000000000000008
P(A4=99 | Akreditasi = TT)
=1
√2𝜋(23,335)𝑒
−(99−39,5)2
2(23,335)2 = 0,000662
Untuk A5=87, maka hitung berdasarkan persamaan 2.4
P(A5=87 | Akreditasi = A)
=1
√2𝜋(5,802)𝑒
−(87−89,5)2
2(5,802)2 = 0,062661
P(A5=87 | Akreditasi = B)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
=1
√2𝜋(4,500)𝑒
−(87−78,25)2
2(4,500)2 = 0,013387
P(A5=87 | Akreditasi = C)
=1
√2𝜋(4,031)𝑒
−(87−58,75)2
2(4,031)2 = 0,0000000000021
P(A5=87 | Akreditasi = TT)
=1
√2𝜋(24,042)𝑒
−(87−35,66667)2
2(24,042)2 = 0,001461
Untuk A6=79, maka hitung berdasarkan persamaan 2.4
P(A6=79 | Akreditasi = A)
=1
√2𝜋(4,830)𝑒
−(79−92)2
2(4,830)2 = 0,002209
P(A6=79| Akreditasi = B)
=1
√2𝜋(9,092)𝑒
−(79−76)2
2(9,092)2 = 0,041553
P(A6=79 | Akreditasi = C)
=1
√2𝜋(4,113)𝑒
−(79−63,25)2
2(4,113)2 = 0,000063
P(A6=79 | Akreditasi = TT)
=1
√2𝜋(18,385)𝑒
−(79−41)2
2(18,385)2 = 0,002563
Untuk A7=98, maka hitung berdasarkan persamaan 2.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
P(A7=98 | Akreditasi = A)
=1
√2𝜋(1,708)𝑒
−(98−92,75)2
2(1,708)2 = 0,002072
P(A7=98| Akreditasi = B)
=1
√2𝜋(4,933)𝑒
−(98−87,5)2
2(4,933)2 = 0,008394
P(A7=98 | Akreditasi = C)
=1
√2𝜋(17,253)𝑒
−(98−72,5)2
2(17,253)2 = 0,007757
P(A7=98 | Akreditasi = TT)
=1
√2𝜋(26,163)𝑒
−(98−48,5)2
2(26,163)2 = 0,002546
Untuk A8=92, maka hitung berdasarkan persamaan 2.4
P(A7=92 | Akreditasi = A)
=1
√2𝜋(4,646)𝑒
−(92−93,75)2
2(4,646)2 = 0,079991
P(A8=92| Akreditasi = B)
=1
√2𝜋(4,646)𝑒
−(92−81,25)2
2(4,646)2 = 0,005905
P(A8=92 | Akreditasi = C)
=1
√2𝜋(3,873)𝑒
−(92−62,5)2
2(3,873)2 = 0,00000000000003
P(A8=92 | Akreditasi = TT)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
=1
√2𝜋(13,435)𝑒
−(92−34,5)2
2(13,435)2 = 0,000003
Dibawah ini adalah hasil probabilitas yang didapat dari perhitungan diatas
yang ditampilkan dalam bentuk tabel
Tabel 3. 15 Probabilitas setiap atribut
A B C TT
A1 0,043277 0,036947 0,0000000000021 0,002182
A2 0,091456 0,005539 0,000107 0,000735
A3 0,055304 0,012904 0,001986 0,001187
A4 0,041005 0,010669 0,000000000000000008 0,000662
A5 0,062661 0,013387 0,0000000000021 0,001461
A6 0,002209 0,041553 0,000063 0,002563
A7 0,002072 0,008394 0,007757 0,002546
A8 0,079991 0,005905 0,00000000000003 0,000003
A9 0,285714 0,285714 0,285714 0,142857
d. Menghitung likelihood, lakukan perhitungan likelihood dari probabilitas
yang didapat. Nilai likelihood yang akan dihitung ada 4 yaitu likelihoot
untuk kelas A, B. C, dan TT.
Likelihood A
LA = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)
= 0,043277 * 0,091456 * 0,055304 * 0,041005 * 0,062661 * 0,002209 *
0,002072 * 0,079991 * 0,285714
= 0,000000000000058830
Likelihood B
LB = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)
= 0,036947 * 0,005539 * 0,012904 * 0,010669 * 0,013387 * 0,041553 *
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
0,008394 * 0,005905 * 0,285714
= 0,00000000000000022
Likelihood C
LC = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)
= 0,0000000000021 * 0,000107 * 0,001986 * 0,000000000000000008 *
0,0000000000021 * 0,000063 * 0,007757* 0,00000000000003 * 0,285714
= 2,76132E-68
Likelihood TT
LTT = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)
= 0,002182 * 0,000735 * 0,001187 * 0,000662 * 0,001461 * 0,002563 *
0,002546 * 0,000003* 0,142857
= 0,0000000000000000000000000054
Nilai probabilitas yang didapat dihitung dengan melakukan normalisasi
terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh =1
PA =0,000000000000058830
0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054
= 0,996241509
PB =0,00000000000000022
0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054
= 0,003758
PC = 2,76132E−68
0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054
= 4,67607E-55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
PTT=0,000000000000058830
0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054
= 0,00000000000009097115
Dari hasil tersebut terlihat bahwa nilai probabilitas tertinggi adalah pada
status akreditasi A dengan nilai probabilitas 0,996241509. Sehingga dapat
disimpulkan bahwa data testing nomor 15 diklasifikasikan ke dalam kelas A.
Lakukan perhitungan yang sama pada langkah c untuk data 16-21. Hingga
ditemukan masing-masing kelas nya. Berikut adalah hasil pengklasifikasian data
testing
Tabel 3. 16 Hasil Pengujian Data
No A1 A2 A3 A4 A5 A6 A7 A8 Kelas
Hasil
pengklasifikasian
menggunakan
metode naive
bayes
15 89 94 93 99 87 79 98 92 A A
16 39 44 34 38 39 29 45 53 TT TT
17 80 99 96 88 97 96 96 92 A A
18 71 94 91 88 74 71 80 78 B B
19 59 78 74 73 74 69 86 72 B B
20 40 68 68 58 56 50 85 72 C TT
21 58 60 63 71 62 71 63 67 C C
3.4.3 Uji Akurasi dengan Confusion Matrix
Akurasi akan diuji menggunakan confusion matrix dimana, pada
tabel 3.15 Hasil Pengujian Data kita lakukan perhitungan untuk mendapat
akurasi. Kita menggunakan rumus pada persamaan 2.7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Tabel 3. 17 Perhitungan Confusion Matrix
A B C TT
A 2 0 0 0
B 0 2 0 0
C 0 0 1 1
TT 0 0 0 1
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2 + 2 + 1 + 1
7∗ 100 = 85,71
Pada hasil yang didapat kita bisa lihat dengan banyak data 21 (training 14
dan testing 7) didapat akurasi sebesar 85,71%.
Karena kita menggunakan 3-fold cross validation kita harus
menghitung terhadap 2 model lagi yaitu data testing berada dibagian tengah
dan data testing berada di bagian atas. Dibawah ini adalah hasil akurasi yang
didapat dalam setiap model menggunakan 3-fold cross validation.
Tabel 3. 18 akurasi setiap model dari 3-fold cross validation
Akurasi data testing
berada dibawah
Akurasi data testing
berada ditengah
Akurasi data testing
berada diatas
85,71% 100% 85,71
Hitung rata-rata akurasi
𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =85,71 + 100 + 85,71
3= 90,43
3.5 Variasi percobaan
Pada penelitian ini variasi percobaan akan dilakukan sebanyak jumlah
atribut, dimana nantinya hasil akurasi yang didapat pada setiap atribut akan
dibandingkan. Untuk akurasi tertinggi akan dijadikan sebagai atribut untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
melakukan uji data tunggal. Setiap atribut yang akan diuji tentunya melewati
preprocesing dan menggunakan 3-fold validation dimana nantinya data dibagi
menjadi 3 bagian, 2 bagian akan dijadikan traning dan 1 bagian lainnya akan
dijadikan testing.
3.6 Peralatan Penelitian
Dalam proses pembuatan dokumen dan penelitian Klasifikasi akreditasi
SMA di pulau Sumatra menggunakan metode naive bayes ini tidak terlepas dari
dukungan hardware dan software yang akan digunakan, berikut adalah hardware
dan software yang akan digunakan:
Hardware
1. Laptop
Merk : Lenovo
Type : G40-70
Processor : Intel(R) Core(TM) i3-4030U CPU
@1.90GHz
Ram : 6Gb
OS : Windows 8.1 Pro
Software
1. Matlab2018a
2. Microsoft Office (Versi: 2016)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
3.7 Desain User Interface
Gambar 3. 7 Desain User Interface
Ini adalah Desain User Interface yang akan dibuat, desain ini dibuat dengan
tujuan memudah kan user dalam melakukan proses pengklasifikasian akreditasi
baik dalam inputan dan melihat output. Pada Gambar 3.7 Desain User Interface
terdapat 15 Area yang masing masing akan dijelaskan sebagai berikut:
Area 1 : Tombol Pilih file yang berfungsi untuk melakukan pemilihan file
data yang hendak diproses.
Area 2 : Menampilkan data yang dipilih pada area 1.
Area 3 : tempat inputan memasukkan jumlah atribut yang hendak di proses.
Area 4 : Tombol preprocessing, melakukkan seleksi data,tranformasi data
dan cleaning data, dan normalisasi .
Area 5 : Tabel yang menampilkan hasil dari preprocessing.
Area 6 : Tombol akurasi, berfungsi sebagai menghitung akurasi dari data.
Area 7 : Sebuah tempat yang menampilkan hasil akurasi dari data yang
diproses.
Area 8 : Tabel menampilkan hasil confusion matrix, dimana pada sistem
yang dibuat menggunakan 3-fold cross validation sehingga mempunyai 3
matrix.
Area 9 : Melakukan pemilihan file untuk uji data banyak
Area 10 : Menampilkan Hasil data yang dipilih pada area 9.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Area 11 : Tombol klasifikasi, melakukan perhitungan menggunakan metode
naive bayes terhadap data yang di upload pada area 9.
Area 12 : Manampilkan hasil klasifikasi dari data uji banyak
Area 13 : Tempat melakukan inputan uji data tunggal.
Area 14 : Tombol klasifikasi, adalah tombol yang mencari kelas dari data
yang diuji.
Area 15: Sebuah tempat yang berfungsi untuk menampilkan hasil
Klasifikasi dari data yang diinputkan pada Area 13. Hasilnya dalam bentuk
Akreditasi yaitu A, B, C, atau tidak terakreditasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
BAB IV
HASIL DAN ANALISIS
Pada bab ini akan dibahas hal-hal yang berkaitan dengan hasil implementasi sistem
hasil yang didapat dari pengujian-pengujian yang dilakukan serta analisis dari hasil
pengujian
4.1 Data Preprocessing
4.1.1 Attribut Selection
Seleksi atribut pada penelitian ini dilakukan melalui 2 tahapan.
Tahap pertama adalah menghapus atribut, dari total 82 atribut yang akan
dihapus adalah atribut yang betipe unik maupun tidak memiliki nilai
pembanding. berikut adalah atribut yang dihapus dalam penelitian ini:
Tabel 4. 1 Atribut yang akan dihapus
No Atribut Keterangan
1 NPSN (nomor pokok sekolah
nasional)
-
2 Nama sekolah -
3 Semester data -
4 Kepala sekolah -
5 Operator -
6 Manajemen Berbasis sekolah TRUE & FALSE. Pada data tidak
mempunyai nilai true.
7 Email -
8 Alamat -
9 Kab/kota -
10 Kecamatan -
11 Jenjang SMA
12 Penyelenggaraan -
13 Kurikulum KTSP
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
14 Lat -
15 Lng -
Langkah selanjutnya adalah melakukan rangking attribut, untuk
mendapatkan rangking atribut berdasarkan infomation gain menggunakan
Weka Tool 3.9 . Berikut adalah hasil perangkingan 10 atribut teratas, untuk
hasil perangkingan seluruh atribut dapat dilihat pada lampiran
Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas
Ranking Attribut/fitur
1 Standar Kelulusan
2 Standar Tenaga Pendidik
3 Standar Sarana Prasarana
4 Standar Isi
5 Standar Pengelolaan
6 Standar Penilaian
7 Standar Proses
8 Standar Pembiayaan
9 Total Ruang Kelas
10 Total Rombongan Belajar
4.1.2 Data transformation
Transformasi data dilakukan seperti ketentuan ketentuan yang sudah
dijelaskan pada bab 3, transformasi data dapat dilihat pada tabel berikut:
Tabel 4. 3 Data Transformasi
Atribut Data awal Hasil transformasi
Provinsi Aceh
Bangka belitung
Bengkulu
1
2
3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Jambi
Kepulauan riau
Lampung
Riau
Sumatera barat
Sumatera selatan
Sumatera utara
4
5
6
7
8
9
10
Jenis sekolah Negeri
Swasta
1
0
Akses internet True
False
1
0
Sumber listrik True
False
1
0
Akreditasi A
B
C
Tidak terakriditasi
1
2
3
4
4.1.3 Data Cleaning
Pada tahap data cleaning, data yang mempunyai missing value
dihapus. Tahap ini mengharuskan semua kolom dan baris pada data harus
mempunyai nilai.
Tabel 4. 4 Data cleaning
Attribut (x) Attribut (x) Attribut (x) Attribut (x)
66 78 22 90
54 77 88
Pada tabel diatas kita bisa lihat dimana pada data baris ke-2 kolom
ke-2 tidak mempunyai nilai yang nantinya semua data pada baris ke-2 akan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
dihapus , pada penelitian ini data-data yang tidak mempunyai nilai akan
dihapus sehingga data yang akan diproses yaitu data yang masing-masing
kolom dan baris mempunyai nilai.
4.1.4 Normalisasi data
Tahap normalisasi data, pada tahap ini melakukan normalisasi
menggunakan normalisasi min-max. Atribut-atribut yang dilakukan
normalisasi hanyalah atribut yang mempunyai rentang antar data yang jauh.
Atribut –atribut yang dinormalisasi adalah daya listrik dan luas tanah. Pada
tabel dibawah akan ditampilkan hasil sebelum normalisasi dan sesudah
normalisasi pada setiap atribut
Tabel 4. 5 Normalisasi data
Atribut /Rentang data Data awal Hasil normalisasi
Daya listrik/ 0 sampai
529.999
7000
1200
3500
0,01320
0,00226
0,00660
Luas tanah (M²)/ 0 sampai
2.528.390
1577187
1972475
2000000
0,62379
0,78013
0,79101
Adapun perbandingan hasil yang didapat sebelum dan sesudah melakukan
normalisasi dapat dilihat seperti pada tabel dibawah, dikarenakan munculnya
atribut yang dinormalisasi yaitu pada saat penggunaan atribut sebanyak 29 atribut
untuk daya listrik dan 56 atribut untuk luas tanah berdasarkan ranking dengan
information gain sehingga pada tabel langsung pengujian atribut dengan jumlah
atribut sebanyak 29 dan 56 atribut. Untuk mengetahui variasi atribut apa yang
digunakan dalam penggunaan 29 atribut dan 56 atribut dapat dilihat pada lampiran
poin ke-2.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56)
Jumlah atribut Akurasi sebelum
normalisasi
Akurasi sesudah
normalisasi
29 44,6531% 44,7531%
56 0,46948% 0,46948%
Pada tabel diatas dapat kita lihat penggunaan normalisasi terhadap daya
listrik dan luas tanah sebenarnya tidak terlalu berdampak pada peningkatan akurasi
yang signifikan. Hanya terdapat perbedaan sedikit tingkat akurasi dan itu hanya
terdapat pada penggunaan jumlah atribut sebanyak 29(daya listrik).
Berikut akan akan ditampilkan juga hasil akurasi dari penggunaan 8 standar
pendidikan sebelum dinormalisasi dan sesudah dinormalisasi.
Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi
Jumlah
atribut Atribut
Akurasi Sebelum
di normalisasi
Akurasi
setelah di
normalisasi
1 Standar kelulusan 78,672% 78,672%
2 Standar kelulusan
Standar tenaga pendidik 83,7693% 83,7693%
3
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
87,0557% 87,0557%
4
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
88,7324% 88,7324%
5 Standar kelulusan
Standar tenaga pendidik 91,0798% 91,0798%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Standar sarana prasasrana
Standar isi
Standar pengelolaan
6
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
92,6895% 92,6895%
7
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
Standar proses
92,3541% 92,3541%
8
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
Standar proses
Standar pembiayaan
94,165% 94,165%
Berdasarkan hasil percobaan yang dilakukan pada tabel diatas dapat dilihat
penggunaan normalisasi terhadap data yang digunakan pada penelitian ini
menghasilkan akurasi yang sama. Berdasarkan hal tersebut penggunaan normalisasi
pada data bersifat opsional dalam arti dapat digunakan atau tidak karena
menghasilkan akurasi yang sama pada penggunaan 8 atribut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
4.2 Klasifikasi
Pengujian dilakukan sebanyak jumlah atribut dimana jumlah atribut yang
akan diuji sebanyak 66 atribut. Variasi dari atribut berdasarkan hasil dari
information gain yang diuji menggunakan Weka Tool 3.9. uji atribut menggunakan
3-fold validation dimana nantinya data dibagi menjadi 3 bagian, 2 bagian dijadikan
sebagai traning dan 1 bagian lainnya sebagai testing. Berikut merupakan hasil 10
akurasi tertinggi yang telah diuji, untuk hasil akurasi seluruh atribut dapat dilihat
pada lampiran.
Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut
Jumlah
Atribut Atribut Akurasi(%)
1 Standar kelulusan 78,672
2 Standar kelulusan
Standar tenaga pendidik 83,7693
3
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
87,0557
4
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
88,7374
5
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
91,0798
6
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
92,6895
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Standar pengelolaan
Standar penilaian
7
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
Standar proses
92,3541
8
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
Standar proses
Standar pembiayaan
94,165*
9
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
Standar pengelolaan
Standar penilaian
Standar proses
Standar pembiayaan
Total ruang kelas
94,165*
10
Standar kelulusan
Standar tenaga pendidik
Standar sarana prasasrana
Standar isi
93.159
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Standar pengelolaan
Standar penilaian
Standar proses
Standar pembiayaan
Total ruang kelas
Total rombongan belajar
* = Akurasi Tertinggi
Tabel 4.8 merupakan hasil tabel akurasi dari 10 percobaan yang dilakukan,
masing-masing percobaan memiliki tingkat akurasi yang berbeda. Jika dilihat pada
lampiran dimana percobaan dilakukan sebanyak atribut yaitu 66 kali akurasi
tertingggi terdapat pada 2 atribut. Atribut dengan akurasi tertinggi pertama yaitu 8
meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana Prasarana,
Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses, dan Standar
Pembiayaan dengan akurasi sebesar 94,165 % . Atribut dengan akurasi tertinggi
kedua yaitu 9 meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana
Prasarana, Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses,
Standar Pembiayaan dan total ruang kelas dengan akurasi sebesar 94,165%. Kita
bisa melihat dari persentase akurasi mulai menurun setelah penambahan atribut
secara terus menerus dimana pada atribut ke49 sampai atribut ke-66 tidak membuat
perubahan terhadap akurasi pada sistem lagi dengan akurasi terendah yaitu
0,46948%. Grafik akurasi akan ditampilkan pada Gambar dibawah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Gambar 4. 1 Grafik akurasi setiap attribut
Gambar 4.1 Merupakan akurasi dari setiap atribut yang dalam percobaan
dimana pada gambar tersebut telah dilakukan percobaan sebanyak 66 kali
menggunakan 3-fold validation. Pada Gambar 4.2 adalah confusion matrix dari
atribut akurasi tertinggi yaitu 8 dan 9 attribut dengan akurasi sebesar 94,165%.
8; 94,165
9; 94,165
49; 0,46948
0
20
40
60
80
100
1 3 5 7 9 11131517192123252729313335373941434547495153555759616365
Aku
rasi
Atribut
Akurasi setiap atribut
Jumlah atribut 8 Jumlah atribut 9
Gambar 4. 2 Confusion matrix 8 dan 9 atribut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
4.3 Klasifikasi Optimal
Setelah dilakukannya pengujian sebanyak jumlah atribut yaitu 66 kali
dengan variasi atribut yang telah dilampiran pada lampiran dengan jumlah 1510
data di dapat klasifikasi optimal yaitu penggunaan 8 atau 9 atribut sebagai atribut
penentu klasifikasi akreditasi SMA di pulau Sumatera.
4.3.1 Penggunaan 8 atribut
Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga
Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,
Standar Penilaian, Standar Proses, dan Standar Pembiayaan dengan
menggunakan 3-fold validation dimana data dibagi menjadi 3 bagian, 2
bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan sebagai
testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil confusion
matrix dari penggunaan 8 atribut:
Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut
Luaran Akreditasi
A
Akreditasi
B
Akreditasi
C
Tidak
Terakreditasi
Akreditasi A 231 11 0 0
Akreditasi B 7 171 0 0
Akreditasi C 0 23 52 0
Tidak Terakreditasi 0 0 0 2
Tabel 4. 10 Confusion matrix 2 menggunakan 8 atribut
Luaran Akreditasi
A
Akreditasi
B
Akreditasi
C
Tidak
Terakreditasi
Akreditasi A 275 5 0 0
Akreditasi B 5 165 1 0
Akreditasi C 0 9 34 0
Tidak Terakreditasi 0 0 0 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Tabel 4. 11 Confusion matrix 3 menggunakan 8 atribut
Luaran Akreditasi
A
Akreditasi
B
Akreditasi
C
Tidak
Terakreditasi
Akreditasi A 287 14 0 0
Akreditasi B 6 143 2 0
Akreditasi C 0 4 39 0
Tidak Terakreditasi 0 0 0 2
4.3.2 Penggunaan 9 atribut
Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga
Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,
Standar Penilaian, Standar Proses, Standar Pembiayaan dan total ruang
kelas dengan menggunakan 3-fold validation dimana data dibagi menjadi 3
bagian, 2 bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan
sebagai testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil
confusion matrix dari penggunaan 9 atribut:
Tabel 4. 12 Confusion matrix 1 menggunakan 9 atribut
Luaran Akreditasi
A
Akreditasi
B
Recommended