KLASIFIKASI AKREDITASI SMA DI PULAU SUMATERA …repository.usd.ac.id/37836/2/165314124_full.pdf ·...

I

KLASIFIKASI AKREDITASI SMA DI PULAU

SUMATERA MENGGUNAKAN METODE NAÏVE

BAYES

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

HALAMAN JUDUL

Oleh:

Dodi Fernando Tambunan

165314124

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLASSIFICATION OF HIGH SCHOOL

ACCREDITATION IN SUMATERA ISLAND USING

NAÏVE BAYES METHOD

THESIS

Present as Patrial Fullfillment of the Requirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Created by:

Dodi Fernando Tambunan

Student ID : 165314124

INFORMATICS STUDY PROGRAM

INFORMATICS DEPARTMENT

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


v

v

HALAMAN PERSEMBAHAN

“Sebab TUHAN, Dia sendiri akan berjalan di depanmu, Dia sendiri akan

menyertai engkau, Dia tidak akan membiarkan engkau dan tidak akan

meninggalkan engkau; janganlah takut dan janganlah patah hati”

Ulangan 31:8


vii

vii

ABSTRAK

Akreditasi adalah pengakuan terhadap lembaga pendidikan setelah dinilai bahwa

lembaga itu memenuhi syarat kebakuan atau kriteria yang telah ditentukan.

Akreditasi ini biasanya dikategorikan ke dalam 4 kategori yaitu A (Sangat baik), B

(Baik), C (cukup), dan Tidak terakreditasi.

Dalam dunia pendidikan, akreditasi sangatlah penting dan tidak jarang dijadikan

sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu

sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu

sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran

tentang kinerja sekolah. dalam penilaian akreditasi tentunya di perlukan sistem

yang dapat melakukan penilaian atau pengklasifikasian dengan tepat dan benar.

Metode yang digunakan adalah naive bayes, metode ini adalah metode

probabilistik yang menghitung probabilitas setiap atribut yang telah ditentukan.

Sebelum menghitung probabilitas, data dibagi menggunakan 3-fold cross-

validation, dan untuk mengetahui akurasi dari klasifiakasi mengggunakan

confusion matrix.

Penggunaan metode naive bayes pada penelitian ini dengan 1511 data

menghasilkan akurasi 94,165% dengan menggunakan 8 dan 9 attribut yaitu Standar

kopetensi lulusan, Standar pendidik dan tenaga pendidikan, Standar sarana dan

prasarana, Standar isi, Standar pengelolaan, Standar penilaian pendidikan, Standar

proses, Standar pembiayaan dan total ruang kelas.

Kata kunci: Klasifikasi, Akreditasi, naive bayes, cross-validation, confusion

matrix


viii

ABSTRACT

Accreditation is a recognition to an educational institution after it meets the

rigid requirements or the predetermined criteria. There a 4 categories of

accreditation, there are A grade for very good accreditation, B grade for good

accreditation, C grade for enough accreditation and Not accredited.

In the world of education, accreditation is important and it also used as the

benchmark for every person who wants to get an education in a school or the other

educational institutions. Because the objective of accreditation is to determine the

level of eligibility of an educational institution in organizing educational services

and receiving the visualization of the performance. In doing the accreditation

grading process, an accurate and correct methods are needed to classify and will

resulting in the right value.

The method that used in grading or accrediting is naive bayes method. This is

a probabilistic method that will counts the probability of every predetermined

attribute. Before computing for the probability, every data will be divided using 3-

fold cross-validation, and will be using the confusion matrix in classifying.

Applying naive bayes method in this research with allocating 1511 data

resulting in 94,165% of accuracy by using 8 and 9 attributes, there are graduation

competence standard, standard of Teacher’s and element of teaching, facilities and

infrastructure standard, content standard, management standard, education grading

standard, progress standard, financing standard and classroom total.

Key words: Classification, Accreditation, naive bayes, cross-validation,

confusion matrix


xii

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN PEMBIMBING .................................................... iii

HALAMAN PENGESAHAN ................................................................................ iv

HALAMAN PERSEMBAHAN ............................................................................. v

PERNYATAAN KEASLIAN KARYA ................................................................ vi

ABSTRAK ............................................................................................................ vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI................................. ix

KATA PENGANTAR ............................................................................................ x

DAFTAR ISI ......................................................................................................... xii

DAFTAR GAMBAR ............................................................................................ xv

DAFTAR TABEL ................................................................................................ xvi

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang .............................................................................................. 1

1.2 Rumusan Masalah ......................................................................................... 3

1.3 Tujuan ............................................................................................................ 3

1.4 Manfaat .......................................................................................................... 3

1.5 Batasan Masalah ............................................................................................ 3

1.6 Metodologi Penelitian ................................................................................... 4

1.7 Sistematika Penulisan .................................................................................... 4

BAB II LANDASAN TEORI ................................................................................. 6

2.1 Standar Nasional Pendidikan ......................................................................... 6

2.1.1 Akreditasi ................................................................................................ 6

2.2 Data Mining .................................................................................................. 7


xiii

xiii

2.2.1 Pengertian Data Mining .......................................................................... 7

2.2.2 Pengelompokan Data Mining ................................................................. 9

2.2.3 Supervised and Unsupervised Learning ............................................... 10

2.2.3.1 Supervised learning ........................................................................ 10

2.2.3.2 Unsupervised learning ................................................................... 11

2.3 Naive bayes .................................................................................................. 12

2.3.1 Persamaan Metode Naive Bayes ........................................................... 12

2.4 Cross validation .......................................................................................... 14

2.5 Akurasi dengan Confusion Matix ................................................................ 15

BAB III METODE PENELITIAN........................................................................ 16

3.1 Gambaran Umum ........................................................................................ 16

3.1.1 Algoritma Naive bayes .................................................................... 17

3.2 Tahap-tahap Penelitian ................................................................................ 19

3.2.1 Pengumpulan Data ................................................................................ 19

3.2.2 Pengolahan Awal Data.......................................................................... 19

3.2.3 Pembuatan model .................................................................................. 19

3.2.4 Evaluasi dan Validasi Hasil .................................................................. 20

3.3 Data ............................................................................................................. 21

3.4 Perhitungan menggunakan naive bayes....................................................... 24

3.4.1 Preprocessing ....................................................................................... 24

3.4.2 Modelling Naive Bayes ......................................................................... 25

3.4.3 Uji Akurasi dengan Confusion Matrix .................................................. 36

3.5 Variasi percobaan ........................................................................................ 37

3.6 Peralatan Penelitian ..................................................................................... 38

3.7 Desain User Interface .................................................................................. 39


xiv

BAB IV HASIL DAN ANALISIS ........................................................................ 41

4.1 Data Preprocessing ...................................................................................... 41

4.1.1 Attribut Selection .................................................................................. 41

4.1.2 Data transformation ............................................................................. 42

4.1.3 Data Cleaning ....................................................................................... 43

4.1.4 Normalisasi data ................................................................................... 44

4.2 Klasifikasi .................................................................................................... 47

4.3 Klasifikasi Optimal ...................................................................................... 51

4.3.1 Penggunaan 8 atribut ............................................................................ 51

4.3.2 Penggunaan 9 atribut ............................................................................ 52

4.4 Outlier .......................................................................................................... 53

4.5 Uji Data ....................................................................................................... 54

4.5.1 Uji data tunggal ..................................................................................... 55

4.5.2 Uji data dalam jumlah banyak .............................................................. 57

BAB V PENUTUP ................................................................................................ 55

5.1 Kesimpulan .................................................................................................. 55

5.2 Saran ............................................................................................................ 56

DAFTAR PUSTAKA ........................................................................................... 57

LAMPIRAN .......................................................................................................... 59

1. Perangkingan atribut ...................................................................................... 59

2. Akurasi Setiap Atribut ................................................................................... 60

3. Source Code Program .................................................................................... 65


xv

xv

DAFTAR GAMBAR

Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006) ...... 7

Gambar 2. 2 3-Fold Validation ............................................................................. 15

Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi ................. 16

Gambar 3. 2 Diagram Flowchart Uji sistem ......................................................... 18

Gambar 3. 3 flowchart uji data tunggal ................................................................. 19

Gambar 3. 4 Tahap Preprocessing ........................................................................ 19

Gambar 3. 5 Tahap Pembuatan Model .................................................................. 20

Gambar 3. 6 Alur confusion matrix ...................................................................... 21

Gambar 3. 7 Desain User Interface ....................................................................... 39

Gambar 4. 1 Grafik akurasi setiap attribut ............................................................ 50

Gambar 4. 2 Confusion matrix 8 dan 9 atribut ..................................................... 50

Gambar 4. 3 outlier ............................................................................................... 54

Gambar 4. 4 Uji data tunggal akreditasi A ............................................................ 55

Gambar 4. 5 Uji data tunggal akreditasi B ............................................................ 56

Gambar 4. 6 Uji data tunggal akreditasi C ............................................................ 56

Gambar 4. 7 Uji data tunggal Tidak terakreditasi ................................................. 57

Gambar 4. 8 Tampilan uji data banyak ................................................................. 58

Gambar 4. 9 Tampilan hasil akreditasi dari uji data banyak ................................. 58


file:///D:/kuliah/semester%208/Peryaratan%20pendadaran/Folder%20pendadaran/Skripsi%20v.4.docx%23_Toc45290409

xvi

DAFTAR TABEL

Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006) ............. 15

Tabel 3. 1 Contoh data .......................................................................................... 21

Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005) ................................................. 22

Tabel 3. 3 ketentuan transformasi data ................................................................. 24

Tabel 3. 4 Data training ......................................................................................... 26

Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1 ................................... 27





Tabel 3. 10 Hasil rata-rata (mean) dan Standar Deviasi A6 ................................. 28



Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas .................................... 28

Tabel 3. 14 Data testing ........................................................................................ 29

Tabel 3. 15 Probabilitas setiap atribut ................................................................... 34

Tabel 3. 16 Hasil Pengujian Data .......................................................................... 36

Tabel 3. 17 Perhitungan Confusion Matrix ........................................................... 37

Tabel 3. 18 akurasi setiap model dari 3-fold cross validation............................... 37

Tabel 4. 1 Atribut yang akan dihapus ................................................................... 41

Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas ................................................ 42

Tabel 4. 3 Data Transformasi ................................................................................ 42

Tabel 4. 4 Data cleaning........................................................................................ 43

Tabel 4. 5 Normalisasi data ................................................................................... 44

Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56) ................................ 45

Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi ........ 45

Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut .................................................... 47

Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut ......................................... 51


xvii

xvii

Tabel 4. 10 Confusion matrix 2 menggunakan 8 atribut ....................................... 51




Tabel 4. 14 Confusion matrix 3 menggunakan 9 atribut ...................................... 53

Tabel 4. 15 Keluaran uji data banyak.................................................................... 58


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Akreditasi adalah pengakuan terhadap lembaga pendidikan yang diberikan

oleh badan yang berwenang setelah dinilai bahwa lembaga itu memenuhi syarat

kebakuan atau kriteria tertentu (KBBI). Akreditasi ini biasanya dikategorikan ke

dalam 4 kategori yaitu A (Sangat baik), B (Baik), C (cukup), dan Tidak

terakreditasi. Berdasarkan pengertian tersebut masyarakat dapat memperoleh

gambaran kualitas pendidikan maupun kinerja di suatu lembaga pendidikan.

Dalam dunia pendidikan akreditasi sangatlah penting dan tak jarang dijadikan

sebagai tolak ukur bagi banyak orang untuk mengenyam pendidikan disuatu

sekolah karena tujuan dari akreditasi adalah menentukan tingkat kelayakan suatu

sekolah dalam menyelenggarakan layanan pendidikan dan memperoleh gambaran

tentang kinerja sekolah. Penilaian akreditasi disuatu sekolah tentu saja

mempertimbangkan poin-poin tertentu sebagai tolak ukurnya. Melihat dari

penjelasan diatas kita bisa lihat bagaimana akreditasi itu dianggap penting karena

bisa berdampak pada penentu pilihan seseorang untuk masuk dan menempuh

pendidikan di suatu sekolah, sehingga harus berhati-hati dalam melakukan

penilaian dan dibutuhkan suatu sistem yang dapat melakukan pengklasifikasian

akreditasi secara tepat dan efisen melalui variabel-variabel yang menjadi penentu.

Indonesia terdiri dari beberapa pulau dan tentunya di masing-masing pulau

terdapat sekolah-sekolah baik dari jenjang TK, SD, SMP, SMA/SMK, dan

Universitas. Pada penelitian ini penulis berfokus pada jenjang SMA di Pulau

Sumatera. Karena banyaknya data dan juga variabel penentu tentunya akan

menyulitkan tim penilai dalam melakukan penilaian dan tidak bisa dihindari jika

terjadi kesalahan(human error) dalam proses penilaian. Prediksi tersebut dapat

diketahui dengan proses pendekatan matematik hingga diketahui polanya, proses

itu dinamakan data mining.


2

Ketepatan dalam pengklasifikasian objek sangat penting, metode klasifikasi

yang baik adalah metode yang menghasilkan kesalahan yang kecil (Johnson. R.

A., 2007). Ada beberapa metode pengklasifikasian salah satunya adalah Naive

bayes. Keuntungan penggunaan Naive Bayes adalah bahwa metode ini hanya

membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan

estimasi paremeter yang diperlukan dalam proses pengklasifikasian. Naive Bayes

sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks

dari pada yang diharapkan (Pattekari, Shadab Adam, & Asma Parveen, 2012).

Penelitian ini akan menggunakan metode Naive bayes dengan data DAPODIK

SMA tahun 2018 di Pulau Sumatera. Data Pokok Pendidikan (DAPODIK) adalah

sistem pendataan skala nasional yang terpadu, dan merupakan sumber data

utama pendidikan nasional, yang merupakan bagian dari Program perancanaan

pendidikan nasional dalam mewujudkan insan Indonesia yang Cerdas dan

Kompetitif (KBBI).

Adapun penilitian sebelumnya terkait dengan akreditasi yang dilakukan oleh

Octaviani, P. A., Wilandari, Y., & Ispriyanti, D. (2014) dalam jurnal nya yang

berjudul “Penerapan Metode Klasifikasi Support Vector Machine (SVM) pada

Data Akreditasi Sekolah Dasar (SD) di Kabupaten Magelang” mendapat akurasi

93.90%. Melihat hal tersebut peneliti ingin mencoba menggunakan metode naive

bayes dengan data DAPODIK SMA tahun 2018 di Pulau Sumatera karena

penelitian-penelitian yang menggunakan metode naive bayes mendapat akurasi

yang baik.

Berikut ini adalah beberapa judul serta akurasi penelitian klasifikasi yang

menggunakan metode naive bayes. Yang pertama adalah penelitian yang dilakukan

Kusumadewi, S. (2009) dengan judul penelitian Klasifikasi Status Gizi

Menggunakan Naive Bayesian Classification dan menghasilkan akurasi 93,2% ,

penelitian yang kedua dilakukan oleh Ting, S. L., Ip, W. H., & Tsang, A. H. (2011)

dengan judul penelitian Is Naïve Bayes a Good Classifier for Document

Classification mendapatkan akurasi sebesar 97% , dan penelitian terakhir yang

dilakukan oleh Widiastuti, N. A., Santosa, S., & Supriyanto, C. (2014) dengan judul


https://id.wikipedia.org/w/index.php?title=Sistem_pendataan&action=edit&redlink=1https://id.wikipedia.org/wiki/Nasionalhttps://id.wikipedia.org/w/index.php?title=Pendidikan_nasional&action=edit&redlink=1https://id.wikipedia.org/wiki/Indonesia

3

Algoritme Klasifikasi data mining naïve bayes berbasis Particle Swarm

Optimization untuk deteksi penyakit jantung menghasilkan akurasi 82,14%.

1.2 Rumusan Masalah

1. Bagaimana metode naive bayes mampu mengkasifikasikan akreditasi SMA

di Pulau Sumatera dengan baik?

2. Berapa besar akurasi yang didapat dalam klasifikasi akreditasi SMA di

pulau Sumatera menggunakan metode naive bayes?

1.3 Tujuan

1. Mengetahui hasil klasifikasi akreditasi SMA di Pulau Sumatera

menggunakan algoritme naive bayes.

2. Mengetahui besar akurasi dari sistem yang dibangun dalam

pengklasifikasian akreditasi.

1.4 Manfaat

Dengan adanya tujuan dari penelitian diatas maka diharapkan dapat bermanfaat

bagi semua pihak. Manfaat penelitian ini yaitu:

1. Membantu BAN maupun orang yang berkepentingan dalam dibidang

akreditasi dalam mengetahui sistem pengkasifikasian Akreditasi sekolah

dengan menggunakan algoritme Naive Bayes

2. Menambah pengalaman dan pengetahuan mengenai klasifikasi akreditasi

dari data DAPODIK menggunakan metode naive bayes

3. Hasil dari penelitian ini dapat dijadikan bahan rujuan dan referensi bagi

semua ilmu yang berhubungan dan melakukan kajian menggunakan metode

naive bayes.

1.5 Batasan Masalah

Terdapat beberapa batasan masalah yang dijadikan dasar dalam pengerjaannya:

1. Algoritme yang digunakan dalam penelitian adalah naive bayes.

2. Data yang digunakan dalam penelitian ini adalah data DAPODIK SMA

tahun 2018 di pulau Sumatera meliputi 10 provinsi yaitu: (1) Provinsi Aceh,

(2) Provinsi Bangka Belitung, (3) Provinsi Bengkulu, (4) Provinsi Jambi,


4

(5) Provinsi Kepulauan Riau, (6) Provinsi Lampung, (7) Provinsi Riau, (8)

Provinsi Sumatera Barat, (9) Provinsi Sumatera Selatan, (10) Provinsi

Sumatera Utara.

1.6 Metodologi Penelitian

Penelitian ini menggunakan beberapa tahap sebagai berikut:

1. Studi Pustaka

Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan

dengan Data Mining, Proses penilaian akreditasi SMA, Undang-undang

yang berkaitan dan algoritme Naïve Bayes melalui jurnal, buku, artikel, dan

web dari Badan akreditasi nasional (BAN).

2. Pengumpulan data

Data yang diperoleh mempunyai beberapa atribut dan record. Data

tersebut kemudian akan diintegrasikan dan dijadikan sebagai data set yang

nantinya akan diproses lebih lanjut menggunakan metode naive bayes.

3. Pengolahan awal data

Pada tahap ini melakukan preprocessing, dimana data akan melalui

tahap data selection, data tranformation, dan data cleaning. Setelah data

melewati tahap preprocessing data tersebut dianggap siap pakai.

4. Pengujian model

Model yang akan diuji pada tahap ini adalah dengan menggunakan

algoritme Naïve Bayes.

5. Evaluasi dan validasi hasil

Evaluasi pada model dilakukan pada tahap ini dimana untuk

mengetahui tingkat akurasi dari data, untuk mengetahui akurasi pada

penelitian ini menggunakan confusion matrix.

1.7 Sistematika Penulisan

Untuk memberikan gambaran dan kerangka yang jelas pada tiap bab dalam

penelitian, maka diperlukan sistematika penulisan. Berikut gambaran

sistematika penulisan masing-masing bab:


5

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,

manfaat penelitian, batasan masalah dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini menjelaskan tentang landasan teori yang berhubungan dengan

penelitian yang akan dilakukan untuk memecahkan masalah yang diteliti.

BAB III METODE PENELITIAN

Bab ini berisi tentang Gambaran umum, tahap-tahap peneliian, data,

perhitungan naive bayes, variasi percobaaan, peralatan penelitian, dan desain

user interface.

BAB IV HASIL DAN ANALISI

Bab ini berisi tentang hasil dari setiap percobaan-percobaan yang dilakukan

dalam penelitian seperti percobaan yang dilakukan mulai dari data

preprocessing, klasifikasi, klasifikasi optimal, outlier, dan uji data

BAB V KESIMPULAN DAN SARAN

Bab ini berisi tentang Kesimpulan dan saran dari penelitian yang telah

dilakukan.


6

BAB II

LANDASAN TEORI

Bab ini berisi tentang teori teori yang berhubungan dengan penulisan tugas

akhir, seperti Standar nasional pendidikan, Akreditasi, Data mining,

Pengelompokan data mining, Superviced and Unsuperviced learning, Naive bayes,

Cross validation, Akurasi dengan Confusion matrix

2.1 Standar Nasional Pendidikan

Standar Nasional Pendidikan adalah kriteria minimal tentang sistem pendidikan

di seluruh wilayah hukum Negara Kesatuan Republik Indonesia. Pemerintah ikut

serta dalam proses peningkatan kualitas pendidikan yang ada di Indonesia dengan

menujuk Badan Akreditasi Nasional Sekolah/Madrasah (BAN-S/M) sebagai tim

penilai kelayakan suatu sekolah dengan peraturan Mendiknas Nomor 29 Tahun

2005 yang hasilnya diwujudkan dalam bentuk pengakuan peringkat kelayakan.

Dengan ada nya standar nasional pendidikan dapat menjadi patokan ataupun

landasan dalam suatu penilaian kelayakan suatu sekolah untuk menciptatakan

kualitas pendidikan yang baik dan berkualitas. Adanya standar nasional pendidikan

ini dapat menjadi menjadi motivasi juga patokan bagi sekolah-sekolah untuk

meningkatkan kualitas masing-masing agar sesuai dengan standar nasional

pendidikan yang ada di Indonesia. Hasil dari penilaian tersebut disebut akreditasi.

2.1.1 Akreditasi

Akreditasi Menurut Kamus Besar Bahasa Indonesia adalah pengakuan

terhadap lembaga pendidikan yang diberikan oleh badan yang berwenang

setelah dinilai bahwa lembaga itu memenuhi syarat kebakuan atau kriteria

tertentu. Dalam Peraturan Pemerintah(PP) No.19 tahun 2005 disebutkan

bahwa penilaian dilakukan berdasar 8 komponen standar nasional

pendidikan meliputi: (1) Standar isi, (2) Standar proses, (3) Standar

kopetensi lulusan, (4) Standar pendidik dan tenaga pendidikan, (5) Standar


7

sarana dan prasarana, (6) Standar pengelolaan, (7) Standar pembiayaan, dan

(8) Standar penilaian pendidikan.

Menurut UU No 29 Tahun 2005 Pelaksanaan akreditasi

sekolah/madrasah dilakukan setiap 5 tahun sekali tetapi dapat juga

dilakukan kurang dari 5 tahun apabila sekolah/madrasah yang bersangkutan

mengajukan permohonan untuk akreditasi ulang.

Data yang akan digunakan tentu harus melalui tahap proses dimana pada

tahap proses ini kita melihat lebih jauh masing masing variable atau atribut

yang akan digunakan. Proses tersebut disebut data mining.

2.2 Data Mining

2.2.1 Pengertian Data Mining

Data Mining merupakan proses pengekstraksian informasi dari

sekumpulan data yang sangat besar melalui penggunaan algoritme dan

teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem

manajemen basis data (Taruna R., 2013). Data Mining merupakan proses

ataupun kegiatan untuk mengumpulkan data yang berukuran besar

kemudian mengekstraksi data tersebut menjadi informasi -informasi yang

nantinya dapat digunakan (Saleh, 2015).

Gambar 2. 1 Knowledge Discovery Database (KDD) (Han & Kamber, 2006)

Data mining mengacu pada mining knowledge dari data dalam

jumlah besar (Han & Kamber, 2006). Secara umum data mining


8

dikenal dengan proses Knowledge Discovery from Data (KDD).

Proses KDD sebagai berikut :

1. Pembersihan data (Data Cleaning).

Proses pembersihan data atau data cleaning dilakukan untuk

menghilangkan noise dan data yang tidak konsisten.

2. Integrasi data (Data Integration).

Proses data integrasi adalah proses menggabungkan data dari

sumber data yang berbeda.

3. Seleksi data ( Data Selection).

Seleksi data atau data selection adalah proses memilih data

atau atribut yang relevan untuk atribut ini. Pada tahap ini

dilakukan analisis korelasi atribut data. Atribut – atribut data

tersebut dicek apakah relevan untuk dilakukan penambangan

data.

4. Transformasi data (Data Transformation).

Transformasi atau data transformation proses

menggabungkan data ke dalam bank yang sesuai untuk

ditambang.

5. Penambangan data (Data Mining).

Langkah ini adalah langkah paling penting yaitu melakukan

pengaplikasian metode yang tepat untuk pola data.

6. Evaluasi pola (Pattern Evaluation).

Pada langkah ini dilakukan identifikasi pola dalam bentuk

pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan (Knowledge Presentation).

Pada langkah ini dilakukan proses penyajian pengetahuan

dari hasil penambangan data. hasil klasifikasi data nasabah akan

ditampilkan ke dalam bentuk yang mudah dipahami

user/pengguna.


9

2.2.2 Pengelompokan Data Mining

Penambangan data dibagi menjadi beberapa kelompok berdasarkan

tugas yang dapat dilakukan, yaitu (Kusrini & Luthfi, E.T, 2019):

1. Deskripsi

Tugas deskripsi pada penambangan data adalah

menggambarkan pola dan keenderungan sering memberikan

kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, namun pada

variable target, estimasi lebih kearah numerik dari pada kearah

kategori. Peninjauan estimasi nilai dari variable target dibuat

berdasarkan nilai prediksi. Sebagai contoh, estimasi nilai indeks

prestasi kumulatif mahasiswa program pascasarjana dengan melihat

nilai indeks prestasi mahasiswa tersebut pada saat mengikuti

program sarjana.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi.

Namun dalam prediksi niali dari hasil akan merujuk ke masa

mendatang. Contoh prediksi dalam bisnis dan penelitian adalah

prediksi harga beras dalam 6 bulan yang akan datang.

4. Klasifikasi

Klasifikasi adalah proses penemuan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan

tujuan untuk dapat memperkirakan kelas dari suatu objek yang

labelnya tidak diketahui. Dalam klasifikasi, terdapat target variable

kategori. Sebagai contoh, penggolongan pendapatan dapat

dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan

sedang, dan pendapatan rendah.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record,

pengamatan, atau memprihatinkan dan membentuk kelas objek –


10

objek yang memiliki kemiripan. Contoh pengklusteran dalam dunia

bisnis atau penelitian adalah mendapatkan kelompok – kelompok

konsumen untuk target pemasaran dari suatu produk sebuah

perusahaan yang tidak memiliki dana pemasaran yang besar.

6. Asosiasi

Tugas asosiasi dalam penambangan data adalah menemukan

atribut yang muncul satu waktu. Dalam dunia bisnis lebih umum

disebut analisis keranjang belanja. Contoh asosiasi dalam dunia

bisnis atau penelitian adalah menemukan barang dalam supermarket

yang dibeli secara bersamaan dan barang yang tidak pernah dibeli

secara samaan.

2.2.3 Supervised and Unsupervised Learning

2.2.3.1 Supervised learning

Supervised learning adalah sebuah pendekatan dimana

sudah terdapat data yang dilatih, dan terdapat variable yang

ditargetkan sehingga tujuan dari pendekatan ini adalah

mengkelompokan suatu data ke data yang sudah ada. Algoritme

supervised learning:

1) K-Nearest Neighbor(KNN)

Algoritme K-Nearest neighbor(KNN) adalah sebuah metode

untuk melakukan klasifikasi terhadap objek berdasar data

pembelajaran yang jaraknya paling dekat dengan objek tersebut

(Liantoni, 2015)

2) Decision tree

Decision tree atau pohon keputusan adalah pohon yang

digunakan sebagai prosedur penalaran untuk mendapat jawaban

dari dari masalah yang dimasukkan(Prasetyo,2012).

3) Naive Bayes

Metode naive bayes bekerja secara vitur independent yang

artinya sebuah fitur dalam sebuah data tidak berkaitan dengan


11

ada atau tidaknya fitur yang lain dalam data yang sama(Prasetyo,

2012).

4) Support Vector Machine (SVM)

Metode ini berakar dari teori pembelajaran statistik dan

menggunakan teknik karnel yang harus memetakan data asli dari

dimensi asal menjadi dimensi lain yang relative tinggi(Prasetyo,

2012).

5) Jaringan saraf Tiruan(JST)

Jaringan Syaraf Tiruan (JST) merupakan suatu sistem

pemrosesan informasi yang mempunyai karakteristik

menyerupai jaringan syaraf biologi (Siang, 2009).

2.2.3.2 Unsupervised learning

Unsupervised learning merupakan suatu pendekatan dimana

tidak terdapat data latih sehingga mengharuskan kita

mengelompokkan data yang ada menjadi 2 kategori, tiga kategori

dan seterusnya. Algoritme Unsupervised learning:

1) Hierarchical clustering

Merupakan metode pengelompokkan berbasis hierarki

dengan pendekatan bottom up, yaitu proses pengelompokkan

dimulai dari masing-masing data sebagai satu buah cluster,

kemudian secara rekursif mencari cluster terdekat sebagai pasangan

untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,

2013)

2) K-Means

Algortima K-Means merupakan algoritme pengelompokan

iteratif yang melakukan partisi set data ke dalam sejumlah K cluster

yang sudah ditetapkan di awal. Algortima K-Means sederhana untuk

diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi,

umum penggunaannya dalam praktek (Wulan dan Kumar, 2009).


12

3) Fuzzy C-Means

Fuzzy C-Means adalah suatu teknik peng-cluster-an yang

mana keberadaannya tiap-tiap titik data dalam suatu cluster

ditentukan oleh derajat keanggotaan (Bezdek, Jim,1981).

2.3 Naive bayes

Algoritma Naive Bayes adalah pengelompokan probabilistik sederhana yang

menghitung sekumpulan probabilitas dengan menghitung frekuensi dan kombinasi

nilai-nilai dalam suatu kumpulan data yang diberikan. Algoritme menggunakan

teorema Bayes mengasumsikan semua atribut bersifat independen (Patil, Tina R &

S. S. Sherekar, 2013).

2.3.1 Persamaan Metode Naive Bayes

Persamaan dari teorema naive bayes adalah:

𝑃(H|X) =𝑃(𝑋|𝐻). 𝑃(𝐻)

𝑃(𝑋) (2.1)

Dimana:

X :Data dengan class yang belum diketahui.

H :Hipotesis data merupakan suatu class spesifik.

P(H|X) :Probabilitas hipotesis H berdasar kondisi X (Posteriori

Probabilitas).

P(H) :Probabilitas hipotesis H (prior probabilitas).

P(X|H) :Probabilitas X berdaasarkan kondisi pada hipotesis H.

P(X) :Probabilitas X.

Untuk menjelaskan metode Naive Bayes, perlu diketahui bahwa

proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas

apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, metode

Naive Bayes di atas disesuaikan sebagai berikut:

𝑃(𝐶|𝐹1 … 𝐹𝑛) =𝑃(𝐶)𝑃(𝐹1 … 𝐹𝑛|𝐶)

𝑃(𝐹1 … 𝐹𝑛) (2.2)

Di mana Variabel C merepresentasikan kelas, sementara variabel F1

... Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk


13

melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang

masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah

peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali

disebut prior), dikali dengan peluang kemunculan karakteristik-

karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan

peluang kemunculan karakteristik-karakteristik sampel secara global

(disebut juga evidence). Atau dengan kata lain dapat ditulis dengan

sederhana seperti rumus dibawah ini:

𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑦 =𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑥 𝑝𝑟𝑖𝑜𝑟

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 (2.3)

Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari

posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior

kelas lainnya untuk menentukan ke kelas apa suatu sampel akan

diklasifikasikan.

Untuk klasifikasi dengan data kontinyu digunakan rumus densitas

gauss:

P(𝑋𝑖 = 𝑥𝑖|𝑌 = 𝑌𝑗) =1

√2𝜋𝜎𝑒

−(𝑥𝑖−𝜇)2(𝜎)2 (2.4)

Dimana:

P = Peluang

Xi = Atribut ke-i

xi = Nilai atribut ke-i

Y = Kelas yang dicari

µ = mean, menyatakan rata-rata dari seluruh atribut

σ = Standar Deviasi

Menghitung rata-rata digunakan rumus:


14

𝑛𝑖𝑙𝑎𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (2.5)

Untuk menghitung standar deviasi gunakan rumus dibawah:

𝑆 = √∑𝑖=1

𝑛 (𝑥𝑖 − 𝑥−)2

𝑛 − 1 (2.6)

Dimana:

S = Standar deviasi

xi = Nilai x ke-i

x- = Rata-rata

n = Ukuran sampel

2.4 Cross validation

Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk

pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut

dengan k-fold cross–validation, yang memecah set data menjadi k bagian set data

dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data

set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut

dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat

satu kali dan menjadi data latih sebanyak k-1 kali. Total error didapatkan dengan

menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014)


15

Gambar 2. 2 3-Fold Validation

2.5 Akurasi dengan Confusion Matix

Data pelatihan dan pengujian merupakan data yang berbeda sehingga klasifikasi

dapat diuji dengan benar. Nilai akurasi berdasarkan hasil klasifikasi dihitung dari

jumlah data yang dikenali sesuai dengan target kelasnya. Perhitungan akurasi pada

klasifikasi data dihitung menggunakan tabel yang bernama Confusion Matrix (Tan,

Steinbach, dan Kumar, 2006)

Tabel 2. 1 Confusion Matrix 2 Kelas (Tan, Steinbach, & Kumar, 2006)

Hasil Pengujian

1 0

Target

kelas

1 F11 F10

0 F01 F00

Fij adalah jumlah data yang dikenali sebagai kelas ke-j dengan target kelas ke-i.

Persamaan untuk menghitung akurasi klasifikasi

akurasi =𝐹11 + 𝐹00

𝐹11 + 𝐹10 + 𝐹01 + 𝐹00∗ 100 (2.7)


16

BAB III

METODE PENELITIAN

Bagian ini menguraikan mengenai rencana langkah-langkah yang akan

dilakukan dalam penelitian. Termasuk bagaimana cara mendapatkan data, cara

mengolah data, cara membuat alat uji jika diperlukan, cara analisis data, cara

pengujian, dan di bagian akhir diberikan desain alat uji serta user interface dari alat

uji yang akan dibangun.

3.1 Gambaran Umum

Gambar 3. 1 Diagram Blok Gambaran Umum Klasifikasi Akreditasi

Berdasarkan gambar 3.1 adalah tahap-tahap bagaimana data diproses. Adapun

tahapnya dimana data masuk ke dalam tahap preprocessing yang dimana

melakukan seleksi atribut, transformasi data, dan cleaning data. Setelah melewati


17

tahap preprocessing data dianggap siap pakai dimana data akan masuk ke tahap

pembentukan model.

Pada tahap pembentukan model, data dipisah menjadi 2 bagian yaitu data

training dan data testing dengan menggunakan 3-fold validation. Setelah itu pada

setiap atribut dihitung rata-rata (mean) dan standar deviasinya, lalu hitung

menggunakan perhitungan naive bayes jika sudah terbentuk model uji data testing

terhadap model yang didapat, setelah dihitung akan mendapatkan hasil. Hasil yang

didapat yang telah diproses menggunakan naive bayes tadi di bandingkan terhadap

label testing, setelah dibandingkan akan mendapat akurasi menggunakan confusion

matrix. Setelah itu kita melakukan uji data tunggal dimana kita memasukkan data

baru sebagai data test. Data test yang dimasukkan diuji terhadap model dan akan

mendapat hasil klasifikasi dari data yang diuji.

3.1.1 Algoritma Naive bayes

Untuk algoritme naive bayes yang dibangun pada sistem seperti

tapat-tahap dibawah ini:

1. Tahap pertama sistem yang dibangun membaca data masukkan file

bertipe .xlsx atau .xls

2. Data tersebut di dilakukan preprocessing, yaitu seleksi data,

transformasi data dan cleaning data.

3. Mendapat hasil preprocessing, Data yang sudah dipreprocessing

dianggap menjadi data siap pakai.

4. Lakukan k-fold cross validation terhadap data siap pakai.

5. Tahap permodelan, pada tahap ini perhitungan menggunakan naive

bayes dilakukan, yaitu menghitung probabilitas-probabilitas pada setiap

atribut dan membandingkan probabilitas

6. Hasil probabilitas tertinggi diambil dan dijadikan kelas dari data yang

diuji.

7. Menguji akurasi dengan confusion matrix , Label testing dibandingkan

dengan label yang didapat setelah dilakukan nya perhitungan naive

bayes dan dimasukkan ke hasilnya dimasukkan ke dalam matrix


18

8. Dilakukan perhitungan untuk menggunakan rumus confusion matrix

hingga diketahui besar akurasi,

Gambar 3. 2 Diagram Flowchart Uji sistem

Untuk uji data tunggal dilakukan dengan langkah-langkah seperti dibawah

1. Siapkan uji data tunggal

2. Lakukan pengujian data tunggal terhadap modeling, modeling yang

dimaksud disini adalah modeling yang didapat pada Gambar 3.2

Diagram Flowchart Uji Sistem

3. Menghitung probabilitas-probabilitas dari data tunggal terhadap

masinng-masing kelas, probabilitas tertinggi akan dijadikan kelas (hasil

klasifikasi) dari data tunggal yang diuji.


19

Gambar 3. 3 flowchart uji data tunggal

3.2 Tahap-tahap Penelitian

3.2.1 Pengumpulan Data

Data yang digunakan pada penelitian ini adalah data DAPODIK

(Data pokok pendidikan) tahun 2018 SMA di Pulau Sumatera.

3.2.2 Pengolahan Awal Data

Pada tahap ini, data akan diolah terlebih dahulu sebelum data

tersebut siap dipakai. Tahap preprocessing nya adalah seleksi data. Tahap-

tahap nya akan seperti gambar dibawah

Gambar 3. 4 Tahap Preprocessing

Setelah tahap tersebut data dianggap siap pakai dan di proses ke tahap

berikutnya pembuatan model naive bayes.

3.2.3 Pembuatan model

Pada tahap ini, proses pembuatan modelnya akan dijelaskan dalam

tahap-tahap seperti dibawah:

1. Sebelum ke tahap pembuatan model ada proses yang dinamakan cross-

validation dimana ini membagi data menjadi 2 yaitu data training dan


20

data testing. Menggunakan 3-fold cross validation seperti pada Gambar

2.2 3-Fold Validation.

2. Setelah itu akan masuk ke dalam perhitungan naive bayes, dikarenakan

data nya kontinyu hitung rata-rata (mean) dan standar deviasi setiap

atribut menggunakan rumus persamaan 2.5 dan persamaan 2.6.

3. Hitung probabilitas setiap atribut menggunakan persamaan 2.4

4. Cari likelihood setiap kelas dengan cara mengkalikan hasil yang didapat

pada langkah ke-3 pada setiap kelas.

5. Bandingkan hasil setiap kelas, probabilitas tertinggi itu adalah kelas dari

data testing yang diuji.

Tahap-tahap nya seperti gambar dibawah:

Gambar 3. 5 Tahap Pembuatan Model

3.2.4 Evaluasi dan Validasi Hasil

Pada tahap ini untuk mengetahui akurasi dari data yang diuji

menggunakan confusion matix. Tahap-tahap confusion matrix:

1. Label (kelas) pada data testing di bandingkan dengan label (kelas) yang

didapat setelah dilakukan perhitungan dengan metode naive bayes

2. Hasil perbandingannya di masukkan ke dalam matrix, pada kasus

pengklasifikasian ini karna label (kelas) ada 4 yaitu A, ,B ,C, dan TT

maka confusion matrix nya adalah 4*4

3. Setelah itu hitung akurasi dengan menggunakan persamaan 2.7

4. Hasil akurasi akan diketahui


21

Gambar 3. 6 Alur confusion matrix

3.3 Data

Data yang digunakan dalam penelitian ini adalah data DAPODIK (data

pokok pendidikan) SMA tahun 2018 di Pulau Sumatera yang diberasal dari

Kemdikbud dengan jumlah 1511 data.

Untuk contoh data menggunakan 8 atribut sesuai dengan Peraturan

Pemerintah(PP) No.19 tahun 2005 dan 1 atribut kelas dimana disebutkan bahwa

mengenai komponen-komponen yang dipakai dalam penilaian Akreditasi

dilakukan berdasar 8 komponen standar nasional pendidikan meliputi:

1. Standar isi

2. Standar proses

3. Standar kopetensi lulusan

4. Standar pendidik dan tenaga pendidikan

5. Standar sarana dan prasarana

6. Standar pengelolaan

7. Standar pembiayaan

8. Standar penilaian pendidikan.

Berikut merupakan contoh data dan atribut yang akan digunakan pada penelitian

ini:

Tabel 3. 1 Contoh data

No Standar

Sarana

Prasarana

Standar

Isi

Standar

Penilaian

Standar

Pengelolaan

Standar

Kelulusan

Standar

Tenaga

Pendidik

Standar

Pembiayaan

Standar

Proses

Akre

ditasi

1 56 50 78 60 63 68 82 64 C

2 86 83 75 84 82 70 93 81 B


22

3 79 81 80 88 73 88 85 83 B

4 91 92 96 94 91 91 91 94 A

5 52 50 59 56 51 54 67 44 TT

6 57 67 61 66 61 63 59 67 C

7 90 92 86 91 84 88 93 89 A

8 65 71 78 68 54 64 92 61 C

9 74 88 86 79 76 78 82 86 B

10 92 75 88 95 82 68 90 75 B

11 7 15 30 23 17 28 30 25 TT

12 56 58 63 60 57 58 57 58 C

13 76 89 83 95 86 90 95 92 A

14 98 99 95 98 97 99 92 100 A

15 89 94 93 99 87 79 98 92 A

16 39 44 34 38 39 29 45 53 TT

17 80 99 96 88 97 96 96 92 A

18 71 94 91 88 74 71 80 78 B

19 59 78 74 73 74 69 86 72 B

20 40 68 68 58 56 50 85 72 C

21 58 60 63 71 62 71 63 67 C

Berikut adalah penjelasan masing-masing atribut yang digunakan dalam penelitian

ini:

Tabel 3. 2 Penjelasan atribut (PP 19 tahun 2005)

No Atribut Keterangan

1 Standar isi Ruang lingkup materi dan tingkat kompetensi yang

dituangkan dalam kriteria tentang kompetensi tamatan,

kompetensi bahan kajian, kompetensi mata pelajaran,

dan silabus pembelajaran yang harus dipenuhi oleh

peserta didik pada jenjang dan jenis pendidikan

tertentu.

2 Standar proses Standar nasional pendidikan yang berkaitan dengan

pelaksanaan pembelajaran pada satu satuan pendidikan

untuk mencapai standar kompetensi lulusan.


23

3 Standar

kopetensi

lulusan

Kualifikasi kemampuan lulusan yang mencakup sikap,

pengetahuan, dan keterampilan

4 Standar

pendidik dan

tenaga

pendidikan

Kriteria pendidikan prajabatan dan kelayakan fisik

maupun mental, serta pendidikan dalam jabatan.

5 Standar sarana

dan prasarana

Standar nasional pendidikan yang berkaitan dengan

kriteria minimal tentang ruang belajar, tempat

berolahraga, tempat beribadah, perpustakaan,

laboratorium, bengkel kerja, tempat bermain, tempat

berkreasi dan berekreasi, serta sumber belajar lain,

yang diperlukan untuk menunjang proses

pembelajaran, termasuk penggunaan teknologi

informasi dan komunikasi.

6 Standar

pengelolaan


perencanaan, pelaksanaan, dan pengawasan kegiatan

pendidikan pada tingkat satuan pendidikan,

kabupaten/kota, provinsi, atau nasional agar tercapai

efisiensi dan efektivitas penyelenggaraan pendidikan.

7 Standar

pembiayaan

Standar yang mengatur komponen dan besarnya biaya

operasi satuan pendidikan yang berlaku selama satu

tahun.

8 Standar

penilaian

pendidikan


mekanisme, prosedur, dan instrumen penilaian hasil

belajar peserta didik.

9 Akeditasi Kegiatan penilaian kelayakan program dan/atau satuan

pendidikan berdasarkan kriteria yang telah ditetapkan.


24

3.4 Perhitungan menggunakan naive bayes

3.4.1 Preprocessing

Tahap ini akan dilakukan Proses Preprocessing

Atribut Selection

Seleksi atribut melakukan dua tahapan, tahap yang pertama adalah

melakukan penghapusan terlebih dahulu terhadap atribut-atribut yang

dianggap tidak penting dan juga atribut-atribut yang tidak memiliki nilai

pembanding. Maksud dari nilai pembanding dalam penelitian ini adalah

dimana atribut dalam data harus mempunyai nilai yang berbeda. Contoh

atribut(x) memiliki isian true/false, tahap ini mengharuskan dalam

atribut(x) harus memiliki kedua nilai tidak boleh hanya memiliki salah

satu nilai saja. Tahap yang kedua adalah melakukan perangkingan

atribut berdasarkan information gain menggunakan Weka Tool 3.9

Transformasi data

Pada tahap ini melakukan tranformasi data, dimana data ber-type

string akan di ubah ke number agar dapat diproses pada mathlab. Atribut-

atribut yang akan di transformasi sebagai berikut:

Tabel 3. 3 ketentuan transformasi data

Atribut Data asli Data transformasi

Provinsi Nama-nama provinsi

dipulau sumatera,

terdiri dari 10 provinsi

1 sampai 10

Jenis sekolah Negeri/Swasta 1/0

Akses internet True/False 1/0

Sumber listrik True/False 1/0

Akreditasi A/B/C/Tidak

Terakreditasi

1/2/3/4


25

Cleaning data

Pada tahap ini melakukan cleaning data, cleaning data ini bertujuan

untuk menghapus data kosong(missing value).

Normalisasi data

Tahap ini melakukan normalisasi menggunakan normalissasi min-

max dimana normalisasi ini akan dilakukan pada data yang memiliki

rentang jauh. Maksud rentang jauh dalam penelitian ini adalah ketika

data memiliki rentang yang perbedaan nya jauh dari data-data pada

atribut lain seperti pada atribut daya listrik dan luas tanah. Pada daya

listrik memiliki rentang 0 sampai 529.999 dan pada atribut luas tanah

memiliki rentang 0 sampai 2.528.390.

3.4.2 Modelling Naive Bayes

Pada tahap ini kita akan melakukan perhitungan data dengan

menggunakan metode naive bayes. Data yang akan kita gunakan adalah data

pada tabel 3.1 Contoh data adapun perhitungannya melalui tahap-tahap

berikut:

1. Data terlebih dahulu dibagi menjadi 2 bagian yaitu data training dan

data testing dimana pembagian data tersebut disebut cross validation

dimana menggunakan 3-fold validation.

2. Setelah itu hitung probabilitas dari masing-masing atribut menggunakan

algoritme perhitungan naive bayes.

3. Hitung confusion matrix

Berikut ini adalah contoh perhitungan untuk mencari nilai

probabilitas, data yang akan diuji terlebih dahulu kita bagi 2 dengan

ketentuan data training adalah data 1-14 dan data testing adalah 15-21 pada

tabel 3.1 Contoh data


26

Tabel 3. 4 Data training

No A1 A2 A3 A4 A5 A6 A7 A8 Kelas

1 56 50 78 60 63 68 82 64 C

2 86 83 75 84 82 70 93 81 B

3 79 81 80 88 73 88 85 83 B

4 91 92 96 94 91 91 91 94 A

5 52 50 59 56 51 54 67 44 TT

6 57 67 61 66 61 63 59 67 C

7 90 92 86 91 84 88 93 89 A

8 65 71 78 68 54 64 92 61 C

9 74 88 86 79 76 78 82 86 B

10 92 75 88 95 82 68 90 75 B

11 7 15 30 23 17 28 30 25 TT

12 56 58 63 60 57 58 57 58 C

13 76 89 83 95 86 90 95 92 A

14 98 99 95 98 97 99 92 100 A

Keterangan:

A1: Standar Sarana dan Prasarana

A2: Standar Isi

A3: Standar Penilaian Pendidikan

A4: Standar Pengelolahan

A5:Standar Kelulusan

A6: Standar Pendidikan dan Tenaga Pendidikan

A7: Standar Pembiayaan

A8: Standar Proses


27

Berikut ini penyelesaian contoh kasus menggunakan algoritme naive bayes.

a. Menghitung rata-rata (mean) menggunakan persamaan 2.5 dan standar

deviasi menggunakan persamaan 2.6 pada setiap atribut.

Berikut ini merupakan hasil perhitungan rata-rata(mean) dan standar deviasi

dari setiap atribut

Tabel 3. 5 Hasil rata-rata (mean) dan Standar Deviasi A1

A1 A B C TT

Rata-rata 88,75 82,75 58,5 29,5

Standar Deviasi 9,215024 7,889867 4,358899 31,81981


A2 A B C TT

Rata-rata 93 81,75 61,5 32,5

Standar Deviasi 4,242641 5,377422 9,398581 24,74874


A3 A B C TT

Rata-rata 90 82,25 70 44,5

Standar Deviasi 6,480741 5,909033 9,273618 20,5061


A4 A B C TT

Rata-rata 94,5 86,5 63,5 39,5

Standar Deviasi 2,886751 6,757712 4,123106 23,33452


28


A5 A B C TT

Rata-rata 89,5 78,25 58,75 34

Standar Deviasi 5,802298 4,5 4,031129 24,04163


A6 A B C TT

Rata-rata 92 76 63,25 41

Standar Deviasi 4,830459 9,092121 4,112988 18,38478


A7 A B C TT

Rata-rata 92,75 87,5 72,5 48,5

Standar Deviasi 1,707825 4,932883 17,25302 26,16295


A8 A B C TT

Rata-rata 93,75 81,25 62,5 34,5

Standar Deviasi 4,645787 4,645787 3,872983 13,43503

b. Menghitung Probabilitas dari kelas(A9)

Tabel 3. 13 Probabilitas untuk setiap kategori pada kelas

Jumlah Kategori Akreditasi Probabilitas kategori Akreditasi

A B C TT A B C TT

Jumlah 4 4 4 2 4/14 4/14 4/14 2/14


29

c. Melakukan perhitungan probabilitas terhadap data testing yang telah

ditentukan yaitu pada data 15- 21

Tabel 3. 14 Data testing


15 89 94 93 99 87 79 98 92 A

16 39 44 34 38 39 29 45 53 TT

17 80 99 96 88 97 96 96 92 A

18 71 94 91 88 74 71 80 78 B

19 59 78 74 73 74 69 86 72 B

20 40 68 68 58 56 50 85 72 C

21 58 60 63 71 62 71 63 67 C

Perhitungan pada data testing no.15

Untuk A1=89, maka hitung berdasarkan persamaan 2.4

P(A1=89 | Akreditasi = A)

=1

√2𝜋(9,215)𝑒

−(89−88,75)2

2(9,215)2 = 0,043277

P(A1=89 | Akreditasi = B)

=1

√2𝜋(7,890)𝑒

−(89−82,75)2

2(7,890)2 = 0,036947

P(A1=89 | Akreditasi = C)

=1

√2𝜋(4,359)𝑒

−(89−58,5)2

2(4,359)2 = 0,0000000000021

P(A1=89 | Akreditasi = TT)

=1

√2𝜋(31,820)𝑒

−(89−29,5)2

2(31,820)2 = 0,002182


30



=1

√2𝜋(4,243)𝑒

−(94−93)2

2(4,243)2 = 0,091456


=1

√2𝜋(5,377)𝑒

−(94−81,75)2

2(5,377)2 = 0,005539


=1

√2𝜋(9,399)𝑒

−(94−61,5)2

2(9,399)2 = 0,000107


=1

√2𝜋(24,749)𝑒

−(94−32,5)2

2(24,749)2 = 0,000735



=1

√2𝜋(6,481)𝑒

−(93−90)2

2(6,481)2 = 0,055304


=1

√2𝜋(5,909)𝑒

−(93−82,25)2

2(5,909)2 = 0,012904


=1

√2𝜋(9,274)𝑒

−(93−70)2

2(9,274)2 = 0,001986


31


=1

√2𝜋(20,506)𝑒

−(93−44,5)2

2(20,506)2 = 0,001187



=1

√2𝜋(2,887)𝑒

−(99−94,5)2

2(2,887)2 = 0,041005


=1

√2𝜋(6,758)𝑒

−(99−86,5)2

2(6,758)2 = 0,010669


=1

√2𝜋(4,123)𝑒

−(99−63,5)2

2(4,123)2 = 0,000000000000000008


=1

√2𝜋(23,335)𝑒

−(99−39,5)2

2(23,335)2 = 0,000662



=1

√2𝜋(5,802)𝑒

−(87−89,5)2

2(5,802)2 = 0,062661



32

=1

√2𝜋(4,500)𝑒

−(87−78,25)2

2(4,500)2 = 0,013387


=1

√2𝜋(4,031)𝑒

−(87−58,75)2

2(4,031)2 = 0,0000000000021


=1

√2𝜋(24,042)𝑒

−(87−35,66667)2

2(24,042)2 = 0,001461



=1

√2𝜋(4,830)𝑒

−(79−92)2

2(4,830)2 = 0,002209

P(A6=79| Akreditasi = B)

=1

√2𝜋(9,092)𝑒

−(79−76)2

2(9,092)2 = 0,041553


=1

√2𝜋(4,113)𝑒

−(79−63,25)2

2(4,113)2 = 0,000063


=1

√2𝜋(18,385)𝑒

−(79−41)2

2(18,385)2 = 0,002563



33


=1

√2𝜋(1,708)𝑒

−(98−92,75)2

2(1,708)2 = 0,002072


=1

√2𝜋(4,933)𝑒

−(98−87,5)2

2(4,933)2 = 0,008394


=1

√2𝜋(17,253)𝑒

−(98−72,5)2

2(17,253)2 = 0,007757


=1

√2𝜋(26,163)𝑒

−(98−48,5)2

2(26,163)2 = 0,002546



=1

√2𝜋(4,646)𝑒

−(92−93,75)2

2(4,646)2 = 0,079991


=1

√2𝜋(4,646)𝑒

−(92−81,25)2

2(4,646)2 = 0,005905


=1

√2𝜋(3,873)𝑒

−(92−62,5)2

2(3,873)2 = 0,00000000000003



34

=1

√2𝜋(13,435)𝑒

−(92−34,5)2

2(13,435)2 = 0,000003

Dibawah ini adalah hasil probabilitas yang didapat dari perhitungan diatas

yang ditampilkan dalam bentuk tabel

Tabel 3. 15 Probabilitas setiap atribut

A B C TT

A1 0,043277 0,036947 0,0000000000021 0,002182

A2 0,091456 0,005539 0,000107 0,000735

A3 0,055304 0,012904 0,001986 0,001187

A4 0,041005 0,010669 0,000000000000000008 0,000662

A5 0,062661 0,013387 0,0000000000021 0,001461

A6 0,002209 0,041553 0,000063 0,002563

A7 0,002072 0,008394 0,007757 0,002546

A8 0,079991 0,005905 0,00000000000003 0,000003

A9 0,285714 0,285714 0,285714 0,142857

d. Menghitung likelihood, lakukan perhitungan likelihood dari probabilitas

yang didapat. Nilai likelihood yang akan dihitung ada 4 yaitu likelihoot

untuk kelas A, B. C, dan TT.

Likelihood A

LA = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

= 0,043277 * 0,091456 * 0,055304 * 0,041005 * 0,062661 * 0,002209 *

0,002072 * 0,079991 * 0,285714

= 0,000000000000058830

Likelihood B

LB = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

= 0,036947 * 0,005539 * 0,012904 * 0,010669 * 0,013387 * 0,041553 *


35

0,008394 * 0,005905 * 0,285714

= 0,00000000000000022

Likelihood C

LC = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

= 0,0000000000021 * 0,000107 * 0,001986 * 0,000000000000000008 *

0,0000000000021 * 0,000063 * 0,007757* 0,00000000000003 * 0,285714

= 2,76132E-68

Likelihood TT

LTT = P(A1) * P(A2) * P(A3) * P(A4) * P(A5) * P(A6) * P(A7) * P(A8) * P(A9)

= 0,002182 * 0,000735 * 0,001187 * 0,000662 * 0,001461 * 0,002563 *

0,002546 * 0,000003* 0,142857

= 0,0000000000000000000000000054

Nilai probabilitas yang didapat dihitung dengan melakukan normalisasi

terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh =1

PA =0,000000000000058830

0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

= 0,996241509

PB =0,00000000000000022

0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

= 0,003758

PC = 2,76132E−68

0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

= 4,67607E-55


36

PTT=0,000000000000058830

0,000000000000058830+0,00000000000000022 +2,76132𝐸−68+0,0000000000000000000000000054

= 0,00000000000009097115

Dari hasil tersebut terlihat bahwa nilai probabilitas tertinggi adalah pada

status akreditasi A dengan nilai probabilitas 0,996241509. Sehingga dapat

disimpulkan bahwa data testing nomor 15 diklasifikasikan ke dalam kelas A.

Lakukan perhitungan yang sama pada langkah c untuk data 16-21. Hingga

ditemukan masing-masing kelas nya. Berikut adalah hasil pengklasifikasian data

testing

Tabel 3. 16 Hasil Pengujian Data


Hasil

pengklasifikasian

menggunakan

metode naive

bayes

15 89 94 93 99 87 79 98 92 A A

16 39 44 34 38 39 29 45 53 TT TT

17 80 99 96 88 97 96 96 92 A A

18 71 94 91 88 74 71 80 78 B B

19 59 78 74 73 74 69 86 72 B B

20 40 68 68 58 56 50 85 72 C TT

21 58 60 63 71 62 71 63 67 C C

3.4.3 Uji Akurasi dengan Confusion Matrix

Akurasi akan diuji menggunakan confusion matrix dimana, pada

tabel 3.15 Hasil Pengujian Data kita lakukan perhitungan untuk mendapat

akurasi. Kita menggunakan rumus pada persamaan 2.7


37

Tabel 3. 17 Perhitungan Confusion Matrix

A B C TT

A 2 0 0 0

B 0 2 0 0

C 0 0 1 1

TT 0 0 0 1

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2 + 2 + 1 + 1

7∗ 100 = 85,71

Pada hasil yang didapat kita bisa lihat dengan banyak data 21 (training 14

dan testing 7) didapat akurasi sebesar 85,71%.

Karena kita menggunakan 3-fold cross validation kita harus

menghitung terhadap 2 model lagi yaitu data testing berada dibagian tengah

dan data testing berada di bagian atas. Dibawah ini adalah hasil akurasi yang

didapat dalam setiap model menggunakan 3-fold cross validation.

Tabel 3. 18 akurasi setiap model dari 3-fold cross validation

Akurasi data testing

berada dibawah


berada ditengah


berada diatas

85,71% 100% 85,71

Hitung rata-rata akurasi

𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =85,71 + 100 + 85,71

3= 90,43

3.5 Variasi percobaan

Pada penelitian ini variasi percobaan akan dilakukan sebanyak jumlah

atribut, dimana nantinya hasil akurasi yang didapat pada setiap atribut akan

dibandingkan. Untuk akurasi tertinggi akan dijadikan sebagai atribut untuk


38

melakukan uji data tunggal. Setiap atribut yang akan diuji tentunya melewati

preprocesing dan menggunakan 3-fold validation dimana nantinya data dibagi

menjadi 3 bagian, 2 bagian akan dijadikan traning dan 1 bagian lainnya akan

dijadikan testing.

3.6 Peralatan Penelitian

Dalam proses pembuatan dokumen dan penelitian Klasifikasi akreditasi

SMA di pulau Sumatra menggunakan metode naive bayes ini tidak terlepas dari

dukungan hardware dan software yang akan digunakan, berikut adalah hardware

dan software yang akan digunakan:

Hardware

1. Laptop

Merk : Lenovo

Type : G40-70

Processor : Intel(R) Core(TM) i3-4030U CPU

@1.90GHz

Ram : 6Gb

OS : Windows 8.1 Pro

Software

1. Matlab2018a

2. Microsoft Office (Versi: 2016)


39

3.7 Desain User Interface

Gambar 3. 7 Desain User Interface

Ini adalah Desain User Interface yang akan dibuat, desain ini dibuat dengan

tujuan memudah kan user dalam melakukan proses pengklasifikasian akreditasi

baik dalam inputan dan melihat output. Pada Gambar 3.7 Desain User Interface

terdapat 15 Area yang masing masing akan dijelaskan sebagai berikut:

Area 1 : Tombol Pilih file yang berfungsi untuk melakukan pemilihan file

data yang hendak diproses.

Area 2 : Menampilkan data yang dipilih pada area 1.

Area 3 : tempat inputan memasukkan jumlah atribut yang hendak di proses.

Area 4 : Tombol preprocessing, melakukkan seleksi data,tranformasi data

dan cleaning data, dan normalisasi .

Area 5 : Tabel yang menampilkan hasil dari preprocessing.

Area 6 : Tombol akurasi, berfungsi sebagai menghitung akurasi dari data.

Area 7 : Sebuah tempat yang menampilkan hasil akurasi dari data yang

diproses.

Area 8 : Tabel menampilkan hasil confusion matrix, dimana pada sistem

yang dibuat menggunakan 3-fold cross validation sehingga mempunyai 3

matrix.

Area 9 : Melakukan pemilihan file untuk uji data banyak

Area 10 : Menampilkan Hasil data yang dipilih pada area 9.


40

Area 11 : Tombol klasifikasi, melakukan perhitungan menggunakan metode

naive bayes terhadap data yang di upload pada area 9.

Area 12 : Manampilkan hasil klasifikasi dari data uji banyak

Area 13 : Tempat melakukan inputan uji data tunggal.

Area 14 : Tombol klasifikasi, adalah tombol yang mencari kelas dari data

yang diuji.

Area 15: Sebuah tempat yang berfungsi untuk menampilkan hasil

Klasifikasi dari data yang diinputkan pada Area 13. Hasilnya dalam bentuk

Akreditasi yaitu A, B, C, atau tidak terakreditasi.


41

BAB IV

HASIL DAN ANALISIS

Pada bab ini akan dibahas hal-hal yang berkaitan dengan hasil implementasi sistem

hasil yang didapat dari pengujian-pengujian yang dilakukan serta analisis dari hasil

pengujian

4.1 Data Preprocessing

4.1.1 Attribut Selection

Seleksi atribut pada penelitian ini dilakukan melalui 2 tahapan.

Tahap pertama adalah menghapus atribut, dari total 82 atribut yang akan

dihapus adalah atribut yang betipe unik maupun tidak memiliki nilai

pembanding. berikut adalah atribut yang dihapus dalam penelitian ini:

Tabel 4. 1 Atribut yang akan dihapus

No Atribut Keterangan

1 NPSN (nomor pokok sekolah

nasional)

-

2 Nama sekolah -

3 Semester data -

4 Kepala sekolah -

5 Operator -

6 Manajemen Berbasis sekolah TRUE & FALSE. Pada data tidak

mempunyai nilai true.

7 Email -

8 Alamat -

9 Kab/kota -

10 Kecamatan -

11 Jenjang SMA

12 Penyelenggaraan -

13 Kurikulum KTSP


42

14 Lat -

15 Lng -

Langkah selanjutnya adalah melakukan rangking attribut, untuk

mendapatkan rangking atribut berdasarkan infomation gain menggunakan

Weka Tool 3.9 . Berikut adalah hasil perangkingan 10 atribut teratas, untuk

hasil perangkingan seluruh atribut dapat dilihat pada lampiran

Tabel 4. 2 Hasil Perangkingan 10 Attribut teratas

Ranking Attribut/fitur

1 Standar Kelulusan

2 Standar Tenaga Pendidik

3 Standar Sarana Prasarana

4 Standar Isi

5 Standar Pengelolaan

6 Standar Penilaian

7 Standar Proses

8 Standar Pembiayaan

9 Total Ruang Kelas

10 Total Rombongan Belajar

4.1.2 Data transformation

Transformasi data dilakukan seperti ketentuan ketentuan yang sudah

dijelaskan pada bab 3, transformasi data dapat dilihat pada tabel berikut:

Tabel 4. 3 Data Transformasi

Atribut Data awal Hasil transformasi

Provinsi Aceh

Bangka belitung

Bengkulu

1

2

3


43

Jambi

Kepulauan riau

Lampung

Riau

Sumatera barat

Sumatera selatan

Sumatera utara

4

5

6

7

8

9

10

Jenis sekolah Negeri

Swasta

1

0

Akses internet True

False

1

0

Sumber listrik True

False

1

0

Akreditasi A

B

C

Tidak terakriditasi

1

2

3

4

4.1.3 Data Cleaning

Pada tahap data cleaning, data yang mempunyai missing value

dihapus. Tahap ini mengharuskan semua kolom dan baris pada data harus

mempunyai nilai.

Tabel 4. 4 Data cleaning

Attribut (x) Attribut (x) Attribut (x) Attribut (x)

66 78 22 90

54 77 88

Pada tabel diatas kita bisa lihat dimana pada data baris ke-2 kolom

ke-2 tidak mempunyai nilai yang nantinya semua data pada baris ke-2 akan


44

dihapus , pada penelitian ini data-data yang tidak mempunyai nilai akan

dihapus sehingga data yang akan diproses yaitu data yang masing-masing

kolom dan baris mempunyai nilai.

4.1.4 Normalisasi data

Tahap normalisasi data, pada tahap ini melakukan normalisasi

menggunakan normalisasi min-max. Atribut-atribut yang dilakukan

normalisasi hanyalah atribut yang mempunyai rentang antar data yang jauh.

Atribut –atribut yang dinormalisasi adalah daya listrik dan luas tanah. Pada

tabel dibawah akan ditampilkan hasil sebelum normalisasi dan sesudah

normalisasi pada setiap atribut

Tabel 4. 5 Normalisasi data

Atribut /Rentang data Data awal Hasil normalisasi

Daya listrik/ 0 sampai

529.999

7000

1200

3500

0,01320

0,00226

0,00660

Luas tanah (MÂ²)/ 0 sampai

2.528.390

1577187

1972475

2000000

0,62379

0,78013

0,79101

Adapun perbandingan hasil yang didapat sebelum dan sesudah melakukan

normalisasi dapat dilihat seperti pada tabel dibawah, dikarenakan munculnya

atribut yang dinormalisasi yaitu pada saat penggunaan atribut sebanyak 29 atribut

untuk daya listrik dan 56 atribut untuk luas tanah berdasarkan ranking dengan

information gain sehingga pada tabel langsung pengujian atribut dengan jumlah

atribut sebanyak 29 dan 56 atribut. Untuk mengetahui variasi atribut apa yang

digunakan dalam penggunaan 29 atribut dan 56 atribut dapat dilihat pada lampiran

poin ke-2.


45

Tabel 4. 6 Akurasi Pada daya listrik(29) dan luas tanah(56)

Jumlah atribut Akurasi sebelum

normalisasi

Akurasi sesudah

normalisasi

29 44,6531% 44,7531%

56 0,46948% 0,46948%

Pada tabel diatas dapat kita lihat penggunaan normalisasi terhadap daya

listrik dan luas tanah sebenarnya tidak terlalu berdampak pada peningkatan akurasi

yang signifikan. Hanya terdapat perbedaan sedikit tingkat akurasi dan itu hanya

terdapat pada penggunaan jumlah atribut sebanyak 29(daya listrik).

Berikut akan akan ditampilkan juga hasil akurasi dari penggunaan 8 standar

pendidikan sebelum dinormalisasi dan sesudah dinormalisasi.

Tabel 4. 7 Akurasi 8 standar pendidikan sebelum dan sesudah normalisasi

Jumlah

atribut Atribut

Akurasi Sebelum

di normalisasi

Akurasi

setelah di

normalisasi

1 Standar kelulusan 78,672% 78,672%

2 Standar kelulusan

Standar tenaga pendidik 83,7693% 83,7693%

3

Standar kelulusan

Standar tenaga pendidik

Standar sarana prasasrana

87,0557% 87,0557%

4

Standar kelulusan



Standar isi

88,7324% 88,7324%

5 Standar kelulusan

Standar tenaga pendidik 91,0798% 91,0798%


46


Standar isi

Standar pengelolaan

6

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

92,6895% 92,6895%

7

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

Standar proses

92,3541% 92,3541%

8

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

Standar proses

Standar pembiayaan

94,165% 94,165%

Berdasarkan hasil percobaan yang dilakukan pada tabel diatas dapat dilihat

penggunaan normalisasi terhadap data yang digunakan pada penelitian ini

menghasilkan akurasi yang sama. Berdasarkan hal tersebut penggunaan normalisasi

pada data bersifat opsional dalam arti dapat digunakan atau tidak karena

menghasilkan akurasi yang sama pada penggunaan 8 atribut.


47

4.2 Klasifikasi

Pengujian dilakukan sebanyak jumlah atribut dimana jumlah atribut yang

akan diuji sebanyak 66 atribut. Variasi dari atribut berdasarkan hasil dari

information gain yang diuji menggunakan Weka Tool 3.9. uji atribut menggunakan

3-fold validation dimana nantinya data dibagi menjadi 3 bagian, 2 bagian dijadikan

sebagai traning dan 1 bagian lainnya sebagai testing. Berikut merupakan hasil 10

akurasi tertinggi yang telah diuji, untuk hasil akurasi seluruh atribut dapat dilihat

pada lampiran.

Tabel 4. 8 Hasil Percobaan 1 sampai 10 atribut

Jumlah

Atribut Atribut Akurasi(%)

1 Standar kelulusan 78,672

2 Standar kelulusan

Standar tenaga pendidik 83,7693

3

Standar kelulusan



87,0557

4

Standar kelulusan



Standar isi

88,7374

5

Standar kelulusan



Standar isi

Standar pengelolaan

91,0798

6

Standar kelulusan



Standar isi

92,6895


48

Standar pengelolaan

Standar penilaian

7

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

Standar proses

92,3541

8

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

Standar proses

Standar pembiayaan

94,165*

9

Standar kelulusan



Standar isi

Standar pengelolaan

Standar penilaian

Standar proses

Standar pembiayaan

Total ruang kelas

94,165*

10

Standar kelulusan



Standar isi

93.159


49

Standar pengelolaan

Standar penilaian

Standar proses

Standar pembiayaan

Total ruang kelas

Total rombongan belajar

* = Akurasi Tertinggi

Tabel 4.8 merupakan hasil tabel akurasi dari 10 percobaan yang dilakukan,

masing-masing percobaan memiliki tingkat akurasi yang berbeda. Jika dilihat pada

lampiran dimana percobaan dilakukan sebanyak atribut yaitu 66 kali akurasi

tertingggi terdapat pada 2 atribut. Atribut dengan akurasi tertinggi pertama yaitu 8

meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana Prasarana,

Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses, dan Standar

Pembiayaan dengan akurasi sebesar 94,165 % . Atribut dengan akurasi tertinggi

kedua yaitu 9 meliputi Standar Kelulusan, Standar Tenaga Pendidik, Standar Sarana

Prasarana, Standar Isi, Standar Pengelolaan, Standar Penilaian, Standar Proses,

Standar Pembiayaan dan total ruang kelas dengan akurasi sebesar 94,165%. Kita

bisa melihat dari persentase akurasi mulai menurun setelah penambahan atribut

secara terus menerus dimana pada atribut ke49 sampai atribut ke-66 tidak membuat

perubahan terhadap akurasi pada sistem lagi dengan akurasi terendah yaitu

0,46948%. Grafik akurasi akan ditampilkan pada Gambar dibawah


50

Gambar 4. 1 Grafik akurasi setiap attribut

Gambar 4.1 Merupakan akurasi dari setiap atribut yang dalam percobaan

dimana pada gambar tersebut telah dilakukan percobaan sebanyak 66 kali

menggunakan 3-fold validation. Pada Gambar 4.2 adalah confusion matrix dari

atribut akurasi tertinggi yaitu 8 dan 9 attribut dengan akurasi sebesar 94,165%.

8; 94,165

9; 94,165

49; 0,46948

0

20

40

60

80

100

1 3 5 7 9 11131517192123252729313335373941434547495153555759616365

Aku

rasi

Atribut

Akurasi setiap atribut

Jumlah atribut 8 Jumlah atribut 9

Gambar 4. 2 Confusion matrix 8 dan 9 atribut


51

4.3 Klasifikasi Optimal

Setelah dilakukannya pengujian sebanyak jumlah atribut yaitu 66 kali

dengan variasi atribut yang telah dilampiran pada lampiran dengan jumlah 1510

data di dapat klasifikasi optimal yaitu penggunaan 8 atau 9 atribut sebagai atribut

penentu klasifikasi akreditasi SMA di pulau Sumatera.

4.3.1 Penggunaan 8 atribut

Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga

Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,

Standar Penilaian, Standar Proses, dan Standar Pembiayaan dengan

menggunakan 3-fold validation dimana data dibagi menjadi 3 bagian, 2

bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan sebagai

testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil confusion

matrix dari penggunaan 8 atribut:

Tabel 4. 9 Confusion matrix 1 menggunakan 8 atribut

Luaran Akreditasi

A

Akreditasi

B

Akreditasi

C

Tidak

Terakreditasi

Akreditasi A 231 11 0 0

Akreditasi B 7 171 0 0

Akreditasi C 0 23 52 0

Tidak Terakreditasi 0 0 0 2


Luaran Akreditasi

A

Akreditasi

B

Akreditasi

C

Tidak

Terakreditasi






52


Luaran Akreditasi

A

Akreditasi

B

Akreditasi

C

Tidak

Terakreditasi





4.3.2 Penggunaan 9 atribut

Atribut yang digunakan adalah Standar Kelulusan, Standar Tenaga

Pendidik, Standar Sarana Prasarana, Standar Isi, Standar Pengelolaan,

Standar Penilaian, Standar Proses, Standar Pembiayaan dan total ruang

kelas dengan menggunakan 3-fold validation dimana data dibagi menjadi 3

bagian, 2 bagian dijadikan sebagai traning dan 1 bagian lainnya dijadikan

sebagai testing hingga didapat akurasi sebesar 94,165 % . Berikut hasil

confusion matrix dari penggunaan 9 atribut:


Luaran Akreditasi

A

Akreditasi

B

KLASIFIKASI AKREDITASI SMA DI PULAU SUMATERA …repository.usd.ac.id/37836/2/165314124_full.pdf ·...

Documents

INSTRUMEN AKREDITASI RUMAH SAKIT STANDAR AKREDITASI VERSI 2012 · PDF fileinstrumen akreditasi rumah sakit standar akreditasi versi 2012 edisi – 1, tahun 2012 komisi akreditasi rumah

MALAYSIA RESEARCH ASSESSMENT INSTRUMENT I (MyRA I) · dinilai dan masih aktif dalam tahun yang dinilai; atau Projek yang ditutup dalam tahun yang dinilai. Staf Akademik Staf akademik

003975 BAnOT Sertifikat Akreditasi Badap Akreditasi ...psalpps.upr.ac.id/.../file/Sertifikat/SERTIFIKAT-min.pdf003975 BAnOT Sertifikat Akreditasi Badap Akreditasi Nasional Perguruan

014697 Sertifikat Akreditasi Badan Akreditasi Nasional

AKREDITASI PROGRAM STUDI - spm.um.ac.idspm.um.ac.id/akreditasi/Document/PEDOMAN AKREDITASI...Akreditasi Program Studi Program Diploma Tiga 1 . MATRIKS PENILAIAN LAPORAN EVALUASI DIRI

AKREDITASI PROGRAM STUDIspm.um.ac.id/akreditasi/Document/PEDOMAN AKREDITASI...Panduan Penyusunan LED – Instrumen Akreditasi Program Studi versi 4.0 3 berwujud (intangible) seperti

AKREDITASI PROGRAM STUDI€¦ · Akreditasi Program Studi dan Perguruan Tinggi dilakukan dengan menggunakan instrumen akreditasi. Sejak Tahun 1996 Badan Akreditasi Nasional Perguruan

015246 Sertifikat Akreditasi Badan Akreditasi Nasional

000783 nnn-@T Sertifikat Akreditasi Badan Akreditasi

fbs.undiksha.ac.idfbs.undiksha.ac.id/wp-content/uploads/2018/03/akreditasi-PSR... · Akreditasi Nasional Perguruan Tinggi, Badan Akreditasi Nasional Sekolah/Madrasah, dan Badan Akreditasi

BAN-PT AKREDITASI PROGRAM STUDI DIPLOMAlpm.unmuhjember.ac.id/images/dokumen/Dokumen/PERANGKAT_INSTRUMEN... · Sebelum dinilai, dokumen akreditasi program studi diploma diverifikasi

Rubrik Class Meeting Yang Dinilai

STIMA IMMI - 002028 Sertifikat Akreditasi 'Badan Akreditasi ...stimaimmi.ac.id/pascasarjana/document/sertifikatAkredi...002028 Sertifikat Akreditasi 'Badan Akreditasi Nasional Perguruan

KLASIFIKASI AKREDITASI SMA DI PULAU SUMATERA … · vii vii ABSTRAK Akreditasi adalah pengakuan terhadap lembaga pendidikan setelah dinilai bahwa lembaga itu memenuhi syarat kebakuan

024550 Ban-PT Sertifikat Akreditasi Badan Akreditasi ... Akreditasi Pend. Matematika.pdf · 024550 Ban-PT Sertifikat Akreditasi Badan Akreditasi Nasional Perguruan Tinggi berdasarkan

pjm.undiksha.ac.idpjm.undiksha.ac.id/download/download_center/Dokumen... · Web viewSebelum dinilai, dokumen akreditasi program studi diploma diverifikasi pemenuhan persyaratan awal

AKREDITASI PROGRAM STUDI SARJANA · Dokumen akreditasi yang berupa evaluasi diri dan borang program studi serta borang yang diisi oleh Fakultas/Sekolah Tinggi dinilai melalui tujuh

PENGEMBANGAN MODEL PENILAIAN AKREDITASI SEKOLAH …€¦ · Akreditasi SMK untuk mempermudah proses tata kelola sistem akreditasi di SMK, perbaikan pada Sistem Penilaian Akreditasi

003680 Ban-PT Sertifikat Akreditasi Badan Akreditasi

spy 020445 Sertifikat Akreditasi Badan Akreditasi Nasional