8
SNASTIA 2011-01-10 ISSN 1979-3960 ANALISIS KEBERHASILAN MAHASISWA DENGAN METODE CLUSTERING K- MEANS 1) Tamsir Hasudungan Sirait dan 2) Johan Oscar Ong 1) Departemen Sistem Informasi Institut Teknologi Harapan Bangsa 2) Departemen Teknik Industri Institut Teknologi Harapan Bangsa [email protected] ; [email protected] Abstract The admission test done actually have not yet enough to know the ability of new student because not a few students passing the test but having a trouble in their study. Some of them resigns before finish their study because unable to follow subjects. The thing ought to can be handled early on that number of students experiencing deductible failure. In this research, we want to analyze the student with cluster into certain batches based on resemblance of the attribute. K-Means Clustering is a useful statistical analysis in forming a number of group to the objects into group amounts which have been specified where object characteristic only enter group based on certain variable, however the characteristic reasoning of object had not been known sure. Information gain is a measurement to do selection attributes. Information gain will be applied before K-Means Clustering to select attribute which will be used in clustering. After successfully finished this research, output yielded by application is differentiated become two focuses, that are based on GPA and study term. But from the difference of the input results an attribute which is permanent influences, that is “ asal SMA”. Future work can be done to accuracy of well guaranteed data and other methods to compare the performance of this method. Keywords: K-Means clustering, information gain, composition with proportion, 1. Pendahuluan Memasuki abad 21 ini perkembangan teknologi yang semakin pesat terus bermunculan menggantikan teknologi yang sebelumnya. Teknologi yang baru terus dapat dirasakan manfaatnya untuk mengatasi segala permasalahan yang ada. Namun yang menjadi permasalahan justru fokus pada ketersediaan sumber daya manusia yang mampu mengolah dan mengoperasikan teknologi tersebut. Sumber daya manusia yang berkualitas sangat diperlukan untuk menunjang perkembangan teknologi yang ada. Salah satu cara untuk meningkatkan jumlah sumber daya manusia yang berkualitas ini tentunya dengan pendidikan formal. Permasalahan yang dihadapi pada beberapa perguruan tinggi adalah kualitas calon mahasiswa baru dari sisi kemampuan akademisnya. Seleksi penerimaan mahasiswa saat ini belum cukup untuk memberikan informasi terhadap kemampuan akademis dan kesungguhan calon mahasiswa baru. Hal ini berakibat banyaknya calon mahasiswa yang pada akhirnya tidak dapat lulus tepat waktu dan bahkan mengundurkan diri karena ketidakmampuan mengikuti perkuliahan secara akademis. Permasalahan ini seharusnya dapat ditangani sejak dini agar jumlah mahasiswa yang mengalami kegagalan dapat diminimasi. Adapun tujuan penelitian ini adalah melakukan penelitian terhadap atribut yang paling berpengaruh terhadap indeks prestasi kumulatif dan lamanya studi mahasiswa dan melakukan pengelompokkan terhadap sejumlah calon mahasiswa baru ke dalam cluster berdasarkan kemiripan atribut. Dari hasil tersebut dapat ditentukan karakteristik mahasiswa yang seperti apa yang mampu meraih indeks prestasi Teknik Informatika / Universitas Surabaya Halaman 1

Paper Analisis Keberhasilan Mahasiswa Dengan Metode Clustering K-means Versi 2

  • Upload
    fei

  • View
    5

  • Download
    2

Embed Size (px)

DESCRIPTION

Paper Analisis Keberhasilan Mahasiswa Dengan Metode Clustering K-means Versi 2

Citation preview

Apakah Budaya Relevan dalam e-Government

ANALISIS KEBERHASILAN MAHASISWA DENGAN METODE CLUSTERING K-MEANS

1)Tamsir Hasudungan Sirait dan 2)Johan Oscar Ong1)Departemen Sistem Informasi Institut Teknologi Harapan Bangsa2)Departemen Teknik Industri Institut Teknologi Harapan [email protected] ; [email protected]

AbstractThe admission test done actually have not yet enough to know the ability of new student because not a few students passing the test but having a trouble in their study. Some of them resigns before finish their study because unable to follow subjects. The thing ought to can be handled early on that number of students experiencing deductible failure. In this research, we want to analyze the student with cluster into certain batches based on resemblance of the attribute. K-Means Clustering is a useful statistical analysis in forming a number of group to the objects into group amounts which have been specified where object characteristic only enter group based on certain variable, however the characteristic reasoning of object had not been known sure. Information gain is a measurement to do selection attributes. Information gain will be applied before K-Means Clustering to select attribute which will be used in clustering. After successfully finished this research, output yielded by application is differentiated become two focuses, that are based on GPA and study term. But from the difference of the input results an attribute which is permanent influences, that is asal SMA. Future work can be done to accuracy of well guaranteed data and other methods to compare the performance of this method.

Keywords: K-Means clustering, information gain, composition with proportion,

SNASTIA 2011-01-10ISSN 1979-3960

Teknik Informatika / Universitas SurabayaHalaman 5PendahuluanMemasuki abad 21 ini perkembangan teknologi yang semakin pesat terus bermunculan menggantikan teknologi yang sebelumnya. Teknologi yang baru terus dapat dirasakan manfaatnya untuk mengatasi segala permasalahan yang ada. Namun yang menjadi permasalahan justru fokus pada ketersediaan sumber daya manusia yang mampu mengolah dan mengoperasikan teknologi tersebut. Sumber daya manusia yang berkualitas sangat diperlukan untuk menunjang perkembangan teknologi yang ada. Salah satu cara untuk meningkatkan jumlah sumber daya manusia yang berkualitas ini tentunya dengan pendidikan formal.

Permasalahan yang dihadapi pada beberapa perguruan tinggi adalah kualitas calon mahasiswa baru dari sisi kemampuan akademisnya. Seleksi penerimaan mahasiswa saat ini belum cukup untuk memberikan informasi terhadap kemampuan akademis dan kesungguhan calon mahasiswa baru. Hal ini berakibat banyaknya calon mahasiswa yang pada akhirnya tidak dapat lulus tepat waktu dan bahkan mengundurkan diri karena ketidakmampuan mengikuti perkuliahan secara akademis. Permasalahan ini seharusnya dapat ditangani sejak dini agar jumlah mahasiswa yang mengalami kegagalan dapat diminimasi.

Adapun tujuan penelitian ini adalah melakukan penelitian terhadap atribut yang paling berpengaruh terhadap indeks prestasi kumulatif dan lamanya studi mahasiswa dan melakukan pengelompokkan terhadap sejumlah calon mahasiswa baru ke dalam cluster berdasarkan kemiripan atribut. Dari hasil tersebut dapat ditentukan karakteristik mahasiswa yang seperti apa yang mampu meraih indeks prestasi kumulatif baik dan cepat menyelesaikan studi di perguruan Tinggi. Oleh karena itu, research question dalam penelitian ini adalah bagaimana melakukan identifikasi dan analisis terhadap karakteristik calon mahasiswa baru agar diperoleh calon mahasiswa baru yang memiliki kualitas dan kompetensi tinggi.

Landasan TeoriData mining merupakan suatu rangkaian proses untuk menggali nilai tambah dari sekumpulan data yang berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining sendiri merupakan kumpulan bidang ilmu seperti artificial intelligent, machine learning, statistik dan basis data. Han dan Kamber (2000) mengatakan bahwa data mining mempunyai fungsi praktis sebagai prediktor dan deskriptor. Dalam hal ini tugas utamanya adalah melakukan klasifikasi, pembelajaran, penggabungan, pembuatan rangkuman, pencarian model, dan pedeteksian yang secara keseluruhan berdasarkan ketergantungan. Pada prinsipnya, proses dalam data mining dimulai dari pembersihan data yang tidak konsisten, integrasi data, transformasi data, aplikasi teknik data mining, evaluasi, dan presentasi (Taniar, 2007). Teknik data mining memiliki banyak jenis teknik analisa diantaranya classification dan clustering. Metode classification yang banyak digunakan seperti decision tree, algoritma genetika, bayesian, dll. Sedangkan metode clustering yang sering digunakan adalah partisi dan hierarki. Berbagai kelebihan dan kekurangan ada pada kedua metode tersebut. (Mirkin, 2005)

Information GainInformation gain merupakan suatu pengukuran yang dilakukan untuk melakukan seleksi terhadap atribut-atribut sehingga dapat disimpulkan atribut apa saja yang akan digunakan. Penyeleksian suatu sampel yang diberikan digunakan persamaan: (Han dan Kamber, 2000)(1)Dimana Si adalah jumlah sampel S yang masuk ke dalam kelas Ci dengan i= 1, 2, 3, , m dan menyatakan peluang suatu sampel sembarang masuk ke dalam kelas Ci dan ditaksir dengan . Sebagai contoh atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang berbeda yaitu . Atribut A tersebut dapat digunakan untuk memisahkan S ke dalam v subnet Sj yaitu yang dalam hal ini Sj ini memuat sampel-sampel di dalam S yang memiliki nilai aj dari A. Jika atribut A tersebut merupakan atribut terbaik yang digunakan untuk pemisahan, maka subnet-subnet tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Bila Sij adalah jumlah sampel dari kelas Ci dalam suatu subnet Sj, maka informasi harapan atau entropi berdasarkan pemisahan ke dalam subnet-subnet A dihitung dengan persamaan : (2)Sehingga information gain untuk atribut A dapat diperoleh dengan persamaan:(3)Persamaan (3) diatas merupakan reduksi yang diharapkan dalam entropi yang disebabkan oleh pengenalan nilai information gain terbesar yang dipilih sebagai uji atribut untuk himpunan S.

2.2 Metode ClusteringMetode clustering mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama (Refaat, 2007). Tujuan dari clustering ini adalah untuk meminimalisasi fungsi tujuan yang ditetapkan dalam proses clustering, yang umumnya berusaha meminimalisasi variasi dalam suatu cluster dan memaksimalisasi variasi antar cluster.

2.3 Metode Hard K-MeansHard K-Means merupakan suatu metode untuk melakukan pengalokasian data ke masing-masing cluster. Alokasi data tersebut didasarkan perbandingan jarak antara data dengan centroid setiap cluster, dengan persamaan sebagai berikut: (Yudi Agusta, 2007)(4)Dimana adalah keanggotaan data ke-k ke cluster ke-i sedangkan merupakan nilai centroin cluster ke- i.Adapun fungsi objektif dalam metode Hard K-Means adalah sebagai berikut:(5)Dimana N adalah jumlah data, c merupakan jumlah cluster, dan mempunyai nilai 1 jika suatu data merupakan anggota suatu kelompok dan 0 bila sebaliknya. Pusat centroid dihitung dengan persamaan: (Yudi Agusta, 2007) (6)

Metode PenelitianPenelitian ini menggunakan 197 data mahasiswa yang telah studi di Institut Teknologi Harapan Bangsa. Pengolahan data dirancang aplikasi yang berbasis web dengan wampserver5_1.7.2 serta menggunakan clementine 12.0 untuk melakukan clustering. Langkah-langkah yang dilakukan dalam penelitian ini secara singkat dapat dilihat pada Gambar 1.

Gambar 1 Alur PenelitianHasil dan PembahasanAtribut yang digunakan sebagai input dalam studi kasus ini adalah data-data mahasiswa baru ITHB yang terdiri dari jenis kelamin, usia, daerah asal, asal sekolah, program studi yang dipilih pada saat SMA, nilai tes matematika dari ujian tes kemampuan akademis yang dilakukan, pekerjaan orang tua, domisili orang tua, dan pilihan pertama program studi mahasiswa saat mendaftar di perguruan tinggi.

Kemudian atribut tersebut dihitung dengan information gain, dimana atribut yang memiliki nilai diatas threshold yang nantinya akan digunakan sebagai data input dalam proses pengelompokkan sehingga output yang dihasilkan mempresentasikan kemampuan mahasiswa baru yang akan menempuh proses perkuliahan. Jumlah data yang digunakan adalah 197 data, dan ketentuan untuk data yang tidak tersedia digantikan dengan rata-rata atribut untuk seluruh sampel yang masuk dalam kelas yang sama.

Pada tahap awal desain, ditentukan matriks X sebagai data dari atribut yang dihitung menggunakan information gain dan di-cluster. Kemudian menentukan jumlah cluster yang dibentuk berdasarkan tingkat kemiripan yang tinggi, jumlah maksimum iterasi dan kriteria penghentian, . Hasil implementasi information gain untuk setiap atribut dengan class yang digunakan adalah IPk dan lama kuliah dapat dilihat pada Tabel 1. Secara keseluruhan, cara kerja sistem dapat dilihat pada Gambar 5.

Tabel 1. Hasil implementasi Information Gain untuk setiap atribut untuk class Ipk dan Lama kuliah

Penentuan nilai threshold dilakukan setelah nilai gain untuk setiap atribut diperoleh. Nilai threshold ini digunakan sebagai nilai batas untuk menentukan atribut-atribut apa saja yang akan digunakan untuk perhitungan K-Means clustering. Dalam penelitian ini, digunakan nilai threshold sebesar 0.05 maka terdapat 7 atribut yang memiliki nilai gain diatas nilai threshold untuk class Ipk, yaitu asal SMA, lama kuliah, daerah asal orang tua, jenis pendaftaran, daerah asal mahasiswa, pekerjaan ayah, dan pilihan 1 jurusan di ITHB. Sedangkan untuk class lama kuliah, atribut yang berada diatas threshold adalah asal SMA, IPk, Jenis kelamin, dan daerah asal mahasiswa. Pengujian K-Means di bentuk 3 cluster dengan dua output berbeda yaitu atribut Ipk dan lama kuliah. Pembentukan ini didasarkan pada hasil observasi dan analisa terhadap pembentukan yang terjadi. Pemodelan K-Means clustering digunakan dengan software clementine 12.0. Hasil clustering dapat dilihat pada Tabel 2. Tabel 2. Hasil K-Means clusteringOutputCluster 1Cluster 2Cluster 3

Ipk137 data43 data17 data

Lama Kuliah92 data95 data10 data

Hasil clustering secara lengkap dapat dilihat pada Tabel 3. Bila dilakukan analisis yang mendalam terhadap hasil output IPk, maka dapat diberikan label untuk cluster pertama yaitu mahasiswa yang lulus dengan Ipk diatas 3.51, cluster kedua adalah mahasiswa yang lulus dengan dengan IPk kurang dari 2.74, dan cluster ketiga adalah mahasiswa yang lulus dengan IPk antara 2.75 sampai 3.5.

Tabel 3. Hasil output IPk dengan K-Means clusteringIpkCluster 1Cluster 2Cluster 3

>3.5124.37%1.02%1.02%

2.75 - 3.544.67%16.24%7.61%

< 2.740.51%4.57%0%

TOTAL69.55%21.83%8.63%

Dari cluster pertama dapat diketahui bahwa mahasiswa yang akan lulus dengan IPk lebih dari 3.51 adalah mahasiswa yang memiliki karakteristik diantaranya berasal dari SMA di Jawa Barat atau Sumatera Utara dengan terutama berasal dari SMAK 1 Bina Bakti Bandung, SMAK St Maria 3 Cimahi, SMAK Yahya Bandung dan SMAK 1 BPK Penabur Bandung dengan lama kuliah 4 tahun, orang tua berdomisili di Jawa Barat atau Sumatera Utara dengan pekerjaan wiraswasta atau pegawai swasta, melalui pendaftaran reguler atau JPA-C dan mahasiswa yang memilih jurusan teknik informatika atau desain komunikasi visual sebagai pilihan 1. Secara detail, hasilnya dapat dilihat pada gambar 1-4.

Gambar 2. Asal SMA output IPkGambar 3. Lama Kuliah output Ipk

Gambar 4. Asal orang tua output IPkGambar 5. Daerah asal mahasiswa output Ipk

Begitu pula output lama kuliah dengan K-Means clustering diperoleh seperti pada Tabel 4. Dari hasil tersebut dapat diberi label untuk cluster pertama adalah mahasiswa yang lulus dalam waktu 4 tahun atau 5-6 tahun, cluster kedua adalah mahasiswa yang lulus dalam waktu 4 tahun, dan cluster ketiga adalah mahasiswa yang lulus dalam waktu 5-6 tahun. Dari Cluster kedua dapat diketahui bahwa mahasiswa yang akan lulus dalam waktu 4 tahun adalah mahasiswa yang memiliki karakteristik berasal dari SMA di Jawa Barat atau Sumatera Utara, namun terutama yang berasal dari SMAK 1 Bina Bakti Bandung, SMAK Yahya Bandung, SMAK St. Maria 2 Bandung, SMAK 1 BPK Penabur Bandung dan SMAK St. Angela Bandung, selain itu juga memiliki IPk lebih dari 3.51, berjenis kelamin wanita dan berasal dari Jawa Barat atau DKI Jakarta.Tabel 4. Hasil output Lama Kuliah dengan K-Means clusteringOutput Lama KuliahCluster 1Cluster 2Cluster 3

4 tahun 27.91%45.69%0.51%

5-6 tahun18.78%2.54%5%

TOTAL46.69%48.23%5.08%

Gambar 6. Flowchart sistemKesimpulan dan SaranPada penelitian ini mencoba mengaplikasikan Hard K-Means untuk melakukan analisis dan identifikasi terhadap calon mahasiswa baru. Adapun output yang dihasilkan oleh aplikasi adalah berdasarkan IPk dan lama kuliah, namun atribut yang tetap mempengaruhi keduanya adalah asal SMA. Penyeleksian atribut juga dilakukan dengan menghitung nilai information gain. Perkembangan lebih lanjut untuk penelitian ini adalah dengan mengembangkan aplikasi yang terintegrasi antara proses information gain dan K-Means clustering. Selain itu juga dikembangkan metode pendekatan yang lain untuk menguji ketepatan metode ini sebagai salah satu alat marketing sehingga tepat sasaran.Daftar Pustaka[1] Han, J., dan Kamber, M. (2000). Data Mining : Concepts and Techniques. United States: Morgan Kaufmann Publishers.[2] Mirkin, B. (2005). Clustering for Data Mining: Concepts and Techniques. New York: Taylor & Francis Group.[3] Refaat, M. (2007). Data Preparation for Data Mining Using SAS. San Francisco: Diane D Cerra.[4] Taniar, D. (2007). Data Mining and Knowledge Discovery Technologies. Hershey, New York: IGI Publishing.[5] Yudi Agusta, P. (2007). K-Means-Penerapan, Permasalahan dan Metode terkait. Jurnal Sistem dan Informatika vol.3, pp. 47-60.

Penelitian Pendahuluan

Studi Literatur

Identifikasi masalah

Penentuan tujuan pengamatan

Pengumpulan Data

Pengolahan Data

Kesimpulan dan Saran

Analisis

Start

Persiapan Data

Proses Information Gain

Atribut yang digunakan pada proses clustering (Nilai gain atribut > threshold)

Input k = 3Initial Membership Matrix UR = 0Max Iterasi = 100Error Telorance = 0.001Finish = false

R , Max Iterasi &Finish = true

Menghitung Cluster Center

Menghitung Distance Space

Memperbaiki Matrix U

Error < Error Tolerance

Finish = true

R = r +1

Finish

No

No