Universitas Pakuanperpustakaan.fmipa.unpak.ac.id/file/21. JURNAL.docx · Web viewMetode penelitian yang digunakan dalam penelitian deteksi plagiasi pada Tugas Akhir ini adalah menggunakan

DETEKSI PLAGIASI PADA TUGAS AKHIR MENGGUNAKAN ALGORITMA RABIN-KARP

Yudistira Yoga Sujarwo1, Tjut Awaliyah Zuraiyah 2, Asep Saepulrohman 3 Email : 1yudhis19 @ gmail.com , [email protected], 3asepspl @ yahoo.com

1,2,3Program Studi Ilmu Komputer FMIPA Universitas Pakuan

ABSTRAK Plagiasi adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari

orang lain dan menjadikannya seolah karangan dan pendapat sendiri. Menggunakan algoritma Nazief-Adriani untuk proses stemming dan algoritma Rabin-Karp untuk proses deteksi plagiasi. Penggunaan algoritma Rabin-Karp dalam mendeteksi kemiripan dokumen memiliki keunggulan dalam pencarian string majemuk yang lebih efektif untuk mendeteksi kemiripan suatu dokumen atau string dibandingkan dengan algoritma lain yang umumnya hanya untuk pencarian string tunggal. Tahapan penelitian yang dilakukan meliputi perencanaan, analisis, perancangan, implementasi, uji coba. Hasil penelitian menunjukan bahwa tingkat precision yang diperoleh dari deteksi plagiasi menggunakan algoritma Rabin-Karp dihasilkan nilai rata-rata precision 100% dan nilai rata-rata recall sebesar 59.31%.

Kata Kunci : Rabin-Karp, Nazief-Adriani, Plagiasi, Kemiripan Dokumen

PENDAHULUAN Plagiasi merupakan kegiatan

meniru atau mencuri tulisan suatu karya seseorang dan kemudian mengakui karya tersebut sebagai miliknya sendiri. Kegiatan plagiasi tersebut tentu sangat dilarang oleh Kementrian Riset Teknologi dan Pendidikan Tinggi Republik Indonesia dan berdampak pada pencabutan gelar yang telah didapat.

Tujuan dari penelitian ini adalah deteksi plagiasi pada Tugas Akhir menggunakan algoritma Rabin-Karp.

Ruang lingkup penelitian ini meliputi : Dokumen yang digunakan adalah BAB II Tinjauan Pustaka dengan format ekstensi (.txt). Plagiasi yang dimaksud adalah tingkat kemiripan dari dokumen yang diuji dengan dokumen yang ada pada database. Data yang digunakan adalah data berbentuk teks. Data didapat dari D3 Manajemen Informatika Universitas Pakuan, data yang digunakan sebanyak 30 data. Manfaat dari penelitian ini adalah untuk mengetahui persentase kemiripan pada BAB II Tugas Akhir dan mengetahui

apakah sebuah Tugas Akhir merupakan hasil plagiasi dari Tugas Akhir yang telah ada atau tidak.

METODE PENELITIAN Metode penelitian yang digunakan dalam penelitian deteksi plagiasi pada Tugas Akhir ini adalah menggunakan Metode System Development Life Cycle disajikan pada Gambar 1.

1

mailto:asepspl@

mailto:[email protected]

Gambar 1. Bagan Alur SDLC

Metodologi ini terdiri dari 6 tahap : 1. Perencanaan

Tahap awal perencanaan ini dilakukan dengan pengumpulan data. Data yang dikumpulkan adalah data Tugas Akhir D3 Manajemen Informatika.

2. Analisis Tahapan selanjutnya adalah tahapan analisis, tahapan ini dimaksudkan untuk menganalisis permasalahan yang muncul pada sistem. Tahapan analisis merupakan tahapan yang dilakukan untuk mengidentifikasi masalah dan kemudian menarik kesimpulan dari proses analisis yang telah dilakukan.

3. PerancanganDalam tahap ini akan dijelaskan bagaimana implementasi algoritma Rabin-Karp dan preprocessing. Tahapan algoritma Rabin-Karp dapat dilihat pada Gambar 2.

Gambar 2. Tahapan Algoritma Rabin-Karp

Dengan persamaan pertama untuk hashing menggunakan rolling hash sebagai berikut : ¿)..............................................(1)Dan persamaan kedua untuk string matching menggunakan Dice Similiarity Coeficient sebagai berikut :

S= 2CA+B .................................(2)

4. ImplementasiTahap implementasi dilakukan dengan beberapa hal yaitu implementasi basis data dengan menggunakan MySql dengan software XAMPP -5.6.3-0-VC11 dan implementasi bahasa pemrograman menggunakan Adobe Dreamweaver CS6.

5. Uji CobaUji Coba sistem deteksi plagiasi pada Tugas Akhir menggunakan algoritma Rabin-Karp dilakukan melalui:

a. Uji coba Struktural merupakan uji coba yang dilakukan untuk mengetahui apakah sistem telah terstruktur dengan baik dan benar sesuai dengan rancangan yang telah dibuat.

b. Uji coba Fungsional merupakan uji coba yang dilakukan untuk mengetahui apakah aplikasi yang dibuat dapat berfungsi dengan baik atau tidak.

c. Uji coba Validasi merupakan uji coba yang diterapkan dalam hasil implementasi apakah hasilnya sudah benar atau belum.

2

6. PenggunaanTahap ini tidak dapat diabaikan karena aplikasi yang dibuat dan dirancang untuk membantu mendeteksi kemiripan suatu dokumen dengan cara menghitung pola yang sama

IMPLEMENTASI DAN PERANCANGAN

Tahap Perencanaan sistemTahap perencanaan sistem dilakukan

untuk menentukan spesifikasi kebutuhan dan membantu mempermudah pengembangan deteksi plagiasi pada Tugas Akhir dengan cara observasi dan studi pustaka.

Observasi dilakukan di Program Studi D3 Manajemen Informatika Universitas Pakuan Bogor untuk melakukan pengumpulan data. serta studi pustaka sebagai tahapan mencari literatur yang sesuai dengan topik bahasan.

Tahap Analisis SistemTahap analisis sistem dilakukan

untuk mempelajari tahapan-tahapan yang akan dilakukan dalam proses pembuatan aplikasi. Alur sistem yang sedang dikembangkan dapat dilihat pada gambar 3.

Gambar 3. Sistem yang sedang dikembangkan

Tahap Perancangan SistemPada perancangan sistem, user

mengupload file berformat (.txt) ke sistem kemudian user menginputkan kasus dan metode pada form yang sama dengan form upload file. Proses selanjutnya sistem otomatis melakukan pencarian pada database yang tersedia hingga 3 file yang memiliki kasus atau metode yang sama dengan yang user input, kemudian sistem membaca file dengan fungsi file_get_contents setelah itu terjadilah proses preprocessing yaitu Case Folding, Tokenizing, Filtering dan Stemming. Setelah proses preprocessing selesai maka sistem akan melanjutkan ke proses selanjutnya, proses tersebut adalah parsing k-gram, kemudian sistem melakukan rolling hashing pada setiap k-gram, setelah semua k-gram dilakukan rolling hashing, maka sistem melakukan perhitungan Dice Similiarity Coeficient, setelah dilakukan perhitungan Dice

3

Similiarity Coeficient maka sistem akan menampilkan persentase kemiripan dokumen yang diupload dengan data yang ada di database hingga 3 data, proses terakhir adalah truncate beberapa tabel, yang berfungsi untuk menghapus semua isi pada beberapa tabel, agar tidak terlalu memakan ruang pada database. Gambaran perancangan sistem dapat dilihat pada Gambar 4.

Gambar 4. Perancangan Sistem

a. Flowchart Sistem

Flowchart sistem backend ditunjukan pada Gambar 5 dan flowchart sistem frontend ditunjukan pada Gambar 6.

Gambar 5. Flowchart Sistem Backend

Gambar 6. Flowchart Sistem Frontend

HASIL DAN PEMBAHASAN Hasil

Tahap sebelumnya telah dipaparkan proses perancangan dan implementasi sistem. Tahap ini membahas mengenai hasil dari deteksi plagiasi Tugas Akhir menggunakan algoritma Rabin-Karp yang telah dibuat.

Tampilan login terbagi menjadi

4

dua, yaitu halaman login user dan login admin yang dapat dilihat pada Gambar 7 dan Gambar 8.

Gambar 7. Tampilan Halaman Login User

Gambar 8. Tampilan Halaman Login Admin

Proses Data LatihProses data latih adalah rangkaian

kegiatan yang hanya dapat dilakukan oleh admin berupa upload file dan memasukkan detailnya ke database. Urutan pengisian form seperti Gambar 9.

Gambar 9. Urutan Pengisian Form pada Proses Data Latih

Proses Data UjiProses data uji atau deteksi dapat

dilakukan baik oleh admin maupun oleh user langkah pengisian form seperti Gambar 10.

Gambar 10. Langkah Mengisi Form Data Uji

pendeteksian kemiripan dokumen menggunakan algoritma Rabin-Karp. Parsing K-gram adalah tahap pertama dari algoritma ini, dimana nilai k-gram yang diinputkan pada Gambar 10 akan di olah menjadi potongan-potongan huruf, dan akan tersimpan pada beberapa tabel seperti tabel pars. Kemudian dilakukan rolling_hash pada hasil yang ada pada tabel pars, untuk memudahkan dan menghasilkan hasil yang lebih akurat maka isi dari tabel pars di pindahkan sesuai field npm kedalam tabel fingerprint, fingerprint1, fingerprint2, fingerprint3, dan fingerprint4 dengan bantuan primary key maka sistem tidak perlu mengubah kembali nilai rolling hash yang ada pada tabel rolling_hash. Proses terakhir dari algoritma Rabin-Karp adalah string matching menggunakan Dice Similiarity Coeficient, setelah semua proses algoritma Rabin-Karp selesai maka akan ditampilkan hasil seperti pada Gambar 11.

Gambar 11. Output Hasil Perhitungan Kemiripan Dokumen

Apabila kita mengklik persentasenya maka akan muncul detail seperti pada Gambar 12.

5

Gambar 12. Pop Up Detail Muncul Saat Persentase Di Klik

Pembahasanpendeteksian kemiripan dokumen ini memanfaatkan algoritma Nazief-Adriani pada proses stemming dan algoritma Rabin-Karp pada proses pendeteksian kemiripan dokumen. Pada sistem ini terdapat 22 tabel, dimana terdapat tabel token untuk menyimpan data hasil preprocessing, tokenisasi, kemudian tabel stemming untuk menyimpan hasil data preprocessing stemming menggunakan algoritma Nazief-Adriani, untuk algoritma Rabin-Karp terdapat tabel pars untuk menyimpan hasil parsing k-gram, tabel rolling_hash untuk menyimpan hasil enkripsi atau hash dari data parsing, selanjutnya ada beberapa tabel fingerprint dimana tabel tersebut adalah tempat data dari tabel pars agar tidak terjadi redudancy data sehingga perhitungan dapat dilakukan dengan akurat.

Uji Coba SistemTahap ini merupakan tahap

pengujian terhadap sistem yang telah di bangun. Dengan uji coba ini, dapat di ketahui kekurangan sistem yang dibuat, selain itu dapat diketahui apakah sistem sudah berfungsi dengan baik sesuai dengan yang diinginkan. Uji coba sistem menggunakan data uji Ahmad Fauzan.txt dan tiga data pembanding yaitu Ahmad Fauzan.txt, SYNTIA PUTRI.txt dan Syavina Agustiyanti.txt, dengan beberapa nilai k-gram, data uji coba dan hasil nya dapat dilihat pada Tabel 1 dan Gambar 13.

Tabel 1. Tabel Uji Sistem

K-Gram

Kemiripan Dengan Dokumen 1



Rata-Rata Waktu Perhitungan (detik)

1100.00

%91.53

%93.33

%1230.

77

2100.00

%75.19

%77.28

%1271.

66

3100.00

%44.27

%46.64

%1521.

85

4100.00

%18.07

%21.85

%1573.

97

5100.00

% 9.10%10.60

%1641.

29

6100.00

% 5.71% 6.49%1588.

47

7100.00

% 4.09% 4.56%1708.

33

8100.00

% 3.05% 3.34%1651.

41

9100.00

% 2.42% 2.65%1707.

35

1 2 3 4 5 6 7 8 90%

20%

40%

60%

80%

100% 100%100%100%100%100%100%100%100%100%92%

75%

44%

18%9% 6% 4% 3% 2%

93%77%

47%

22%11% 6% 5% 3% 3%

Grafik Kemiripan Dokumen

Ahmad Fauzan.txtSYNTIA PUTRI.txtSyavina Agustiyanti.txt

Gambar 13. Grafik Kemiripan DokumenDari uji coba yang telah dilakukan, dapat disimpulkan bahwa:1. Semakin kecil nilai k-gramnya maka

persentase kemiripannya akan semakin besar dapat dilihat dari hasil uji coba diatas dimana nilai k-gram = 1 menghasilkan tingkat kemiripan dokumen sebesar 100 % pada

6

dokumen Ahmad Fauzan.txt, tingkat kemiripan dokumen sebesar 91.53% pada dokumen SYNTIA PUTRI.txt, dan tingkat kemiripan dokumen sebesar 93.33 % pada dokumen Syavina Agustiyanti.txt.

2. Pada pengujian dengan nilai k-gram = 9 menghasilkan tingkat kemiripan dokumen dengan dokumen Ahmad Fauzan.txt sebesar 100 %, kemudian tingkat kemiripan dengan dokumen SYNTIA PUTRI.txt sebesar 2.42 % dan tingkat kemiripan dengan dokumen Syavina Agustiyanti.txt sebesar 2.65 %.

3. Pengujian dilakukan pada data dengan jumlah kata 626 kata pada dokumen yang bernama Ahmad Fauzan.txt, sedangkan pada dokumen yang bernama SYNTIA PUTRI.txt berjumlah 700 kata, untuk dokumen Syavina Agustiyanti.txt memiliki jumlah kata sebanyak 691 kata.

4. Durasi rata-rata waktu perhitungan tidaklah tetap seperti pada tabel. Durasi perhitungan dapat berbeda meskipun memiliki nilai k-gram yang sama. Akan tetapi pengujian pada data tersebut dengan spesifikasi intel core i5 dan RAM sebesar 4 GB memiliki waktu terlama 1708.33 detik pada nilai k-gram=7.

5. Dari Gambar 13 dapat dilihat bahwa uji coba yang dilakukan akan membuat grafik persentase kemiripan menurun karena kemiripan dokumen SYNTIA PUTRI.txt dan dokumen Syivana Agustiyanti.txt dengan nilai k-gram=9 menghasilkan tingkat kemiripan terkecil, sedangkan dokumen Ahmad Fauzan.txt tetap memiliki persentase 100 % karena data ujinya adalah Ahmad Fauzan.txt.

pengukuran precission dan recall untuk menilai kemampuan sistem dalam memberikan hasil yang relevan terhadap

dokumen. Perhitungan precission dan recall dapat dilihat pada Tabel 2.

Tabel 2. Tabel Perhitungan Precission dan Recall

No

Pattern

Relevan (A)

Pattern Relevan Tidak

Terambil (B)

Pattern Tidak

Relevan Teramb

il (C)

Precision

(A/(A+C))x100

%

Recall (A/(A+B))x100%

130 2211 0 100% 1.34%

29 2692 0 100% 1.07%

30 2550 0 100% 1.16%

2

302 1938 0 100%13.48

%

363 2357 0 100%13.35

%

340 2239 0 100%13.18

%

3

959 1280 0 100%42.83

%

1178 1541 0 100%43.32

%

1112 1466 0 100%43.13

%

4

1394 844 0 100%62.29

%

1738 980 0 100%63.94

%

1663 914 0 100%64.53

%

5

1602 635 0 100%71.61

%

2002 715 0 100%73.68

%

1925 651 0 100%74.73

%

6

1735 501 0 100%77.59

%

2156 560 0 100%79.38

%

2088 487 0 100%81.09

%

7

1835 400 0 100%82.10

%

2269 447 0 100%83.54

%

2200 374 0 100%85.47

%

8

1903 331 0 100%85.18

%

2355 360 0 100%86.74

%

2283 290 0 100%88.73

%9

1951 282 0 100%87.37

%2424 290 0 100% 89.31

%

7

2344 228 0 100%91.14

%

Rata-rata 100%59.31

%Dari perhitungan precission dan

recall yang telah dilakukan terhadap 3 dokumen dengan nilai k-gram yang berbeda, didapatkan rata-rata precission sebesar 100 % dan rata-rata recall sebesar 59.31 %, yang berarti secara keseluruhan sistem dapat memberikan hasil pencarian yang relevan dengan tingkat kepresisian 100 % serta tingkat keberhasilan sistem untuk menemukan kembali sebuah informasi sebesar 59.31 %, sehingga dapat disimpulkan bahwa sistem yang telah dibuat layak untuk digunakan. Dilihat dari Tabel 2, nilai k-gram = 4 sudah memiliki persentase precision sebesar 100 % untuk ketiga dokumen yang di uji dan persentase recall sebesar 62.29% untuk dokumen Ahmad Fauzan.txt, 63.94 % persentase recall untuk dokumen SYNTIA PUTRI.txt dan 64.53 % persentase recall untuk dokumen Syavina Agustiyanti.txt, sedangkan pada Tabel 1 dengan nilai k-gram=4 menghasilkan nilai persentase kemiripan 100 % untuk dokumen Ahmad Fauzan.txt, 18.07 % untuk dokumen SYNTIA PUTRI.txt dan 21.85 % untuk dokumen Syavina Agustiyanti.txt. Grafik Precision and Recall dapat dilihat pada Gambar 14.

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

Ahm

ad F

auza

n.tx

tSY

NTI

A PU

TRI.t

xtSy

avin

a Ag

ustiy

anti.

txt

1 2 3 4 5 6 7 8 91 2 3 4 5 6 7 8 9

0%30%60%90%

Grafik Precision and

RecallPrecision (A/(A+C))x100Recall (A/(A+C))x100

Gambar 14. Grafik Precision and RecallKESIMPULAN DAN SARAN

KesimpulanPada penelitian yang berjudul

“Deteksi Plagiasi pada Tugas Akhir Menggunakan Algoritma Rabin-Karp” menggunakan metode penelitian System Development Life Cycle (SDLC) dan diimplementasikan menggunakan Adobe Dreamweaver CS6 dan database yang digunakan adalah database MySQL dengan algoritma Rabin-Karp untuk pendeteksi kemiripan dan algoritma Nazief-Adriani untuk tahap stemming.

Deteksi kemiripan dokumen ini dapat digunakan oleh user maupun admin dimana hak akses antara user dan admin memiliki perbedaan dimana user hanya dapat melakukan upload dokumen BAB II kemudian sistem akan menghitung kemiripan data tersebut dengan data yang ada pada database. Pada sistem ini disediakan halaman untuk admin yang nantinya dapat mengelola data-data pada sistem seperti menambahkan, mengubah dan menghapus data Tugas Akhir, data kata dasar dan data user dan admin tetap memiliki hak akses untuk melakukan

8

pengujian deteksi kemiripan dokumen sama seperti user.

Pada sistem deteksi ini menggunakan algoritma Nazief-Adriana pada proses stemming dan algoritma Rabin-Karp pada pendeteksian kemiripan dokumen sehingga menghasilkan sebuah kesimpulan dimana nilai k-gram sangat berpengaruh pada hasil persentase kemiripan sebuah dokumen, semakin kecil nilai k-gramnya semakin besar nilai persentase kemiripan yang didapat, dan semakin besar nilai k-gramnya maka semakin kecil nilai persentase kemiripan yang didapat.

Berdasarkan uji coba yang telah dilakukan maka nilai k-gram = 4 adalah nilai yang cukup ideal karena menghasilkan tingkat kemiripan yang tidak terlalu rendah dan mempunyai tingkat precision and recall diatas 50 %.Waktu proses pendeteksian kemiripan dokumen sangat bergantung pada jumlah kata dalam sebuah dokumen yang diuji dan dokumen yang dijadikan pembanding. Semakin banyak jumlah kata dalam dokumen maka waktu proses pendeteksiannya pun akan semakin lama begitupun sebaliknya semakin sedikit jumlah kata dalam dokumen maka waktu pendeteksiannya pun akan semakin cepat.

SaranPada penelitian ini dapat

menggunakan algoritma stemming yang lebih baik dan perbaikan pada tahap filtering sehingga data lebih akurat karena penghilangan elemen elemen yang tidak digunakan dan Pendeteksi kemiripan sebuah tabel atau gambar pada pengembangan dikemudian hari.

DAFTAR PUSTAKAAtmopawiro, A. 2006. Pengkajian dan

Analisis Tiga Algoritma Efisien Rabin-Karp, Knuth-Morris-Pratt dan Boyer-Moore dalam Pencarian Pola dalam Suatu Teks. STEI ITB, Bandung.

Depdikbud. 1997. Kamus Besar Bahasa Indonesia. Jakarta.

Firdaus, H. B. 2008. Deteksi Plagiat Dokumen Menggunakan Algoritma Rabin-Karp. Jurnal Ilmu Komputer Dan Teknologi Informasi. 3.

Hamza, S., M. Sarosa & P. B. Santoso. 2013. Sistem Koreksi Soal Essay Otomatis Dengan Menggunakan Metode Rabin Karp. EECCIS. 7.

Iyer, P., Singh & Abhipsita. 2005. Document Similiarity Analysis For Plagiarism Detection System. IICAI. 2 : 2534-2544.

Kulkarni, V. R., S. Mujawar & S. Apte. 2010. Hash Function Implementation Using Artificial Neural Network. International Journal on Soft Computing. 1.

Nugroho, E. 2011. Pembuatan Sistem Deteksi Plagiarisme Dokumen Teks dengan Menggunakan Algoritma Rabin-Karp. Skripsi. Jurusan Ilmu Komputer FMIPA Universitas Brawijaya, Malang.

Salmuasih. & A. Sunyoto. 2013. Implementasi Algoritma Rabin-Karp untuk Pendeteksian Plagiat Dokumen Teks Menggunakan Konsep Similiarity. Seminar Nasional Aplikasi Teknologi Informasi (SNATI).

Sastroasmoro, S. 2007. Beberapa Catatan Tentang Plagiarisme. Majalah Kedokteran Indonesia. 57 : 240.

Scheilmer, S., D. Wilkerson & A. Alex. 2003. Winnowing : Local Algorithms For Document Fingerprintings. SIGMAD. San Diego, CA.

Tahitoe, A. D. 2010. Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based

9

Stemming. Institut Teknologi Sepuluh Nopember, 1-15

Taufik, T. 2013. Tabel ASCII 8 Bit. http://www.teukutaufik.com/2013/03/tabel-ascii-8-bit_27.html. 20 Februari 2017.

Wirawan, T. P. 2007. Penggunaan Algoritma Rabin-Karp dalam Pencocokan String. Jurnal Ilmu Komputer Dan Teknologi Informasi. 3.

10

http://www.teukutaufik.com/2013/03/tabel-ascii-8-bit_27.html.%2020%20Februari%202017



Documents

Universitas Pakuanperpustakaan.fmipa.unpak.ac.id/file/21. JURNAL.docx · Web viewMetode penelitian yang digunakan dalam penelitian deteksi plagiasi pada Tugas Akhir ini adalah menggunakan