Upload
hoangtuyen
View
221
Download
0
Embed Size (px)
Citation preview
i
PEMANFAATAN METODE COSINE SIMILARITY
DALAM MENENTUKAN KEMIRIPAN IKLAN PADA
SITUS JUAL BELI ONLINE
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh:
Herdhiska Pradhiarta Ajiprayoga
09560453
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2015
ii
LEMBAR PERSETUJUAN
PEMANFAATAN METODE COSINE SIMILARITY
DALAM MENENTUKAN KEMIRIPAN IKLAN PADA
SITUS JUAL BELI ONLINE
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh :
Herdhiska Pradhiarta Ajiprayoga
09560453
Telah diperiksa dan disetujui,
DOSEN PEMBIMBING I DOSEN PEMBIMBING II
Yuda Munarko, S.Kom., M.Sc. Maskur, S.Kom., M.Kom.
NIP. 108.0611.0443 NIDN. 0711098402
iii
LEMBAR PENGESAHAN
PEMANFAATAN METODE COSINE SIMILARITY
DALAM MENENTUKAN KEMIRIPAN IKLAN PADA
SITUS JUAL BELI ONLINE
Tugas Akhir
Diajukan Sebagai Syarat Untuk Memperoleh Gelar Sarjana (S1)
Di Fakultas Teknik Universitas Muhammadiyah Malang
Disusun Oleh :
Nama : Herdhiska Pradhiarta Ajiprayoga
Nim : 09560433
Tugas Akhir ini telah disetujui dan dinyatakan lulus oleh tim penguji
Pada hari kamis 29 Januari 2015
Disetujui Oleh,
Dosen Penguji 1 Dosen Penguji 2
Gita Indah M, S.T. M.Kom Zamah Sari, S.T, M.T
NIP 108.0611.0442 NIDN 0708087701
Mengetahui
Kepala Jurusan Teknik Informatika
Yuda Munarko, S.kom, M.Sc.
NIP. 108.0611.0443
iv
SURAT PERNYATAAN
Yang bertanda tangan dibawah ini:
Nama : Herdhiska Pradhiarta Ajiprayoga
NIM : 09560433
Fak / jur : Teknik Informatika
Dengan ini saya menyatakan bahwa tugas akhir saya dengan judul:
“Pemanfaatan Metode Cosine Similarity Dalam Menetukan Kemiripan Iklan
Pada Situs Jual Beli Online Berbasis Web Mobile HTML5 Smartphone View“.
Adalah bukan merupakan karya tulis orang lain, baik sebagian maupun keseluruhan,
kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.
Demikian surat pernyataan ini saya buat dengan sebenar-benarnya dan apabila surat
pernyataan ini tidak benar, saya siap mendapatkan sanksi akademis.
Malang, 10 Desember 2014
Yang Menyatakan
(Herdhiska Pradhiarta A)
Mengetahui,
Dosen Pembimbing I Dosen Pembimbing II
Yuda Munarko, S.Kom, M.Sc. Maskur, S.Kom, M.Kom
NIP. 108.0611.0443 NIDN. 0711098402
v
ABSTRAK
Sistem aplikasi ini diharapkan dapat memberi kemudahan kepada user dalam
menentukan kemiripan iklan dengan metode cosine similarity. Yang mana pada situs
www.olx.co.id hanya menampilkan iklan berdasarkan kata kunci yang diinputkan,
sedangkan aplikasi ini dapat menghitung nilai kemiripan antar dokumen dengan kata
kunci yang kita inputkan berdasarkan nilai ambang batas. Bila nilai kemiripan antar
dokumen melebihi nilai ambang batas, program akan otomatis menampilkan kata
relevan sedangkan bilamana tidak melebihi nilai ambang batas program akan
menampilkan kata tidak relevan. Aplikasi ini berjalan secara offline, dengan
menampilkan data yang sudah di grabbing terlebih dahulu dari situs jual beli online
www.olx.co.id yang sudah di simpan di database kita berdasarkan kata kunci yang
sudah di tentukan. Sedangkan untuk menentukan nilai ambang batas dapat di tentukan
dengan cara mengurutkan berdasarkan nilai yang tertinggi, setelah itu membandingkan
iklan mirip atau tidak secara manual antar iklan, setelah menemukan iklan mana yang
mirip dan tidak mirip di tentukan nilai tengah dari nilai iklan mirip dan nilai iklan
tidak mirip, setelah di temukan nilai tengah kemudian di jumlahkan sebanyak nilai
tengah yang ditemukan dari banyaknya kata kunci yang diuji dan kemudian dibagi
sebanyak kata kunci yang diuji.
Kata Kunci : cosine similarity, grabbing, ambang batas, relevan
vi
ABSTRACT
This application system is expected to provide convenience to the user
in determining the similarity advertising with cosine similarity method. Which
on the site www.olx.co.id only display advertising based on keywords entered,
while the application can calculate the similarity between documents with
keywords that we have input based on a threshold value. When the value of
similarity between documents exceeds the threshold value, the program will
automatically display the relevant word while if not exceeding the threshold
value the program will display the word irrelevant. This application goes
offline, to display data that is already in grabbing the first of online selling sites
www.olx.co.id already stored in our database based on the keywords that have
been determined. As for determining the threshold value can be set in a way to
sort by the highest value, then compare similar or not similar advertising
manually between advertising, after finding out which advertising are similar
and do not like in the middle of the specified value and the value of the value
of advertising similar advertising not like, once in the middle and then find the
value in total the middle value as found from the number of keywords that are
tested and then divided by keyword tested.
Keywords : cosine similarity, grabbing, threshold, relevant
vii
LEMBAR PERSEMBAHAN
Puji syukur kepada Allah SWT atas rahmat, hidayah, dan karunia-Nya, penulis
dapat menyelesaikan Tugas Akhir dengan judul “Pemanfaatan Metode Cosine
Similarity Dalam Menetukan Kemiripan Iklan Pada Situs Jual Beli Online Berbasis
Web Mobile HTML5 Smartphone View”. Atas terselesaikannya Tugas Akhir ini,
dengan kerendahan hati, penulis menyampaikan banyak terima kasih kepada::
1. Bapak Yuda Munarko, S.Kom., M.Sc. dan Bapak Maskur, S.Kom., M.Kom.
selaku pembimbing tugas akhir saya.
2. Bapak/Ibu Dekan Fakultas Teknik Universitas Muhammadiyah Malang.
3. Bapak/Ibu Ketua Jurusan Teknik Informatika Universitas Muhammadiyah
Malang.
4. Kedua Orang Tua tercinta, Ayahanda Herry Didiek Soegiharto, SE dan Ibunda
Endah Pratiwi. Terima kasih atas segala pengorbanan dan kasih sayang yang
kalian berikan serta doa - doa yang sangat istimewa dan yang terbaik yang
kalian kirimkan lewat perantara-Nya.
5. Kedua Kakakku, kepada kakak pertama ku Herdien Pradhitya Patriayudha
Mardhika, SP dan kakak kedua ku Raherdian Pradhyaksa Dwi Surya
Wardhana, SE terima kasih atas doa dan dorongan semangat yang positif.
6. Kepada Om, Tante, serta Saudara Saudaraku, terima kasih banyak atas segala
bantuan dan doa serta semangat yang kalian berikan..
7. Untuk Sahabatku, Iji, Azhar, Dika, Jwn, Parto, dan Bebek terima kasih banyak
atas bantuan, dukungan dan hiburan yang sangat membantu saya.
8. Kepada teman – teman i-class angkatan 2009, kalian semua sangat istimewa.
viii
KATA PENGANTAR
Segala puji bagi Allah SWT, Tuhan seluruh alam atas limpahan rahmat
dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang
berjudul :
“PEMANFAATAN METODE COSINE SIMILARITY DALAM
MENENTUKAN KEMIRIPAN IKLAN PADA SITUS JUAL BELI
ONLINE BERBASIS WEB MOBILE HTML5 SMARTPHONE VIEW”
Pada tugas akhir ini disajikan pokok-pokok pembahasan yang meliputi
pendahuluan, landasan teori, perancangan sistem, implementasi dan pengujian
sistem.
Penulis menyadari bahwa masih terdapat banyak kekurangan dan
keterbatasan dalam tugas akhir ini. Oleh karena itu, penulis mengharapkan
masukan berupa saran dan kritik yang membangun agar tulisan ini dapat lebih
bermanfaat bagi perkembangan ilmu pengetahuan kedepan.
Akhir kata penulis berharap semoga tugas akhir ini dapat bermanfaat dan
menjadi tambahan ilmu pengetahuan bagi pembaca sekalian. Penulis juga
menyampaikan terima kasih kepada semua pihak yang telah membantu
terselesaikannya tugas akhir mulai dari tahap awal hingga akhir.
Malang, 10 Desember 2014
Penulis
ix
DAFTAR ISI
Hal.
HALAMAN JUDUL .................................................................................... i
LEMBAR PERSETUJUAN .......................................................................... ii
LEMBAR PENGESAHAN ........................................................................... iii
LEMBAR PERNYATAAN .......................................................................... iv
ABSTRAK ................................................................................................... v
ABSTRACT ................................................................................................... vi
LEMBAR PERSEMBAHAN ........................................................................ vii
KATA PENGANTAR .................................................................................. viii
DAFTAR ISI ................................................................................................ ix
DAFTAR GAMBAR .................................................................................... xi
DAFTAR TABEL ........................................................................................ xiii
BAB I : PENDAHULUAN .......................................................................... 1
1.1 Latar Belakang ........................................................................................ 1
1.2 Rumusan Masalah ................................................................................... 2
1.3 Tujuan..................................................................................................... 2
1.4 Batasan Masalah ..................................................................................... 3
1.5 Metodologi.............................................................................................. 3
1.6 Sistematika Penulisan .............................................................................. 4
BAB II : LANDASAN TEORI ................................................................... 6
2.1 Text Mining ............................................................................................ 6
2.2 Tokenizing .............................................................................................. 6
2.3 Stopword................................................................................................. 7
2.4 Stemming Bahasa Indonesia .................................................................... 8
2.5 Struktur Morfolgi Bahasa Indonesia ........................................................ 9
x
2.6 Stemming Bahasa Indonesia Algoritma Nazief & Andriani ..................... 13
2.7 TF-IDF (Term Frequency – Inverse Document Frequency) Weighting .... 15
2.8 Penghitungan tingkat kemiripan (Cosine Similarity) ................................ 17
BAB III : PERANCANGAN....................................................................... 18
3.1 Gambaran Umum Sistem ........................................................................ 18
3.1.1 Grabbing................................................................................... 19
3.1.2 Preprocessing ........................................................................... 20
3.1.3 Pembobotan TF - IDF ............................................................... 23
3.1.4 Cosine Similarity ...................................................................... 24
3.2 Desain Sistem ......................................................................................... 26
3.2.1 Data Flow Diagram level 0 ....................................................... 26
3.2.2 Data Flow Diagram level 1 ....................................................... 27
3.2.3 Desain Database ....................................................................... 28
BAB IV : IMPLEMENTASI DAN PENGUJIAN ...................................... 30
4.1 Implementasi Sistem ............................................................................... 30
4.2 Kebutuhan Sistem ................................................................................... 30
4.3 Interface / Antarmuka Sistem .................................................................. 31
4.3.1 Halaman Home ......................................................................... 31
4.3.2 Halaman Search ........................................................................ 32
4.3.3 Halaman Hasil .......................................................................... 32
4.4 Alur Program .......................................................................................... 33
4.4.1 Grabbing................................................................................... 33
4.4.2 Tokenizing................................................................................ 33
4.4.3 Filtering .................................................................................... 34
4.4.4 Stemming ................................................................................. 34
4.4.5 Pembobotan TF – IDF .............................................................. 35
xi
4.4.6 Cosine Similarity ...................................................................... 35
4.4.7 Nilai Ambang Batas .................................................................. 36
4.5 Pengujian ................................................................................................ 37
4.5.1 Pengujian Black Box ................................................................ 37
4.5.2 Pengujian Perhitungan Relevan dan Tidak Relevan Antar Tiap Iklan
.......................................................................................................... 41
4.5.3 Pengujian Kata Kunci Dengan Isi Iklan Tidak Sama Dengan Produk
Yang Di Cari ............................................................................ 45
4.5.4 Pengujian Menggunakan Web Mobile ...................................... 48
BAB V : KESIMPULAN DAN SARAN ..................................................... 50
5.1 Kesimpulan ............................................................................................. 50
5.2 Saran ....................................................................................................... 51
DAFTAR PUSTAKA ................................................................................... 52
BIOGRAFI PENULIS .................................................................................. 54
DAFTAR GAMBAR
Hal.
Gambar 2.1 Text Mining ......................................................................... 6
Gambar 2.2 Tokenizing ........................................................................... 7
Gambar 2.3 Filtering ............................................................................... 8
Gambar 3.1 Flowchart Umum Sistem ...................................................... 19
Gambar 3.2 Flowchart Grabbing ............................................................. 20
Gambar 3.3 Flowchart Tokenizing .......................................................... 21
Gambar 3.4 Flowchart Stopword / Filtering ............................................. 22
Gambar 3.5 Flowchart Stemming ............................................................ 23
Gambar 3.6 Flowchart Pembobotan TF-IDF ............................................ 24
Gambar 3.7 Flowchart Cosine Similarity ................................................. 25
xii
Gambar 3.8 Data Flow Diagram Level 0 ................................................. 26
Gambar 3.9 Data Flow Diagram Level 1 ................................................. 27
Gambar 3.10 Desain Database ................................................................. 28
Gambar 4.1 Halaman Home .................................................................... 31
Gambar 4.2 Halaman Search ................................................................... 32
Gambar 4.3 Halaman Hasil ..................................................................... 32
Gambar 4.4 Form Cari............................................................................. 33
Gambar 4.5 Database Sistem ................................................................... 33
Gambar 4.6 Script Tokenizing ................................................................. 34
Gambar 4.7 Script Ubah ke Huruf Kecil .................................................. 34
Gambar 4.8 Tabel Stopword .................................................................... 34
Gambar 4.9 Tabel Stemming ................................................................... 35
Gambar 4.10 Perhitungan TF - IDF ......................................................... 35
Gambar 4.11 Hasil Penghitungan Similarity ............................................ 36
Gambar 4.12 Pengujian Menu Utama Tombol Search ............................. 37
Gambar 4.13 Pengujian Menu Utama Tombol Help ................................ 38
Gambar 4.14 Pengujian Menu Utama Tombol About .............................. 38
Gambar 4.15 Pengujian Pencarian Iklan Tombol Search .......................... 39
Gambar 4.16 Pengujian Pencarian Iklan Input Text Keyword .................. 40
Gambar 4.17 Pengujian Pencarian Iklan Form Hasil ................................ 40
Gambar 4.18 Menginputkan Kata Kunci Jilbab Syria .............................. 41
Gambar 4.19 Hasil Kata Kunci 42 dan 43 Jilbab Syria ............................ 41
Gambar 4.20 Hasil Kata Kunci 43 dan 44 Jilbab Syria ............................ 42
Gambar 4.21 Detail Iklan 42 dengan Kata Kunci Jilbab Syria.................. 42
Gambar 4.22 Detail Iklan 43 dengan Kata Kunci Jilbab Syria.................. 43
Gambar 4.23 Detail Iklan 44 dengan Kata Kunci Jilbab Syria.................. 43
xiii
Gambar 4.24 Detail Iklan 45 dengan Kata Kunci Jilbab Syria.................. 44
Gambar 4.25 Menginputkan Kata Kunci Canon Dslr ............................... 45
Gambar 4.26 Hasil Kata Kunci Canon Dslr ............................................. 45
Gambar 4.27 Detail Iklan 1 Kata Kunci Canon Dslr ................................ 46
Gambar 4.28 Detail Iklan 2 Kata Kunci Canon Dslr ................................ 46
Gambar 4.29 Detail Iklan 3 Kata Kunci Canon Dslr ................................ 47
Gambar 4.25 Mobile View Menginputkan Iphone 4s ............................... 48
Gambar 4.26 Mobile View Hasil Iphone 4s ............................................. 48
Gambar 4.27 Mobile View Detail Iklan Iphone 4s ................................... 49
DAFTAR TABEL
Hal.
Tabel 2.1 Pembentukan Konfiks yang Tidak Diperbolehkan .................... 12
Tabel 2.2 Aturan Pembentukan Prefiks Ganda ......................................... 12
Tabel 2.3 Daftar Prefiks yang Meluluh ................................................... 14
Tabel 2.4 Daftar Kemungkina Besar Perubahan Prefiks ........................... 14
Tabel 2.5 Daftar Kombinasu Prefiks dan Sufiks yang Tidak DIperbolehkan 15
Tabel 4.1 Pengujian Menu Utama............................................................ 36
Tabel 4.2 Pengujian Pencarian Iklan ........................................................ 37
52
DAFTAR PUSTAKA
http://en .wikipedia.org/wiki/Stemming
Risa., 2008, Bab 11 Text Mining,
http://student.eepisits.edu/~risa/files/DataMining/chapter11.pdf
diakses Agustus 2013
Miller, Thomas W., 2005, Data and Text Mining A Bussines Applications
Approach, Upper Saddle River, Jersey.
diakses Agustus 2013
Mahendra, I Putu Adhi Kerta., 2008, Penggunaad Algoritma Semut Dan
Confix Stripping Stemmer Untuk Klasifikasi Dokumen Bebahasa
Indonesia, Surabaya : Jurusan Teknik Informatika ITS Surabaya.
diakses Agustus 2013
Darmawan, Heru Adi., Wurijanto, Tutut., Masturi, Akh., 2010 Rancang
Bangun Aplikasi Search Engine Tafsir Al-Qur’an Menggunakan
Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)
diakses Agustus 2013
Februariyanti, H., Zuliarso, E., Utomo, MS., 2012, Klastering Berita
Online Tentang Bencana Dengan Algoritma Single Pass
Clustering
diakses Agustus 2013
Jayanti, Eka 2012 Tokenizing Filtering/Stopword Stemming,
http://echa89.wordpress.com/2012/05/21/information-retrieval/
diakses Agustus 2013
Agusta, Ledy., 2009. Perbandingan Algoritma Stemming Porter Dengan
Algoritma Nazief & Adriani untuk Stemming Dokumen Teks
Bahasa Indonesia.Konferensi Nasional Sistem dan Informatika
2009 diakses September 2013
FZ Tala., 2003. A Study of Stemming Effects on Information Retrieval in
Bahasa Indonesia. Master of logic Project. Institute for Logic,
Language and Computation Universiteit Van Amsterdam.
diakses September 2013