15
i PEMANFAATAN METODE COSINE SIMILARITY DALAM MENENTUKAN KEMIRIPAN IKLAN PADA SITUS JUAL BELI ONLINE TUGAS AKHIR Sebagai Persyaratan Guna Meraih Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Disusun Oleh: Herdhiska Pradhiarta Ajiprayoga 09560453 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2015

DALAM MENENTUKAN KEMIRIPAN IKLAN PADA SITUS JUAL … file yang sudah di simpan di database kita berdasarkan kata kunci yang sudah di tentukan. Sedangkan untuk menentukan nilai ambang

Embed Size (px)

Citation preview

i

PEMANFAATAN METODE COSINE SIMILARITY

DALAM MENENTUKAN KEMIRIPAN IKLAN PADA

SITUS JUAL BELI ONLINE

TUGAS AKHIR

Sebagai Persyaratan Guna Meraih Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh:

Herdhiska Pradhiarta Ajiprayoga

09560453

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2015

ii

LEMBAR PERSETUJUAN

PEMANFAATAN METODE COSINE SIMILARITY

DALAM MENENTUKAN KEMIRIPAN IKLAN PADA

SITUS JUAL BELI ONLINE

TUGAS AKHIR

Sebagai Persyaratan Guna Meraih Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

Herdhiska Pradhiarta Ajiprayoga

09560453

Telah diperiksa dan disetujui,

DOSEN PEMBIMBING I DOSEN PEMBIMBING II

Yuda Munarko, S.Kom., M.Sc. Maskur, S.Kom., M.Kom.

NIP. 108.0611.0443 NIDN. 0711098402

iii

LEMBAR PENGESAHAN

PEMANFAATAN METODE COSINE SIMILARITY

DALAM MENENTUKAN KEMIRIPAN IKLAN PADA

SITUS JUAL BELI ONLINE

Tugas Akhir

Diajukan Sebagai Syarat Untuk Memperoleh Gelar Sarjana (S1)

Di Fakultas Teknik Universitas Muhammadiyah Malang

Disusun Oleh :

Nama : Herdhiska Pradhiarta Ajiprayoga

Nim : 09560433

Tugas Akhir ini telah disetujui dan dinyatakan lulus oleh tim penguji

Pada hari kamis 29 Januari 2015

Disetujui Oleh,

Dosen Penguji 1 Dosen Penguji 2

Gita Indah M, S.T. M.Kom Zamah Sari, S.T, M.T

NIP 108.0611.0442 NIDN 0708087701

Mengetahui

Kepala Jurusan Teknik Informatika

Yuda Munarko, S.kom, M.Sc.

NIP. 108.0611.0443

iv

SURAT PERNYATAAN

Yang bertanda tangan dibawah ini:

Nama : Herdhiska Pradhiarta Ajiprayoga

NIM : 09560433

Fak / jur : Teknik Informatika

Dengan ini saya menyatakan bahwa tugas akhir saya dengan judul:

“Pemanfaatan Metode Cosine Similarity Dalam Menetukan Kemiripan Iklan

Pada Situs Jual Beli Online Berbasis Web Mobile HTML5 Smartphone View“.

Adalah bukan merupakan karya tulis orang lain, baik sebagian maupun keseluruhan,

kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.

Demikian surat pernyataan ini saya buat dengan sebenar-benarnya dan apabila surat

pernyataan ini tidak benar, saya siap mendapatkan sanksi akademis.

Malang, 10 Desember 2014

Yang Menyatakan

(Herdhiska Pradhiarta A)

Mengetahui,

Dosen Pembimbing I Dosen Pembimbing II

Yuda Munarko, S.Kom, M.Sc. Maskur, S.Kom, M.Kom

NIP. 108.0611.0443 NIDN. 0711098402

v

ABSTRAK

Sistem aplikasi ini diharapkan dapat memberi kemudahan kepada user dalam

menentukan kemiripan iklan dengan metode cosine similarity. Yang mana pada situs

www.olx.co.id hanya menampilkan iklan berdasarkan kata kunci yang diinputkan,

sedangkan aplikasi ini dapat menghitung nilai kemiripan antar dokumen dengan kata

kunci yang kita inputkan berdasarkan nilai ambang batas. Bila nilai kemiripan antar

dokumen melebihi nilai ambang batas, program akan otomatis menampilkan kata

relevan sedangkan bilamana tidak melebihi nilai ambang batas program akan

menampilkan kata tidak relevan. Aplikasi ini berjalan secara offline, dengan

menampilkan data yang sudah di grabbing terlebih dahulu dari situs jual beli online

www.olx.co.id yang sudah di simpan di database kita berdasarkan kata kunci yang

sudah di tentukan. Sedangkan untuk menentukan nilai ambang batas dapat di tentukan

dengan cara mengurutkan berdasarkan nilai yang tertinggi, setelah itu membandingkan

iklan mirip atau tidak secara manual antar iklan, setelah menemukan iklan mana yang

mirip dan tidak mirip di tentukan nilai tengah dari nilai iklan mirip dan nilai iklan

tidak mirip, setelah di temukan nilai tengah kemudian di jumlahkan sebanyak nilai

tengah yang ditemukan dari banyaknya kata kunci yang diuji dan kemudian dibagi

sebanyak kata kunci yang diuji.

Kata Kunci : cosine similarity, grabbing, ambang batas, relevan

vi

ABSTRACT

This application system is expected to provide convenience to the user

in determining the similarity advertising with cosine similarity method. Which

on the site www.olx.co.id only display advertising based on keywords entered,

while the application can calculate the similarity between documents with

keywords that we have input based on a threshold value. When the value of

similarity between documents exceeds the threshold value, the program will

automatically display the relevant word while if not exceeding the threshold

value the program will display the word irrelevant. This application goes

offline, to display data that is already in grabbing the first of online selling sites

www.olx.co.id already stored in our database based on the keywords that have

been determined. As for determining the threshold value can be set in a way to

sort by the highest value, then compare similar or not similar advertising

manually between advertising, after finding out which advertising are similar

and do not like in the middle of the specified value and the value of the value

of advertising similar advertising not like, once in the middle and then find the

value in total the middle value as found from the number of keywords that are

tested and then divided by keyword tested.

Keywords : cosine similarity, grabbing, threshold, relevant

vii

LEMBAR PERSEMBAHAN

Puji syukur kepada Allah SWT atas rahmat, hidayah, dan karunia-Nya, penulis

dapat menyelesaikan Tugas Akhir dengan judul “Pemanfaatan Metode Cosine

Similarity Dalam Menetukan Kemiripan Iklan Pada Situs Jual Beli Online Berbasis

Web Mobile HTML5 Smartphone View”. Atas terselesaikannya Tugas Akhir ini,

dengan kerendahan hati, penulis menyampaikan banyak terima kasih kepada::

1. Bapak Yuda Munarko, S.Kom., M.Sc. dan Bapak Maskur, S.Kom., M.Kom.

selaku pembimbing tugas akhir saya.

2. Bapak/Ibu Dekan Fakultas Teknik Universitas Muhammadiyah Malang.

3. Bapak/Ibu Ketua Jurusan Teknik Informatika Universitas Muhammadiyah

Malang.

4. Kedua Orang Tua tercinta, Ayahanda Herry Didiek Soegiharto, SE dan Ibunda

Endah Pratiwi. Terima kasih atas segala pengorbanan dan kasih sayang yang

kalian berikan serta doa - doa yang sangat istimewa dan yang terbaik yang

kalian kirimkan lewat perantara-Nya.

5. Kedua Kakakku, kepada kakak pertama ku Herdien Pradhitya Patriayudha

Mardhika, SP dan kakak kedua ku Raherdian Pradhyaksa Dwi Surya

Wardhana, SE terima kasih atas doa dan dorongan semangat yang positif.

6. Kepada Om, Tante, serta Saudara Saudaraku, terima kasih banyak atas segala

bantuan dan doa serta semangat yang kalian berikan..

7. Untuk Sahabatku, Iji, Azhar, Dika, Jwn, Parto, dan Bebek terima kasih banyak

atas bantuan, dukungan dan hiburan yang sangat membantu saya.

8. Kepada teman – teman i-class angkatan 2009, kalian semua sangat istimewa.

viii

KATA PENGANTAR

Segala puji bagi Allah SWT, Tuhan seluruh alam atas limpahan rahmat

dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang

berjudul :

“PEMANFAATAN METODE COSINE SIMILARITY DALAM

MENENTUKAN KEMIRIPAN IKLAN PADA SITUS JUAL BELI

ONLINE BERBASIS WEB MOBILE HTML5 SMARTPHONE VIEW”

Pada tugas akhir ini disajikan pokok-pokok pembahasan yang meliputi

pendahuluan, landasan teori, perancangan sistem, implementasi dan pengujian

sistem.

Penulis menyadari bahwa masih terdapat banyak kekurangan dan

keterbatasan dalam tugas akhir ini. Oleh karena itu, penulis mengharapkan

masukan berupa saran dan kritik yang membangun agar tulisan ini dapat lebih

bermanfaat bagi perkembangan ilmu pengetahuan kedepan.

Akhir kata penulis berharap semoga tugas akhir ini dapat bermanfaat dan

menjadi tambahan ilmu pengetahuan bagi pembaca sekalian. Penulis juga

menyampaikan terima kasih kepada semua pihak yang telah membantu

terselesaikannya tugas akhir mulai dari tahap awal hingga akhir.

Malang, 10 Desember 2014

Penulis

ix

DAFTAR ISI

Hal.

HALAMAN JUDUL .................................................................................... i

LEMBAR PERSETUJUAN .......................................................................... ii

LEMBAR PENGESAHAN ........................................................................... iii

LEMBAR PERNYATAAN .......................................................................... iv

ABSTRAK ................................................................................................... v

ABSTRACT ................................................................................................... vi

LEMBAR PERSEMBAHAN ........................................................................ vii

KATA PENGANTAR .................................................................................. viii

DAFTAR ISI ................................................................................................ ix

DAFTAR GAMBAR .................................................................................... xi

DAFTAR TABEL ........................................................................................ xiii

BAB I : PENDAHULUAN .......................................................................... 1

1.1 Latar Belakang ........................................................................................ 1

1.2 Rumusan Masalah ................................................................................... 2

1.3 Tujuan..................................................................................................... 2

1.4 Batasan Masalah ..................................................................................... 3

1.5 Metodologi.............................................................................................. 3

1.6 Sistematika Penulisan .............................................................................. 4

BAB II : LANDASAN TEORI ................................................................... 6

2.1 Text Mining ............................................................................................ 6

2.2 Tokenizing .............................................................................................. 6

2.3 Stopword................................................................................................. 7

2.4 Stemming Bahasa Indonesia .................................................................... 8

2.5 Struktur Morfolgi Bahasa Indonesia ........................................................ 9

x

2.6 Stemming Bahasa Indonesia Algoritma Nazief & Andriani ..................... 13

2.7 TF-IDF (Term Frequency – Inverse Document Frequency) Weighting .... 15

2.8 Penghitungan tingkat kemiripan (Cosine Similarity) ................................ 17

BAB III : PERANCANGAN....................................................................... 18

3.1 Gambaran Umum Sistem ........................................................................ 18

3.1.1 Grabbing................................................................................... 19

3.1.2 Preprocessing ........................................................................... 20

3.1.3 Pembobotan TF - IDF ............................................................... 23

3.1.4 Cosine Similarity ...................................................................... 24

3.2 Desain Sistem ......................................................................................... 26

3.2.1 Data Flow Diagram level 0 ....................................................... 26

3.2.2 Data Flow Diagram level 1 ....................................................... 27

3.2.3 Desain Database ....................................................................... 28

BAB IV : IMPLEMENTASI DAN PENGUJIAN ...................................... 30

4.1 Implementasi Sistem ............................................................................... 30

4.2 Kebutuhan Sistem ................................................................................... 30

4.3 Interface / Antarmuka Sistem .................................................................. 31

4.3.1 Halaman Home ......................................................................... 31

4.3.2 Halaman Search ........................................................................ 32

4.3.3 Halaman Hasil .......................................................................... 32

4.4 Alur Program .......................................................................................... 33

4.4.1 Grabbing................................................................................... 33

4.4.2 Tokenizing................................................................................ 33

4.4.3 Filtering .................................................................................... 34

4.4.4 Stemming ................................................................................. 34

4.4.5 Pembobotan TF – IDF .............................................................. 35

xi

4.4.6 Cosine Similarity ...................................................................... 35

4.4.7 Nilai Ambang Batas .................................................................. 36

4.5 Pengujian ................................................................................................ 37

4.5.1 Pengujian Black Box ................................................................ 37

4.5.2 Pengujian Perhitungan Relevan dan Tidak Relevan Antar Tiap Iklan

.......................................................................................................... 41

4.5.3 Pengujian Kata Kunci Dengan Isi Iklan Tidak Sama Dengan Produk

Yang Di Cari ............................................................................ 45

4.5.4 Pengujian Menggunakan Web Mobile ...................................... 48

BAB V : KESIMPULAN DAN SARAN ..................................................... 50

5.1 Kesimpulan ............................................................................................. 50

5.2 Saran ....................................................................................................... 51

DAFTAR PUSTAKA ................................................................................... 52

BIOGRAFI PENULIS .................................................................................. 54

DAFTAR GAMBAR

Hal.

Gambar 2.1 Text Mining ......................................................................... 6

Gambar 2.2 Tokenizing ........................................................................... 7

Gambar 2.3 Filtering ............................................................................... 8

Gambar 3.1 Flowchart Umum Sistem ...................................................... 19

Gambar 3.2 Flowchart Grabbing ............................................................. 20

Gambar 3.3 Flowchart Tokenizing .......................................................... 21

Gambar 3.4 Flowchart Stopword / Filtering ............................................. 22

Gambar 3.5 Flowchart Stemming ............................................................ 23

Gambar 3.6 Flowchart Pembobotan TF-IDF ............................................ 24

Gambar 3.7 Flowchart Cosine Similarity ................................................. 25

xii

Gambar 3.8 Data Flow Diagram Level 0 ................................................. 26

Gambar 3.9 Data Flow Diagram Level 1 ................................................. 27

Gambar 3.10 Desain Database ................................................................. 28

Gambar 4.1 Halaman Home .................................................................... 31

Gambar 4.2 Halaman Search ................................................................... 32

Gambar 4.3 Halaman Hasil ..................................................................... 32

Gambar 4.4 Form Cari............................................................................. 33

Gambar 4.5 Database Sistem ................................................................... 33

Gambar 4.6 Script Tokenizing ................................................................. 34

Gambar 4.7 Script Ubah ke Huruf Kecil .................................................. 34

Gambar 4.8 Tabel Stopword .................................................................... 34

Gambar 4.9 Tabel Stemming ................................................................... 35

Gambar 4.10 Perhitungan TF - IDF ......................................................... 35

Gambar 4.11 Hasil Penghitungan Similarity ............................................ 36

Gambar 4.12 Pengujian Menu Utama Tombol Search ............................. 37

Gambar 4.13 Pengujian Menu Utama Tombol Help ................................ 38

Gambar 4.14 Pengujian Menu Utama Tombol About .............................. 38

Gambar 4.15 Pengujian Pencarian Iklan Tombol Search .......................... 39

Gambar 4.16 Pengujian Pencarian Iklan Input Text Keyword .................. 40

Gambar 4.17 Pengujian Pencarian Iklan Form Hasil ................................ 40

Gambar 4.18 Menginputkan Kata Kunci Jilbab Syria .............................. 41

Gambar 4.19 Hasil Kata Kunci 42 dan 43 Jilbab Syria ............................ 41

Gambar 4.20 Hasil Kata Kunci 43 dan 44 Jilbab Syria ............................ 42

Gambar 4.21 Detail Iklan 42 dengan Kata Kunci Jilbab Syria.................. 42

Gambar 4.22 Detail Iklan 43 dengan Kata Kunci Jilbab Syria.................. 43

Gambar 4.23 Detail Iklan 44 dengan Kata Kunci Jilbab Syria.................. 43

xiii

Gambar 4.24 Detail Iklan 45 dengan Kata Kunci Jilbab Syria.................. 44

Gambar 4.25 Menginputkan Kata Kunci Canon Dslr ............................... 45

Gambar 4.26 Hasil Kata Kunci Canon Dslr ............................................. 45

Gambar 4.27 Detail Iklan 1 Kata Kunci Canon Dslr ................................ 46

Gambar 4.28 Detail Iklan 2 Kata Kunci Canon Dslr ................................ 46

Gambar 4.29 Detail Iklan 3 Kata Kunci Canon Dslr ................................ 47

Gambar 4.25 Mobile View Menginputkan Iphone 4s ............................... 48

Gambar 4.26 Mobile View Hasil Iphone 4s ............................................. 48

Gambar 4.27 Mobile View Detail Iklan Iphone 4s ................................... 49

DAFTAR TABEL

Hal.

Tabel 2.1 Pembentukan Konfiks yang Tidak Diperbolehkan .................... 12

Tabel 2.2 Aturan Pembentukan Prefiks Ganda ......................................... 12

Tabel 2.3 Daftar Prefiks yang Meluluh ................................................... 14

Tabel 2.4 Daftar Kemungkina Besar Perubahan Prefiks ........................... 14

Tabel 2.5 Daftar Kombinasu Prefiks dan Sufiks yang Tidak DIperbolehkan 15

Tabel 4.1 Pengujian Menu Utama............................................................ 36

Tabel 4.2 Pengujian Pencarian Iklan ........................................................ 37

52

DAFTAR PUSTAKA

http://en .wikipedia.org/wiki/Stemming

Risa., 2008, Bab 11 Text Mining,

http://student.eepisits.edu/~risa/files/DataMining/chapter11.pdf

diakses Agustus 2013

Miller, Thomas W., 2005, Data and Text Mining A Bussines Applications

Approach, Upper Saddle River, Jersey.

diakses Agustus 2013

Mahendra, I Putu Adhi Kerta., 2008, Penggunaad Algoritma Semut Dan

Confix Stripping Stemmer Untuk Klasifikasi Dokumen Bebahasa

Indonesia, Surabaya : Jurusan Teknik Informatika ITS Surabaya.

diakses Agustus 2013

Darmawan, Heru Adi., Wurijanto, Tutut., Masturi, Akh., 2010 Rancang

Bangun Aplikasi Search Engine Tafsir Al-Qur’an Menggunakan

Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)

diakses Agustus 2013

Februariyanti, H., Zuliarso, E., Utomo, MS., 2012, Klastering Berita

Online Tentang Bencana Dengan Algoritma Single Pass

Clustering

diakses Agustus 2013

Jayanti, Eka 2012 Tokenizing Filtering/Stopword Stemming,

http://echa89.wordpress.com/2012/05/21/information-retrieval/

diakses Agustus 2013

Agusta, Ledy., 2009. Perbandingan Algoritma Stemming Porter Dengan

Algoritma Nazief & Adriani untuk Stemming Dokumen Teks

Bahasa Indonesia.Konferensi Nasional Sistem dan Informatika

2009 diakses September 2013

FZ Tala., 2003. A Study of Stemming Effects on Information Retrieval in

Bahasa Indonesia. Master of logic Project. Institute for Logic,

Language and Computation Universiteit Van Amsterdam.

diakses September 2013

53

B. Nazief and M. Adriani. 1996. Confix Stripping: Approach to Stemming

Algorithm for Bahasa Indonesia. Technical report, Faculty of

Computer Science, University of Indonesia,

diakses September 2013