13
USULAN PENELITIAN Aplikasi E-Library Menggunakan Wap Dengan Implementasi Text Mining Pada Pencarian Data Buku Proposal ini dibuat untuk memenuhi tugas akhir mata kuliah Metode Penelitian dengan dosen pengampu Tim Metpen Jurusan Teknik Informatika UIN MMI Malang Dosen Pembimbing : Suhartono, M. Kom NIP. 196805192003121001 Oleh: Nurul Muflichah NIM. 07650015 UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM (UIN-MMI) MALANG FAKULTAS SAINS DAN TEKNOLOGI JURUSAN TEKNIK INFORMATIKA JUNI 2009

proposal

Embed Size (px)

Citation preview

Page 1: proposal

USULAN PENELITIAN

Aplikasi E-Library Menggunakan Wap Dengan Implementasi

Text Mining Pada Pencarian Data Buku

Proposal ini dibuat untuk memenuhi tugas akhir mata kuliah Metode Penelitian

dengan dosen pengampu Tim Metpen Jurusan Teknik Informatika UIN MMI Malang

Dosen Pembimbing :

Suhartono, M. Kom

NIP. 196805192003121001

Oleh:

Nurul Muflichah

NIM. 07650015

UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM

(UIN-MMI) MALANG

FAKULTAS SAINS DAN TEKNOLOGI

JURUSAN TEKNIK INFORMATIKA

JUNI 2009

Page 2: proposal

Proposal Penelitian

Aplikasi E-Library Menggunakan Wap Dengan Implementasi

Text Mining Pada Pencarian Data Buku

Nurul Muflichah (07650015)

1. Latar Belakang

Semua lapisan masyarakat seyogyanya dapat mempelajari berbagai

informasi melalui membaca. Hal ini dikarenakan membaca merupakan

salah satu kunci dalam meningkatkan kecerdasan dan kreatifitas

masyarakat. Namun minat dan kemampuan membaca di Indonesia sangat

rendah. Berdasarkan hasil survey UNESCO pada dua tahun lalu, minat

baca masyarakat Indonesia adalah paling rendah di ASEAN, sedangkan

survei yang dilakukan terhadap 39 negara–negara di dunia, Indonesia

menempati urutan ke-38. Begitu banyak faktor yang menyebabkan

rendahnya minat baca masyarakat Indonesia, yang salah satunya adalah

sebagian besar masyarakat Indonesia menghabiskan waktunya untuk

bekerja, sehingga tidak tersedia waktu untuk membaca. Hanya kalangan

tertentu saja yang benar – benar mencurahkan waktu untuk membaca dan

atau menulis seperti wartawan, guru, dosen, peneliti dan pustakawan.

Itupun dalam jumlah yang terbatas. Kurang tersedianya buku – buku yang

berkualitas dengan harga yang terjangkau, sehingga buku masih dianggap

sebagai barang mewah juga menjadi faktor penyebab rendahnya minat

baca. Selain itu, kurang tersedianya perpustakaan di tempat-tempat umum

yang mudah dijangkau, serta tidak memadai koleksi, fasilitas, dan

pelayanan yang ada. Kemudian, tidak meratanya penerbitan buku dan

distribusinya ke seluruh pelosok tanah air di indonesia.

Didalam Al-Qur‟an surat pertama yang diturunkan adalah surat al-

alaq, dimana pada ayat pertama adalah perintah untuk membaca.

( 1)اقزأ باسم ربك الذى خلق

“Bacalah dengan (menyebut) nama Tuhanmu yang menciptakan”.

Q.S Al-Alaq : 1.

Didalam kitab Shahih Bukhori diriwayatkan bahwa “Wahyu pertama yang

sampai kepada Nabi saw adalah perintah membaca dan pembicaraan

tentang pena dan ilmu. Tidakkah kaum Muslimin menjadikan ini sebagai

pelajaran lalu menyebarkan ilmu dan mengibarkan panjinya. Sedangkan

Nabi yang ummi ini saja perintah pertama yang harus dikerjakan adalah

membaca dan menyebarkan ilmu.” Hal ini membuktikan bahwa membaca

merupakan hal terpenting yang harus dilakukan oleh seseorang yang ingin

sukses.

Page 3: proposal

Dan dengan kemajuan teknologi yang semakin pesat kini seseorang

yang ingin mendapat informasi tidak harus bersusah payah untuk datang

keperpustakaan hanya untuk mendapatkan referensi juga mengeluarkan

banyak uang untuk mendapatkan berita dari koran. Karena di internet telah

banyak tersedia situs-situs yang menyediakan informasi-informasi yang

kita butuhkan. Namun seseorang dengan tingkat mobilitas yang tinggi,

tidak mungkin menghabiskan banyak waktunya untuk duduk didepan

komputer untuk mendapatkan informasi. Dan tidak jarang juga seseorang

akan merasa kesulitan dalam mencari informasi yang dibutuhkan karena

fasiltas searching yang disediakan tidak dapat memproses keyword yang

kita masukkan dengan baik

Saat ini Wireless Application Protocol (WAP) merupakan salah

satu solusi pemecahan masalah diatas yang dianggap sangat

memungkinkan, karena pengguna dapat mengakses internet melalui

peralatan wireless (tanpa kabel) seperti handphone dan PDA. Dan agar

proses searching yang dilakukan lebih optimal maka digunakan algoritma

text minning dimana dalam prosesnya digunakan Vector Space Model

(VSM) yang merupakan bentuk dari Information Retrieval.

Untuk itu dalam penelitian ini akan dibangun sebuah aplikasi

electronik library (eLibrary) menggunakan WAP dengan implementasi

text minning pada proses pencariannya, yang akan memungkinkan

seseorang dapat membaca abstraksi buku, artikel, dan mendapatkan

informasi lainnya yang sesuai dengan yang diinginkan kapan saja dan

dimana saja. Dengan dibangunnya aplikasi ini diharapkan mampu

meningkatkan minat membaca masyarakat Indonesia, yang nantinya akan

berimbas pada peningkatan kualitas SDM masyarakat Indonesia sendiri.

2. Rumusan Masalah

Berdasarkan latar belakang diatas, adapun rumusan masalah

sebagai berikut: “Bagaimana mengoptimalkan proses searching dengan

algoritma text minning sebagai bentuk Information Retrieval untuk

menemukan dokumen yang memenuhi kriteria pencari? ”

3. Batasan Masalah

Dalam permasalahan tersebut akan diberi batasan-batasan masalah

sebag berikut:

1. Dokumen yang dicari berdasarkan isi dari abstrak buku.

2. Diasumsikan setiap buku mempunyai abstrak.

3. Buku dan artikel yang disipan pada database adalah buku yang

berhubungan dengan ilmu komputer.

4. Dokumen yang digunakan adalah yang dokumen dengan bahasa

indonesia dan inggris.

Page 4: proposal

4. Tujuan dan Manfaat penelitian

Tujuan dari penelitian ini adalah membangun sebuah aplikasi e-

library dimana proses searching yang dilakukan mejadi lebih optimal

karena menggunakan metode text minning yang merupakan bentuk

Information Retrieval sehingga akan menghasilkan dokumen dengan

tingkat similaritas yang tinggi.

Sedangkan manfaat dari pembuatan aplikasi ini, memudahkan para

pencari informasi untuk mendapatkan informasi yang sesuai dengang yang

diinginkan dan membantu meningkatkan kegemaran membaca masyarakat

Indonesia.

5. Kajian Teori

5.1 Wireless Application Protocol (WAP)

Wireless Application Protocol atau yang lebih dikenal dengan

istilah WAP adalah protocol yang memungkinkan sebuah ponsel untuk

mengakses internet secara langsung dimana ponsel tersebut dilengkapi

dengan Micro Browser, yaitu sebuah program yang berfungsi sebagai

browser seperti Netscape atau Microsoft Internet Explorer yang ada

pada PC.

Protocol sendiri dapat didefinisikan sebagai suatu cara atau

aturanyang dibakukan unutk melakukan komunikasi antara satu

peralatan jaringan (bisa berupa komputer, switch, hub, dan lain-lain)

dengan peralatan jaringan lainnya. Desain atau standart protokol

merupakan arsitektur protokol yang ditetapkan secara internasional

oleh ISO (International Stndart Organization). Arsitektur tersebut

dinamakan Open System Interconnection(OSI Reference Model).

Tahapan-tahapan dalam arsitektur WAP terdiri atas:

1) Wireless Application Environment (WAE)

Wireless Aplication Environment ini memiliki fungsi dasar

untuk menggabungkan World Wide Web (WWW) dengan

teknologi telepon selular. WAE ini berisi Micro Browser yang

berfungsi sebagai pendukung WML (Wireless Markup Language).

WML ini hampir sama dengan HTML, namun bahasa ini

dikhususkan untuk mobile terminal.

2) Wireless Session Protocol (WSP)

Wireless Session Protokol ini berfungsi memeriksa format

data, konversi data, dan atau pengkodean data yang akan

ditransferkan misalnya :

Memeriksa kebenaran data antar user

Page 5: proposal

Memerika nomor pesan yang dikirim

Menyinkronkan data transaksi

3) Wireless Transport Layer Security (WTSL)

WTSL adalah protocol untuk keamanan data yang

disesuaikan oleh standart industri Transport Layer Security (TSL)

yang mendukung Secure Socket Layer (SSL). WTSL ini ditunjukan

pada penggunaan aplikasi WAP untuk :

Integritas data yaitu menyangkut kebenaran isi pesan

Privasi, yaitu menyangkut kerahasiaan data, artinya data yang

dikirimkan tidak bisa dimengerti oleh orang lain yang tidak

terkoneksi dengan pengirim

Autentifikasi, yang menyangkut kebenaran jati diri seseorang.

4) Wireless Datagram Protocol (WDP)

WDP ini merupakan kelanjutan dari WTSL yang mampu

berkomunikasi dengan benar. WDP bertugas untuk mentrasmisikan

data dalam format biner melalaui gateway, serta mendefinisikan

pengalamatan jaringan yang akan dikenali oleh bearer.

5) Bearer

Bearer terdiri dari data switch, pesan pendek (Short

Message), dan data paket yang berfungsi untuk melakukan transfer

data dari suatu unit informasi yang berisi alamat ke unit lain san

melakukan pemeriksaan kesalahan serta penundaan transfer hingga

proses benar.

6) Aplikasi Pendukung

Selain dari layer-layer diatas, aplikasi pendukung juga

dibutuhkan. Aplikasi pendukung ini biasanya berupa program

aplikasi jaringan, seperti email, kalender, mobile banking, e-

commerce, dan lain-lain.

Model pemrogramn WAP terdiri atas tiga bagian, yaitu WAP

client yag mengirim permintaan informasi, gateway sebagai penerjemah

antara WAP dan HTTP serta server yang memproses permintaan dan

gateway untuk kemudian menjawabnya.

Prinsip kerjanya adalah aliran data dari handphone (client)/ WAP

protocol, akan mengirimkan encode request. Protocol gateway akan

mentranlasikan request dari WAP protocol yang terdiri atas WSP WTP,

WTSL, dan WDP tersebut menuju WWW protocol (origin server yaitu

Page 6: proposal

HTTP, TCP/IP). Encode akan menyesuaikan format data dengan server

jaringan WWW yang dapat berupa CGI dan Script, kemudian server

akan merespon request tersebut dan mengirimkan kembali melalui

protocol gateway untuk ditranslasikan kembali menuju WAP client

dalam hal ini adalah handphone.

5.2 Text Mining

Text Mining adalah proses penemuan akan informasi atau trend

terbaru yang sebelumya tidak terungkap dengan memproses dan

menganalisa data dalam jumlah besar. Dalam menganalisa sebagian

atau keseluruhan undtructured text, text mining mencoba untuk

mengasosiasikan satu bagian text dengan yang lainnya berdasarkan

aturan-aturan tertentu. Selain itu Text Mining juga bisa diartikan

sebagai proses menambah data yang berupa text dimana sumber data

biasanya didapatkan dari dokumen sehingga dapat dilakukan analisa

keterhubungan antar dokumen.

Langkah-langkah yang dilakukan dalam Text Mining adalah :

1. Tokenizing

Proses ini memotong setiap kata dalam teks, dan mengubah

semua huruf dalam dokumen menjadi huruf kecil. Haya huruf „a‟

sampai „z‟ yang diterima, sedangkan karakter selain huruf

dihilangkan. Contoh : “Pemrograman Web menggunakan PHP dan

MySQL”. Setelah ditoken maka kata-kata diatas menjadi :

pemrogram web menggunakan php dan mysql

2. Filtering

Pada proses ini dilakukan proses filter atau penyaringan kata

hasil dari proses tokenizing, dimana kata yang tidak relevan dibuag.

Proses ini menggunakan pendekatan stoplist. Yang termasuk stoplist

adalah “yang”, “di”, ”dari”, dan lain-lain. Contoh :

pemrogram web menggunakan php dan mysql

program web php mysql

3. Stemming

Stemming adalah proses untuk menggabungkan atau

memecahkan setiap varian-varian suatu kata menjadi kata dasar.

Page 7: proposal

4. Tagging

Tagging adalah suatu proses untuk mencari bentuk asal dari kata

bentuk lampau. Contoh : Connected connect

5. Analyzing

Pada tahap ini dilakukan proses penghitungan bobot (w)

dokumen agar diketahui seberapa jauh tingkat similaritas antara

keyword yang dimasukkan dengan dokumen. Algoritma yang

digunakan adalah TF-IDF yang disempurnakan dengan menghitung

nilai cosine sebagai bentuk Vector Space Model (VSM).

TF-IDF (Term Frequency-Inverse Document Frequency)

Metode pembobotan ini digunakan karena paling baik

dalam Information Retrieval. Nilai bobot suatu term menyatakan

kepentingan bobot tersebut dalam mempresentasikan dokumen.

Metode ini dapat dirumuskan dengan :

W(d,t)=tf(d,t) * log (D/df)

Dimana :

W(d,t) = Bobot dokumen ke-d terhadat kata ke-t

D = Jumlah dokumen

Tf = Jumlah kata yang dicari pada sebuah dokumen

Df = Jumah dokumen yang mengandung kata yang dicari

Cosine

Cara kerja metode ini dengan menghitung cosinus sudut

dari 2 vector, yaitu W dari tiap dokumen dan W dari kata kunci

(keyword), sehingga dapat dirumuskan dengan :

Sim(di,q)= cosӨ (x,y = ׀x׀׀y׀cosӨ)

Cosine (di,q) =

Dimana :

q = kata kunci Wqj = bobot kata kunci

d = dokumen Wij = bobot dokumen

t = kata didatabase

_________

t

∑ (wij. wqj) i=1

di .

q

ǀq ǀ

ǀdi ǀ .

= _____________________

t 2 t 2

∑ wij . ∑ wqj i=1 i=1

Page 8: proposal

6. Penelitian Terkait

1. Distributed LSI: Scalable Concept-based Information Retrieval

with High Semantic Resolution

“Devasis Bassu and Clifford Behrens Telcoridia Technologies, Inc.

dbassu, [email protected]

Abstract :

In this paper we propose extensions to Latent Semantic Indexing (LSI)

that specifically address and solve the problems it has exhibited scaling

to massive document collections: an SVD is difficult to compute for

extremely large term-document matrices, and the precisionrecall

performance tends to degrade as collections become very large. We

believe that the latter result is symptomatic of a sampling problem: as

the size of a document collection increases, so too does the probability

of polysemy, i.e., multiple meanings for the same term. This has the

consequence of introducing noise and confusion into the LSI vector

space. Therefore, we have developed an approach we call “distributed

LSI” that solves this problem by partitioning information sources with

respect to the conceptual domains they cover, indexing the content of

each derived subcollection with LSI, then enabling one to query over

these distributed LSI vector spaces. Because the LSI vector spaces

computed from documents related by conceptual domain are

semantically more homogeneous, they nicely capture their documents'

context. Vector space representations of these contexts can be used to

select appropriate sources of information needed to service a query.

Keyword : latent semantic indexing, concept-based information

retrieval, scalability, massive document collections, document

clustering.

2. Text Mining untuk pencarian dokumen berbahasa inggris

menggunakan suffix tree clustering

“Tatas Wicaksono – Jurusan Teknik Informatika – Politeknik

Elektronika Negeri Surabaya – Institut Teknologi Sepuluh Nopember –

[email protected]

Abstrak :

Sebuah pencarian terhadap kumpulan dokumen umumnya memberikan

hasil berupa cuplikan dokumen-dokumen yang disusun berdasarkan

peringkat kecocokan dalam daftar yang panjang. Tidak jarang suatu

pencarian menghasilkan puluhan bahkan ratusan cuplikan dokumen

yang menyebabkan seorang pengguna harus menggulung layar ke atas

Page 9: proposal

dan ke bawah (scrolling) untuk meneliti satu persatu cuplikan

dokumen. Keadaan ini menyebabkan seorang pengguna mengalami

kesulitan dalam hal menentukan dokumen yang relevan dengan topik

yang ia inginkan.

Pada Proyek Akhir ini dikembangkan suatu aplikasi pengelompokan

dokumen berbasis web dengan metode suffix tree clustering. Konsep

dasar metode ini adalah dengan mengelompokkan dokumen hasil

pencarian ke dalam bentuk grup-grup atau clusters berdasarkan kata

atau frase yang terdapat di dalam dokumen-dokumen tersebut.

Aplikasi membutuhkan input pencarian dan akan menghasilkan output

berupa cluster yang di dalamnya terdapat dokumen yang bersesuaian.

Cluster ini bisa bertingkat-tingkat tergantung dari kata atau frase yang

mungkin bisa dibedakan lagi pada cluster induk yang sama. Cluster-

cluster yang dihasilkan inilah yang ditampilkan kepada pengguna.

Selanjutnya pada cluster terakhir yang dipilih akan menampilkan

kumpulan dokumen yang masing-masing terdiri dari judul, cuplikan

dan URL dokumen. Dengan metode ini diharapkan hasil pencarian

akan lebih mudah untuk ditelusuri.

Kata kunci : text mining, suffix tree, suffix tree clustering,

pengelompokan dokumen.

Dua penelitian diatas membahas information Retrieval dengan

metode lain, yaitu Latent Semantic Indexing dan text mining

menggunakan metode suffix tree clustering.

Dimana Latent Semantic Indexing adalah sebuah algoritma yang

mirip dengan proses pemikiran yang sebenarnya “manusia” akan

melakukan searching dalam rangka untuk menentukan apakah hasil dari

permintaan mereka relevan dengan apa yang mereka cari. LSI merupakan

teknik pengindeksan-analisis, mendaftar atau mengkategorikan kata kunci

atau frasa tertentu dalam isi dari berbagai website, buku atau dokumen

dengan sedemikian rupa sehingga mereka memiliki kontekstual dan

konseptual yang sama atau terkait dengan maksud dan arti meskipun

menggunakan kata yang berbeda di dalamnya.

Sedangkan text mining dengan metode suffix tree clustering

merupakan proses penemuan akan informasi yang dilakukan dengan 3

tahap utama yaitu cleaning documen, identifikasi Base Cluster

menggunakan STC, mengkombinasikan base cluster kedalam suatu

cluster. Namun untuk pembentukkan suffix tree membutuhkan waktu yang

lama karena selain tergantung pada jumlah dokumen yang dikoleksi juga

tergantung pada jumlah kata untuk setiap dokumen yang ingin

diklasifikasikan. Dalam penelitian kali ini peneliti akan meneliti bagaimana keakuratan

algoritma text mining menggunakan algoritma TF-IDF pada tahap analyzing

Page 10: proposal

yang diimplementasikan pada pencarian data dalam e-Library yang menggunakan

teknologi WAP.

7. Desain Penelitian

1) Interaksi dalam sistem

Diagram dibawah ini menunjukkan sistem kerja aplikasi eLib

mining.

Administrator bertugas untuk mengendalikan server web, dari

membuat, menambah, menghapus, dan mengedit semua data yang

telah dirancang dan disimpan dalam database.

Database MySQL diguakan untuk menyimpan informasi buku,

artikel, member, dan lain-lain yang berhubungan dengan sistem

eLibrary.

Ketika member (client) melakukan request maka akan melalui

suatu gateway yang akan memproses request dari client. Kemudian

server yang terhubung dengan internet akan merespon request

tersebut dan server akan memberikan informasi berdasarkan

database lalu mengirimkan kembali melalui gateway untuk

diproses kembali menuju client.

2) Flowchart proses Text Mining

Input abstrak buku oleh administrator

Proses penginputan abstrak buku, artikel, dan lain-lain yang

dilakukan oleh administrator berupa abstraksi buku dimasukkan

kedalam database dengan proses text mining. Setiap dokumen yang

dimasukkan akan melalui tahap tokenizing yaitu memotong setiap

kata dalam teks, kemudian dilakukan proses filtering dengan

membandingkan kata yang ada di tabel stoplist. Dokumen hasil

filtering diproses untuk dihitung bobotnya. Semua kata yang ada

dalam dokumen beserta hasil perhitungannya dimasukkan ke dalam

database.

MOBILE

&/

PC

Gateway

Internet

Web,

Application

server

Database

Page 11: proposal

START

Abstraksi Buku

Tokenizing

Ada di DB Stoplist?

Kata ke i=0

Ada di DB

KataLengkap?

Ubah jd kata dasar

sesuai DB KataDasar

Kata ada di DB?

Df = 1

Masukkan Nilai Tf ke DB

Kata tdk diproses

Update nilai df

Df=df+1

i++

Y

T

T

Y

Y

T

Hitung bobot

dokumen (WD2),

simpan ke database

Buat dok. Txt

baru

STOP

Page 12: proposal

Penginputan kata kunci oleh pengguna

START

Kata Kunci

Tokenizing

Ada di DB Stoplist?

Kata ke i=0

Ada di DB

KataLengkap?

Ubah jd kata dasar

sesuai DB KataDasar

Kata tdk diproses

i++

Y

T

T

Y

STOP

Dokumen

Proses TF-IDF W = 0? Pesan:

Dokumen tdk

ditemukan

Y

Proses Cosine

Ranking Dokumen

Informasi yang

dibutuhkan

Page 13: proposal

Pada proses ini kata kunci yang diinputkan oleh pengguna

diproses untuk menentukan tingkat similaritas antara dokumen

dengan kata kunci, sehingga akan diperoleh output dokumen yang

paling sesuai dengan keinginan user. Tahapan yang dilalui pada

proses ini hampir sama dengan proses yang pertama yaitu

tokenizing, filtering, dan penghitungan bobot kata kunci.

8. Daftar Pustaka

Baeza Yates dan Ribeiro Neto. Information Retrieval. Universitas

Indonesia, 2007

Dr. E. Garcia. The Classic Vector Space Model. www.MiIslita.com , 2006

www.informatika.org/~rinaldi/Stmik/Makalah/MakalahStmik37.pdf

( diakses pada tanggal 21 Juni 2010)

http://www.imamsuprayogo.com/viewd_artikel.php?pg=728 ( diakses

pada tanggal 23 Juni 2010)

http://journal.uii.ac.id/index.php/Snati/article/viewFile/1301/1060

( diakses pada tanggal 21 Juni 2010)

http://mgmpbismp.co.cc/2009/12/26/mendiknas-tumbuhkan-kesadaran-

kolektif-gemar-membaca/ ( diakses pada tanggal 23 Juni 2010)

http://www.dakwatuna.com/2009/tafsir-surat-al-alaq/ ( diakses pada

tanggal 23 Juni 2010)

http://www.itmaranatha.org/jurnal/jurnal.informatika/Jurnal/Juni2007/artik

el/artikelpdf/juni07_3.pdf ( diakses pada tanggal 21 Juni 2010)