16
PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS ) PADA SISTEM TEMU KEMBALI INFORMASI BERBASIS INTERNET Miswan * ; Mustangimah ** ABSTRAK PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS) PADA SISTEM TEMU KEMBALI INFORMASI BERBASIS INTERNET. Semakin banyak informasi yang tersedia di internet, semakin sulit untuk menemukan informasi yang relevan. Bagi sebagian besar pemakai internet, mesin penelusur (search engine) tidak dapat mengatasi masalah ini. Sebagai alternatif, mesin penggugus (clustering engine) yang dikembangkan dengan menerapkan analisis gugus memberikan alternatif bagi pemakai untuk menemukan informasi yang relevan diantara informasi yang “berserakan” di internet. Vivisimo merupakan mesin penggugus yang berfungsi mengelompokkan dokumen-dokumen yang telah diindeks oleh beberapa mesin penelusur. Berdasarkan query dari pemakai, mesin penggugus Vivisimo melakukan meta-search terhadap hasil pengindeksan beberapa mesin penelusur. Hasil meta-search ini kemudian dikelompokkan menjadi gugus-gugus yang diberi label sesuai dengan karakteristik yang dominan dalam gugus yang bersangkutan, dan kemudian ditampilkan kepada pemakai. Gugus-gugus yang terbentuk dapat membantu pencari informasi dalam melakukan penjelajahan dan pemberian interpretasi atau penilaian relevansi terhadap hasil penelusuran. Dengan demikian dapat dikatakan bahwa mesin penggugus sangat bermanfaat bagi pemakai dalam mencari informasi yang relevan di internet. Namun dari sisi lain, mesin penelusur dapat memberikan hasil penelusuran dalam jumlah yang lebih komprehensif. Oleh karena itu mesin penggugus dan mesin penelusur dapat digunakan secara komplemen dalam suatu penelusuran secara suksesif agar proses temu kembali informasi dapat berjalan secara lebih mudah dan diperoleh hasil yang komprehensif. ABSTRACT APPLICATION OF CLUSTER ANALYSIS ON INTERNET-BASED INFORMATION RETRIEVAL SYSTEM. Since much information is available in the Internet, there is more difficult to find out a relevant information. For many Internet users, search engine cannot solve this problem. Clustering engines that apply of cluster analysis provide an alternative way to find out the relevant information among the much information that scattered around the Internet. Vivisimo is a clustering engine that clusters documents have been indexed by many search engines. Based on the user’s query, Vivisimo does a meta-search to the indexing results of many search engines. The results of meta-search are clustered to many clusters, which labeled using dominant characteristic of the cluster, and then displayed for the users. The clusters that were formed can help users with guidance to browsing and make * Mahasiswa Program Studi Ilmu Informasi, Perpustakaan, dan Kearsipan; Program Pascasarjana, Universitas Indonesia ** Pusat Pengembangan Teknologi Informasi dan Komputasi - BATAN

PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

  • Upload
    lyhanh

  • View
    233

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS) PADA SISTEM TEMU KEMBALI INFORMASI BERBASIS INTERNET

Miswan*; Mustangimah**

ABSTRAK

PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS) PADA SISTEM TEMU KEMBALI INFORMASI BERBASIS INTERNET. Semakin banyak informasi yang tersedia di internet, semakin sulit untuk menemukan informasi yang relevan. Bagi sebagian besar pemakai internet, mesin penelusur (search engine) tidak dapat mengatasi masalah ini. Sebagai alternatif, mesin penggugus (clustering engine) yang dikembangkan dengan menerapkan analisis gugus memberikan alternatif bagi pemakai untuk menemukan informasi yang relevan diantara informasi yang “berserakan” di internet. Vivisimo merupakan mesin penggugus yang berfungsi mengelompokkan dokumen-dokumen yang telah diindeks oleh beberapa mesin penelusur. Berdasarkan query dari pemakai, mesin penggugus Vivisimo melakukan meta-search terhadap hasil pengindeksan beberapa mesin penelusur. Hasil meta-search ini kemudian dikelompokkan menjadi gugus-gugus yang diberi label sesuai dengan karakteristik yang dominan dalam gugus yang bersangkutan, dan kemudian ditampilkan kepada pemakai. Gugus-gugus yang terbentuk dapat membantu pencari informasi dalam melakukan penjelajahan dan pemberian interpretasi atau penilaian relevansi terhadap hasil penelusuran. Dengan demikian dapat dikatakan bahwa mesin penggugus sangat bermanfaat bagi pemakai dalam mencari informasi yang relevan di internet. Namun dari sisi lain, mesin penelusur dapat memberikan hasil penelusuran dalam jumlah yang lebih komprehensif. Oleh karena itu mesin penggugus dan mesin penelusur dapat digunakan secara komplemen dalam suatu penelusuran secara suksesif agar proses temu kembali informasi dapat berjalan secara lebih mudah dan diperoleh hasil yang komprehensif. ABSTRACT

APPLICATION OF CLUSTER ANALYSIS ON INTERNET-BASED INFORMATION RETRIEVAL SYSTEM. Since much information is available in the Internet, there is more difficult to find out a relevant information. For many Internet users, search engine cannot solve this problem. Clustering engines that apply of cluster analysis provide an alternative way to find out the relevant information among the much information that scattered around the Internet. Vivisimo is a clustering engine that clusters documents have been indexed by many search engines. Based on the user’s query, Vivisimo does a meta-search to the indexing results of many search engines. The results of meta-search are clustered to many clusters, which labeled using dominant characteristic of the cluster, and then displayed for the users. The clusters that were formed can help users with guidance to browsing and make

* Mahasiswa Program Studi Ilmu Informasi, Perpustakaan, dan Kearsipan; Program Pascasarjana, Universitas Indonesia ** Pusat Pengembangan Teknologi Informasi dan Komputasi - BATAN

Page 2: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

an interpretation or relevant judgement the searching results. Therefore, it can be said that clustering engine give a benefit for user to find out the relevant information in the Internet. On the other hand, search engines can give more comprehensives searching results. So, the clustering engine and search engines can be used complementary in the successive searching to get easier searching with comprehensive results. PENDAHULUAN Kemajuan yang pesat di bidang teknologi informasi terutama internet, telah menimbulkan ledakan informasi yang hebat. Hal ini terjadi karena internet memungkinkan banyak orang untuk memproduksi, memanipulasi, mengakses dan menyebarluaskan informasi dengan “mudah”. Setiap hari jutaan orang di dunia menggunakan internet, baik untuk mencari dan memanipulasi informasi yang sudah ada, maupun untuk menciptakan dan menyebarkan informasi baru. Akibatnya, informasi tentang apapun, mulai dari yang sangat berguna bagi manusia atau yang sekedar “sampah”, tersedia melimpah di internet. Untuk mempermudah dalam mencari dan menelusur informasi di internet telah banyak diciptakan mesin penelusur. Sampai saat ini terdapat beberapa mesin penelusur dengan karakteristik yang berbeda-beda, seperti Google, Yahoo!, Lycos, Ayna, Infoseek, AltaVista, HotBot, Excite , dan sebagainya. Masing-masing mesin penelusur tersebut memiliki beberapa kelebihan dan kekurangan, sehingga antara satu dengan yang lain saling melengkapi. Berkenaan dengan pencarian informasi di internet, mesin penelusur telah menjadi fenomena yang umum. Hampir semua orang yang pernah terlibat dalam pencarian informasi di internet pernah menggunakannya. Dalam proses penelusuran informasi melalui internet sering diperoleh informasi yang sangat banyak, tetapi sebagian besar diantaranya adalah informasi yang tidak dibutuhkan. Oleh karena itu, dari sudut pandang temu kembali informasi (information retrieval), semakin banyaknya informasi yang tersedia di internet justru semakin mempersulit untuk menemukan kembali informasi yang relevan, yaitu informasi yang sesuai dengan kebutuhan. Dalam suatu sistem temu kembali informasi, kemampuan untuk menemukan informasi yang tersedia diukur dengan recall dan kemampuan untuk menemukan informasi yang relevan diukur dengan ketelitian, maka proses penelusuran dalam situasi seperti tersebut di atas akan menghasilkan recall yang tinggi tetapi ketelitian rendah. Hal ini sesuai dengan yang dikemukakan oleh (Zervas dan Ruger, 1999) bahwa salah satu keterbatasan mesin penelusur adalah rendahnya ketepatan dari hasil penelusuran yang diperoleh. Situasi semacam ini dapat diilustrasikan seperti pada Gambar 1 a dan b.

Page 3: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

A B Gambar 1. a. Hubungan antara informasi yang tersedia dengan kesulitan

menemukan informasi yang relevan

b. Hubungan antara recall dan ketelitian dalam temu kembali informasi Keterbatasan tersebut dikarenakan beberapa mesin penelusur menerapkan pengindeksan dan penelusuran berbasis full text; yaitu menjadikan semua kata yang muncul dalam teks sebagai indeks atau titik temu dalam penelusuran. Hal ini menjadikan proses penelusuran sangat bergantung pada elastisitas bahasa. Sehingga tidak sedikit pencari informasi yang masih awam (novice) menjadi bingung dan tidak bisa menemukan informasi yang relevan dengan kebutuhannya meskipun telah memanfaatkan mesin penelusur. Dalam situasi seperti itu, para peneliti dalam bidang teknologi informasi, khususnya dalam sistem temu kembali informasi berbasis internet telah berusaha mengembangkan berbagai metoda alternatif untuk menyediakan sarana temu kembali informasi secara efektif dan efisien. Salah satu diantaranya adalah dengan menerapkan analisis gugus. Dalam makalah ini akan dibahas pemanfaatan analisis gugus dalam sistem temu kembali informasi berbasis internet dan cara kerja mesin penggugus sebagai alternatif untuk mencari informasi di internet. DASAR TEORI Document Clustering dalam Sistem Temu Kembali Informasi Secara umum document clustering adalah proses mengelompokkan dokumen berdasarkan kemiripan antara satu dengan yang lain dalam satu gugus (Gordon, 1991; Ellis, 1996: 28). Tujuannya adalah untuk memisahkan dokumen yang relevan dari dokumen yang tidak relevan (Jian Zhang, et al., 2001). Pengelompokan ini didasarkan pada hipotesa yang dikemukakan oleh Van Rijsbergen bahwa dokumen-dokumen yang berkaitan erat cenderung sesuai dengan permintaan informasi yang sama (Ellis, 1996: 28, Can, 1994). Atau dengan kata lain, dokumen-dokumen yang relevan dengan

Page 4: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

suatu query cenderung memiliki kemiripan satu sama lain dari pada dokumen yang tidak relevan, sehingga dapat dikelompokkan ke dalam suatu gugus (Charikar, et al., 1997). Oleh karena itu, suatu gugus berisi kelompok dokumen homogen yang saling berkaitan antara satu dengan yang lain. Document Clustering dapat dilakukan sebelum atau sesudah proses temu kembali (Jian Zhang, et al., 2001). Pada document clustering yang dilakukan sebelum proses temu kembali informasi, koleksi dokumen dikelompokkan ke dalam gugus berdasarkan kemiripan (similarity) antar dokumen. Selanjutnya dalam proses temu kembali informasi, apabila suatu dokumen ditemukan maka seluruh dokumen yang berada dalam gugus yang sama dengan dokumen tersebut juga dapat ditemukan. Sedangkan document clustering yang dilakukan setelah proses temu kembali informasi, dokumen-dokumen yang dihasilkan disajikan dalam gugus yang terbentuk berdasar kemiripan antar dokumen tersebut, sehingga mempermudah pencari informasi untuk memberikan interpretasi terhadap hasil penelusuran sesuai dengan kebutuhannya (Hearst dan Pederson, 1996). Dalam sistem temu kembali informasi, document clustering memberikan beberapa manfaat, antara lain:

- mempercepat pemrosesan query dengan menelusur hanya pada sejumlah kecil anggota atau wakil gugus, sehingga dapat mempercepat proses temu kembali informasi (Harper, Mechkour dan Muresan, 1999)

- membantu melokalisir dokumen yang relevan (Hearst dan Pederson, 1996; Leuski, 2001)

- membentuk kelas-kelas dokumen sehingga mempermudah penjelajahan dan pemberian interpretasi terhadap hasil penelusuran (Charikar, et al., 1997).

- meningkatkan efektivitas dan efisiensi temu kembali informasi dan memberikan alternatif metode penelusuran (Rasmussen, 1992: 438-9)

Selain itu, penggabungan antara penelusuran secara menyeluruh (full search) dengan penelusuran berbasis gugus (cluster-based retrieval) dapat meningkatkan ketelitian sampai dengan 25% (Can, 1994). Hal senada dikemukakan oleh Jian Zhang, et al. (2001) bahwa penggabungan antara metode penggugusan dengan fusion (pemberian peringkat terdadap dokumen secara keseluruhan) akan meningkatkan efektivitas temu kembali informasi. Adapun dalam hal penyajian hasil penelusuran, penggabungan antara gugus dan daftar peringkat dapat membantu pemakai dalam menemukan informasi yang relevan (Leuski dan Allan, 2000). Pembentukan Gugus Dokumen dalam Sistem Temu Kembali Informasi Pembentukan gugus dokumen dalam sistem temu kembali informasi merupakan proses yang kompleks, karena melibatkan pemilihan unsur yang dapat mewakili sekelompok dokumen, penetapan fungsi untuk menghubungkan satu dokumen dengan

Page 5: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

dokumen yang lain, penetapan fungsi untuk menghubungkan dokumen dengan query dan membangun metode atau algoritma penggugusan (Quaresma dan Rodrigues, 2000). Prinsip dasar dalam document Clustering adalah menentukan ukuran kemiripan antar dokumen yang akan dikelompokkan dan menjadikannya sebagai dasar untuk menghasilkan gugus. Kemiripan antar dokumen dapat didasarkan pada beberapa variabel seperti journal intercitation, co-citation (journal co-citation, document co-citation, author co-citation), bibliographic coupling, co-descriptor, dan co-classification. Adapun kemiripan antara dua dokumen X dan Y dapat diukur dengan beberapa cara, yaitu:

1. Simple matching: X ∩Y 2. Dice’s coefficient: 2 X ∩Y/X +Y 3. Jaccard’s coefficient: X ∩Y/X ∪Y 4. Cosine coefficient: X ∩Y/X 1/2 .Y1/2 5. Overlap coefficient: X ∩Y/min(X,Y)

Metode pembentukan gugus biasanya dikategorikan menurut tipe dari struktur gugus yang dihasilkan. Secara umum metode penggugusan terbagi menjadi dua, yaitu metode non-hirarkhis dan metode hirarkhis. Metode Non-Hirarkhis Metode non-hirarkhis disebut juga metode partisi, yaitu membagi serangkaian data yang terdiri dari N obyek ke dalam M gugus yang tidak saling tumpang-tindih (overlap) (Rasmussen, 1992: 425). Secara lebih rinci, Salton (1971: 225) mengemukakan bahwa pembentukan gugus dokumen dalam sistem temu kembali informasi dengan metode non-hirarkhis adalah sebagi berikut:

a. Membandingkan ciri-ciri identifikasi (identifier) suatu dokumen dengan dokumen lain yang ada dalam koleksi dan mengelompokkan dokumen-dokumen yang memiliki serangkaian ciri-ciri identifikasi yang serupa ke dalam satu gugus.

b. Pada setiap gugus dokumen yang dihasilkan, dipilih sebuah unsur yang dapat mewakili seluruh dokumen yang ada dalam gugus yang bersangkutan yang disebut centroid. Menurut Rasmussen (1992: 439) centroid atau perwakilan gugus adalah sebuah record yang dapat mewakili ciri-ciri atau karakteristik dokumen dalam sebuah gugus.

c. Proses penelusuran dilakukan dalam dua tahap, yaitu: 1) membandingkan query dengan centroid pada masing-masing gugus dokumen; 2) mencocokkan query dengan masing-masing dokumen dalam gugus yang mengandung centroid yang paling sesuai.

Page 6: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Proses pembentukan gugus dokumen dan penelusuran tersebut dapat diilustrasikan seperti pada Gambar 2

Gambar 2. Pembentukan gugus dokumen dengan metode non-hirarkhis dan proses penelusurannya (Salton, 1971: 225)

Seiring dengan perkembangan teknologi komputer, metode penggugusan non-hirarkhis ini juga menggunakan algoritma yang semakin kompleks. Sebagai contoh adalah penerapan algoritma genetik (Jones, et al.,1995) dan metode iterative clustering (Zervas dan Ruger, 1999). Metode Hirarkhis Pembentukan gugus dokumen dalam sistem temu kembali informasi dengan metode hirarkhis adalah sebagi berikut:

a. Mengidentifikasi dua dokumen yang paling mirip dan menggabungkannya menjadi sebuah gugus.

b. Mengidentifikasi dan menggabungkan dua dokumen yang paling mirip berikutnya menjadi sebuah gugus sampai semua dokumen tergabung dalam gugus-gugus yang terbentuk.

Struktur gugus yang dihasilkan oleh metode hirarkhis ini biasanya diperlihatkan struktur diagram pohon atau dendrogram seperti terlihat pada Gambar 3 a dan b.

Page 7: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Gambar 3a. Dendrogram dari Hierarchical Clustering (Rasmussen, 1992: 426)

Gambar 3b. Pohon dari Hierarchical Clustering (Salton, 1989: 324) Kemiripan antar dokumen ditentukan dengan mengukur jarak antar dokumen. Dua dokumen yang mempunyai jarak paling kecil dikatakan mempunyai kemiripan paling tinggi, dan dikelompokkan ke dalam satu gugus yang sama. Sebaliknya dua

Page 8: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

dokumen yang mempunyai jarak paling besar dikatakan mempunyai kemiripan paling rendah, dan dimasukkan ke dalam gugus yang berbeda. Beberapa metode yang dapat digunakan untuk menentukan jarak antar dua dokumen antara lain: single link, complete link, group average link, Ward’s method, centroid method dan median method (Rasmussen, 1992: 426-7). CARA KERJA CLUSTERING ENGINE : VIVISIMO (http://www.vivisimo.com) Vivisimo adalah bahasa Romawi yang artinya “lively, bright and clever” (cemerlang, cerdas dan pintar). Vivisimo dikembangkan pada Juni 2000 di Computer Science Departement, Carnegie Mellon University yang berlokasi di Pittsburgh Pennsylvania USA. Vivisimo mengklaim dirinya sebagai mesin pengggugus, bukan mesin penelusur. Ia tidak mengindeks web sebagaimana yang dilakukan oleh mesin penelusur, tetapi mengorganisasi hasil pengindeksan mesin penelusur lain. Inti teknologi Vivisimo adalah “document clustering”, yang secara otomatis mengorganisir dokumen ke dalam kelompok yang bermakna (http://www.vivisimo.com/html/faq.html). Proses yang dikerjakan oleh Vivisimo adalah menerima query dari pemakai kemudian melakukan meta-search atas dasar query tersebut terhadap hasil pengindeksan yang dilakukan oleh beberapa mesin penelusur. Hasil meta-search ini kemudian dikelompokkan secara otomatis untuk membentuk kelompok dokumen dan kemudian memberinya label. Terakhir, hasil yang berupa kelompok dokumen yang telah diberi label ini kemudian ditampilkan kepada pemakai dengan tampilan seperti windows explorer. Proses ini dapat dilihat pada Gambar 4.

Page 9: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Gambar 4. Cara kerja Vivisimo (http://vivisimo/html/products.html).

Adapun sintaks query pada Vivisimo hampir sama dengan sintaks query pada mesin penelusur secara umum. Query dapat dimasukkan dengan menggunakan operator Boolean (AND, OR dan NOT), dengan operator proximity (NEAR), berupa frase yaitu dengan memasukkan kalimat dalam tanda kutip (“frase”) dan sebagainya. Sintaks query yang dapat dimasukkan untuk melakukan temu kembali informasi di internet melalui Vivisimo secara lengkap dapat dilihat pada Lampiran 1.

Page 10: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

ANALISIS HASIL PENELUSURAN Untuk membandingkan unjuk kerja mesin penggugus dan mesin penelusur dalam proses temu kembali informasi di internet, telah dilakukan penelusuran informasi dengan menggunakan Vivisimo sebagai mesin penggugus dan salah satu mesin penelusur yang cukup populer yaitu Google. Penelusuran informasi dengan mesin penggugus Vivisimo dilakukan melalui situs http://www.vivisimo.com/ dan penelusuran informasi dengan mesin penelusur Google dilakukan melalui situs http://www.google.com. Penelusuran dilakukan dengan memasukkan frase: “DOCUMENT CLUSTERING” sebagai query pada masing-masing engine.

Hasil yang diperoleh adalah seperti tercantum pada Gambar 5 untuk penelusuran menggunakan mesin penggugus Vivisimo dan Gambar 6 untuk penelusuran menggunakan mesin penelusur Google. Kedua hasil penelusuran tersebut mempunyai karakteristik yang berbeda seperti terlihat pada Tabel 1.

Gambar 5. Hasil Penelusuran menggunakan Vivisimo

Page 11: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Gambar 6. Hasil penelusuran menggunakan Google

Tabel 1. Perbandingan hasil penelusuran menggunakan Vivisimo dan Google

Vivisimo Google 1. Jumlah dokumen

yang ditemukan 133 5.330

2. Tampilan Dikelompokkan dalam 10 gugus dokumen

Ditampilkan dalam bentuk daftar per halaman

3. Browsing Membuka masing-masing gugus dokumen

Membuka halaman demi halaman

4. Alat bantu interpretasi atau penilaian relevansi

Label pada masing-masing gugus dokumen

Tidak ada

Vivisimo ‘hanya’ berhasil menjaring133 dokumen yang dikelompokkan ke dalam 10 (sepuluh) gugus yang masing-masing diberi label yang sesuai dengan

Page 12: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

karakteristik yang menonjol dalam kelompok tersebut. Label gugus adalah “hierarchical”, “researches”, “visualization”, “classification”, “search engine”, “slide”, “document clustering”, “effectively”, “mining”, dan “publication”. Adapun Google berhasil menjaring sebanyak 5.330 dokumen yang ditampilkan dalam bentuk daftar (list) per halaman. Tiap-tiap halaman berisi 10 dokumen, sehingga hasil penelusuran tersebut secara keseluruhan ditampilkan dalam 533 halaman. Penyajian hasil penelusuran pada Vivisimo dalam bentuk gugus sangat membantu pemakai dalam menemukan informasi yang relevan dengan kebutuhannya. Misalnya untuk kasus di atas, apabila pemakai mencari informasi tentang “document clustering” yang berkaitan atau berupa hasil penelitian, maka ia tidak perlu menjelajah seluruh dokumen hasil pencarian. Ia cukup memeriksa gugus yang berlabel researches yang berisi dokumen dengan topik “document clustering” yang berkaitan atau berupa hasil penelitian. Atau jika kurang puas maka ia dapat memeriksa gugus yang lain yang menurutnya berisi dokumen dengan topik yang dekat atau mirip dengan topik yang sedang ia cari. Atau ia dapat melakukan perbaikan query untuk melakukan penelusuran selanjutnya berdasar hasil yang ia peroleh dari query pertama. Hal ini sesuai dengan beberapa penelitian yang telah dikemukakan oleh Hearst dan Pederson (1996); Leuski, Anton dan James Allan (2000); dan Leuski (2001). Di sisi lain, hasil yang disajikan oleh Google dalam bentuk daftar, kurang membantu pemakai untuk menemukan informasi yang ia butuhkan. Ia harus menjelajah seluruh hasil pencarian halaman demi halaman untuk menemukannya. Hal ini tentu tidak efisien, sebab untuk kasus di atas ia harus menjelajah 533 halaman yang memuat 5.330 dokumen yang seringkali terdapat duplikasi. Dengan demikian mesin penggugus ini cocok bagi sebagian besar pencari informasi di internet yang tidak dapat merumuskan kebutuhan informasinya dalam bentuk query yang spesifik (novice user). Apalagi hasil penelitian Amanda Spink, et al. (2001) menunjukkan bahwa sebagian besar pemakai internet sangat jarang menggunakan fitur-fitur penelusuran yang kompleks (advanced). Namun dari sisi perolehan, Google dapat menjaring lebih banyak dokumen dari pada vivisimo. Seringkali dokumen yang berhasil dijaring oleh Google tidak terjaring melalui Vivisimo. Hal ini menunjukkan bahwa hasil pencarian Google sangat komprehensif. Hasil penelusuran yang komprehensif ini sangat bermanfaat bagi para pencari informasi yang dapat merumuskan kebutuhan informasinya secara jelas sehingga dapat memastikan mana informasi yang relevan dengan kebutuhannya dan mana informasi yang tidak relevan. Berdasarkan karakteristik hasil penelusuran tersebut maka mesin penggugus dapat digunakan sebagai titik tolak dalam melakukan temu kembali informasi di internet. Maksudnya, pada saat temu kembali informasi di internet, pemakai pertama kali dapat melakukan penelusuran sederhana melalui mesin penggugus. Setelah memperoleh hasil yang relevan dengan kebutuhannya namun masih kurang puas, ia dapat memperbaiki query untuk melakukan penelusuran lebih lanjut berdasarkan hasil yang diberikan oleh mesin penggugus tersebut. Penelusuran dengan query yang kompleks ini dapat dilakukan dengan memanfaatkan mesin penelusur yang terbukti dapat menjaring informasi yang lebih komprehensif daripada mesin penggugus.

Page 13: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Dengan demikian maka mesin penggugus dan mesin penelusur dapat digunakan secara komplemen dalam suatu penelusuran secara suksesif sehingga proses temu kembali informasi dapat berjalan secara lebih mudah dan diperoleh hasil yang konprehensif. KESIMPULAN Penerapan analisis gugus dalam sistem temu kembali informasi berbasis internet bertujuan untuk mengelompokkan dokumen ke dalam gugus-gugus berdasarkan kesamaan antar dokumen. Vivisimo merupakan mesin penggugus yang berfungsi untuk mengelompokkan dokumen-dokumen yang ditemukan oleh beberapa mesin penelusur dalam suatu proses penelusuran. Berdasarkan query dari pemakai mesin penggugus Vivisimo melakukan meta-search terhadap hasil pengideksan yang dilakukan oleh beberapa mesin penelusur. Hasil meta-search ini kemudian dikelompokkan menjadi gugus-gugus yang secara otomatis diberi label, dan kemudian ditampilkan kepada pemakai dengan tampilan seperti windows explorer. Gugus-gugus yang terbentuk dapat membantu pencari informasi dalam melakukan penjelajahan dan pemberian interpretasi atau penilaian relevansi terhadap hasil penelusuran. Dengan demikian dapat dikatakan bahwa mesin penggugus sangat bermanfaat bagi pemakai terutama pemakai pemula (novice user) dalam mencari informasi di internet. Namun dari sisi lain, mesin penelusur dapat memberikan hasil penelusuran dalam jumlah yang lebih komprehensif. Dengan demikian maka mesin penggugus dan mesin penelusur dapat digunakan secara komplemen dalam suatu penelusuran secara suksesif sehingga proses temu kembali informasi dapat berjalan secara lebih mudah dan diperoleh hasil yang konprehensif. DAFTAR PUSTAKA 1. CAN, FAZLI , On the Efficiency of Best-Match Cluster Searches,. Information

Processing & Management, 30 (3) (1994) 343-361

Page 14: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

2. CHARIKAR, MOSES, ET AL, Incremental Clustering and Dynamic Information

Retrieval, Proceedings of the 29th Annual Symposium on the Theory of Computing, http://theory.stanford.edu/~moses/papers/incremental_clustering.ps (Diakses 27 April 2002), (1997)

3. ELLIS, DAVID, Progress and Problems in Information Retrieval, 2nd ed. London:

Library Association (1996) 4. GORDON, MICHAEL D, User-Based Document Clustering by Redescribing

Subject Descriptions with a Genetic Algorithm, . Journal of American Society for Information Science, 42 (5) (1991) 311-322

5. HARPER, DAVID J., MOURAD MECHKOUR, DAN GHEORGHE

MURESAN, Document Clustering for Mediated Information Acces, Proceeding of 21st BCS-IRSG Colloquium on Information Retrieval, Glasgow http://www.scms.rgu.ac.uk/staff/gm/public/irsg99pres.pdf (Diakses 27 April 2002),(1999)

6. HEARST, MARTI A. DAN JAN O. PEDERSE,.Reexamining the Cluster

Hypothesis: Scatter/Gather on Retrieval Results, Proceedings of the Nineteenth Annual International ACM SIGIR Conference, Zurich, http://www.sims.berkeley.edu/~hearst/papers/sg-sigir96/sigir96.html (Diakses pada 26 April 2002), June(1999)

7. http://www.synaptica.com/ (Diakses 16 Maret 2002) 8. JIAN ZHANG, et al., (2001). Improving the Effectiveness of Information Retrieval

with Clustering and Fusion. Akan diterbitkan di Computational Linguistics and Chinese Language Processing, 2001, http://www.research.microsoft.com/~jfgao/ paper/clclp01-2.pdf (Diakses 27 April 2002)

9. JONES, GARETH, et al, Non-Hierarchic Document Clustering Using a Genetic

Algorithm, Information Research, 1 (1), http://informationr.net/ir/1-1/paper1.html (Diakses 16 Maret 2002), (1995)

10. LEUSKI, ANTON, Evaluating Document Clustering for Interactive Information

Retrieval,. http://www.ciir.cs.umass.edu/pubfiles/ir-235.pdf (Diakses 25 April 2002), (2001)

11. LEUSKI, ANTON DAN JAMES ALLAN, Improving Interactive Retrieval by Combining Ranked List and Clustering, Proceedings of RIAO 2000 Conference,

Page 15: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Paris http://www.ir.iit.edu/~dagr/IRCourse/Fall2000/Presentation/OriginalPapers/ CombineRankedListClustering.pdf. (Diakses 25 April 2002), (2001)

12. QUARESMA, PAOLO DAN IRENE P. RODRIGUES, Automatic Classification

and Intelligent Clustering for WWWeb Information Retrieval Systems , The Journal of Information, Law and Technology (JILT), 2, http://elj.warwick.ac.uk/jilt/00-2/quaresma.html (Diakses 5 April 2002), (2000)

13. RASMUSSEN, EDIE,.Clustering Algorithms, dalam William B. Frakes dan

Ricardo Baeza-Yates, eds, Information Retrieval: Data Structures & Algorithms . Englewood Cliff: Prentice-Hall, (1992) 419-442

14. SALTON, G, Cluster Search Strategies and the Optimization of Retrieval

Efectiveness, dalam G. Salton, ed. The SMART Retrieval System: Experiments in Automatic Document Processing. Englewood Cliffs: Prentice-Hall, (1971) 223-242

15. SALTON, G, Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer. Reading, Massachusetts: Addison-Wesley (1989)

16. SPINK, AMANDA, et al., Searching the Web: The public and Their Queries,

Journal of the American Society for Information Science and Technology (JASIST), 52 (3) (2001) 226-234

17. ZAMIR, OREN DAN OREN ETZIONI, Web Document Clustering: A Feasibility

Demonstration, Proceedings of the 21st Annual International ACM SIGIR Conference, Melbourne. http://www.cs.washington.edu/research/projects/ WebWare1/etzioni/www/papers/sigir98.pdf (Diakses 30 April 2002), (1998)

18. ZERVAS, GIORGOS DAN STEFAN M. RUGER, The Curse of Dimensionality

and Document Clustering, , http://km.doc.ic.ac.uk/pr-g.zervas-1999/abstract.html (Diakses 16 Maret 2002), (1999)

Page 16: PEMANFAATAN ANALISIS GUGUS (CLUSTER ANALYSIS …digilib.batan.go.id/e-prosiding/File Prosiding/Informatika/lkstn... · sekedar “sampah”, tersedia melimpah di internet. ... pada

Lampiran 1. Sintaks Penelusuran Melalui Vivisimo (http://vivisimo.com/html/syntax.html)

AND or + or and or nothing

Finds documents containing all of the specified words or phrases. Video AND disc finds documents with both the word video and the word disc. Note that this is the default option.

" " Finds documents containing the exact phrase. "Video disc" would find documents about video discs and not only about discs and/or videos in general.

OR or or Finds documents containing at least one of the specified words or phrases. Video OR disc finds documents containing either video or disc. The documents returned can contain both words, but not necessarily.

AND NOT,NOT or -

Excludes documents containing the specified word or phrase. Video AND NOT disc finds documents with video but not containing disc.

NEAR or ~ Finds documents containing both specified words or phrases close to each other. Video NEAR disc would find documents with video disc, but probably not any other kind of disc.

( ) Use parentheses to group complex Boolean phrases. For example, (video AND disc) AND (recorder OR player) finds documents with the words 'video disc and recorder' or 'video disc and player' or both.

domain:domainname

Finds pages within the specified domain. Use domain:fr to find pages from France, or use domain:edu to find pages from educational sites. Do not put a space before or after the colon. You must repeat the keyword to search for more than one word or phrase; for example, applet:myapp OR applet:myotherapp to find pages containing an applet called either myapp or myotherapp.

host: or site:hostname

Finds pages on a specific host. The search host:yahoo.com would find pages on whose host name (the first part of the URL) contains yahoo.com (like www.yahoo.com, infos.yahoo.com.uk, etc...).

image:filename

Finds pages with images having a specific filename. Use image:france to find pages with images having names containing the word france.

link:URLtext Finds pages with a link to a page with the specified URL text. Use link:vivisimo.com to find all pages linking to vivisimo.com.

linktext:text Finds pages that contain the specified word or phrase in the text of a hyperlink. linktext:review +films would find pages with review in a link and with the word films in the content of the page.

related:URLtext

Finds pages similar to or related to the specified URL. For example, related:www.cmu.edu finds Web sites related to Carnegie Mellon University. related:www.travel.com.uk finds travel sites in United Kingdom. Note that we use the capabilities of the underlying mesin penelusurs and are not responsible for the quality of the match...

text:text Finds pages that contain the specified text in any part of the page other than an image tag, link, or URL.

title:text Finds pages that contain the specified word or phrase in the page title (which appears in the title bar of most browsers).

url:text Finds pages with a specific word or phrase anywhere in the URL. Use url:video to find all pages on all servers that have the word video anywhere in the host name, path, or filename.

Moh. Zen
Moh. Zen
HOME
Moh. Zen
KOMPUTASI DALAM SAINS DAN TEKNOLOGI NUKLIR XIII