Upload
shand-potter
View
219
Download
0
Embed Size (px)
Citation preview
8/19/2019 Bahan STBI-After_MID.ppt
1/58
Gambar Kerangka dari sistem temu-kembali informasi sederhana
8/19/2019 Bahan STBI-After_MID.ppt
2/58
Metodologi Indexing Teks
Gambar. Metodologi Indexing Text
Weighting
8/19/2019 Bahan STBI-After_MID.ppt
3/58
A. Tokenizing
Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,
paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed
word . Tahapan ini juga menghilangkan karakter-karakter tertentu seperti
tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case).
Gambar. Flowchart Tokenization
8/19/2019 Bahan STBI-After_MID.ppt
4/58
ntuk pemisahan kalimat ke bentuk kata menggunakan fungsi !"!
explode().
Pseudocode :
explode(# #, #$ua la%anan populer milik Google&)'
8/19/2019 Bahan STBI-After_MID.ppt
5/58
B. Filtering
Tahap filtering adalah tahap pengambilan kata-kata %ang penting dari
hasil tokeniing. Tahap filtering ini menggunakan daftar stoplist atau
ordlist. Tahap filtering adalah proses penghapusan kata buang yaitukata sambung, kata depan, kata ganti, dll. *ontoh stop words dalam
bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, sa%a, ini,
itu, atau, dan, tersebut, pada, dengan, adalah, %aitu, ke, tak, tidak, di,
pada, jika, maka, ada, pun, lain, saja, han%a, namun, seperti,kemudian, karena, untuk, dll. !roses filtration menggunakan fungsi
PHP : str+replace(). $ibaah ini adalah array stopword yang telah di
inputkan beserta contoh penggunaan fungsi str+replace()
8/19/2019 Bahan STBI-After_MID.ppt
6/58
8/19/2019 Bahan STBI-After_MID.ppt
7/58
$ata arra% akan dibaca oleh fungsi foreach
teks adalah dokumen berita %ana akan diproses oleh filtration.
$ibaah ini flowchart proses filtration :
Gambar. Flowchart Filtration
8/19/2019 Bahan STBI-After_MID.ppt
8/58
8/19/2019 Bahan STBI-After_MID.ppt
9/58
C. temming
temming adalah proses mengubah kata menjadi kata dasarn%a dengan
menghilangkan imbuhan-imbuhan pada kata dalam dokumen.
temming disini menggunakan kamus daftar kata berimbuhan yang mempun%ai
kata dasarn%a dengan cara membandingkan kata-kata %ang ada dalam dokumen
berita dengan daftar kamus stem. Proses stemming menggunakan fungsi !"!
str+replace. /erikut ini adalah contoh penggunaan%a
8/19/2019 Bahan STBI-After_MID.ppt
10/58
8/19/2019 Bahan STBI-After_MID.ppt
11/58
*ontoh kamus stemming :
Tabel. Kamus Stem
8/19/2019 Bahan STBI-After_MID.ppt
12/58
8/19/2019 Bahan STBI-After_MID.ppt
13/58
8/19/2019 Bahan STBI-After_MID.ppt
14/58
8/19/2019 Bahan STBI-After_MID.ppt
15/58
8/19/2019 Bahan STBI-After_MID.ppt
16/58
!. Indexing
Teks dokumen %ang telah melalui proses tokeniing, filtering, dan
stemming, kemudian di-indeks ke dalam database.
8/19/2019 Bahan STBI-After_MID.ppt
17/58
Weighting
!embobotan kata sangat berpengaruh dalam menentukan
kemiripan antara dokumen dengan !uery. "pabila bobot tiap kata
dapat ditentukan dengan tepat, diharapkan hasil perhitungankemiripan teks akan menghasilkan perangkingan dokumen %ang
baik.
/obot term di dalam Information #etrie$al ystem %&' dihitungmenggunakan tf(idf yang didefinisikan sebagai berikut.
8/19/2019 Bahan STBI-After_MID.ppt
18/58
Algoritma TF/IDF (Term Frequency – Inversed Document Frequency
!ada algoritma T)*I+) digunakan rumus untuk menghitung bobot %&' masing (
masing dokumen terhadap kata kunci dengan rumus %aitu
$imana
d 0 dokumen ke-dt 0 kata ke-t dari kata kunci
1 0 bobot dokumen ke-d terhadap kata ke-t
tf 0 ban%akn%a kata %ang dicari pada sebuah dokumen
I$2 0 In$ersed +ocument )re!uencyI$2 0 log34($5df)
$ 0 total dokumen
df 0 ban%ak dokumen %ang mengandung kata %ang dicari
8/19/2019 Bahan STBI-After_MID.ppt
19/58
etelah bobot (1) masing-masing dokumen diketahui, maka
dilakukan proses sorting*pengurutan dimana semakin besar nilai &,
semakin besar tingkat similaritas dokumen tersebut terhadap kata
kunci, demikian sebaliknya. ontoh implementasi sederhana dari T)( I+) adalah sebagai berikut:
6ata kunci (kk) 0 pengetahuan logistik
$okumen 3 ($3) 0 manajemen transaksi logistik
$okumen 7 ($7) 0 pengetahuan antar indi8idu$okumen 9 ($9) 0 dalam manajemen pengetahuan terdapat
transfer pengetahuan
logistik
:adi jumlah dokumen ($) 0 9etelah dilakukan tahap tokenizing dan !roses "iltering , maka kata antar
pada dokumen 7 serta kata dalam dan terda"at pada dokumen 9 dihapus.
/erikut ini adalah tabel perhitungan T25I$2
8/19/2019 Bahan STBI-After_MID.ppt
20/58
bobot (&' untuk +- /
bobot %&' untuk +0 /
bobot %&' untuk +1 /
8/19/2019 Bahan STBI-After_MID.ppt
21/58
$ari contoh studi kasus di atas, dapat diketahui baha nila i bobot
(1) dari $3 dan
$9 adalah sama. ;pabila hasil pengurutan bobot dokumen tidakdapat mengurutkan secara tepat, karena nilai 1 keduan%a sama,
maka diperlukan proses perhitungan dengan algoritma $ector(space
model. Ide dari metode ini adalah dengan menghitung
nilai cosinus sudut dari dua 8ektor, %aitu 1 dari tiap dokumen dan
1 dari kata kunci.
8/19/2019 Bahan STBI-After_MID.ppt
22/58
StopList dan StemmingStopList dan Stemming
8/19/2019 Bahan STBI-After_MID.ppt
23/58
Sistem Temu-Balik Informasi
Sistem temu-balik informasi pada prinsipnya adalahsuatu sistem yang sederhana. Misalkan ada sebuahkumpulan dokumen dan seorang user yangmemformulasikan sebuah pertanyaan (request atau
query ). Jawaban dari pertanyaan tersebut adalahsekumpulan dokumen yang relevan dan membuangdokumen yang tidak relevan. Secara matematis haltersebut dapat dituliskan sebagai berikut
8/19/2019 Bahan STBI-After_MID.ppt
24/58
M;T*"
(
8/19/2019 Bahan STBI-After_MID.ppt
25/58
n ormas
/asisdata5Metadata
(=ecord)>
8/19/2019 Bahan STBI-After_MID.ppt
26/58
$ %erbandingan istilah query dan Dokumen
$ &'act match sesuai antara uery dan okumen *ibrary automation +,uery
*ibrary automation +okumen
$ %artial Match sebagian sesuai antara uery dan
okumen (trancation. / 0)lib and auto atau lib0 and auto0
$ okumen paling mirip dengan ,uery ditempatkanpaling atas dan probabilitas relevansinya cukup tinggi
dengan ,uery
8/19/2019 Bahan STBI-After_MID.ppt
27/58
$ %enyimpanan dokumen dlm bentukterstruktur dan tidak terstruktur
$ 1ahasa %engindekan (terkendali 2 bebas)
$ "ebutuhan #nformasi pengguna (uery)
$ Strategi penelusuran (Search %ro3le)
$ "umpulan dokumen yang itemukan (sedikit2 banyak)
$ &valuasi 4elevansi (4elevant 5udment) %enilaian individu 1erbeda
8/19/2019 Bahan STBI-After_MID.ppt
28/58
indexing Sistem temu-kembali informasi pada dasarnyadibagi dalam dua komponen utama yaitu sistempengindeksan (indexing) yang menghasilkan basisdata sistem dan temukembali yang merupakan
gabungan dari user interface dan look-up-table.$ Indexing merupakan sebuah proses untuk
melakukan pengindeksan terhadap kumpulandokumen yang akan disediakan sebagai informasikepada pemakai. %roses pengindeksan bisa secara
manual ataupun secara otomatis.
8/19/2019 Bahan STBI-After_MID.ppt
29/58
!ahapan
%engindeksan$ Parsing okumen yaitu proses pengambilankata-kata dari kumpulan dokumen.
$ Stoplist yaitu proses pembuangan kata buang
seperti tetapi, yaitu, sedangkan, dansebagainya.
$ Stemming yaitu proses penghilangan6pemotongan dari suatu kata men5adi bentukdasar. "ata 7diadaptasikan8 atau 7beradaptasi8
me5adi kata 7adaptasi8 sebagai istilah.$ Term Weighting dan Inverted File yaitu proses
pemberian bobot pada istilah.
8/19/2019 Bahan STBI-After_MID.ppt
30/58
!eknik pembobotan
9. !eknik pembobotan berdasarkan frekuensikemunculan istilah pada satu dokumen. !eknikpembobotan ini cukup sederhana dimana bobotsuatu istilah pada sebuah dokumen berdasarkan
5umlah kemunculannya pada dokumen tersebut.:. !eknik pembobotan berdasarkan rumus yaitu
8/19/2019 Bahan STBI-After_MID.ppt
31/58
.....!eknik pembobotan
$ imana
$ Wik adalah bobot istilah k pada dokumen i.
$ tf ik merupakan frekuensi dari istilah k dalamdokumen i.
$ n adalah 5umlah dokumen dalam kumpulandokumen.
$ df k adalah 5umlah dokumen yang mengandungistilah k.
$ Max 5 tf i5 adalah frekuensi istilah terbesar padasatu dokumen.
8/19/2019 Bahan STBI-After_MID.ppt
32/58
teknik temu-kembali
informasi;da beberapa teknik temu-kembaliinformasi yang telah dikembangkan
yaitu teknik oolean sederhana danteknik oolean berperingkat sertateknik !xtended oolean
8/19/2019 Bahan STBI-After_MID.ppt
33/58
!eknik 1oolean? Teknik 2oolean merupakan suatu cara dalam mengekspresikan
keinginan pemakai ke sebuah kueri dengan mamakai operator-
operator 2oolean %aitu #and&, #or&, dan #not&. ;dapun
maksud dari operator #and& adalah untuk menggabungkan
istilah-istilah kedalam sebuah ungkapan, dan operator #or&adalah untuk memperlakukan istilah-istilah sebagai sinonim,
sedangkan operator #not& merupakan sebuah pembatasan.? Teknik 2oolean sederhana, kueri diproses sesuai dengan
operator %ang digunakan dan menampilkan dokumen
berdasarkan urutan dokumen ditemukan.
? Teknik 2oolean berperingkat, dokumen diperingkat berdasarkan bobot dari dokumen. ;dapun pembobotan dari
masing-masing dokumen berdasarkan aturan sebagai berikut
8/19/2019 Bahan STBI-After_MID.ppt
34/58
..."omponen Sistem #4
$imana d; men%atakan bobot istilah ; pada dokumen $. /obot
istilah ini didapat dari hasil proses Inde3ing . Min(d;,d/) berarti
baha sebuah dokumen di retrie$e dengan bobot sebesar nilai
terkecil dari bobot-bobot istilah %ang dipun%ain%a.Max(d;,d/) berarti baha sebuah dokumen di retrie$e dengan
bobot sebesar nilai terbesar dari bobot-bobot istilah %ang
dipun%ain%a.
8/19/2019 Bahan STBI-After_MID.ppt
35/58
!eknik !xtended oolean !eknik !xtended oolean berdasarkan p-norm modelmerupakan pengembangan lebih lan5ut dari modeloolean" !eknik ini memakai operatoryangdikomputasi berdasarkan rumus Savoy/ sebagaiberikut
8/19/2019 Bahan STBI-After_MID.ppt
36/58
Sistem %encarian Web
8/19/2019 Bahan STBI-After_MID.ppt
37/58
;rea !erkait
$ Mana5emen 1asis ata
$ #lmu %erpustakaan dan #nformasi
$ "ecerdasan 1uatan$ %emrosesan bahasa alamai
$ %embela5aran Mesin
8/19/2019 Bahan STBI-After_MID.ppt
38/58
4elevansi$ 4elevansi merupakan suatu #udgment
(keputusan) subyektif dan dapatdidasarkan pada
< topik yang tepat.< waktu (informasi terbaru).
< otoritatif (dari suatu sumber terpercaya).
< kebutuhan informasi dari pengguna.
$ Kriteria relevansi utama suatu sistem #4sebaiknya (harus) memenuhi kebutuhaninformasi pengguna.
8/19/2019 Bahan STBI-After_MID.ppt
39/58
%encarian "eyword
$ #de paling sederhana dari relevansiapakah string ,uery ada di dalamdokumen (kata demi kata/verbatim)=
$ #de yang lebih >eksibel 1erapasering kata-kata di dalam ,uery
muncul di dalam dokumen/ tanpamelihat urutannya (bag of words)=
8/19/2019 Bahan STBI-After_MID.ppt
40/58
Masalah dengan "eyword
$ Mungkin tidak meretrieve dokumen relevanyang menyertakan synonymous terms.
< 7restaurant8 vs. 7caf?8
< 7@AB8 vs. 7@ational ong AwaBniversity8
$ Mungkin meretrieve dokumen tak-relevanyang menyertakan ambiguous terms.
< 7bat8 (baseball vs. mamalia)
< 7;pple8 (perusahaan vs. buah-buahan)
< 7bit8 (unit data vs. perilaku menggigit)
8/19/2019 Bahan STBI-After_MID.ppt
41/58
1ukan Sekedar "eyword$ "ita akan mendiskusikan dasar-dasar #4
berbasis key$ord/ tetapiC
< Dokus pada perluasan dan pengembangan
terakhir untuk mendapatkan hasil terbaik.$ "ita akan membahas dasar-dasarpembangunan sistem #4 yang e3sien/ tetapiC
< Dokus pada algoritma dan kemampuandasar/ bukan masalah sistem yangmemungkinkan pengembangan kedatabase ukuran industri.
8/19/2019 Bahan STBI-After_MID.ppt
42/58
#4 Eerdas
$ Memanfaatkan pengertian atau makna darikata yang digunakan.
$ Melibatkan urutan kata di dalam ,uery.
$ 1eradaptasi dengan pengguna berdasarkan padafeedback , langsung atau tidak langsung.
$ Memperluas pencarian dengan term terkait.
$ Menger5akan pemeriksaan ejaaan6perbaikantanda pengenal otomatis.
$ Memanfaatkan Otoritas dari sumber informasi.
8/19/2019 Bahan STBI-After_MID.ppt
43/58
#ndeks$ Sistem #4 5arang mencari koleksi dokumen secara
langsung. 1erdasarkan pada koleksi dokumen/ dibangunsebuah index. %engguna mencari inde' tersebut.
8/19/2019 Bahan STBI-After_MID.ppt
44/58
#nde'ing Ftomatis
$ !u5uan dari automatic indexing adalahmembangun index dan meretrieveinformasi tanpa intervensi manusia.
$ "etika informasi yang dicari adalah teks/metode automatic indexing akan sangatefektif.
$ %enelitian automatic indexing fundamental
dimulai oleh erald Salton/ %rofessor ofEomputer Science di Eornell 2 mahasiswa%asca-Sar5ananya (Sistem SM;4!).
8/19/2019 Bahan STBI-After_MID.ppt
45/58
#4 dari "oleksi 1esar
$ Information retrieval dari koleksi sangat besarbersandar pada
< Jumlah computer po$er yang besar untuk
menger5akan algoritma sederhana terhadap 5umlah data yang sangat banyak.
$ komputasi kinerja-tinggi
< %emahaman pengguna terhadap informasi dankemampuan dari sistem.
$ Interaksi manusia - komputer$ Ma!"ine-learning banyak digunakan untuk
mendapatkan kiner5a terbaik.
8/19/2019 Bahan STBI-After_MID.ppt
46/58
Searching 2 1rowsing
? @rang dalam perulangan
8/19/2019 Bahan STBI-After_MID.ppt
47/58
#4 dari "oleksi okumen
!eks$ Kategori utama dari metode
< %anking kemiripan terhadap ,uery (vectorspace model).
< #en!o!okan exact (1oolean).< %anking berdasarkan tingkat kepentingan
dokumen (#age$ank )
< "ombinasi beberapa metode
$ Eontoh Web search engine/ seperti Google 2
Hahoo/ menggunakan metode kombinasi/berdasarkan pada pendekatan pertama dan ketiga/dengan kombinasi exact dipilih menggunakanmachine learning
8/19/2019 Bahan STBI-After_MID.ppt
48/58
#stilah %enting$ Information retrieval% sub-bidang ilmu
komputer yang berurusan dengan penemuankembali dokumen (khususnya teks) terotomatisberdasarkan pada content dan context nya.
$ Sear!"ing% %encarian informasi spesi3k di dalambadan informasi. Aasilnya adalah sehimpunan"it.
$ Bro&sing% &ksplorasi tak-terstruktur dari badaninformasi.
$ Linking% 1erpindah dari satu item ke item lainmengikuti link (sambungan) seperti ru5ukan(referensi).
8/19/2019 Bahan STBI-After_MID.ppt
49/58
...#stilah$ 'uer(% Suatu string teks/ menggambarkaninformasi yang sedang dicari pengguna. Setiap
kata dari ,uery dinamakan search term.
$ uery dapat berupa search term tunggal/ stringdari term/ frase atau ekspresi tertentu
menggunakan simbol khusus/ misalnya regularexpression.
$ #en!arian )ull text% Metode yangmembandingkan ,uery dengan setiap kata didalam teks/ tanpa membedakan fungsi dari
berbagai kata.$ #en!arian Bidang % Metode pencarian pada
bidang struktural atau bibliogra3s spesi3k/seperti penulis atau 5udul.
8/19/2019 Bahan STBI-After_MID.ppt
50/58
...#stilah
$ *orpus% "oleksi dokumen yang diindeks dan di5adikantarget pencarian.
$ +aftar kata% Aimpunan semua term yang digunakandalam indeks untuk suatu corpus (dikenal sebagai
vo!abular( ,le).$ %ada pencarian full text / word list adalah semua term di
dalam corpus/ stop &ords dihapus. !erm- term terkaitdikombinasi dengan stemming.
$ *ontrolled vo!abular( Metode inde'ing dimana $ord
list bersifat tetap. !erm-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen.
$ Ke(&ord% @ama untuk term-term dalam $ord list /terutama dengan controlled vocabulary
8/19/2019 Bahan STBI-After_MID.ppt
51/58
Mengurutan 2 4anking Ait
$ "etika pengguna men-submit suatu uer( kesistem I$/ sistem mengembalikan sehimpunan hit.%ada koleksi dokumen besar/ himpunan hit akansangat besar.
$ @ilai untuk pengguna sering tergantung padaurutan hit ditampilkan.
$ !iga metode utama
< Mengurutkan hit/ misal berdasarkan tanggal
< Meranking hit berdasarkan kemiripan antara,uery dan dokumen
< Meranking hit berdasarkan kepentingan daridokumen
8/19/2019 Bahan STBI-After_MID.ppt
52/58
#4 1erbasis !eks
$ Sebagian besar metode ranking didasarkan padamodel ruang vektor (vector space model ).
$ Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean.
$ Metode Web sear!" mengkombinasikan modelruang vektor dengan ranking berdasarkan padatingkat kepentingan dokumen.
$ 1anyak sistem (dalam praktek) menggabungkan3tur- 3tur dari beberapa pendekatan.
$ %ada bentuk dasar/ semua pendekatan menganggapkata sebagai token terpisah/ dengan usaha minimaluntuk memahami kata-kata secara linguistik.
8/19/2019 Bahan STBI-After_MID.ppt
53/58
Drekuensi "ata
$ Observasi% 1eberapa kata lebih umumdaripada yang lain.
$ Statistika% "oleksi sangat besar dari
dokumen teks tak-terstruktur mempunyaikarakteristik statistik serupa. Statistik ini
< Mempengaruhi efekti3tas dan e3siensidari struktur data yang digunakan untuk
mengindeks dokumen< 1anyak model retrieval
memanfaatkannya
8/19/2019 Bahan STBI-After_MID.ppt
54/58
...Drekuensi "ata
$ *onto" Eontoh berikut ini diambil dari
< Jamie Eallan/ &haracteristics of Text /9II
< 9I Juta kata sampel
< Slide berikut memperlihatkan KL katayang paling umum/ diranking (r)berdasarkan frekuensinya (f).
8/19/2019 Bahan STBI-After_MID.ppt
55/58
...Drekuensi "ata
8/19/2019 Bahan STBI-After_MID.ppt
56/58
istribusi 4anking
Drekuensi$ Bntuk semua kata di dalam suatu dokumen/ untuksetiap kata w
< f adalah frekuensi munculnya w
< r ranking dari w disusun menurut frekuensi. (kata
yang paling umum muncul mempunyai rank 9)
8/19/2019 Bahan STBI-After_MID.ppt
57/58
Eontoh Drekuensi 4ank
$ Slide berikut memperlihatkan kata-kata di dalam data Eallan yang telahdinormalisasi. alam contoh ini
< r adalah ranking dari kata w dalamsampel.
< f adalah frekuensi kata w di dalam
sampel.< n adalah 5umlah total kemunculan
kata di dalam sampel.
8/19/2019 Bahan STBI-After_MID.ppt
58/58
...Eontoh 4anking
Drekuensi