Bahan STBI-After_MID.ppt

8/19/2019 Bahan STBI-After_MID.ppt

1/58

Gambar Kerangka dari sistem temu-kembali informasi sederhana


2/58

Metodologi Indexing Teks

Gambar. Metodologi Indexing Text

Weighting


3/58

A. Tokenizing

Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,

paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed

word . Tahapan ini juga menghilangkan karakter-karakter tertentu seperti

tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case).

Gambar. Flowchart Tokenization


4/58

ntuk pemisahan kalimat ke bentuk kata menggunakan fungsi !"!

explode().

Pseudocode :

explode(# #, #$ua la%anan populer milik Google&)'


5/58

B. Filtering

Tahap filtering adalah tahap pengambilan kata-kata %ang penting dari

hasil tokeniing. Tahap filtering ini menggunakan daftar stoplist atau

ordlist. Tahap filtering adalah proses penghapusan kata buang yaitukata sambung, kata depan, kata ganti, dll. *ontoh stop words dalam

bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, sa%a, ini,

itu, atau, dan, tersebut, pada, dengan, adalah, %aitu, ke, tak, tidak, di,

pada, jika, maka, ada, pun, lain, saja, han%a, namun, seperti,kemudian, karena, untuk, dll. !roses filtration menggunakan fungsi

PHP : str+replace(). $ibaah ini adalah array stopword yang telah di

inputkan beserta contoh penggunaan fungsi str+replace()


6/58


7/58

$ata arra% akan dibaca oleh fungsi foreach

teks adalah dokumen berita %ana akan diproses oleh filtration.

$ibaah ini flowchart proses filtration :

Gambar. Flowchart Filtration


8/58


9/58

C. temming

temming adalah proses mengubah kata menjadi kata dasarn%a dengan

menghilangkan imbuhan-imbuhan pada kata dalam dokumen.

temming disini menggunakan kamus daftar kata berimbuhan yang mempun%ai

kata dasarn%a dengan cara membandingkan kata-kata %ang ada dalam dokumen

berita dengan daftar kamus stem. Proses stemming menggunakan fungsi !"!

str+replace. /erikut ini adalah contoh penggunaan%a


10/58


11/58

*ontoh kamus stemming :

Tabel. Kamus Stem


12/58


13/58


14/58


15/58


16/58

!. Indexing

Teks dokumen %ang telah melalui proses tokeniing, filtering, dan

stemming, kemudian di-indeks ke dalam database.


17/58

Weighting

!embobotan kata sangat berpengaruh dalam menentukan

kemiripan antara dokumen dengan !uery. "pabila bobot tiap kata

dapat ditentukan dengan tepat, diharapkan hasil perhitungankemiripan teks akan menghasilkan perangkingan dokumen %ang

baik.

/obot term di dalam Information #etrie$al ystem %&' dihitungmenggunakan tf(idf yang didefinisikan sebagai berikut.


18/58

Algoritma TF/IDF (Term Frequency – Inversed Document Frequency

!ada algoritma T)*I+) digunakan rumus untuk menghitung bobot %&' masing (

masing dokumen terhadap kata kunci dengan rumus %aitu

$imana

d 0 dokumen ke-dt 0 kata ke-t dari kata kunci

1 0 bobot dokumen ke-d terhadap kata ke-t

tf 0 ban%akn%a kata %ang dicari pada sebuah dokumen

I$2 0 In$ersed +ocument )re!uencyI$2 0 log34($5df)

$ 0 total dokumen

df 0 ban%ak dokumen %ang mengandung kata %ang dicari


19/58

etelah bobot (1) masing-masing dokumen diketahui, maka

dilakukan proses sorting*pengurutan dimana semakin besar nilai &,

semakin besar tingkat similaritas dokumen tersebut terhadap kata

kunci, demikian sebaliknya. ontoh implementasi sederhana dari T)( I+) adalah sebagai berikut:

6ata kunci (kk) 0 pengetahuan logistik

$okumen 3 ($3) 0 manajemen transaksi logistik

$okumen 7 ($7) 0 pengetahuan antar indi8idu$okumen 9 ($9) 0 dalam manajemen pengetahuan terdapat

transfer pengetahuan

logistik

:adi jumlah dokumen ($) 0 9etelah dilakukan tahap tokenizing dan !roses "iltering , maka kata antar

pada dokumen 7 serta kata dalam dan terda"at pada dokumen 9 dihapus.

/erikut ini adalah tabel perhitungan T25I$2


20/58

bobot (&' untuk +- /

bobot %&' untuk +0 /

bobot %&' untuk +1 /


21/58

$ari contoh studi kasus di atas, dapat diketahui baha nila i bobot

(1) dari $3 dan

$9 adalah sama. ;pabila hasil pengurutan bobot dokumen tidakdapat mengurutkan secara tepat, karena nilai 1 keduan%a sama,

maka diperlukan proses perhitungan dengan algoritma $ector(space

model. Ide dari metode ini adalah dengan menghitung

nilai cosinus sudut dari dua 8ektor, %aitu 1 dari tiap dokumen dan

1 dari kata kunci.


22/58

StopList dan StemmingStopList dan Stemming


23/58

Sistem Temu-Balik Informasi

Sistem temu-balik informasi pada prinsipnya adalahsuatu sistem yang sederhana. Misalkan ada sebuahkumpulan dokumen dan seorang user yangmemformulasikan sebuah pertanyaan (request atau

query ). Jawaban dari pertanyaan tersebut adalahsekumpulan dokumen yang relevan dan membuangdokumen yang tidak relevan. Secara matematis haltersebut dapat dituliskan sebagai berikut


24/58

M;T*"

(


25/58

n ormas

/asisdata5Metadata

(=ecord)>


26/58

$ %erbandingan istilah query dan Dokumen

$ &'act match sesuai antara uery dan okumen *ibrary automation +,uery

*ibrary automation +okumen

$ %artial Match sebagian sesuai antara uery dan

okumen (trancation. / 0)lib and auto atau lib0 and auto0

$ okumen paling mirip dengan ,uery ditempatkanpaling atas dan probabilitas relevansinya cukup tinggi

dengan ,uery


27/58

$ %enyimpanan dokumen dlm bentukterstruktur dan tidak terstruktur

$ 1ahasa %engindekan (terkendali 2 bebas)

$ "ebutuhan #nformasi pengguna (uery)

$ Strategi penelusuran (Search %ro3le)

$ "umpulan dokumen yang itemukan (sedikit2 banyak)

$ &valuasi 4elevansi (4elevant 5udment) %enilaian individu 1erbeda


28/58

indexing Sistem temu-kembali informasi pada dasarnyadibagi dalam dua komponen utama yaitu sistempengindeksan (indexing) yang menghasilkan basisdata sistem dan temukembali yang merupakan

gabungan dari user interface dan look-up-table.$ Indexing merupakan sebuah proses untuk

melakukan pengindeksan terhadap kumpulandokumen yang akan disediakan sebagai informasikepada pemakai. %roses pengindeksan bisa secara

manual ataupun secara otomatis.


29/58

!ahapan

%engindeksan$ Parsing okumen yaitu proses pengambilankata-kata dari kumpulan dokumen.

$ Stoplist yaitu proses pembuangan kata buang

seperti tetapi, yaitu, sedangkan, dansebagainya.

$ Stemming yaitu proses penghilangan6pemotongan dari suatu kata men5adi bentukdasar. "ata 7diadaptasikan8 atau 7beradaptasi8

me5adi kata 7adaptasi8 sebagai istilah.$ Term Weighting dan Inverted File yaitu proses

pemberian bobot pada istilah.


30/58

!eknik pembobotan

9. !eknik pembobotan berdasarkan frekuensikemunculan istilah pada satu dokumen. !eknikpembobotan ini cukup sederhana dimana bobotsuatu istilah pada sebuah dokumen berdasarkan

5umlah kemunculannya pada dokumen tersebut.:. !eknik pembobotan berdasarkan rumus yaitu


31/58

.....!eknik pembobotan

$ imana

$ Wik adalah bobot istilah k pada dokumen i.

$ tf ik merupakan frekuensi dari istilah k dalamdokumen i.

$ n adalah 5umlah dokumen dalam kumpulandokumen.

$ df k adalah 5umlah dokumen yang mengandungistilah k.

$ Max 5 tf i5 adalah frekuensi istilah terbesar padasatu dokumen.


32/58

teknik temu-kembali

informasi;da beberapa teknik temu-kembaliinformasi yang telah dikembangkan

yaitu teknik oolean sederhana danteknik oolean berperingkat sertateknik !xtended oolean


33/58

!eknik 1oolean? Teknik 2oolean merupakan suatu cara dalam mengekspresikan

keinginan pemakai ke sebuah kueri dengan mamakai operator-

operator 2oolean %aitu #and&, #or&, dan #not&. ;dapun

maksud dari operator #and& adalah untuk menggabungkan

istilah-istilah kedalam sebuah ungkapan, dan operator #or&adalah untuk memperlakukan istilah-istilah sebagai sinonim,

sedangkan operator #not& merupakan sebuah pembatasan.? Teknik 2oolean sederhana, kueri diproses sesuai dengan

operator %ang digunakan dan menampilkan dokumen

berdasarkan urutan dokumen ditemukan.

? Teknik 2oolean berperingkat, dokumen diperingkat berdasarkan bobot dari dokumen. ;dapun pembobotan dari

masing-masing dokumen berdasarkan aturan sebagai berikut


34/58

..."omponen Sistem #4

$imana d; men%atakan bobot istilah ; pada dokumen $. /obot

istilah ini didapat dari hasil proses Inde3ing . Min(d;,d/) berarti

baha sebuah dokumen di retrie$e dengan bobot sebesar nilai

terkecil dari bobot-bobot istilah %ang dipun%ain%a.Max(d;,d/) berarti baha sebuah dokumen di retrie$e dengan

bobot sebesar nilai terbesar dari bobot-bobot istilah %ang

dipun%ain%a.


35/58

!eknik !xtended oolean !eknik !xtended oolean berdasarkan p-norm modelmerupakan pengembangan lebih lan5ut dari modeloolean" !eknik ini memakai operatoryangdikomputasi berdasarkan rumus Savoy/ sebagaiberikut


36/58

Sistem %encarian Web


37/58

;rea !erkait

$ Mana5emen 1asis ata

$ #lmu %erpustakaan dan #nformasi

$ "ecerdasan 1uatan$ %emrosesan bahasa alamai

$ %embela5aran Mesin


38/58

4elevansi$ 4elevansi merupakan suatu #udgment

(keputusan) subyektif dan dapatdidasarkan pada

< topik yang tepat.< waktu (informasi terbaru).

< otoritatif (dari suatu sumber terpercaya).

< kebutuhan informasi dari pengguna.

$ Kriteria relevansi utama suatu sistem #4sebaiknya (harus) memenuhi kebutuhaninformasi pengguna.


39/58

%encarian "eyword

$ #de paling sederhana dari relevansiapakah string ,uery ada di dalamdokumen (kata demi kata/verbatim)=

$ #de yang lebih >eksibel 1erapasering kata-kata di dalam ,uery

muncul di dalam dokumen/ tanpamelihat urutannya (bag of words)=


40/58

Masalah dengan "eyword

$ Mungkin tidak meretrieve dokumen relevanyang menyertakan synonymous terms.

< 7restaurant8 vs. 7caf?8

< 7@AB8 vs. 7@ational ong AwaBniversity8

$ Mungkin meretrieve dokumen tak-relevanyang menyertakan ambiguous terms.

< 7bat8 (baseball vs. mamalia)

< 7;pple8 (perusahaan vs. buah-buahan)

< 7bit8 (unit data vs. perilaku menggigit)


41/58

1ukan Sekedar "eyword$ "ita akan mendiskusikan dasar-dasar #4

berbasis key$ord/ tetapiC

< Dokus pada perluasan dan pengembangan

terakhir untuk mendapatkan hasil terbaik.$ "ita akan membahas dasar-dasarpembangunan sistem #4 yang e3sien/ tetapiC

< Dokus pada algoritma dan kemampuandasar/ bukan masalah sistem yangmemungkinkan pengembangan kedatabase ukuran industri.


42/58

#4 Eerdas

$ Memanfaatkan pengertian atau makna darikata yang digunakan.

$ Melibatkan urutan kata di dalam ,uery.

$ 1eradaptasi dengan pengguna berdasarkan padafeedback , langsung atau tidak langsung.

$ Memperluas pencarian dengan term terkait.

$ Menger5akan pemeriksaan ejaaan6perbaikantanda pengenal otomatis.

$ Memanfaatkan Otoritas dari sumber informasi.


43/58

#ndeks$ Sistem #4 5arang mencari koleksi dokumen secara

langsung. 1erdasarkan pada koleksi dokumen/ dibangunsebuah index. %engguna mencari inde' tersebut.


44/58

#nde'ing Ftomatis

$ !u5uan dari automatic indexing adalahmembangun index dan meretrieveinformasi tanpa intervensi manusia.

$ "etika informasi yang dicari adalah teks/metode automatic indexing akan sangatefektif.

$ %enelitian automatic indexing fundamental

dimulai oleh erald Salton/ %rofessor ofEomputer Science di Eornell 2 mahasiswa%asca-Sar5ananya (Sistem SM;4!).


45/58

#4 dari "oleksi 1esar

$ Information retrieval dari koleksi sangat besarbersandar pada

< Jumlah computer po$er yang besar untuk

menger5akan algoritma sederhana terhadap 5umlah data yang sangat banyak.

$ komputasi kinerja-tinggi

< %emahaman pengguna terhadap informasi dankemampuan dari sistem.

$ Interaksi manusia - komputer$ Ma!"ine-learning banyak digunakan untuk

mendapatkan kiner5a terbaik.


46/58

Searching 2 1rowsing

? @rang dalam perulangan


47/58

#4 dari "oleksi okumen

!eks$ Kategori utama dari metode

< %anking kemiripan terhadap ,uery (vectorspace model).

< #en!o!okan exact (1oolean).< %anking berdasarkan tingkat kepentingan

dokumen (#age$ank )

< "ombinasi beberapa metode

$ Eontoh Web search engine/ seperti Google 2

Hahoo/ menggunakan metode kombinasi/berdasarkan pada pendekatan pertama dan ketiga/dengan kombinasi exact dipilih menggunakanmachine learning


48/58

#stilah %enting$ Information retrieval% sub-bidang ilmu

komputer yang berurusan dengan penemuankembali dokumen (khususnya teks) terotomatisberdasarkan pada content dan context nya.

$ Sear!"ing% %encarian informasi spesi3k di dalambadan informasi. Aasilnya adalah sehimpunan"it.

$ Bro&sing% &ksplorasi tak-terstruktur dari badaninformasi.

$ Linking% 1erpindah dari satu item ke item lainmengikuti link (sambungan) seperti ru5ukan(referensi).


49/58

...#stilah$ 'uer(% Suatu string teks/ menggambarkaninformasi yang sedang dicari pengguna. Setiap

kata dari ,uery dinamakan search term.

$ uery dapat berupa search term tunggal/ stringdari term/ frase atau ekspresi tertentu

menggunakan simbol khusus/ misalnya regularexpression.

$ #en!arian )ull text% Metode yangmembandingkan ,uery dengan setiap kata didalam teks/ tanpa membedakan fungsi dari

berbagai kata.$ #en!arian Bidang % Metode pencarian pada

bidang struktural atau bibliogra3s spesi3k/seperti penulis atau 5udul.


50/58

...#stilah

$ *orpus% "oleksi dokumen yang diindeks dan di5adikantarget pencarian.

$ +aftar kata% Aimpunan semua term yang digunakandalam indeks untuk suatu corpus (dikenal sebagai

vo!abular( ,le).$ %ada pencarian full text / word list adalah semua term di

dalam corpus/ stop &ords dihapus. !erm- term terkaitdikombinasi dengan stemming.

$ *ontrolled vo!abular( Metode inde'ing dimana $ord

list bersifat tetap. !erm-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen.

$ Ke(&ord% @ama untuk term-term dalam $ord list /terutama dengan controlled vocabulary


51/58

Mengurutan 2 4anking Ait

$ "etika pengguna men-submit suatu uer( kesistem I$/ sistem mengembalikan sehimpunan hit.%ada koleksi dokumen besar/ himpunan hit akansangat besar.

$ @ilai untuk pengguna sering tergantung padaurutan hit ditampilkan.

$ !iga metode utama

< Mengurutkan hit/ misal berdasarkan tanggal

< Meranking hit berdasarkan kemiripan antara,uery dan dokumen

< Meranking hit berdasarkan kepentingan daridokumen


52/58

#4 1erbasis !eks

$ Sebagian besar metode ranking didasarkan padamodel ruang vektor (vector space model ).

$ Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean.

$ Metode Web sear!" mengkombinasikan modelruang vektor dengan ranking berdasarkan padatingkat kepentingan dokumen.

$ 1anyak sistem (dalam praktek) menggabungkan3tur- 3tur dari beberapa pendekatan.

$ %ada bentuk dasar/ semua pendekatan menganggapkata sebagai token terpisah/ dengan usaha minimaluntuk memahami kata-kata secara linguistik.


53/58

Drekuensi "ata

$ Observasi% 1eberapa kata lebih umumdaripada yang lain.

$ Statistika% "oleksi sangat besar dari

dokumen teks tak-terstruktur mempunyaikarakteristik statistik serupa. Statistik ini

< Mempengaruhi efekti3tas dan e3siensidari struktur data yang digunakan untuk

mengindeks dokumen< 1anyak model retrieval

memanfaatkannya


54/58

...Drekuensi "ata

$ *onto" Eontoh berikut ini diambil dari

< Jamie Eallan/ &haracteristics of Text /9II

< 9I Juta kata sampel

< Slide berikut memperlihatkan KL katayang paling umum/ diranking (r)berdasarkan frekuensinya (f).


55/58

...Drekuensi "ata


56/58

istribusi 4anking

Drekuensi$ Bntuk semua kata di dalam suatu dokumen/ untuksetiap kata w

< f adalah frekuensi munculnya w

< r ranking dari w disusun menurut frekuensi. (kata

yang paling umum muncul mempunyai rank 9)


57/58

Eontoh Drekuensi 4ank

$ Slide berikut memperlihatkan kata-kata di dalam data Eallan yang telahdinormalisasi. alam contoh ini

< r adalah ranking dari kata w dalamsampel.

< f adalah frekuensi kata w di dalam

sampel.< n adalah 5umlah total kemunculan

kata di dalam sampel.


58/58

...Eontoh 4anking

Drekuensi

Documents

Bahan STBI-After_MID.ppt