Bahan STBI-After_MID.ppt

Embed Size (px)

Citation preview

  • 8/19/2019 Bahan STBI-After_MID.ppt

    1/58

    Gambar Kerangka dari sistem temu-kembali informasi sederhana

  • 8/19/2019 Bahan STBI-After_MID.ppt

    2/58

    Metodologi Indexing Teks

    Gambar. Metodologi Indexing Text

    Weighting

  • 8/19/2019 Bahan STBI-After_MID.ppt

    3/58

    A. Tokenizing

    Tokenization adalah tugas memisahkan deretan kata di dalam kalimat,

     paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed

    word . Tahapan ini juga menghilangkan karakter-karakter tertentu seperti

    tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case).

    Gambar. Flowchart Tokenization

  • 8/19/2019 Bahan STBI-After_MID.ppt

    4/58

    ntuk pemisahan kalimat ke bentuk kata menggunakan fungsi !"!

    explode().

     Pseudocode :

    explode(# #, #$ua la%anan populer milik Google&)'

  • 8/19/2019 Bahan STBI-After_MID.ppt

    5/58

    B. Filtering

    Tahap filtering adalah tahap pengambilan kata-kata %ang penting dari

    hasil tokeniing. Tahap filtering ini menggunakan daftar stoplist atau

    ordlist. Tahap filtering adalah proses penghapusan kata buang yaitukata sambung, kata depan, kata ganti, dll. *ontoh  stop words dalam

    bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, sa%a, ini,

    itu, atau, dan, tersebut, pada, dengan, adalah, %aitu, ke, tak, tidak, di,

     pada, jika, maka, ada, pun, lain, saja, han%a, namun, seperti,kemudian, karena, untuk, dll. !roses  filtration menggunakan fungsi

     PHP : str+replace(). $ibaah ini adalah array stopword yang telah di

    inputkan beserta contoh penggunaan fungsi str+replace()

  • 8/19/2019 Bahan STBI-After_MID.ppt

    6/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    7/58

    $ata arra% akan dibaca oleh fungsi foreach

    teks adalah dokumen berita %ana akan diproses oleh filtration.

    $ibaah ini flowchart proses filtration :

    Gambar. Flowchart Filtration

  • 8/19/2019 Bahan STBI-After_MID.ppt

    8/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    9/58

    C. temming

    temming adalah proses mengubah kata menjadi kata dasarn%a dengan

    menghilangkan imbuhan-imbuhan pada kata dalam dokumen.

    temming disini menggunakan kamus daftar kata berimbuhan yang mempun%ai

    kata dasarn%a dengan cara membandingkan kata-kata %ang ada dalam dokumen

     berita dengan daftar kamus  stem. Proses stemming menggunakan fungsi !"!

    str+replace. /erikut ini adalah contoh penggunaan%a

  • 8/19/2019 Bahan STBI-After_MID.ppt

    10/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    11/58

    *ontoh kamus stemming :

    Tabel. Kamus Stem

  • 8/19/2019 Bahan STBI-After_MID.ppt

    12/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    13/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    14/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    15/58

  • 8/19/2019 Bahan STBI-After_MID.ppt

    16/58

    !. Indexing

    Teks dokumen %ang telah melalui proses tokeniing, filtering, dan

    stemming, kemudian di-indeks ke dalam database.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    17/58

    Weighting

    !embobotan kata sangat berpengaruh dalam menentukan

    kemiripan antara dokumen dengan !uery. "pabila bobot tiap kata

    dapat ditentukan dengan tepat, diharapkan hasil perhitungankemiripan teks akan menghasilkan perangkingan dokumen %ang

     baik.

    /obot term di dalam Information #etrie$al ystem %&' dihitungmenggunakan tf(idf yang didefinisikan sebagai berikut.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    18/58

    Algoritma TF/IDF  (Term Frequency – Inversed Document Frequency

    !ada algoritma T)*I+) digunakan rumus untuk menghitung bobot %&' masing (

    masing dokumen terhadap kata kunci dengan rumus %aitu

    $imana

    d 0 dokumen ke-dt 0 kata ke-t dari kata kunci

    1 0 bobot dokumen ke-d terhadap kata ke-t

    tf 0 ban%akn%a kata %ang dicari pada sebuah dokumen

    I$2 0  In$ersed +ocument )re!uencyI$2 0 log34($5df)

    $ 0 total dokumen

    df 0 ban%ak dokumen %ang mengandung kata %ang dicari

  • 8/19/2019 Bahan STBI-After_MID.ppt

    19/58

    etelah bobot (1) masing-masing dokumen diketahui, maka

    dilakukan proses  sorting*pengurutan dimana semakin besar nilai &,

     semakin besar tingkat similaritas dokumen tersebut terhadap kata

    kunci, demikian sebaliknya. ontoh implementasi sederhana dari T)( I+) adalah sebagai berikut:

    6ata kunci (kk) 0 pengetahuan logistik

    $okumen 3 ($3) 0 manajemen transaksi logistik

    $okumen 7 ($7) 0 pengetahuan antar indi8idu$okumen 9 ($9) 0 dalam manajemen pengetahuan terdapat

    transfer pengetahuan

    logistik

    :adi jumlah dokumen ($) 0 9etelah dilakukan tahap tokenizing   dan  !roses "iltering  , maka kata antar  

     pada dokumen 7 serta kata dalam  dan terda"at  pada dokumen 9 dihapus.

    /erikut ini adalah tabel perhitungan T25I$2

  • 8/19/2019 Bahan STBI-After_MID.ppt

    20/58

     bobot (&' untuk +- /

    bobot %&' untuk +0 /

    bobot %&' untuk +1 /

  • 8/19/2019 Bahan STBI-After_MID.ppt

    21/58

    $ari contoh studi kasus di atas, dapat diketahui baha nila i bobot

    (1) dari $3 dan

    $9 adalah sama. ;pabila hasil pengurutan bobot dokumen tidakdapat mengurutkan secara tepat, karena nilai 1 keduan%a sama,

    maka diperlukan proses perhitungan dengan algoritma $ector(space

    model. Ide dari metode ini adalah dengan menghitung

    nilai cosinus sudut dari dua 8ektor, %aitu 1 dari tiap dokumen dan

    1 dari kata kunci.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    22/58

    StopList dan StemmingStopList dan Stemming 

  • 8/19/2019 Bahan STBI-After_MID.ppt

    23/58

    Sistem Temu-Balik Informasi

    Sistem temu-balik informasi pada prinsipnya adalahsuatu sistem yang sederhana. Misalkan ada sebuahkumpulan dokumen dan seorang user yangmemformulasikan sebuah pertanyaan (request atau

    query ). Jawaban dari pertanyaan tersebut adalahsekumpulan dokumen yang relevan dan membuangdokumen yang tidak relevan. Secara matematis haltersebut dapat dituliskan sebagai berikut

  • 8/19/2019 Bahan STBI-After_MID.ppt

    24/58

    M;T*"

    (

  • 8/19/2019 Bahan STBI-After_MID.ppt

    25/58

    n ormas

    /asisdata5Metadata

    (=ecord)>

  • 8/19/2019 Bahan STBI-After_MID.ppt

    26/58

    $ %erbandingan istilah query  dan Dokumen

    $ &'act match sesuai antara uery dan okumen  *ibrary automation +,uery

      *ibrary automation +okumen

    $ %artial Match sebagian sesuai antara uery dan

    okumen (trancation. / 0)lib and auto atau lib0 and auto0

    $ okumen paling mirip dengan ,uery ditempatkanpaling atas dan probabilitas relevansinya cukup tinggi

    dengan ,uery

  • 8/19/2019 Bahan STBI-After_MID.ppt

    27/58

    $ %enyimpanan dokumen dlm bentukterstruktur dan tidak terstruktur

    $ 1ahasa %engindekan (terkendali 2 bebas)

    $ "ebutuhan #nformasi pengguna (uery)

    $ Strategi penelusuran (Search %ro3le)

    $ "umpulan dokumen yang itemukan (sedikit2 banyak)

    $ &valuasi 4elevansi (4elevant 5udment) %enilaian individu 1erbeda

  • 8/19/2019 Bahan STBI-After_MID.ppt

    28/58

    indexing Sistem temu-kembali informasi pada dasarnyadibagi dalam dua komponen utama yaitu sistempengindeksan (indexing) yang menghasilkan basisdata sistem dan temukembali yang merupakan

    gabungan dari user interface dan look-up-table.$ Indexing merupakan sebuah proses untuk

    melakukan pengindeksan terhadap kumpulandokumen yang akan disediakan sebagai informasikepada pemakai. %roses pengindeksan bisa secara

    manual ataupun secara otomatis.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    29/58

     !ahapan

    %engindeksan$ Parsing okumen yaitu proses pengambilankata-kata dari kumpulan dokumen.

    $ Stoplist yaitu proses pembuangan kata buang

    seperti tetapi, yaitu, sedangkan, dansebagainya.

    $ Stemming yaitu proses penghilangan6pemotongan dari suatu kata men5adi bentukdasar. "ata 7diadaptasikan8 atau 7beradaptasi8

    me5adi kata 7adaptasi8 sebagai istilah.$ Term Weighting dan Inverted File yaitu proses

    pemberian bobot pada istilah.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    30/58

     !eknik pembobotan

    9. !eknik pembobotan berdasarkan frekuensikemunculan istilah pada satu dokumen. !eknikpembobotan ini cukup sederhana dimana bobotsuatu istilah pada sebuah dokumen berdasarkan

     5umlah kemunculannya pada dokumen tersebut.:. !eknik pembobotan berdasarkan rumus yaitu

  • 8/19/2019 Bahan STBI-After_MID.ppt

    31/58

    .....!eknik pembobotan

    $ imana

    $  Wik adalah bobot istilah k pada dokumen i.

    $ tf ik merupakan frekuensi dari istilah k dalamdokumen i.

    $  n adalah 5umlah dokumen dalam kumpulandokumen.

    $  df k adalah 5umlah dokumen yang mengandungistilah k.

    $  Max 5 tf  i5 adalah frekuensi istilah terbesar padasatu dokumen.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    32/58

    teknik temu-kembali

    informasi;da beberapa teknik temu-kembaliinformasi yang telah dikembangkan

    yaitu teknik oolean sederhana danteknik oolean berperingkat sertateknik !xtended oolean

  • 8/19/2019 Bahan STBI-After_MID.ppt

    33/58

     !eknik 1oolean? Teknik 2oolean merupakan suatu cara dalam mengekspresikan

    keinginan pemakai ke sebuah kueri dengan mamakai operator-

    operator 2oolean %aitu #and&, #or&, dan #not&. ;dapun

    maksud dari operator #and& adalah untuk menggabungkan

    istilah-istilah kedalam sebuah ungkapan, dan operator #or&adalah untuk memperlakukan istilah-istilah sebagai sinonim,

    sedangkan operator #not& merupakan sebuah pembatasan.? Teknik 2oolean sederhana, kueri diproses sesuai dengan

    operator %ang digunakan dan menampilkan dokumen

     berdasarkan urutan dokumen ditemukan.

    ? Teknik 2oolean berperingkat, dokumen diperingkat berdasarkan bobot dari dokumen. ;dapun pembobotan dari

    masing-masing dokumen berdasarkan aturan sebagai berikut

  • 8/19/2019 Bahan STBI-After_MID.ppt

    34/58

    ..."omponen Sistem #4

    $imana d; men%atakan bobot istilah ; pada dokumen $. /obot

    istilah ini didapat dari hasil proses Inde3ing . Min(d;,d/) berarti

     baha sebuah dokumen di retrie$e dengan bobot sebesar nilai

    terkecil dari bobot-bobot istilah %ang dipun%ain%a.Max(d;,d/) berarti baha sebuah dokumen di retrie$e dengan

     bobot sebesar nilai terbesar dari bobot-bobot istilah %ang

    dipun%ain%a.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    35/58

     !eknik !xtended oolean !eknik !xtended oolean berdasarkan p-norm modelmerupakan pengembangan lebih lan5ut dari modeloolean" !eknik ini memakai operatoryangdikomputasi berdasarkan rumus Savoy/ sebagaiberikut

  • 8/19/2019 Bahan STBI-After_MID.ppt

    36/58

    Sistem %encarian Web

  • 8/19/2019 Bahan STBI-After_MID.ppt

    37/58

    ;rea !erkait

    $ Mana5emen 1asis ata

    $ #lmu %erpustakaan dan #nformasi

    $ "ecerdasan 1uatan$ %emrosesan bahasa alamai

    $ %embela5aran Mesin

  • 8/19/2019 Bahan STBI-After_MID.ppt

    38/58

    4elevansi$ 4elevansi merupakan suatu #udgment

    (keputusan) subyektif dan dapatdidasarkan pada

    < topik yang tepat.< waktu (informasi terbaru).

    < otoritatif (dari suatu sumber terpercaya).

    < kebutuhan informasi dari pengguna.

    $ Kriteria relevansi utama suatu sistem #4sebaiknya (harus) memenuhi kebutuhaninformasi pengguna.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    39/58

    %encarian "eyword

    $ #de paling sederhana dari relevansiapakah string ,uery ada di dalamdokumen (kata demi kata/verbatim)=

    $ #de yang lebih >eksibel 1erapasering kata-kata di dalam ,uery

    muncul di dalam dokumen/ tanpamelihat urutannya (bag of words)=

  • 8/19/2019 Bahan STBI-After_MID.ppt

    40/58

    Masalah dengan "eyword

    $ Mungkin tidak meretrieve dokumen relevanyang menyertakan synonymous terms.

    < 7restaurant8 vs. 7caf?8

    < 7@AB8 vs. 7@ational ong AwaBniversity8

    $ Mungkin meretrieve dokumen tak-relevanyang menyertakan ambiguous terms.

    < 7bat8 (baseball vs. mamalia)

    < 7;pple8 (perusahaan vs. buah-buahan)

    < 7bit8 (unit data vs. perilaku menggigit)

  • 8/19/2019 Bahan STBI-After_MID.ppt

    41/58

    1ukan Sekedar "eyword$ "ita akan mendiskusikan dasar-dasar #4

    berbasis key$ord/ tetapiC

    < Dokus pada perluasan dan pengembangan

    terakhir untuk mendapatkan hasil terbaik.$ "ita akan membahas dasar-dasarpembangunan sistem #4 yang e3sien/ tetapiC

    < Dokus pada algoritma dan kemampuandasar/ bukan masalah sistem yangmemungkinkan pengembangan kedatabase ukuran industri.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    42/58

    #4 Eerdas

    $ Memanfaatkan pengertian atau makna darikata yang digunakan.

    $ Melibatkan urutan kata di dalam ,uery.

    $ 1eradaptasi dengan pengguna berdasarkan padafeedback , langsung atau tidak langsung.

    $ Memperluas pencarian dengan term terkait.

    $ Menger5akan pemeriksaan ejaaan6perbaikantanda pengenal otomatis.

    $ Memanfaatkan Otoritas dari sumber informasi.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    43/58

    #ndeks$ Sistem #4 5arang mencari koleksi dokumen secara

    langsung. 1erdasarkan pada koleksi dokumen/ dibangunsebuah index. %engguna mencari inde' tersebut.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    44/58

    #nde'ing Ftomatis

    $  !u5uan dari automatic indexing adalahmembangun index dan meretrieveinformasi tanpa intervensi manusia.

    $ "etika informasi yang dicari adalah teks/metode automatic indexing akan sangatefektif.

    $ %enelitian automatic indexing fundamental

    dimulai oleh erald Salton/ %rofessor ofEomputer Science di Eornell 2 mahasiswa%asca-Sar5ananya (Sistem SM;4!).

  • 8/19/2019 Bahan STBI-After_MID.ppt

    45/58

    #4 dari "oleksi 1esar

    $ Information retrieval dari koleksi sangat besarbersandar pada

    < Jumlah computer po$er yang besar untuk

    menger5akan algoritma sederhana terhadap 5umlah data yang sangat banyak.

    $ komputasi kinerja-tinggi

    < %emahaman pengguna terhadap informasi dankemampuan dari sistem.

    $ Interaksi manusia - komputer$ Ma!"ine-learning banyak digunakan untuk

    mendapatkan kiner5a terbaik.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    46/58

    Searching 2 1rowsing

    ? @rang dalam perulangan

  • 8/19/2019 Bahan STBI-After_MID.ppt

    47/58

    #4 dari "oleksi okumen

     !eks$ Kategori utama dari metode

    < %anking kemiripan terhadap ,uery (vectorspace model).

    < #en!o!okan exact (1oolean).< %anking berdasarkan tingkat kepentingan

    dokumen (#age$ank )

    < "ombinasi beberapa metode

    $ Eontoh Web search engine/ seperti Google 2

     Hahoo/ menggunakan metode kombinasi/berdasarkan pada pendekatan pertama dan ketiga/dengan kombinasi exact dipilih menggunakanmachine learning 

  • 8/19/2019 Bahan STBI-After_MID.ppt

    48/58

    #stilah %enting$ Information retrieval% sub-bidang ilmu

    komputer yang berurusan dengan penemuankembali dokumen (khususnya teks) terotomatisberdasarkan pada content dan context nya.

    $ Sear!"ing% %encarian informasi spesi3k di dalambadan informasi. Aasilnya adalah sehimpunan"it.

    $ Bro&sing% &ksplorasi tak-terstruktur dari badaninformasi.

    $ Linking% 1erpindah dari satu item ke item lainmengikuti link (sambungan) seperti ru5ukan(referensi).

  • 8/19/2019 Bahan STBI-After_MID.ppt

    49/58

    ...#stilah$ 'uer(% Suatu string teks/ menggambarkaninformasi yang sedang dicari pengguna. Setiap

    kata dari ,uery dinamakan search term.

    $ uery dapat berupa search term tunggal/ stringdari term/ frase atau ekspresi tertentu

    menggunakan simbol khusus/ misalnya regularexpression.

    $ #en!arian )ull text% Metode yangmembandingkan ,uery dengan setiap kata didalam teks/ tanpa membedakan fungsi dari

    berbagai kata.$ #en!arian Bidang % Metode pencarian pada

    bidang struktural atau bibliogra3s spesi3k/seperti penulis atau 5udul.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    50/58

    ...#stilah

    $ *orpus% "oleksi dokumen yang diindeks dan di5adikantarget pencarian.

    $ +aftar kata% Aimpunan semua term yang digunakandalam indeks untuk suatu corpus (dikenal sebagai

    vo!abular( ,le).$ %ada pencarian full text / word list adalah semua term di

    dalam corpus/ stop &ords dihapus. !erm- term terkaitdikombinasi dengan stemming.

    $ *ontrolled vo!abular( Metode inde'ing dimana $ord

    list bersifat tetap. !erm-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen.

    $ Ke(&ord% @ama untuk term-term dalam $ord list /terutama dengan controlled vocabulary  

  • 8/19/2019 Bahan STBI-After_MID.ppt

    51/58

    Mengurutan 2 4anking Ait

    $ "etika pengguna men-submit suatu uer( kesistem I$/ sistem mengembalikan sehimpunan hit.%ada koleksi dokumen besar/ himpunan hit akansangat besar.

    $ @ilai untuk pengguna sering tergantung padaurutan hit ditampilkan.

    $  !iga metode utama

    < Mengurutkan hit/ misal berdasarkan tanggal

    < Meranking hit berdasarkan kemiripan antara,uery dan dokumen

    < Meranking hit berdasarkan kepentingan daridokumen

  • 8/19/2019 Bahan STBI-After_MID.ppt

    52/58

    #4 1erbasis !eks

    $ Sebagian besar metode ranking didasarkan padamodel ruang vektor (vector space model ).

    $ Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean.

    $ Metode Web sear!" mengkombinasikan modelruang vektor dengan ranking berdasarkan padatingkat kepentingan dokumen.

    $ 1anyak sistem (dalam praktek) menggabungkan3tur- 3tur dari beberapa pendekatan.

    $ %ada bentuk dasar/ semua pendekatan menganggapkata sebagai token terpisah/ dengan usaha minimaluntuk memahami kata-kata secara linguistik.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    53/58

    Drekuensi "ata

    $ Observasi% 1eberapa kata lebih umumdaripada yang lain.

    $ Statistika% "oleksi sangat besar dari

    dokumen teks tak-terstruktur mempunyaikarakteristik statistik serupa. Statistik ini

    < Mempengaruhi efekti3tas dan e3siensidari struktur data yang digunakan untuk

    mengindeks dokumen< 1anyak model retrieval

    memanfaatkannya

  • 8/19/2019 Bahan STBI-After_MID.ppt

    54/58

    ...Drekuensi "ata

    $ *onto" Eontoh berikut ini diambil dari

    < Jamie Eallan/ &haracteristics of Text /9II

    < 9I Juta kata sampel

    < Slide berikut memperlihatkan KL katayang paling umum/ diranking (r)berdasarkan frekuensinya (f).

  • 8/19/2019 Bahan STBI-After_MID.ppt

    55/58

    ...Drekuensi "ata

  • 8/19/2019 Bahan STBI-After_MID.ppt

    56/58

    istribusi 4anking

    Drekuensi$ Bntuk semua kata di dalam suatu dokumen/ untuksetiap kata w

    < f adalah frekuensi munculnya w

    < r ranking dari w disusun menurut frekuensi. (kata

    yang paling umum muncul mempunyai rank 9)

  • 8/19/2019 Bahan STBI-After_MID.ppt

    57/58

    Eontoh Drekuensi 4ank

    $ Slide berikut memperlihatkan kata-kata di dalam data Eallan yang telahdinormalisasi. alam contoh ini

    < r adalah ranking dari kata w dalamsampel.

    < f adalah frekuensi kata w di dalam

    sampel.< n adalah 5umlah total kemunculan

    kata di dalam sampel.

  • 8/19/2019 Bahan STBI-After_MID.ppt

    58/58

    ...Eontoh 4anking

    Drekuensi