Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks (text summarization)

Embed Size (px)

Citation preview

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    1/22

     

    PEMROSESAN TEKS 

    Tugas

    “Review Information Retrieval, POS Tagging,

    Information Extraction dan Peringkasan Teks” 

    Dosen Pengampu : Indriati, S.T, M.Kom 

    oleh :

    Rifwan Hamidi (135150200111149)

    PROGRAM STUDI INFORMATIKA

    FAKULTAS ILMU KOMPUTER

    UNIVERSITAS BRAWIJAYA

    MALANG

    2016

    http://filkom.ub.ac.id/info/details/3857135/monthhttp://filkom.ub.ac.id/info/details/3857135/monthhttp://filkom.ub.ac.id/info/details/3857135/month

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    2/22

     

    RIFWAN HAMIDI - 135150200111149 2

    Information Retrieval

    Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari

    dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari koleksidokumen yang sangat besar yang tersimpan dalam komputer. Tujuan dari sistem IR adalah

    untuk memenuhi kebutuhan informasi pengguna dengan meretrieve semua dokumen yang

    mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tidak

    relevan. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat

    apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Tujuan yang harus dipenuhi

    adalah bagaimana menyusun dokumen yang telah didapatkan tersebut ditampilkan terurut dari

    dukumen yang memiliki tingkat relevansi tinggi ke tingkat relevansi yang lebih rendah.

    Penyusunan dokumen tersebut disebut sebagai perangkingan dokumen.

    Metode yang paling sering digunakan adalah Vector Space Model untuk representasi

    fiturnya dan Cosine Similarity untuk menghitung kemiripan antara dokumen dan query.

    Algoritma yang digunakan adalah sbb :

    1.  Hitung tf weight (Term Frequensy) :  

    otherwise0,

    0tf if ,tf log1 

    10

    tf  ,

    t,d t,d 

    d t w

     

    2.  Hitung df t (jumlah dokumen yang memiliki term)

    3.  Hitung nilai idf t  (Inverse Document Frequency) : t t   N /df logidf  10  dimana

     N=jumlah semua dokumen

    4.  Hitung Wt,d :t 

    t,d t,d idf ww tf   

     

    5.  Hitung Normalization Wt,d :

    n

    t d t 

    d t 

    d t 

    1

    2

    ,

    ,

    ,

    w

    ww

     

    6.  Hitung Cosine Similarity : CosSim(d j, q) =

      t 

    iwwqd  iqij j

    1

    )(

     

    7.  Bandingkan setiap hasil, dimana hasil cos sim tertinggi (mendekati 1) merupakan

    informasi yang memiliki kemiripan dengan query.

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    3/22

     

    RIFWAN HAMIDI - 135150200111149 3

    Contoh Persoalan : Lirik lagu MERAH PUTIH oleh Artis Musica 

    Sumber : http://lirik.kapanlagi.com/artis/artis_musica/merah_putih 

    Penyelesaian :

    A.  Terlebih dahulu kita buat dokumennya sebanyak enam dokumen yang terdapat

    dua kalimat didalamnya. Tiap dokumen ditandai dengan huruf D.

    DOKUMEN =

    D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku

    D2 : tunjukkanlah pada dunia. Semangatmu yang panas membara

    D3 : Daku ingin jiwa raga ini. Selaraskan keagungan

    D4 : Daku ingin jemariku ini. Menuliskan kharismamu

    D5 : Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia

    D6 : Daku ingin kepal tangan ini.menunaikan kewajiban

    B.  Selanjutnya menentukan token dari Dokumen-dokumen diatas

    kibar laras

     bendera agung

    negeri jemari

    engkau tulis

    dada kharisma

    tunjuk luas

    http://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://lirik.kapanlagi.com/artis/artis_musica/merah_putih

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    4/22

     

    RIFWAN HAMIDI - 135150200111149 4

     pada nuansa

    dunia kepal

    semangat tangan

     panas tunai bara wajib

    daku

    ingin

     jiwa

    raga

    ini

    C.  Untuk langkah ke 3 yaitu menentukan Query dari D1 sampai D6, misalkan : Berkibar

    Bendera 

    D.  Selanjutnya yaitu melakukan Incedence index :

    Term

    D1 D2  D3  D4  D5  D6  JUMLAH 

    kibar   1  0  0  0  1  0  2 

    bendera  1  0  0  0  1  0  2 

    negeri  1  0  0  0  0  0  1 

    engkau  1  0  0  0  0  0  1 

    dada  1  0  0  0  0  0  1 

    tunjuk  0  1  0  0  1  0  2 

    pada  0  1  0  0  1  0  2 

    dunia  0  1  0  0  1  0  2 

    semangat  0  1  0  0  0  0  1 

    panas  0  1  0  0  0  0  1 

    bara  0  1  0  0  0  0  1 

    daku  0  0  1  1  0  1  3 

    ingin  0  0  1  1  1  0  3 

     jiwa  0  0  1  0  0  0  1 

    laras  0  0  1  0  0  0  1 

    agung  0  0  1  0  0  0  1 

     jemari  0  0  0  1  0  0  1 

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    5/22

     

    RIFWAN HAMIDI - 135150200111149 5

    tulis  0  0  0  1  0  0  1 

    kharisma  0  0  0  1  0  0  1 

    luas  0  0  0  0  1  0  1 

    nuansa  0  0  0  0  1  0  1 

    kepal  0  0  0  0  0  1  1 

    tangan  0  0  0  0  0  1  1 

    tunai  0  0  0  0  0  1  1 

    wajib  0  0  0  0  0  1  1 

    E.  Melakukan overlap yang berarti tumpang tindihnya fungsi yang digunakan, maksudnya

    antar dokumen 1 sampai dokumen 6.

    F.  Hitung tf weight (Term Frequens) , dft dan idft

    Term

    D1 D2  D3  D4  D5  D6 

    df(jumlah

    dok ) idf

    kibar   0,5  0  0  0  0.5  0  2  0.4771

    bendera  0,5  0  0  0  0,5  0  2  0.4771

    negeri  0,5  0  0  0  0  0  1  0.7781

    engkau  0,5  0  0  0  0  0  1  0.7781

    dada  0,5  0  0  0  0  0  1  0.7781

    tunjuk  0  0,5  0  0  0,5  0  2  0.4771

    pada  0  0,5  0  0  0,5  0  2  0.4771

    dunia  0  0,5  0  0  0,5  0  2  0.4771

    semangat  0  0,5  0  0  0  0  1  0.7781

    panas  0  0,5  0  0  0  0  1  0.7781

    bara  0  0,5  0  0  0  0  1  0.7781

    daku  0  0  0,5  0,5  0  0,5  3  0.3010

    ingin  0  0  0,5  0,5  0,5  0  3  0.3010

     jiwa  0  0  0,5  0  0  0  1  0.7781

    laras  0  0  0,5  0  0  0  1  0.7781

    agung  0  0  0,5  0  0  0  1  0.7781

     jemari  0  0  0  0,5  0  0  1  0.7781

    tulis  0  0  0  0,5  0  0  1  0.7781

    kharisma  0  0  0  0,5  0  0  1  0.7781

    luas  0  0  0  0  0,5  0  1  0.7781

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    6/22

     

    RIFWAN HAMIDI - 135150200111149 6

    nuansa  0  0  0  0  0,5  0  1  0.7781

    kepal  0  0  0  0  0  0,5  1  0.7781

    tangan  0  0  0  0  0  0,5  1  0.7781

    tunai  0  0  0  0  0  0,5  1  0.7781

    wajib  0  0  0  0  0  0,5  1  0.7781

    G.  Menghitung Wt,d, Normalization Wt,d dan Cosine Similarity

    Term tf(1) x idftf(d2) x

    idftf(d3) x

    idftf(4)x idf tf(5)x idf tf(6)x idf

    kibar 0.4771 0 0 0 0.2385 0

    bendera 0.2385 0 0 0 0.2385 0

    negeri 0.3890 0 0 0 0 0

    engkau 0.3890 0 0 0 0 0

    dada 0.3890 0 0 0 0 0

    tunjuk 0 0.2385 0 0 0.2385 0

    pada 0 0.2385 0 0 0.2385 0

    dunia 0 0.2385 0 0 0.2385 0

    semangat 0 0.3890 0 0 0 0

    panas 0 0.38907 0 0 0 0

    bara 0 0.38907 0 0 0 0

    daku 0 0 0.1505 0.1505 0 0.1505

    ingin 0 0 0.1505 0.1505 0.1505 0

     jiwa 0 0 0.3890 0 0 0

    laras 0 0 0.3890 0 0 0

    agung 0 0 0.3890 0 0 0

     jemari 0 0 0 0.3890 0 0

    tulis 0 0 0 0.38907 0 0

    kharisma 0 0 0 0.3890 0 0

    luas 0 0 0 0 0.3890 0nuansa 0 0 0 0 0.3890 0

    kepal 0 0 0 0 0 0.3890

    tangan 0 0 0 0 0 0.3890

    tunai 0 0 0 0 0 0.3890

    wajib 0 0 0 0 0 0.3890

    0.7156 0 0 0 0.4771

    d1 d2 d3 d4 d5

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    7/22

     

    RIFWAN HAMIDI - 135150200111149 7

    H.  Langkah ini adalah langkah terakhir yaitu Kesimpulan, bahwasanya nilai tertinggi dari

    keseluruhan

    Ada di D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku

    Dokumen 1 inilah data yang paling Relevan

    D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku

    Dengan Jumlah Nilai : 0.71568 

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    8/22

     

    RIFWAN HAMIDI - 135150200111149 8

    Part of Speech Tagging (POS-Tagging)

    Part of Speech Tagging (POS-Tagging) adalah suatu proses yang memberikan label

    kelas kata secara otgmatis pada suatu kata dalam kalimat. Hasil dari Partof Speech Tagging (POS) ini sangat berpengaruh terhadap keluaran dari proses Parsing.

    Masalah yang muncul adalah bagaimana cara mendapatkan pelabelan

    kelas kata yang tepat dalam konteks kalimat.

    Metode yang paling sering digunakan adalah Hidden Markov Model (HMM) dimana

    HMM adalah sebuah model statistik dari sebuah sistem yang melakukan perhitungan

     probabilitas dari suatu kejadian yang tidak dapat diamati berdasarkan kejadian yang dapat

    diamati. Perhitungan probabilitas dilakukan dengan melihat kejadian-kejadian lain yang dapat

    diamati secara langsung.

    Garis besar Langkah yang dilakukan Algoritma HMM adalah sbb :

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    9/22

     

    RIFWAN HAMIDI - 135150200111149 9

    Proses dimulai dengan memberikan input terhadap sistem. Teks input akan dipecah

    kedalam suatu kalimat dengan parameter titik, koma, tanda Ianya dan tanda seru. Kemudian

    setiap kata dalam kalimat akan dicari nilai probabilitas kelas katanya terhadap kelas kata kata

    sebelumnya didalam corpus. Perhitungan probabilitas diawali dengan menghitung probabilitas

    kata pertama tanpa melihat kelas kata sebelumnya. Probabilitas kata kedua sampai terakhir

    akan dihitung dengan melihat kelas kata sebelumnya. Hasil keluaran yang dapat pada prose

    sini adalah kata dan kelas kataya yang akan digunakan untuk proses berikutnya yaitu proses

    Rule Based.

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    10/22

     

    RIFWAN HAMIDI - 135150200111149 10

    Information Extraction

    Untuk mendapatkan informasi terstruktur dari teks yang tidak terstruktur, hal pertamayang perlu didefinisikan adalah informasi target sebagai informasi terstruktur yang akan

    diekstrak. Informasi ini dapat berupa entitas ataupun relasi antar entitas. Secara umum, entitas

    dapat berupa orang, perusahaan, organisasi, atau lokasi. Oleh karena itu, kegiatan utama dalam

    ekstraksi informasi adalah pengenalan entitas (named-entity recognition) dan ekstraksi

    relasinya.

    Information extraction (IE) systems bertujuan untuk

    1.  Membuat informasi menjadi lebih terorganisir dengan baik sehingga berguna untuk

    manusia

    2.  Informasi ditampilkan dalam sebuah format yang tepat secara semantic sehingga

    memungkinkan dilakukan inferensi pada tahap selanjutnya oleh algoritma

    komputer

    IE systems mengekstrak informasi yang terstruktur, jelas dan factual dari teks yang tidk

    terstruktur. Singkatnya : Siapa melakukan apa ke siapa, kapan dan di mana?

    Metode yang paling sering digunakan adalah Named Entity Recognition (NER),

    dimana NER adalah salah satu Subtask yang sangat penting dalam IE untuk Menemukan dan

    Mengklasifikasi nama-nama Entitas dalam teks. NER memiliki manfaat sbb :

      Melakukan Indeksi Entitas dsb.

      Sentiment bisa disematkan pada perusahaan atau produk

      Banyak relasi IE relations yang menjadi asosiasi antar entitas

      Untuk question answering, jawaban kebanyakan adalah entitas

    Terdapat tiga pendekatan Standart untuk NER :

    1.  Hand-written regular expressions

    2.  Using classifiers

    i.  Generative: Naïve Bayes

    ii.  Discriminative: Maxent models

    3.  Sequence models

    i.  HMMs

    ii.  CMMs/MEMMs

    iii.  CRFs

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    11/22

     

    RIFWAN HAMIDI - 135150200111149 11

    Algortima Naive Bayes Based NER  dengan langkah sbb :

      Menentukan Peluang kategori

    dimana W adalah kata, C adalah kategori

    P(c|w) : Peluang kategori c dengan syarat muncul kata w

    P(c) : Peluang munculnya kategori c

    P(w) : Peluang munculnya kata w

      Menetukan Peluang munculnya kata

    Dimana P(w|c) : Peluang munculnya kata w dengan syarat muncul kategori c

    P(c) : Peluang kemunculan kategori c

    Count(w,c) : jumlah kata w pada kategori c

    Count (c) : jumlah seluruh kata pada kategori c|V| : jumlah kata-kata yang unik dalam seluruh dokumen

      w P 

    c P cw P wc P 

    *||  

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    12/22

     

    RIFWAN HAMIDI - 135150200111149 12

    Peringkasan Teks

    Peringkas dokumen teks otomatis adalah ringkasan dari sumber teks oleh mesin untuk

    menampilkan informasi paling penting dalam bentuk pendek dari teks aslinya dengan tetapmenjaga intisari dari dokumen tersebut dan membantu pengguna dengan cepat memahami

    informasi dalam jumlah besar. Ringkasan adalah teks yang dihasilkan dari sebuah teks atau

     banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari

    setengah panjang teks aslinya.

    Penelitian peringkasan teks otomatis dipelopori oleh Luhn sejak tahun 1958. Teknik-

    teknik yang digunakan dalam peringkasan:

    (1) teknik pendekatan statistika: teknik word frequency (Luhn, 1958), position in text

    (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan

    Hoovy, 1997),

    (2) teknik pendekatan dengan natural language analysis: inverse term frequency and

     NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal marginal relevance

    (Cabonell dan Goldstein, 1998).

    Algoritma untuk melakukan peringkasan teks adalah sbb :

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    13/22

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    14/22

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    15/22

     

    RIFWAN HAMIDI - 135150200111149 15

    D5 “Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya,usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istanamerdeka, jakarta, Minggu (26/19/2014)

    D6 Yang pasti kerjanya sangat besar

    D7 “Tujuh puluh persen wilayah kita lautan," tutur Susi usai diperkenalkan Jokowi di halaman

     belakang istana merdeka, jakarta, Minggu (26/19/2014)D8 Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu

    D9 "Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya

    D10 Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin

    (27/10/2014) besok

    D11 "Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya

    Case Folding

    No Kalimat

    D1 menteri kelautan dan perikanan susi pudjiastuti akan melepas semua posisinya di perusahaan penerbangan susi air

    D2 bahkan agar mencegah conflict of interest susi bersedia melepas semua jabatan yang selama ini

    dipegangnya di sejumlah perusahaanD3 yakni akan melepas jabatan president direktur pt asi pudjiastuti yang bergerak di bidang

     perikanan dan pt asi pudjiastuti aviation yang jadi operator penerbangan susi air

    D4 susi akan melepas semua jabatan ceo susi air dan pt asi grup

    D5 itu harus dilepaskan biar bisa kerja maksimal tanpa konflik kepentingan apapun tuturnya usai presiden joko widodo jokowi mengumumkan kabinet di halaman belakang istana merdeka jakarta minggu

    D6 yang pasti kerjanya sangat besar

    D7 tujuh puluh persen wilayah kita lautan tutur susi usai diperkenalkan jokowi di halaman belakangistana merdeka jakarta minggu

    D8 susi akan pegang teguh pesan jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu

    D9 pesannya pak jokowi ke saya kerja kerja dan kerja itu saja pegangan saya bekerja tegasnyaD10 terkait program susi akan menjawabnya usai pelantikan dan rapat perdana kabinet senin besok

    D11 belum tahu programnya tunggu besok saja selesai pelantikan dan rapat kabinet besok ujarnya

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    16/22

     

    RIFWAN HAMIDI - 135150200111149 16

    Tokenizing

    Stop Word Removal

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    17/22

     

    RIFWAN HAMIDI - 135150200111149 17

    Stemming

    Kalimat Hasil Stemming

    No Kalimat

    D1 menteri laut ikan susi pudjiastuti lepas posisi usaha terbang susi air

    D2 cegah conflict of interest susi sedia lepas jabat pegang jumlah usaha

    D3 lepas jabatan president direktur pt asi pudjiastuti gerak bidang ikan pt asi pudjiastuti aviationoperator terbang susi air

    D4 susi lepas jabat ceo susi air dan pt asi grup

    D5 lepas kerja maksimal konflik penting apa tutur usai presiden joko widodo jokowi umumkkabinet halaman belakang istana merdeka jakarta minggu

    D6 kerja besar

    D7 tujuh puluh persen wilayah laut tutur susi usai kenal jokowi halaman belakang istana merdeka jakarta minggu

    D8 susi pegang teguh pesan jokowi kepada panggil istana merdeka pekan lalu

    D9 pesan jokowi kerja kerja kerja pegang kerja tegas

    D10 terkait program susi jawab usai lantik rapat dana kabinet senin besok

    D11 program tunggu selesai lantik rapat kabinet ujarn

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    18/22

     

    RIFWAN HAMIDI - 135150200111149 18

    Perhitungan Nilai TF-IDF 

    Perhitungan Bobot Nilai (W)

    Perhitungan Vector Space Model dari Hasil TF -IDF

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    19/22

     

    RIFWAN HAMIDI - 135150200111149 19

    Rasio kompresi (Compression Rate)   pada suatu ringkasan berfungsi untuk menentukan

     persentasi batas panjang ringkasan yang akan ditampilkan. Compression rate pada proses peringkasan

    akan menentukan panjang ringkasan yang dihasilkan. Hasil ringkasan dengan memilih compression /

     batas panjang ringkasan 35%.

    Untuk

    1. Untuk kalimat 1 (D1)

    Cosine (D1) = sum (kk . D1) / (sqrt(kk) * sqrt(D1)

    = 0.268 / (0.619 * 2.047)

    = 0.211

    2. Untuk kalimat 2 (D2)

    Cosine (D2) = sum (kk . D2) / (sqrt(kk) * sqrt(D2)

    = 0.268/ (0.619 * 1.215)

    = 0.356 (ringkasan)

    3. Untuk kalimat 3 (D3)

    Cosine (D3) = sum (kk . D3) / (sqrt(kk) * sqrt(D3)

    = 0.268/ (0.619 * 0.964)

    = 0.449 (ringkasan)

    4. Untuk kalimat 4 (D4)

    Cosine (D4) = sum (kk . D4) / (sqrt(kk) * sqrt(D4)

    = 0.268/ (0.619 * 0.619)

    = 0.699 (ringkasan)

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    20/22

     

    RIFWAN HAMIDI - 135150200111149 20

    5. Untuk kalimat 5 (D5)

    Cosine (D5) = sum (kk . D5) / (sqrt(kk) * sqrt(D5)

    = 0.268/ (0.619 * 1.040)

    = 0.416 (ringkasan)

    6. Untuk kalimat 6 (D6)Cosine (D6) = sum (kk . D6) / (sqrt(kk) * sqrt(D6)

    = 0 / (0.619 * 1.040 )

    = 0

    7. Untuk kalimat 7 (D7)

    Cosine (D7) = sum (kk . D7) / (sqrt(kk) * sqrt(D7)

    = 0 / (0.619 * 0 )

    = 0

    8. Untuk kalimat 8 (D8)

    Cosine (D8) = sum (kk . D8) / (sqrt(kk) * sqrt(D8)= 0 / (0.619 * 0 )

    = 0

    9. Untuk kalimat 9 (D9)

    Cosine (D9) = sum (kk . D9) / (sqrt(kk) * sqrt(D9)

    = 0 / (0.619 * 0 )

    = 0

    10. Untuk kalimat10 (D10)

    Cosine (D10) = sum (kk . D10) / (sqrt(kk) * sqrt(D10)

    = 0 / (0.619 * 0 )

    = 0

    11. Untuk kalimat 11 (D11)

    Cosine (D11) = sum (kk . D11) / (sqrt(kk) * sqrt(D11)

    = 0 / (0.619 *0) =0

    Berikut adalah urutan dokumen hasil ringkasan dengan nilai kompresi 35%. Maka 35% dari 11

    Dokumen yaitu : 11 x 35% = 3.85 ≈ 

    4 Dokumen.

    Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat dari hasil akhir

     perhitungan vector space model diketahui bahwa kalimat yang diambil untuk dijadikan sebuah

    ringkasan terdapat pada kalimat ke 2, 3, 4, dan 5 dengan compression rate 35%.

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    21/22

     

    RIFWAN HAMIDI - 135150200111149 21

    Hasil Ringkasan Teks Artikel Compression 35%

  • 8/17/2019 Review Text Mining : Information Retrieval, Part of Speech Tagging, Information Extraction dan Peringkasan Teks …

    22/22

     

    RIFWAN HAMIDI - 135150200111149 22

    Daftar Pustaka

    Das and Martins. 2007. A Survey on Automatic Text Summarization. Language Technologies

    Institute Carnegie Mellon University

    Wicaksono, A( 2010). HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Proceeding of

    the Fourth Internationul MALINDO Workshop (MALINDO2010).Iakatta,Indonesia.

    http://anissaja222.blogspot.co.id/2012/10/tugas-information-retrieval.html diakses pada 27 April

    2016

    http://download.portalgaruda.org/article.php?article=59760&val=4485  diakses pada 2 Mei 2016

    http://download.portalgaruda.org/article.php?article=116153&val=5271 diakses pada 27 Mei 2016

    http://lirik.kapanlagi.com/artis/artis_musica/merah_putih diakses pada 29 April 2016

    http://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/Jurnal-No1Vol4-6.pdf  diakses pada 28 April

    2016

    http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-

    dirut-susi-air  diakses pada 29 April 2016

    https://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/ diakses pada 28 April 2016

    http://anissaja222.blogspot.co.id/2012/10/tugas-information-retrieval.htmlhttp://anissaja222.blogspot.co.id/2012/10/tugas-information-retrieval.htmlhttp://download.portalgaruda.org/article.php?article=59760&val=4485http://download.portalgaruda.org/article.php?article=59760&val=4485http://download.portalgaruda.org/article.php?article=116153&val=5271http://download.portalgaruda.org/article.php?article=116153&val=5271http://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/Jurnal-No1Vol4-6.pdfhttp://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/Jurnal-No1Vol4-6.pdfhttp://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-airhttp://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-airhttp://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-airhttps://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/https://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/https://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-airhttp://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatan-dirut-susi-airhttp://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/Jurnal-No1Vol4-6.pdfhttp://lirik.kapanlagi.com/artis/artis_musica/merah_putihhttp://download.portalgaruda.org/article.php?article=116153&val=5271http://download.portalgaruda.org/article.php?article=59760&val=4485http://anissaja222.blogspot.co.id/2012/10/tugas-information-retrieval.html