Text Pre Processing

Embed Size (px)

Citation preview

  • 8/17/2019 Text Pre Processing

    1/52

    Text Pre-Processing

    A Complete View

  • 8/17/2019 Text Pre Processing

    2/52

    Latar Belakang

  • 8/17/2019 Text Pre Processing

    3/52

    Latar Belakang

    • Dokumen-dokumen yang adakebanyakan tidak memiliki strukturyang pasti sehingga informasi didalamnya tidak bisa diekstrak secaralangsung

  • 8/17/2019 Text Pre Processing

    4/52

    Latar Belakang

    •  Tidak semua kata mencerminkanmakna/isi yang terkandung dalamsebuah dokumen.

  • 8/17/2019 Text Pre Processing

    5/52

    Latar Belakang

    • Preprocessing diperlukan untukmemilih kata yang akan digunakansebagai indeks

    • ndeks ini adalah kata-kata yangmewakili dokumen yang nantinyadigunakan untuk membuat

    pemodelan untuk nformation!etrie"al maupun aplikasi teks mininglain.

  • 8/17/2019 Text Pre Processing

    6/52

    Latar Belakang

    • De#nisi Pemrosesan Teks $Te%tPreprocessing& adalah suatu prosespengubahan bentuk data yang belum

    terstruktur men'adi data yangterstruktur sesuai dengankebutuhan( untuk proses mining

    yang lebih lan'ut $sentiment analysis(peringkasan( clustering dokumen(etc.&.

  • 8/17/2019 Text Pre Processing

    7/52

    Singkatnya

    • Preprocessing adalah )erubahteks men'adi term inde%

    • Tujuan* menghasilkan sebuah setterm inde% yang bisa mewakilidokumen

  • 8/17/2019 Text Pre Processing

    8/52

    Bird View

  • 8/17/2019 Text Pre Processing

    9/52

    +angkah , * Parsing

    •  Tulisan dalam sebuah dokumen bisa 'adi terdiri dari berbagai macambahasa( character sets( dan format

    • ering 'uga( dalam satu dokumenyang sama berisi tulisan daribeberapa ahasa. )isal( sebuah

    email berbahasa ndonesia denganlampiran PD0 berbahasa nggris.

  • 8/17/2019 Text Pre Processing

    10/52

    +angkah , * Parsing

    • Parsing Dokumen berurusan denganpengenalan dan 1pemecahan2struktur dokumen men'adi

    komponen-komponen terpisah. Padalangkah preprocessing ini( kitamenentukan mana yang di'adikan

    satu unit dokumen

  • 8/17/2019 Text Pre Processing

    11/52

    tep , * Parsing

    • Contoh( email dengan 3 lampiranbisa dipisah men'adi 4 dokumen * ,dokumen yang merepresentasikan isi

    $body& dari email dan 3 dokumendari masing-masing lampiran

  • 8/17/2019 Text Pre Processing

    12/52

    tep , * Parsing

    • Contoh lain( buku dengan ,55halaman bisa dipisah men'adi ,55dokumen masing-masing halaman

    men'adi , dokumen

  • 8/17/2019 Text Pre Processing

    13/52

    tep , * Parsing

    • Contoh lain( satu tweet bisa di'adikansebagai , dokumen. egitu 'ugadengan sebuah koemntar pada

    forum atau re"iew produk.

  • 8/17/2019 Text Pre Processing

    14/52

    tep 6 * +e%ical Analysis

    • +ebih populer disebut +e%ing atauTokenization / Tokenisasi

  • 8/17/2019 Text Pre Processing

    15/52

    tep 6 * +e%ical Analysis

    •  Tokenisasi adalah prosespemotongan string inputberdasarkan tiap kata penyusunnya.

    • Pada prinsipnya proses ini adalahmemisahkan setiap kata yangmenyusun suatu dokumen.

  • 8/17/2019 Text Pre Processing

    16/52

    tep 6 * +e%ical Analysis

    • Pada proses ini dilakukanpenghilangan  angka( tanda baca dan karakter selain huruf alfabet(

    karena karakter-karakter tersebutdianggap sebagai pemisah kata$delimiter& dan tidak memiliki

    pengaruh terhadap pemrosesanteks.

  • 8/17/2019 Text Pre Processing

    17/52

    tep 6 * +e%ical Analysis

    • Contoh *

  • 8/17/2019 Text Pre Processing

    18/52

    tep 6 * +e%ical Analysis

    • Pada tahapan ini 'uga dilakukanproses case folding( dimanasemua huruf diubah men'adi huruf

    kecil.

  • 8/17/2019 Text Pre Processing

    19/52

    tep 6 * +e%ical Analysis

    • Pada tahapan ini 'uga Cleaning

    • Cleaning adalah prosesmembersihkan dokumen darikomponen-komponen yang tidakmemiliki hubungan dengan informasiyang ada pada dokumen( contoh * – tag html

     – link

     – script

  • 8/17/2019 Text Pre Processing

    20/52

    Tokens Types and Ter!s

    •  Te%t* 1apakah culo dan boyo bermainbola di depan rumah boyo72

  • 8/17/2019 Text Pre Processing

    21/52

    Tokens Types and Ter!s

    •  Te%t* 1apakah culo dan boyo bermainbola di depan rumah boyo72

    • Token adalah kata-kata yangdipisah-pisah dari teks aslinya tanpamempertimbangkan adanyaduplikasi

    • 8 Tokennya* 1culo2( 1dan2( 1boyo2(1bermain2( 1bola2( 1di2( 1depan2(1rumah2( 1boyo2

  • 8/17/2019 Text Pre Processing

    22/52

    Tokens Types and Ter!s

    •  Te%t* 1apakah culo dan boyo bermain boladi depan rumah boyo72

    • 8 Tokennya* 1culo2( 1dan2( 1boyo2(

    1bermain2( 1bola2( 1di2( 1depan2( 1rumah2(1boyo2

    • Type adalah token yang memperhatikanadanya duplikasi kata. 9etika ada duplikasi

    hanya dituliskan sekali sa'a.• 8 Type* 1culo2( 1dan2( 1boyo2( 1bermain2(

    1bola2( 1di2( 1depan2( 1rumah2

  • 8/17/2019 Text Pre Processing

    23/52

    Tokens Types and Ter!s

    •  Te%t* 1apakah culo dan boyo bermain bola didepan rumah boyo72

    • Token * 1culo2( 1dan2( 1boyo2( 1bermain2(

    1bola2( 1di2( 1depan2( 1rumah2( 1boyo2• Type * 1culo2( 1dan2( 1boyo2( 1bermain2(

    1bola2( 1di2( 1depan2( 1rumah2

    • Ter! adalah type yang sudah dinormalisasi

    $dilakukan stemming( #ltering( dsb&• 8 Term * 1culo2( 1boyo2( 1main2( 1bola2(

    1depan2( 1rumah2

  • 8/17/2019 Text Pre Processing

    24/52

    Contoh :asil Tokenisasi

     Te%t nput They are applied to the words in the te%t.

     Token

    they word

    are in

    applied the

    to te%t

    the

  • 8/17/2019 Text Pre Processing

    25/52

    Contoh :asil Tokenisasi

    1To2( 1The2( 1n2 merupakan kata-kata yang tidak penting nantinyabakal dibahas dalam #ltering

     Te%t nput They are applied to the words in the te%t.

     Token

    they word

    are in

    applied the

    to te%t

    the

  • 8/17/2019 Text Pre Processing

    26/52

    Contoh +ain

     Te%t nput

  • 8/17/2019 Text Pre Processing

    27/52

    tep 6 * topword !emo"al

    • Disebut 'uga "iltering

    • "iltering adalah tahap pengambilandari hasil token( yaitu kata-kata apasa'a yang akan digunakan untukmerepresentasikan dokumen.

  • 8/17/2019 Text Pre Processing

    28/52

    topword !emo"al * The)ethods

    • Algoritma stoplist 

    • Stoplist  atau stopword  adalahkata-kata yang tidak deskriptif#tidak  penting$ yang dapatdibuang dengan pendekatan bag-of-words.

  • 8/17/2019 Text Pre Processing

    29/52

    topword !emo"al * The)ethods

    • Algoritma stoplist 

    • 9ita memiliki database kumpulankata-kata yang tidak deskriptif#tidak  penting$ kemudian kalauhasil tokenisasi itu ada yangmerupakan kata tidak penting dalam

    database tersebut( maka hasiltokenisasi itu dibuang

  • 8/17/2019 Text Pre Processing

    30/52

    topword !emo"al * The)ethods

    • Algoritma stoplist 

    • Contoh stopwords adalah =m( you(one( two( they dst.

    %asil Token %asil "ilterthey -

    are -

    applied applied

    to -

    the -word word

    in -

    the -

    texts texts

  • 8/17/2019 Text Pre Processing

    31/52

    topword !emo"al * The)ethods

    • Algoritma wordlist 

    • &ordlist  adalah kata-kata yangdeskriptif # penting$  yang dapatdibuang dengan pendekatan bag-of-words.

  • 8/17/2019 Text Pre Processing

    32/52

    topword !emo"al * The)ethods

    • Algoritma wordlist 

    • 9ita memiliki database kumpulankata-kata yang deskriptif# penting$ kemudian kalau hasiltokenisasi itu ada yang merupakankata penting dalam database

    tersebut( maka hasil tokenisasi itudisimpan

  • 8/17/2019 Text Pre Processing

    33/52

    topword !emo"al * The)ethods

    • Algoritma wordlist 

    • Contoh wordlist adalah applied(word( te%ts dst.

    %asil Token %asil "ilterthey -

    are -

    applied applied

    to -

    the -word word

    in -

    the -

    texts texts

  • 8/17/2019 Text Pre Processing

    34/52

    >sing top ?ords or

  • 8/17/2019 Text Pre Processing

    35/52

    tep @ * Phrase Detection

    • +angkah ini bisa menangkapinformasi dalam teks melebihikemampuan dari metode bag-of-

    word murni.

  • 8/17/2019 Text Pre Processing

    36/52

    tep @ * Phrase Detection

    • Pada langkah ini tidak hanyadilakukan tokenisasi per kata( namun

     'uga mendeteksi adanya 6 kata atau

    lebih yang men'adi frase.

  • 8/17/2019 Text Pre Processing

    37/52

    tep @ * Phrase Detection

    • Contoh( dari dokumen ini * “searchengines are the most visibleinformation retrieval applications”

    •  Terdapat dua buah frase “searchengines” dan “information retrieval”.

  • 8/17/2019 Text Pre Processing

    38/52

    tep @ * Phrase Detection

    • Phrase detection bisa dilakukandengan beberapa cara *menggunakan aturan $misal dengan

    menganggap dua kata yang seringmuncul berurutan sebagai frase&(bisa dengan syntactic analysis( and

    kombinasi keduanya.

  • 8/17/2019 Text Pre Processing

    39/52

    tep @ * Phrase Detection

    • )etode umum yang diguakan adalahpenggunaan thesauri untukmendeteksi adanya frase.

    • Contoh * Pada thesauri tersebutterdapat daftar frase-fase dalamahasa tertentu( kemudia kita

    bandingkan kata-kata dalam teksapakah mengandung frase-frasedalam thesauri tersebut atau tidak.

  • 8/17/2019 Text Pre Processing

    40/52

    tep @ * Phrase Detection

    • 9elemahanya( tahap ini butuhkomputasi yang cukup lama

    • 9ebanyakan aplikasi teks miningatau ! tidak menggunakan PhraseDetection

    • udah cukup dengan Token per 9ata

    • Akan tetapi( sebenarnyapemanfaatan Phrase sebenarnyaakan bisa mengingkatkan akurasi

  • 8/17/2019 Text Pre Processing

    41/52

    tep 3 * temming and

    +emmatiation

    %asil

    Token%asil "ilter

    they -are -

    applied appliedto -

    the -word word

    in -

    the -texts texts

  • 8/17/2019 Text Pre Processing

    42/52

    tep 3 * temming and+emmatiation

    • Ste!!ing adalah prosespengubahan bentuk kata men'adikata dasar atau tahap mencari

    root kata dari tiap kata hasil#ltering. :asil 0ilter :asil

    temming

    applied apply

    word word

    te%ts te%t

  • 8/17/2019 Text Pre Processing

    43/52

    tep 3 * temming and+emmatiation

    • Dengan dilakukanya prosesstemming setiap kata berimbuhanakan berubah men'adi kata dasar(

    dengan demikian dapat lebih!engopti!alkan  proses teks!ining.

  • 8/17/2019 Text Pre Processing

    44/52

    tep 3 * temming and

    +emmatiation

    • mplementasi proses ste!!ing sangat beragam ( tergantungdengan bahasa dari dokumen.

    • eberapa metode untuk temming * – Porter temmer $Bnglish ndonesia&

     – temming Ari#n-etiono $ndonesia&

     – temming

  • 8/17/2019 Text Pre Processing

    45/52

    tep 3 * temming and

    +emmatiation

    • Algorithmic* )embuat sebuahalgoritma yang mendeteksi imbuhan.

     ika ada awalan atau akhiran yang

    seperti imbuhan( maka akandibuang.

  • 8/17/2019 Text Pre Processing

    46/52

    tep 3 * temming and

    +emmatiation

    • Algorithmic

    • 9elebihan * relatif cepat

    • 9ekurangan * beberapa algoritmasalah mendeteksi imbuhan( sehinggaada beberapa kata yang bukanimbuhan tapi dihilangkan

    • Contoh * makan -E mak an dideteksisebagai akhiran sehingga dibuang.

  • 8/17/2019 Text Pre Processing

    47/52

    +emmatiation

    • temming berdasarkan kamus

    • )enggunakan "ocabulary andmorphological analysis dari kata

    untuk menghilangkan imbuhan dandikembalikan ke bentuk dasar darikata.

  • 8/17/2019 Text Pre Processing

    48/52

    +emmatiation

    • temming ini bagus untuk kata-kata yangmengalami perubahan tidak beraturan$english&

    Contoh * 1see2 -E 1see2( 1saw2( atau1seen2

    •  ika ada kata 1see2( 1saw2( atau 1seen2(bisa dikembalikan ke bentuk aslinya yaitu

    1see2F Dalam !( bagus untuk recall( namun 'elek

    untuk akurasi

  • 8/17/2019 Text Pre Processing

    49/52

    Algoritma Porter temming

    Algoritma Porter temming ditemukanoleh )artin Porter pada tahun ,GH5.

    • )ekanisme algoritma tersebut dalammencari kata dasar suatu kata

    berimbuhan( yaitu dengan membuangimbuhan8imbuhan $atau lebih tepatnyaakhiran& pada kata8kata bahasa nggriskarena dalam bahasa nggris tidak

    mengenal awalan.

  • 8/17/2019 Text Pre Processing

    50/52

    Case tudy

    • Perhatikan tabel dokumen berikut *

     Tentukan hasil Tokenisasi( 0iltering dan temmingsetiap dokumen tersebut I

    Dokumen 9e-i si Dokumen

    ,

    pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidakhanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaanwisuda sebaiknya ter'adwal tidak tergantung pada kuota. sehingga lebih cepat mendapati'aah.

    6

    dalam setahun belakangan ini( pengaksesan 9! diganti ke A) $sebelumnyamenggunakan

  • 8/17/2019 Text Pre Processing

    51/52

    Case tudy

    • Penyelesaian *Dokume

    n 9e-isi Dokumen Tokenisasi "iltering Ste!!ing

    ,

    pembukaan daftar wisuda dan pelaksanaannya lebih baik d umumkan di web ub tidakhanya di fakultas. sehingga memudahkanmahasiswa yang ada di luar kota.pelaksanaan wisuda sebaiknya ter'adwaltidak tergantung pada kuota. sehingga lebihcepat mendapat i'aah.

    pembukaan daftar wisuda danpelaksanaan nya lebih baik d umumkandi web ub tidak hanya di fakultassehingga memudahkan mahasiswayang ada di luar kota pelaksanaanwisuda sebaiknya ter'adwal tidaktergantung pada kuota sehingga lebihcepat mendapat i'aah

    pembukaan daftar wisudapelaksanaan umumkan webub fakultas memudahkanmahasiswa kota pelaksanaanwisuda sebaiknya ter'adwaltergantung kuota cepat i'aah

    buka daftar wisudalaksana umum web ubfakultas mudahmahasiswa kotalaksana wisuda baik 'adwal gantung kuotacepat i'aah

    6

    dalam setahun belakangan ini(

    pengaksesan 9! diganti ke A)$sebelumnya menggunakan

  • 8/17/2019 Text Pre Processing

    52/52

    +atihan ndi"idu $Today&

    • Perhatikan dokumen-dokumen berikut *

    •  Tentukan hasil Tokenisasi( 0iltering dan temming setiap

    Dokumen$Doc&

    si$Content&

    Doc ,elearning di PT9 diatas 'am M malam kok selalu gak bisadibuka ya7

    Doc 6

    ub tidak punya lahan parkir yang layak. Dan 'alanan

    terlalu ramai karena di buka untuk umum. eperti 'alantol sa'a. rawi'aya oh brawi'aya

    Doc @9elas Arsitektur dan Lrganisasi 9omputer penuh( apakahtidak dibuka kelas lagi. !ugi kalo saya bisa ngambil 639 tapi baru ,H 9 yg terpenuhi

    Doc 3

    nformasi tata cara daftar ulang bagi mahasiswa baruPT9 kurang 'elas. ehingga ketika tanggal terakhir

    syarat penyerahan berkas daftar ulang( banyakmahasiswa baru yang tidak membawa salah satu syaratdaftar ulangnya.