IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI DEPRESI SKRIPSI Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.) Andre Budiman 00000032851 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA TANGERANG 2021
MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
Sarjana Komputer (S.Kom.)
DEPRESI
Oleh
Tangerang, 20 Januari 2021
Dosen Pembimbing II
iii
Menyatakan bahwa skripsi yang berjudul “Implementasi Algoritma
Naïve Bayes
Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi”
ini
adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah
yang ditulis oleh
orang lain atau lembaga lain, dan semua karya ilmiah orang lain
yang dirujuk dalam
Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di
Daftar
Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan,
baik dalam
pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya
bersedia
menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah
Skripsi yang
telah saya tempuh.
tangan di bawah ini:
Jenis Karya : Skripsi
Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif
(Non-
exclusive Royalty-Free Right) atas karya ilmiah saya yang
berjudul
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK
MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN INDIKASI
DEPRESI
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas
Multimedia
Nusantara berhak menyimpan, mengalih media atau format-kan,
mengelola dalam
bentuk pangkalan data (database), merawat, dan mendistribusi dan
menampilkan
atau mempublikasikan karya ilmiah saya di internet atau media lain
untuk
kepentingan akademis, tanpa perlu meminta izin dari saya maupun
memberikan
royalti kepada saya, selama tetap mencantumkan nama saya sebagai
penulis karya
ilmiah tersebut.
sebagaimana mestinya.
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya
yang
sudah menyertai orang-orang dan penulis sehingga dapat
menyelesaikan laporan
Skripsi. Laporan Skripsi yang berjudul “Implementasi Algoritma
Naïve Bayes
Untuk Mengklasifikasikan Konten Twitter Dengan Indikasi Depresi”
diajukan
kepada Program Studi Informatika, Fakultas Teknik dan Informatika,
Universitas
Multimedia Nusantara sebagai salah satu syarat kelulusan.
Penulis menyadari bahwa penyusunan laporan skripsi tidak mungkin
dapat
diselesaikan dengan baik tanpa adanya bantuan dan dorongan dari
berbagai pihak.
Oleh karena itu, penulis ingin mengucapkan terima kasih
kepada:
1. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia
Nusantara, yang
memberi insiprasi bagi penulis untuk berprestasi,
2. Dr. Eng. Niki Prastomo, S.T., M.Sc., Dekan Fakultas Teknik dan
Informatika
Universitas Multimedia Nusantara,
Informatika Universitas Multimedia Nusantara,
4. Julio Christian Young, M.Kom, sebagai dosen pembimbing I dan
dosen
pembimbing akademis yang membimbing pembuatan laporan Skripsi
dan
yang telah mengajar penulis tata cara menulis karya ilmiah dengan
benar,
5. Alethea Suyadibrata, S.Kom., M.Eng, sebagai dosen pembimbing II
yang
telah membantu dalam membimbing pembuata laporan Skripsi dan
telah
mengajar tata cara menulis karya ilmiah dengan benar,
vii
6. Patricia Astrid Nadia, S.Psi dan Narasumber lainnya, sebagai
narasumber
yang membantu dalam memberikan arahan dalam melakukan
indikasi
terhadap konten Twitter,
8. Teman-teman dari prodi Informatika yang sudah mendukung
dalam
pengerjaan skripsi,
Semoga laporan Skripsi ini dapat menjadi sumber informasi yang
bermanfaat
bagi orang yang membaca
Tangerang, 20 Januari 2021
MENGKLASIFIKASIKAN KONTEN TWITTER DENGAN
Depresi merupakan salah satu masalah kesehatan paling umum dan
memiliki
dampak yang sangat besar. Depresi ditandai atau dipengaruhi oleh
banyak aspek,
termasuk pengalaman hidup, pekerjaan, kehidupan sosial. Pada tahun
2018, tercatat
6.1% dari 267.7 juta jiwa mengalami gangguan mental di Indonesia.
Hal ini juga
berhubungan dengan stigma akan penyakit kejiwaan dan rendahnya
kesadaran
dalam menjalani pengobatan kepada ahli. Pengekspresian diri saat
ini kerap kali
dilakukan dengan membuat postingan pada media sosial. Twitter
adalah salah satu
dari alat pengekspresian diri atau emosi dalam bentuk tekstual yang
sering
digunakan untuk mengekspresikan diri. Penelitian ini didasari pada
data yang
dikumpulkan dari Twitter dengan konten bahasa Indonesia. Data yang
dikumpulkan
kemudian dikategorikan ke dalam “Terindikasi Depresi” dan “Tidak
Terindikasi
Depresi” yang didasari oleh pengertian dan faktor lainnya. Model
prediktif yang
digunakan adalah Multinomial Naïve Bayes dan Complement Naïve Bayes
dengan
bantuan metode ekstraksi fitur Term Frequency – Inverse Document
Frequency
(TF-IDF) dan Grid-Search Cross Validation dalam melakukan
pembobotan kata
dan pencarian parameter terbaik. Hasil akurasi terbaik yang
dihasilkan oleh model
Multinomial Naïve Bayes berada pada 93.85% dan model Complement
Naïve Bayes
berada pada 93.35%.
Complement Naïve Bayes
ABSTRACT
Depression is one of the most common health problems and has a huge
impact.
Depression is characterized or influenced by many aspects,
including life
experiences, work, social life. In 2018, 6.1% of the 267.7 million
people
experienced mental disorders in Indonesia. This is also related to
the stigma of
psychiatric illness and low awareness of undergoing treatment to
experts. Today's
self-expression is often done by making posts on social media.
Twitter is one of the
tools of self-expression or emotion in textual form which is often
used to express
oneself. This research is based on data collected from Twitter with
Indonesian
language content. The data collected were then categorized into
"Depression
Indication" and "No Depression Indication" which were based on
definitions and
other factors. The predictive models used are Multinomial Naïve
Bayes and
Complement Naïve Bayes with the help of Term Frequency - Inverse
Document
Frequency (TF-IDF) as feature extractor and Grid-Search Cross
Validation in
weighting words and searching for the parameters best. The best
accuracy results
produced by the model Multinomial Naïve Bayes are at 93.85% and the
model
Complement Naïve Bayes is at 93.35%.
Keywords: Sentiment Analysis, Depression, Multinomial Naïve
Bayes,
Complement Naïve Bayes, TF-IDF
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS
.............................................................................
iv
KATA PENGANTAR
...........................................................................................
vi
1.2 Rumusan Masalah
....................................................................................
5
1.3 Batasan Masalah
.......................................................................................
5
1.4 Tujuan Penelitian
......................................................................................
6
1.5 Manfaat Penelitian
....................................................................................
6
1.5.1 Manfaat Praktis
.................................................................................
6
1.5.2 Manfaat Teoritis
................................................................................
7
1.6 Sistematika Penulisan
...............................................................................
7
2.1 Analisis Sentimen
.....................................................................................
9
2.3 Twitter
....................................................................................................
12
2.8 Klasifikasi Multinomial Naïve Bayes
.................................................... 20
2.9 Klasifikasi Complement Naïve Bayes
.................................................... 22
xi
BAB 3 METODE
PENELITIAN..........................................................................
26
3.5 Perancangan Sistem
................................................................................
37
BAB 4 IMPLEMENTASI DAN UJI COBA
........................................................ 59
4.1 Spesifikasi Perangkat
.............................................................................
59
4.2 Implementasi Sistem
..............................................................................
60
4.2.1 Potongan Kode Regular
Expression................................................ 60
4.2.3 Potongan Kode Text Preprocessing – Case Folding
....................... 62
4.2.4 Potongan Kode Text Preprocessing - Tokenization
........................ 64
4.2.5 Potongan Kode Teks Preprocessing - Stopwords
........................... 65
4.2.6 Potongan Kode Teks Preprocessing - Stemming
............................ 67
4.2.7 Potongan Kode Pembobotan TF-IDF Vectorizer
............................ 68
4.2.8 Potongan Kode Multinomial Naïve Bayes
...................................... 69
4.2.9 Potongan Kode Complement Naïve Bayes
..................................... 70
4.2.10 Potongan Kode Grid Search Cross Validation
................................ 71
4.3 Uji Coba
.................................................................................................
74
5.1 Simpulan
.................................................................................................
87
5.2. Saran
.......................................................................................................
87
DAFTAR PUSTAKA
...........................................................................................
88
Daftar Lampiran
....................................................................................................
92
Gambar 3.2 Gambaran Umum Sistem Klasifikasi Tweet
..................................... 35
Gambar 3.3 Crawling Twitter Data
......................................................................
38
Gambar 3.4 Fungsi Penarikan Data
......................................................................
39
Gambar 3.5 Flowchart Modul Text Preprocessing
.............................................. 40
Gambar 3.6 Flowchart Proses Normalisasi
.......................................................... 41
Gambar 3.7 Flowchart Modul Case Folding
........................................................ 42
Gambar 3.8 Flowchart Modul Tokenizing
............................................................
43
Gambar 3.9 Flowchart Modul Filtering
...............................................................
44
Gambar 3.10 Flowchart Modul Stemming
............................................................
45
Gambar 3.11 Flowchart Modul Grid-Search Cross Validation
........................... 46
Gambar 3.12 Flowchart TF-IDF
..........................................................................
47
Gambar 3.13 Flowchart Modul Term Frequency
................................................. 48
Gambar 3.14 Flowchart Proses Document Frequency
......................................... 49
Gambar 3.15 Flowchart Proses TF-IDF
...............................................................
50
Gambar 3.16 Flowchart Modul Training
.............................................................
51
Gambar 3.17 Flowchart Modul Populate Data
.................................................... 52
Gambar 3.18 Flowchart Modul Conditional Probability
..................................... 53
Gambar 3.19 Flowchart Modul Testing
................................................................
54
Gambar 3.20 Flowchart Modul Likelihood
.......................................................... 55
Gambar 3.21 Flowchart Modul Prior Probability
................................................ 56
Gambar 3.22 Flowchart Modul Posterior Probability
......................................... 57
Gambar 3.23 Flowchart Modul Klasifikasi Data Tweet
....................................... 58
Gambar 4.1 Implementasi Regular Expression Terhadap Data Awal
.................. 61
Gambar 4.2 Penarikan dan Penyimpanan Data Tweet
.......................................... 62
Gambar 4.3 Implementasi Text Preprocessing Case Folding
.............................. 63
Gambar 4.4 Implementasi Text Preprocessing Tokenization
............................... 64
Gambar 4.5 Implementasi Text Preprocessing Stopword
..................................... 66
Gambar 4.6 Implementasi Text Preprocessing Stemming
.................................... 67
Gambar 4.7 Implementasi Pembobotan Kata TfIdfVectorizer
.............................. 68
Gambar 4.8 Implementasi Vectorizer TF-IDF
...................................................... 69
Gambar 4.9 Implementasi Algoritma Multinomial Naive Bayes
.......................... 70
Gambar 4.10 Implementasi Algoritma Complement Naïve Bayes
....................... 71
Gambar 4.11 Library Yang Digunakan Untuk Grid-Search Cross
Validation .... 72
Gambar 4.12 Implementasi Grid-Search Cross Validation – MNB
..................... 72
Gambar 4.13 Implementasi Grid-Search Cross Validation - CNB
....................... 73
Gambar 4.14 Implementasi Prediksi Terhadap Set Data Testing
.......................... 74
Gambar 4.15 Implementasi Matrix Evaluasi
........................................................ 74
xiii
Tabel 3.1 Contoh Data Tweet Training
.................................................................
30
Tabel 3.2 Kata Baku
..............................................................................................
31
Tabel 3.3 Contoh Normalisasi Pada Data Tweet Awal
......................................... 31
Tabel 4.1 Contoh Hasil Implementasi Regular Expression
.................................. 61
Tabel 4.2 Contoh Hasil Implementasi Text Preprocessing Case Folding
............. 64
Tabel 4.3 Contoh Implementasi Text Preprocessing Tokenization
...................... 65
Tabel 4.4 Contoh Implementasi Text Preprocessing Stopwords
.......................... 66
Tabel 4.5 Contoh Implementasi Text Preprocessing Stemming
........................... 67
Tabel 4.6 Contoh Hasil Pembobotan Kata TF-IDF
.............................................. 68
Tabel 4.7 Hasil Uji Coba Rasio 80:20
..................................................................
75
Tabel 4.8 Hasil Uji Coba Skenario 2 - Complement Naive Bayes
........................ 76
Tabel 4.9 Hasil Uji Coba Skenario 3 - Analyzer Char - MNB
.............................. 77
Tabel 4.10 Hasil Uji Coba Skenario 3 - Analyzer Char -
CNB............................. 77
Tabel 4.11 Hasil Uji Coba Skenario 4 (n-gram Dengan Analyzer Word)
............ 78
Tabel 4.12 Hasil Uji Coba Skenario-4 (n-gram Dengan Analyzer Char)
............. 79
xiv
92
Lampiran 2 : Dataset
.............................................................................................
98
Lampiran 4 : Form bimbingan skripsi dosen pembimbing 2
.............................. 113
Lampiran 5 : Riwayat hidup
................................................................................
114