Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
HALAMAN SAMPUL
PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL
TWITTER MENGGUNAKAN ALGORITMA NAÏVE BAYES
TUGAS AKHIR
Imelda Yohana Uli Rastra Lingga 41517110158
PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA
JAKARTA 2019
In Review
http://digilib.mercubuana.ac.id/
i
HALAMAN JUDUL
HALAMAN JUDUL
PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL TWITTER MENGGUNAKAN ALGORITMA NAÏVE BAYES
Tugas Akhir
Diajukan Untuk Melengkapi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Oleh: Imelda Yohana Uli Rastra Lingga
41517110158
PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA
JAKARTA 2019
http://digilib.mercubuana.ac.id/
ii
http://digilib.mercubuana.ac.id/
iii
http://digilib.mercubuana.ac.id/
iv
http://digilib.mercubuana.ac.id/
v
http://digilib.mercubuana.ac.id/
vi
http://digilib.mercubuana.ac.id/
vii
ABSTRAK
Nama : Imelda Yohana Uli Rastra Lingga NIM : 41517110158 Pembimbing TA : Eliyani, Dr. Ir. Judul : Pemodelan Deteksi Body Shaming di Media Sosial
Twitter Menggunakan Algoritma Naïve Bayes
Body shaming atau penghinaan fisik yang semakin marak di media sosial menimbulkan banyak pengaruh buruk seperti menurunkan harkat dan martabat korban serta menjadikan korban sebagai bahan bullying. Untuk mencegah tindakan yang berbahaya tersebut, diperlukan sebuah pendeteksi body shaming. Dengan menggunakan data tweets yang dikumpulkan melalui Twitter API, pemodelan deteksi body shaming dilakukan menggunakan algoritma klasifikasi Naïve Bayes dan software Rapid Miner. Dalam penelitian ini dilakukan enam tahap pemrosesan data yaitu tokenize, transform cases, stemming, filter stopwords, filter tokens by length dan generate n-Grams. Validasi yang dilakukan menggunakan 10-fold cross validation. Evaluasi yang dilakukan menggunakan tabel Confusion Matrix. Hasil akhirnya adalah nilai rata-rata akurasi dan standar deviasi dari setiap percobaan iterasi. Kata kunci: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;
http://digilib.mercubuana.ac.id/
viii
ABSTRACT
Name : Imelda Yohana Uli Rastra Lingga Student Number : 41517110158 Counsellor : Eliyani, Dr. Ir. Title : Pemodelan Deteksi Body Shaming di Media Sosial
Twitter Menggunakan Algoritma Naïve Bayes
Body shaming or physical humiliation that is increasingly prevalent on social media creates many bad influences such as reducing the dignity of victims and making victims as bullying material. To prevent this dangerous action, a body shaming detector is needed. By using data tweets collected through Twitter API, body shaming detection modeling is done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing were carried out, namely tokenize, transform cases, stemming, filter stopwords, filter tokens by length and generate n-Grams. Validation is done using 10-fold cross validation. Evaluations are carried out using the Confusion Matrix table. The end result is the average value of accuracy and standard deviation of each iteration experiment. Key words: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;
http://digilib.mercubuana.ac.id/
ix
KATA PENGANTAR
Puji syukur kita panjatkan kepada Tuhan Yang Maha Esa atas limpahan rahmat dan
karunia-Nya, sehingga penulis dapat merampungkan Tugas Akhir dengan judul:
Pemodelan Deteksi Body Shaming di Media Sosial Twitter Menggunakan
Algoritma Naïve Bayes. Ini untuk memenuhi salah satu syarat menyelesaikan studi
serta dalam rangka memperoleh gelar Sarjana Komputer Strata Satu pada Program
Studi Teknik Informatika Universitas Mercu Buana.
Penulis menyadari bahwa tanpa bantuan dan bimbingan dari Ibu Eliyani, Dr. Ir.,
penulis tidak dapat menyelesaikan Tugas Akhir ini dengan baik. Oleh karena itu,
penulis mengucapkan terima kasih kepada:
1. Yth. Ibu Eliyani, Dr. Ir., selaku Dosen Pembimbing Tugas Akhir
2. Yth. Bapak Mujiono, Dr., ST., MT, selaku Dosen Pembimbing Akademik
3. Yth. Bapak Raka Yusuf, ST., MTI, Bapak Muhammad Rifqi, S.Kom,
M.Kom dan Ibu Sri Dianing Asri, ST., M.Kom, selaku Dosen Penguji Tugas
Akhir
4. Seluruh staf dosen dan karyawan Universitas Mercu Buana
5. Kedua orangtua yang telah memberikan dorongan dan doa sehingga penulis
dapat menyelesaikan Tugas Akhir ini
6. Teman-teman satu bimbingan yang telah mendukung dan membantu dalam
menyelesaikan Tugas Akhir ini
Akhir kata, penulis mengucapkan rasa terima kasih kepada semua pihak dan apabila
ada yang tidak tersebutkan penulis mohon maaf, dengan besar harapan semoga
Tugas Akhir yang ditulis oleh penulis ini dapat bermanfaat khususnya bagi penulis
sendiri dan umumnya bagi pembaca.
Jakarta, 17 Januari 2019
Penulis
http://digilib.mercubuana.ac.id/
1
Universitas Mercu Buana
NASKAH JURNAL
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL TWITTER
MENGGUNAKAN ALGORITMA NAÏVE BAYES
Imelda Yohana Uli Rastra Lingga Program Studi Teknik Informatika
Fakultas Ilmu Komputer, Universitas Mercu Buana Jakarta Email: [email protected]
Eliyani
Fakultas Ilmu Komputer, Universitas Mercu Buana Jakarta
ABSTRACT
Body shaming or physical humiliation that is increasingly prevalent on social media creates many bad influences such as reducing the dignity of victims and making victims as bullying material. To prevent this dangerous action, a body shaming detector is needed. By using data tweets collected through Twitter API, body shaming detection modeling is done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing were carried out, namely tokenize, transform cases, stemming, filter stopwords, filter tokens by length and generate n-Grams. Validation is done using 10-fold cross validation. Evaluations are carried out using the Confusion Matrix table. The end result is the average value of accuracy and standard deviation of each iteration experiment. Keywords: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;
ABSTRAK Body shaming atau penghinaan fisik yang semakin marak di media sosial menimbulkan banyak pengaruh buruk seperti menurunkan harkat dan martabat korban serta menjadikan korban sebagai bahan bullying. Untuk mencegah tindakan yang berbahaya tersebut, diperlukan sebuah pendeteksi body shaming. Dengan menggunakan data tweets yang dikumpulkan melalui Twitter API, pemodelan deteksi body shaming dilakukan menggunakan algoritma klasifikasi Naïve Bayes dan software Rapid Miner. Dalam penelitian ini dilakukan enam tahap pemrosesan data yaitu tokenize, transform cases, stemming, filter stopwords, filter tokens by length dan generate n-Grams. Validasi yang dilakukan menggunakan 10-fold cross validation. Evaluasi yang dilakukan menggunakan tabel Confusion Matrix. Hasil akhirnya adalah nilai rata-rata akurasi dan standar deviasi dari setiap percobaan iterasi. Keywords: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner; PENGANTAR
Setiap manusia selalu ingin tampil menarik di
depan masyarakat. Banyak pemikiran yang
sudah tertanam sejak dini tentang bagaimana
seorang manusia bisa dikategorikan sebagai
manusia yang menarik. Misalnya wanita
yang cantik adalah wanita yang berkulit
putih, berhidung mancung, bertubuh langsing
atau memiliki rambut hitam dan lurus.
Sedangkan wanita yang berkulit gelap,
berhidung pesek, bertubuh gemuk atau
memiliki rambut keriting selalu dianggap
tidak menarik atau jelek. Pemikiran seperti
ini membawa pengaruh besar bagi setiap
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
persepsi orang terhadap bentuk tubuhnya.
Jika tidak memenuhi standar kecantikan
tersebut, seseorang dapat kehilangan percaya
diri dan merasa tidak berharga bahkan
merasa dirinya memalukan karena dianggap
tidak menarik. Tak heran banyak kasus
kematian akibat gangguan makan (eating
disorders), menghabiskan uang berjuta-juta
bahkan mencapai milyaran rupiah untuk
operasi plastik, suntik putih yang berbahaya
beredar di pasaran dan sebagainya.
Perkembangan body image (persepsi dan
penilaian seseorang atas apa yang ia pikirkan
dan rasakan terhadap ukuran dan bentuk
tubuhnya) itu sendiri dipengaruhi oleh
beberapa faktor. Salah satu faktor yang
paling berperan kuat adalah pengalaman-
pengalaman interpersonal [1].
Harga diri (self-esteem) merupakan sikap
seseorang yang terbentuk dari body image
yang ia miliki sebelumnya, yang berupa sikap
positif dan negatif [1]. Harga diri merupakan
komponen diri yang bukan hanya dalam
persoalan pribadi ataupun psikologis, tetapi
juga interaksi sosial. Maka harga diri
merupakan sikap yang terbentuk berdasarkan
pada persepsi mengenai nilai seseorang [2].
Harga diri merupakan hal yang sangat
penting dalam perkembangan body image.
Seseorang yang memiliki harga diri yang
tinggi akan mengembangkan evaluasi yang
positif terhadap tubuhnya, namun sebaliknya
seseorang yang memiliki harga diri yang
rendah akan meningkatkan body image yang
negatif [1].
Perkembangan teknologi saat ini membuat
semua informasi semakin mudah untuk
diakses. Salah satunya adalah teknologi
untuk bersosialisasi atau yang kita kenal
sebagai media sosial. Maraknya penggunaan
media sosial ini semakin memperluas
jangkauan sosial setiap penggunanya. Di
media sosial, kita dapat menemukan,
berkenalan dan berinteraksi dengan orang
asing secara mudah. Kemudahan ini
membuat setiap orang bebas (hampir tanpa
batas) berbagi informasi dan saling
berpendapat.
Namun kebebasan berpendapat ini
dimanfaatkan secara negatif oleh orang-
orang yang tidak bertanggungjawab. Seolah
sedang bersembunyi di balik layar computer
atau handphone, media sosial kerap dijadikan
sebagai media untuk mengkritik, menilai,
menghina bahkan menindas (bullying)
seseorang.
Body shaming atau penghinaan fisik sering
terjadi di media sosial. Kepala Biro
Penerangan Masyarakat Divisi Humas Polri
Brigjen Dedi Prasetyo menjelaskan bahwa
body shaming dikategorikan menjadi dua
tindakan. Pertama, tindakan yang
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
mentransmisikan narasi berupa hinaan,
ejekan terhadap bentuk, wajah, warna kulit,
postur seseorang menggunakan media sosial.
Kedua, tindakan secara verbal atau langsung
ditujukan pada seseorang [3].
Pengaruh yang ditimbulkan oleh body
shaming juga beragam. Pengaruh yang paling
sering terjadi adalah menurunnya harga diri
dari korban body shaming. Selain itu, body
shaming di media sosial dapat menurunkan
harkat dan martabat korban serta merasa
malu karena diketahui khalayak umum. Body
shaming juga dapat menyebabkan nama baik
korban merasa tercemarkan dan korban
menjadi bahan bullying.
Berlatarkan kasus tersebut, maka perlu untuk
mengambil tindakan pencegahan agar tidak
membahayakan korban. Salah satunya adalah
mendeteksi sejak awal komentar-komentar
yang mengandung body shaming.
Pada penelitian sebelumnya, text mining
modelling menggunakan algoritma
klasifikasi Naïve Bayes digunakan untuk
mendeteksi tweets yang mengandung cyber-
abuse di media sosial twitter [4]. Pada
penelitian tersebut, pemodelan dilakukan
melewati lima tahap pemrosesan data yaitu
replace token, transform cases, tokenize,
filter stopwords, dan generate n-Grams.
Penelitian tersebut berhasil memprediksi
tweets yang mengancung cyber-abuse
dengan menghasilkan akurasi sebesar
82.50%.
Pada penelitian ini, peneliti melakukan text
mining modelling menggunakan algoritma
klasifikasi Naïve Bayes untuk mendeteksi
tweets yang mengandung body shaming di
media sosial twitter. Algoritma klasifikasi
Naïve Bayes digunakan karena Naïve Bayes
merupakan algoritma klasifikasi yang
mampu mengolah data dalam jumlah yang
besar dengan hasil akurasi yang tinggi [5].
Dalam machine learning, Naïve Bayes
Classifier adalah sebuah keluarga
pengklasifikasi probabilitas yang sederhana
yang diterapkan menggunakan teorema
Bayes dengan asumsi independen yang kuat
antara fitur-fiturnya. Semua pengklasifikasi
Naïve Bayes mengasumsikan bahwa nilai
fitur tertentu tidak tergantung pada nilai fitur
lainnya [6].
Naïve Bayes adalah teknik statistikal yang
populer dalam e-mail filtering. Muncul di
pertengahan tahun 90-an dan merupakan
salah satu upaya pertama untuk mengatasi
masalah penyaringan spam [6].
Naïve Bayes biasanya menggunakan bag of
words features untuk mengidentifikasi e-mail
spam, suatu pendekatan yang biasa
digunakan dalam klasifikasi teks. Naïve
Bayes Classifier bekerja dengan
mengkorelasikan penggunaan token
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
(biasanya kata-kata, atau kadang-kadang
konstruksi lainnya, sintaksis atau tidak)
dengan e-mail spam dan non-spam dan
kemudian menggunakan teorema Bayes
untuk menghitung probabilitas bahwa suatu
e-mail adalah spam atau bukan spam [6].
Metode
Tahapan penelitian yang dilakukan adalah
pengumpulan data, pengolahan data,
melakukan cross validation dengan
algoritma naïve bayes, evaluasi dan validasi
hasil dari prediksi. Semua tahapan tersebut
dilakukan dengan menggunakan software
Rapid Miner.
Pengumpulan Data
Teknik pengumpulan data yang dilakukan
adalah crawling data. Crawling data adalah
teknik pengumpulan data yang dilakukan
dengan cara mengunduh data dari suatu
database [7]. Dalam penelitian ini, data
diunduh dari server twitter melalui twitter
API yang sudah terhubung dengan Rapid
Miner.
Twitter API (Application Programming
Interface) merupakan sejumlah fungsi yang
dapat digunakan pengembang perangkat
lunak untuk mengolah data saat membangun
perangkat lunak. Twitter API menyediakan
beberapa fungsi untuk melakukan suatu tugas
tertentu, sehingga pengembang perangkat
lunak hanya memanggil fungsi tersebut di
dalam perangkat lunak yang dibangun.
Twitter API menggunakan arsitektur REST
(Representational State Transfer) sehingga
Twitter API dapat digunakan pada format
data yang beragam seperti XML maupun
JSON [8].
Data yang digunakan ada 2 jenis data, yaitu
data training dan data testing. Data training
adalah data yang digunakan sebagai data
pembelajaran untuk mendeteksi body
shaming tweets yang dimana setiap baris
datanya telah diberi label “body shame” dan
“not body shame”. Sedangkan data testing
adalah data yang digunakan untuk pengujian
model yang telah dihasilkan. Dalam
penelitian ini, peneliti mengumpulkan
sebanyak 120 baris dan 12 kolom data. Daftar
12 kolom data yang dikumpulkan dapat
dilihat pada tabel 1.
Tabel 1.
Daftar 12 kolom data tweet dari twitter API
Nama Kolom Keterangan
Id Id number dari tweet
tersebut
Created-At Tanggal pembuatan tweet
From-User Username pembuat tweet
From-User-Id Id number pembuat tweet
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Nama Kolom Keterangan
To-User Username yang dituju
atau yang dibalas
To-User-Id Id number pengguna yang
dituju atau yang dibalas
Language Bahasa yang digunakan
Source Sumber pembuatan tweet
(Web/iPhone/Android)
Text Isi tweet
Geo-
Location-
Latitude
Latitude lokasi
pembuatan tweet
Geo-
Location-
Longitude
Longitude lokasi
pembuatan tweet
Retweet-
Count
Jumlah retweet
Pada penelitian ini, peneliti hanya
mengambil 1 kolom data untuk diolah yaitu
kolom Text.
Pengolahan Data
Setelah mengumpulkan data, peneliti
mengolah data terlebih dahulu agar data
benar-benar valid untuk diproses. Tahapan
pengolahan data yang dilakukan adalah
penyaringan data, data cleansing dan
pemrosesan data.
1. Penyaringan Data (Filtering)
Penyaringan data dilakukan agar
tweet yang akan diolah adalah tweet
berbahasa Indonesia. Maka dilakukan
penyaringan bahasa.
2. Data Cleansing
Pembersihan data yang dilakukan
adalah menghapus jika ada username
yang di-mention (contoh:
@username), menghapus hashtag
(contoh: #hashtag) dan menghapus
link URL (contoh:
https://www.link.com/) pada setiap
baris data serta memastikan tidak ada
baris data yang tidak memiliki value
(missing value).
Tabel 2.
Contoh data cleansing
Sebelum Data
Cleansing
Setelah Data
Cleansing
Lagi
ngebayangin
kalo rambut gw
kribo kayak
gimana
https://t.co/Koj
QHlHlo9
Lagi
ngebayangin
kalo rambut gw
kribo kayak
gimana
Kemarin gua ke
@IndomaretP
oint trus
ditawarin "mau
isi pulsanya
sekalian kak?"
Kemarin gua ke
trus ditawarin
"mau isi
pulsanya
sekalian kak?"
Kok dia tau yak
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Sebelum Data
Cleansing
Setelah Data
Cleansing
Kok dia tau yak
kalo pulsa gua
udah abis.
#recehkan
#RecehkanTwi
tterJilid2
#sampahklasik
#ceweknakal
#2019GantiSta
tus
#RECEHKAN
#2019TetapRe
ceh
#JokesReceh
kalo pulsa gua
udah abis.
rambut pirang
muka PUTIH
leher coklat itu
cewe apa
RaInBoW cake
?
#RecehkanTwi
tterJilid2
#recehantwitte
r
#recehtapisaya
ng #recehkan
rambut pirang
muka PUTIH
leher coklat itu
cewe apa
RaInBoW
cake ?
Sebelum Data
Cleansing
Setelah Data
Cleansing
#2019TetapRe
ceh
3. Pemrosesan Data
Tahapan pemrosesan data yang
dilakukan adalah Tokenize,
Transform Cases, Stem (Dictionary),
Filter Stopwords (Dictionary), Filter
Tokens by Length dan Generate n-
Grams (Terms).
• Tokenize
Proses tokenisasi adalah
proses pemotongan sebuah
item, baik elemen skematik
(atribut) dan nilai atribut,
menjadi kata yang lebih kecil
(kata tunggal) yang dilakukan
dengan menggunakan
pembatas [4]. Pembatas yang
digunakan adalah non-letter
yang berupa karakter spasi.
Dalam proses ini, input
stream yang didapat dari file
text akan dipecah-pecah
menjadi bagian bagian yang
lebih kecil. Sebagai contoh
pemecahan kalimat menjadi
kata-kata (tokens) [9].
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Contoh proses tokenisasi
dapat dilihat pada tabel 3 di
bawah ini.
Contoh kalimat: rambut
pirang muka putih leher
coklat itu cewe apa rainbow
cake?
Tabel 3.
Contoh proses tokenisasi
Index Daftar kata
0 rambut
1 pirang
2 muka
3 PUTIH
4 leher
5 coklat
6 itu
7 cewe
8 apa
9 RaInBoW
10 cake
• Transform Cases
Transform cases adalah
proses dimana semua huruf
yang ada pada data diubah
sesuai dengan keinginan,
seperti mengubah uppercase
menjadi lowercase atau
sebaliknya [4].
Pada tahap ini, semua data
yang dimasukkan oleh
peneliti diubah menjadi
lowercase. Hal ini dilakukan
agar tidak ada kasus case
sensitive atau kata tidak
terdeteksi karena adanya
perbedaan format huruf.
Tabel 4.
Contoh transform cases
Sebelum
Transform
Cases
Setelah
Transform
Cases
rambut
pirang muka
PUTIH
leher coklat
itu cewe apa
RaInBoW
cake
rambut
pirang muka
putih leher
coklat itu
cewe apa
rainbow
cake
• Stem (Dictionary)
Stemming adalah sebuah
proses transformasi sebuah
kata yang tidak terstruktur
menjadi kata yang terstruktur
[10].
Tahap ini perlu dilakukan
karena sifat umum
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
masyarakat pengguna twitter
yang sering menyingkat kata,
menggunakan kata tidak baku
atau sering melakukan
kesalahan penulisan kata
(typo) sehingga perlu untuk
melakukan transformasi kata
agar maknanya tetap terjaga
atau teridentifikasi.
Contoh kata “maap” dari
“maaf”, kata “pengen” dari
“ingin, kata “dpt” dari “dapat”
dan sebagainya.
Tabel 5.
Contoh data stemming
Sebelum
Stemming
Setelah
Stemming
rambut
pirang muka
putih leher
coklat itu
cewe apa
rainbow
cake
rambut
pirang muka
putih leher
coklat itu
wanita apa
rainbow
cake
• Filter Stopwords (Dictionary)
Stopwords adalah kumpulan
kata pembentuk kalimat yang
tidak memiliki nilai informasi
dari kalimat tersebut [4].
Contohnya adalah kata
“dalam”, “dari”, “atau”,
“antara” dan sebagainya.
Proses ini akan menghapus
stopwords dari setiap baris
data.
Tabel 6.
Contoh filter stopwords
Sebelum
Filter
Stopwords
Setelah
Filter
Stopwords
rambut
pirang muka
putih leher
coklat itu
wanita apa
rainbow
cake
rambut
pirang muka
putih leher
coklat
wanita
rainbow
cake
• Filter Tokens by Length
Tahap ini adalah proses
penyaringan kata berdasarkan
panjang kata. Pada penelitian
ini, kata pada setiap baris data
minimal memiliki 3 karakter.
Kata yang memiliki kurang
dari 3 karakter akan dihapus.
• Generate n-Grams (Terms).
Makna dari bahasa tidak
terbentuk dari kata-kata
tunggal, tetapi terdiri dari
frasa 2, 3 atau lebih.
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Proses n-Grams digunakan
untuk menentukan
probabilitas urutan kata [4].
Pada penelitian ini, penerapan
n-Grams yang dilakukan
adalah bigram.
Tabel 7.
Contoh generate n-Grams
Sebelum
Generate
n-Grams
Setelah
Generate
n-Grams
rambut
pirang muka
putih leher
coklat
wanita
rainbow
cake
rambut
rambut_pir
ang pirang
pirang_mu
ka muka
muka_puti
h putih
putih_leher
leher
leher_cokla
t coklat
coklat_wan
ita wanita
wanita_rai
nbow
rainbow
rainbow_ca
ke cake
Cross Validation
Setelah tahap pemrosesan data selesai,
selanjutnya masuk ke tahap cross validation.
Cross validation adalah metode statistik
untuk mengevaluasi dan membandingkan
algoritma pembelajaran dengan membagi
data menjadi dua segmen: satu digunakan
untuk mempelajari atau melatih suatu model
(data training) dan yang lainnya digunakan
untuk memvalidasi model (data testing).
Bentuk dasar dari cross validation adalah
validasi silang k-fold [11].
Kelipatan validasi yang digunakan pada
penelitian ini adalah 10-fold. 10-fold cross
validation adalah validasi yang dilakukan
dengan cara membagi suatu set data menjadi
sepuluh segmen (subset) yang berukuran
sama besar dengan cara melakukan
pengacakan data [12]. Dalam 10-fold, dari
120 data yang dikumpulkan, data akan dibagi
menjadi 10 subset. Setiap subset terdiri dari
12 baris data.
Tabel 8.
Jumlah data pada setiap subset
Subset Jumlah Data
Subset 1 12
Subset 2 12
Subset 3 12
Subset 4 12
Subset 5 12
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Subset Jumlah Data
Subset 6 12
Subset 7 12
Subset 8 12
Subset 9 12
Subset 10 12
Untuk mengukur kestabilan rata-rata akurasi
yang dihasilkan oleh algoritma, cross
validation dilakukan ke dalam beberapa
iterasi yaitu 5 iterasi, 10 iterasi, 15 iterasi dan
20 iterasi. Pada setiap iterasi, 9 subset
dijadikan sebagai data training dan 1 subset
sebagai data testing. Untuk ilustrasi
penentuan subset sebagai data testing pada
setiap iterasi, dapat dilihat pada tabel 9.
Tabel 9.
Ilustrasi penentuan data testing pada setiap iterasi
Iterasi 1 Iterasi 2 Iterasi 3 Iterasi 4 Iterasi 5 Iterasi 6 Iterasi 7 Iterasi 8 Iterasi 9 Iterasi 10
1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2
3 3 3 3 3 3 3 3 3 3
4 4 4 4 4 4 4 4 4 4
5 5 5 5 5 5 5 5 5 5
6 6 6 6 6 6 6 6 6 6
7 7 7 7 7 7 7 7 7 7
8 8 8 8 8 8 8 8 8 8
9 9 9 9 9 9 9 9 9 9
10 10 10 10 10 10 10 10 10 10
Keterangan: Data Testing
Data Training
Naïve Bayes
Persamaan umum metode Naïve Bayes,
ditunjukkan dalam Persamaan 1.
𝑃(𝐵𝑆|𝑊) = *(+,)×*(.|+,)*(.)
……… (1)
Keterangan:
• BS: Hipotesis data merupakan suatu
class spesifik (Body Shame/Not Body
Shame).
• W: Data dengan class yang belum
diketahui.
• P(BS|W): Posterior, probabilitas
hipotesis BS berdasarkan kondisi W.
• P(BS): Prior, probabilitas hipotesis BS.
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
• P(W|BS): Likelihood, probabilitas W
berdasarkan kondisi pada hipotesis BS.
• P(W): Evidence, probabilitas W.
Nilai evidence akan tetap untuk setiap class
pada satu sampel. Nilai dari posterior
tersebut akan dibandingkan dengan nilai
posterior dari class lainnya untuk
menentukan kelas klasifikasi dari setiap
sampel.
Evaluasi dan Validasi Hasil Prediksi
Hasil yang diperoleh adalah akurasi dari
kinerja model. Akurasi kinerja model
ditentukan oleh 4 kondisi yaitu:
1. True Body Shame (TBS)
2. False Body Shame (FBS)
3. False Not Body Shame (FNBS)
4. True Not Body Shame (TNBS)
Proses evaluasi menghasilkan nilai class
precision dan class recall.
Class precision (CP) diperoleh dari seberapa
besar ketepatan mesin dalam memprediksi
klasifikasi data dengan jawaban yang
diharapkan [13].
𝐶𝑃 = 0012
× 100 ……… (2)
Keterangan:
a: Jumlah data prediksi yang relevan
b: Jumlah data prediksi yang tidak relevan
Class Recall (CR) diperoleh dari seberapa
besar ketepatan mesin dalam memanggil
kembali jumlah data yang relevan dengan
jumlah yang diharapkan [13].
𝐶𝑅 = 0016
× 100 ……… (3)
Keterangan:
a: Jumlah data terpanggil yang relevan
d: Jumlah data terpanggil yang tidak relevan
Tabel 10.
Ilustrasi tabel akurasi, precision dan recall
TBS TNBS CP
Pred. BS a b 𝑎𝑎 + 𝑏
× 100
Pred. NBS c d 𝑐𝑐 + 𝑑
× 100
CR 𝑎𝑎 + 𝑐
× 100 𝑏𝑏 + 𝑑
× 100
HASIL DAN PEMBAHASAN
Pada gambar 1 adalah ilustrasi dari alur
proses pemodelan deteksi tweets yang
mengandung body shaming.
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Gambar 1 Proses Utama
Pada cross validation terdapat 3 sub-proses
(gambar 2) yaitu Naïve Bayes untuk
menciptakan model, apply model untuk
menerapkan model pada data dan
performance untuk mengukur nilai akurasi,
precision dan recall.
Gambar 2 Proses Cross Validation
Setelah melakukan cross validation sebanyak
5, 10, 15 dan 20 iterasi, maka dihasilkan nilai
akurasi, precision dan recall untuk setiap
iterasi pada tabel 11.
Tabel 11.
Tabel nilai precision, recall dan akurasi
Iteration
Jumlah Data Precision Recall
Akurasi Training Testing Pred.
BS
Pred.
NBS
True BS True NBS
1 108 12 63.79% 80.65% 75.51% 70.42% 72.50%
2 108 12 63.16% 79.37% 73.47% 70.42% 71.67%
3 108 12 64.41% 81.97% 77.55% 70.42% 73.33%
4 108 12 63.79% 80.65% 75.51% 70.42% 72.50%
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Iteration
Jumlah Data Precision Recall
Akurasi Training Testing Pred.
BS
Pred.
NBS
True BS True NBS
5 108 12 60.32% 80.70% 77.55% 64.79% 70.00%
6 108 12 63.64% 78.46% 71.43% 71.83% 71.67%
7 108 12 60.34% 77.42% 71.43% 67.61% 69.17%
8 108 12 63.93% 83.05% 79.59% 69.01% 73.33%
9 108 12 61.02% 78.69% 73.47% 67.61% 70.00%
10 108 12 61.02% 78.69% 73.47% 67.61% 70.00%
11 108 12 60.34% 77.42% 71.43% 67.61% 69.17%
12 108 12 62.71% 80.33% 75.51% 69.01% 71.67%
13 108 12 60.34% 77.42% 71.43% 67.61% 69.17%
14 108 12 63.33% 81.67% 77.55% 69.01% 72.50%
15 108 12 61.82% 76.92% 69.39% 70.42% 70.00%
16 108 12 66.67% 82.54% 77.55% 73.24% 75.00%
17 108 12 63.33% 81.67% 77.55% 69.01% 72.50%
18 108 12 61.40% 77.78% 71.43% 69.01% 70.00%
19 108 12 62.30% 81.36% 77.55% 67.61% 71.67%
20 108 12 62.71% 80.33% 75.51% 69.01% 71.67%
Rata-rata 62.51% 79.85% 74.69% 69.08% 71.37%
Standar Deviasi 1.692% 1.902% 2.915% 1.853% 1.627%
Dari tabel 11, dapat dilihat bahwa nilai rata-
rata precision saat memprediksikan tweet
yang mengandung body shame sebesar
62.51% lebih rendah dibandingkan saat
memprediksikan tweet yang tidak
mengandung body shame sebesar 79.85%.
Nilai rata-rata recall saat mencari data yang
positif body shame sebesar 74.69% lebih
tinggi dibandingkan saat mencari data yang
positif not body shame sebesar 69.08%.
Nilai rata-rata akurasi dari setiap percobaan
iterasi adalah 5 iterasi sebesar 72%, 10 iterasi
sebesar 71.41%, 15 iterasi sebesar 71.11%
dan 20 iterasi sebesar 71.37%. Hal ini
menunjukkan bahwa 5 iterasi menghasilkan
rata-rata akurasi yang paling tinggi.
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Standar deviasi dari setiap percobaan iterasi
adalah 5 iterasi sebesar +/-1.262%, 10 iterasi
sebesar +/-1.522%, 15 iterasi sebesar +/-
1.530% dan 20 iterasi sebesar +/-1.6274%.
Hal ini menunjukkan bahwa dari keempat
percobaan iterasi, nilai rata-rata akurasi
model cukup stabil.
SIMPULAN
Berdasarkan hasil dari penelitian yang
dilakukan oleh peneliti, dapat disimpulkan
bahwa algoritma Naïve Bayes cukup baik
dalam mendeteksi body shaming. Hal ini
dibuktikan dengan rata-rata akurasinya yang
cukup tinggi. Hasil dari Naïve Bayes juga
dianggap stabil terbukti dengan standar
deviasi dari setiap percobaan iterasinya
sebesar +/-1.262% hingga +/-1.6274%.
Pada saat pemrosesan data khususnya pada
tahap stemming, peneliti menemukan bahwa
setiap pengguna twitter di Indonesia
memiliki kebiasaan, kosakata dan gaya
pengetikan yang berbeda dan unik. Setiap
tahunnya pasti akan ada kosakata dan gaya
pengetikan yang baru. Ini dapat menjadi
acuan untuk penelitian selanjutnya agar
selalu up to date.
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
DAFTAR PUSTAKA
[1] V. Nurvita and M. M. Handayani,
"Hubungan Aantara Self-esteem dengan
Body Image pada Remaja Awal yang
Mengalami Obesitas," Jurnal Psikologi
Klinis dan Kesehatan Mental, vol. 4, pp.
41-49, 2015.
[2] R. P. N. and I. Y. C., "Hubungan Antara
Self-Esteem Dengan Kecenderungan
Body Dysmorphic Disorder Pada
Remaja Putri," Jurnal Psikologi Klinis
dan Kesehatan Mental, vol. 1, pp. 110-
117, 2012.
[3] A. Santoso, "Detiknews," 2018.
[Online]. Available:
https://news.detik.com/berita/4321990/
polisi-tangani-966-kasus-body-
shaming-selama-2018. [Accessed 13
December 2018].
[4] I. Y. Anggraini, S. and R. Indriati,
"Cyberbullying Detection Modelling at
Twitter Social Networking," JUITA,
vol. VI, pp. 113-118, 2018.
[5] A. R. T. Lestari, R. S. Perdana and M.
A. Fauzi, "Analisa Sentimen Tentang
Opini Pilkada DKI 2017 Pada Dokumen
Twitter Berbahasa Indonesia
Menggunakan Naive Bayes dan
Pembobotan Emoji," Jurnal
Pengembangan Teknologi Informasi
dan Ilmu Komputer, vol. 1, pp. 1718-
1724, 2017.
[6] M. Granik and V. Mesyura, "Fake News
Detection Using Naive Bayes
Classifier," in Ukraine Conference on
Electrical and Computer Engineering
(UKRCON), Vinnytsia, 2017.
[7] J. E. Sembodo, E. B. Setiawan and Z. A.
Baizal, "Data Crawling Otomatis pada
Twitter," Ind. Symposium on
Computing, pp. 11-16, 2016.
[8] R. D. Cahyo, W. Wibisono and H.
Studiawan, "Deteksi dan Validasi
Informasi Gempa Secara Real-Time
Berbasis Social Sensor dengan Twitter,"
JURNAL TEKNIK POMITS, vol. 2,
2014.
[9] A. Setiawan, E. Kurniawan and W.
Handiwidjojo, "Implementasi Stop
Word Removal Untuk Pembangunan
Applikasi Alkitab Berbasis Windows
8," Jurnal EKSIS, vol. 06, pp. 1-11,
2013.
[10
]
H. Margono, X. Yi and G. K.
Raikundalia, "Mining Indonesian Cyber
http://digilib.mercubuana.ac.id/
Jurnal Teknosains: The Journal of Science and Technology
Bullying Patterns in Social Networks,"
Auckland, 2014.
[11
]
P. Refaeilzadeh, L. Tang and H. Liu,
"Cross Validation," in Encyclopedia of
Database Systems, Boston, Springer,
2009, p. 24.
[12
]
M. F. Arifin and D. Fitrianah,
"Penerapan Algoritma Klasifikasi C4.5
dalam Rekomendasi Penerimaan Mitra
Penjualan Studi Kasus : PT Atria Artha
Persada," IncomTech, Jurnal
Telekomunikasi dan Komputer, vol. 8,
pp. 87-102, 2018.
[13
]
D. Bužić and J. Dobša, "Lyrics
Classification using Naive Bayes,"
Opatija, 2018.
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/
A
Universitas Mercu Buana
LAMPIRAN KORESPONDENSI
Pada bagian ini berisi Lampiran Bukti Submit Jurnal, Lampiran Korespondensi dengan Penerbit dan Lampiran Progress saat ini.
1. Lampiran Bukti Submit Jurnal
2. Lampiran Korespondensi dengan Penerbit
http://digilib.mercubuana.ac.id/
B
Universitas Mercu Buana
3. Lampiran Progress saat ini (In Review)
Progress saat ini adalah in review.
http://digilib.mercubuana.ac.id/
C
Universitas Mercu Buana
DAFTAR RIWAYAT HIDUP
Nama lengkap : Imelda Yohana Uli Rastra Lingga Tempat & tanggal lahir : Pontianak, 13 Mei 1995 Jenis kelamin : Perempuan Kewarganegaraan : Indonesia Status : Belum menikah Nomor ID : 1211015305950003 Nomor Pasport : - Email : [email protected]
Agama : Kristen Protestan Alamat : Jln. Karet Gusuran III No. 11, Karet,
Setiabudi, Jakarta Selatan Nomor HP : 081905257016 PENDIDIKAN Sekolah Dasar : SD INPRES Kalang Simbara Sidikalang Sekolah Menengah Pertama : SMP Negeri 3 Sidikalang Sekolah Menengah Akhir : SMA Negeri 1 Sidikalang Universitas : Universitas Mercu Buana Gelar : Strata 1 Fakultas : Ilmu Komputer Judul Tugas Akhir : Pemodelan Deteksi Body Shaming di Media Sosial Twitter
Menggunakan Algoritma Naïve Bayes IPK : 3.31 (Semester 2) SKILLS Language : English Score TOEIC : 565 Operation Systems & Platforms : Windows, Linux, Android, iOS Programming Language : C, Java, SQL Web Technologies : HTML, CSS, JavaScript, jQuery, AngularJS (Beginner) IDE : Netbeans, Android Studio, STS–Spring, Unity Design Tools : Adobe Photoshop, Adobe Illustrator, Sketch PENGALAMAN ORGANISASI
Tahun Jabatan Nama Organisasi 2015 - 2016 Member of Art and Culture Department Badan Eksekutif Mahasiswa IT
Del 2015 Member of Del Multimedia Community Del Multimedia Community 2014 - 2015 Secretary of Del Dance Drama Club Del Dance Drama Club 2013 Member of Del English Club Del English Club
PENGALAMAN KERJA
Tahun Posisi Nama Perusahaan 2018 UI/UX Designer Coders Colony 2016 - 2018
Front End Developer PT. Mitra Kreasindo
2016 Web Developer Internship PT. Workplace Options Indonesia
HOBI Olahraga : Lari Lainnya : Dance, membaca buku dan menggambar
http://digilib.mercubuana.ac.id/
D
Universitas Mercu Buana
LEMBAR ASISTENSI
http://digilib.mercubuana.ac.id/
E
Universitas Mercu Buana
http://digilib.mercubuana.ac.id/