33
HALAMAN SAMPUL PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL TWITTER MENGGUNAKAN ALGORITMA NAÏVE BAYES TUGAS AKHIR Imelda Yohana Uli Rastra Lingga 41517110158 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA JAKARTA 2019 In Review http://digilib.mercubuana.ac.id/

HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

HALAMAN SAMPUL

PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL

TWITTER MENGGUNAKAN ALGORITMA NAÏVE BAYES

TUGAS AKHIR

Imelda Yohana Uli Rastra Lingga 41517110158

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA

JAKARTA 2019

In Review

http://digilib.mercubuana.ac.id/

Page 2: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

i

HALAMAN JUDUL

HALAMAN JUDUL

PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL TWITTER MENGGUNAKAN ALGORITMA NAÏVE BAYES

Tugas Akhir

Diajukan Untuk Melengkapi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Oleh: Imelda Yohana Uli Rastra Lingga

41517110158

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCU BUANA

JAKARTA 2019

http://digilib.mercubuana.ac.id/

Page 3: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

ii

http://digilib.mercubuana.ac.id/

Page 4: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

iii

http://digilib.mercubuana.ac.id/

Page 5: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

iv

http://digilib.mercubuana.ac.id/

Page 6: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

v

http://digilib.mercubuana.ac.id/

Page 7: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

vi

http://digilib.mercubuana.ac.id/

Page 8: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

vii

ABSTRAK

Nama : Imelda Yohana Uli Rastra Lingga NIM : 41517110158 Pembimbing TA : Eliyani, Dr. Ir. Judul : Pemodelan Deteksi Body Shaming di Media Sosial

Twitter Menggunakan Algoritma Naïve Bayes

Body shaming atau penghinaan fisik yang semakin marak di media sosial menimbulkan banyak pengaruh buruk seperti menurunkan harkat dan martabat korban serta menjadikan korban sebagai bahan bullying. Untuk mencegah tindakan yang berbahaya tersebut, diperlukan sebuah pendeteksi body shaming. Dengan menggunakan data tweets yang dikumpulkan melalui Twitter API, pemodelan deteksi body shaming dilakukan menggunakan algoritma klasifikasi Naïve Bayes dan software Rapid Miner. Dalam penelitian ini dilakukan enam tahap pemrosesan data yaitu tokenize, transform cases, stemming, filter stopwords, filter tokens by length dan generate n-Grams. Validasi yang dilakukan menggunakan 10-fold cross validation. Evaluasi yang dilakukan menggunakan tabel Confusion Matrix. Hasil akhirnya adalah nilai rata-rata akurasi dan standar deviasi dari setiap percobaan iterasi. Kata kunci: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;

http://digilib.mercubuana.ac.id/

Page 9: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

viii

ABSTRACT

Name : Imelda Yohana Uli Rastra Lingga Student Number : 41517110158 Counsellor : Eliyani, Dr. Ir. Title : Pemodelan Deteksi Body Shaming di Media Sosial

Twitter Menggunakan Algoritma Naïve Bayes

Body shaming or physical humiliation that is increasingly prevalent on social media creates many bad influences such as reducing the dignity of victims and making victims as bullying material. To prevent this dangerous action, a body shaming detector is needed. By using data tweets collected through Twitter API, body shaming detection modeling is done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing were carried out, namely tokenize, transform cases, stemming, filter stopwords, filter tokens by length and generate n-Grams. Validation is done using 10-fold cross validation. Evaluations are carried out using the Confusion Matrix table. The end result is the average value of accuracy and standard deviation of each iteration experiment. Key words: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;

http://digilib.mercubuana.ac.id/

Page 10: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

ix

KATA PENGANTAR

Puji syukur kita panjatkan kepada Tuhan Yang Maha Esa atas limpahan rahmat dan

karunia-Nya, sehingga penulis dapat merampungkan Tugas Akhir dengan judul:

Pemodelan Deteksi Body Shaming di Media Sosial Twitter Menggunakan

Algoritma Naïve Bayes. Ini untuk memenuhi salah satu syarat menyelesaikan studi

serta dalam rangka memperoleh gelar Sarjana Komputer Strata Satu pada Program

Studi Teknik Informatika Universitas Mercu Buana.

Penulis menyadari bahwa tanpa bantuan dan bimbingan dari Ibu Eliyani, Dr. Ir.,

penulis tidak dapat menyelesaikan Tugas Akhir ini dengan baik. Oleh karena itu,

penulis mengucapkan terima kasih kepada:

1. Yth. Ibu Eliyani, Dr. Ir., selaku Dosen Pembimbing Tugas Akhir

2. Yth. Bapak Mujiono, Dr., ST., MT, selaku Dosen Pembimbing Akademik

3. Yth. Bapak Raka Yusuf, ST., MTI, Bapak Muhammad Rifqi, S.Kom,

M.Kom dan Ibu Sri Dianing Asri, ST., M.Kom, selaku Dosen Penguji Tugas

Akhir

4. Seluruh staf dosen dan karyawan Universitas Mercu Buana

5. Kedua orangtua yang telah memberikan dorongan dan doa sehingga penulis

dapat menyelesaikan Tugas Akhir ini

6. Teman-teman satu bimbingan yang telah mendukung dan membantu dalam

menyelesaikan Tugas Akhir ini

Akhir kata, penulis mengucapkan rasa terima kasih kepada semua pihak dan apabila

ada yang tidak tersebutkan penulis mohon maaf, dengan besar harapan semoga

Tugas Akhir yang ditulis oleh penulis ini dapat bermanfaat khususnya bagi penulis

sendiri dan umumnya bagi pembaca.

Jakarta, 17 Januari 2019

Penulis

http://digilib.mercubuana.ac.id/

Page 11: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

1

Universitas Mercu Buana

NASKAH JURNAL

http://digilib.mercubuana.ac.id/

Page 12: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

PEMODELAN DETEKSI BODY SHAMING DI MEDIA SOSIAL TWITTER

MENGGUNAKAN ALGORITMA NAÏVE BAYES

Imelda Yohana Uli Rastra Lingga Program Studi Teknik Informatika

Fakultas Ilmu Komputer, Universitas Mercu Buana Jakarta Email: [email protected]

Eliyani

Fakultas Ilmu Komputer, Universitas Mercu Buana Jakarta

ABSTRACT

Body shaming or physical humiliation that is increasingly prevalent on social media creates many bad influences such as reducing the dignity of victims and making victims as bullying material. To prevent this dangerous action, a body shaming detector is needed. By using data tweets collected through Twitter API, body shaming detection modeling is done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing were carried out, namely tokenize, transform cases, stemming, filter stopwords, filter tokens by length and generate n-Grams. Validation is done using 10-fold cross validation. Evaluations are carried out using the Confusion Matrix table. The end result is the average value of accuracy and standard deviation of each iteration experiment. Keywords: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner;

ABSTRAK Body shaming atau penghinaan fisik yang semakin marak di media sosial menimbulkan banyak pengaruh buruk seperti menurunkan harkat dan martabat korban serta menjadikan korban sebagai bahan bullying. Untuk mencegah tindakan yang berbahaya tersebut, diperlukan sebuah pendeteksi body shaming. Dengan menggunakan data tweets yang dikumpulkan melalui Twitter API, pemodelan deteksi body shaming dilakukan menggunakan algoritma klasifikasi Naïve Bayes dan software Rapid Miner. Dalam penelitian ini dilakukan enam tahap pemrosesan data yaitu tokenize, transform cases, stemming, filter stopwords, filter tokens by length dan generate n-Grams. Validasi yang dilakukan menggunakan 10-fold cross validation. Evaluasi yang dilakukan menggunakan tabel Confusion Matrix. Hasil akhirnya adalah nilai rata-rata akurasi dan standar deviasi dari setiap percobaan iterasi. Keywords: Body Shaming; Modelling; Twitter; Naïve Bayes; Rapid Miner; PENGANTAR

Setiap manusia selalu ingin tampil menarik di

depan masyarakat. Banyak pemikiran yang

sudah tertanam sejak dini tentang bagaimana

seorang manusia bisa dikategorikan sebagai

manusia yang menarik. Misalnya wanita

yang cantik adalah wanita yang berkulit

putih, berhidung mancung, bertubuh langsing

atau memiliki rambut hitam dan lurus.

Sedangkan wanita yang berkulit gelap,

berhidung pesek, bertubuh gemuk atau

memiliki rambut keriting selalu dianggap

tidak menarik atau jelek. Pemikiran seperti

ini membawa pengaruh besar bagi setiap

http://digilib.mercubuana.ac.id/

Page 13: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

persepsi orang terhadap bentuk tubuhnya.

Jika tidak memenuhi standar kecantikan

tersebut, seseorang dapat kehilangan percaya

diri dan merasa tidak berharga bahkan

merasa dirinya memalukan karena dianggap

tidak menarik. Tak heran banyak kasus

kematian akibat gangguan makan (eating

disorders), menghabiskan uang berjuta-juta

bahkan mencapai milyaran rupiah untuk

operasi plastik, suntik putih yang berbahaya

beredar di pasaran dan sebagainya.

Perkembangan body image (persepsi dan

penilaian seseorang atas apa yang ia pikirkan

dan rasakan terhadap ukuran dan bentuk

tubuhnya) itu sendiri dipengaruhi oleh

beberapa faktor. Salah satu faktor yang

paling berperan kuat adalah pengalaman-

pengalaman interpersonal [1].

Harga diri (self-esteem) merupakan sikap

seseorang yang terbentuk dari body image

yang ia miliki sebelumnya, yang berupa sikap

positif dan negatif [1]. Harga diri merupakan

komponen diri yang bukan hanya dalam

persoalan pribadi ataupun psikologis, tetapi

juga interaksi sosial. Maka harga diri

merupakan sikap yang terbentuk berdasarkan

pada persepsi mengenai nilai seseorang [2].

Harga diri merupakan hal yang sangat

penting dalam perkembangan body image.

Seseorang yang memiliki harga diri yang

tinggi akan mengembangkan evaluasi yang

positif terhadap tubuhnya, namun sebaliknya

seseorang yang memiliki harga diri yang

rendah akan meningkatkan body image yang

negatif [1].

Perkembangan teknologi saat ini membuat

semua informasi semakin mudah untuk

diakses. Salah satunya adalah teknologi

untuk bersosialisasi atau yang kita kenal

sebagai media sosial. Maraknya penggunaan

media sosial ini semakin memperluas

jangkauan sosial setiap penggunanya. Di

media sosial, kita dapat menemukan,

berkenalan dan berinteraksi dengan orang

asing secara mudah. Kemudahan ini

membuat setiap orang bebas (hampir tanpa

batas) berbagi informasi dan saling

berpendapat.

Namun kebebasan berpendapat ini

dimanfaatkan secara negatif oleh orang-

orang yang tidak bertanggungjawab. Seolah

sedang bersembunyi di balik layar computer

atau handphone, media sosial kerap dijadikan

sebagai media untuk mengkritik, menilai,

menghina bahkan menindas (bullying)

seseorang.

Body shaming atau penghinaan fisik sering

terjadi di media sosial. Kepala Biro

Penerangan Masyarakat Divisi Humas Polri

Brigjen Dedi Prasetyo menjelaskan bahwa

body shaming dikategorikan menjadi dua

tindakan. Pertama, tindakan yang

http://digilib.mercubuana.ac.id/

Page 14: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

mentransmisikan narasi berupa hinaan,

ejekan terhadap bentuk, wajah, warna kulit,

postur seseorang menggunakan media sosial.

Kedua, tindakan secara verbal atau langsung

ditujukan pada seseorang [3].

Pengaruh yang ditimbulkan oleh body

shaming juga beragam. Pengaruh yang paling

sering terjadi adalah menurunnya harga diri

dari korban body shaming. Selain itu, body

shaming di media sosial dapat menurunkan

harkat dan martabat korban serta merasa

malu karena diketahui khalayak umum. Body

shaming juga dapat menyebabkan nama baik

korban merasa tercemarkan dan korban

menjadi bahan bullying.

Berlatarkan kasus tersebut, maka perlu untuk

mengambil tindakan pencegahan agar tidak

membahayakan korban. Salah satunya adalah

mendeteksi sejak awal komentar-komentar

yang mengandung body shaming.

Pada penelitian sebelumnya, text mining

modelling menggunakan algoritma

klasifikasi Naïve Bayes digunakan untuk

mendeteksi tweets yang mengandung cyber-

abuse di media sosial twitter [4]. Pada

penelitian tersebut, pemodelan dilakukan

melewati lima tahap pemrosesan data yaitu

replace token, transform cases, tokenize,

filter stopwords, dan generate n-Grams.

Penelitian tersebut berhasil memprediksi

tweets yang mengancung cyber-abuse

dengan menghasilkan akurasi sebesar

82.50%.

Pada penelitian ini, peneliti melakukan text

mining modelling menggunakan algoritma

klasifikasi Naïve Bayes untuk mendeteksi

tweets yang mengandung body shaming di

media sosial twitter. Algoritma klasifikasi

Naïve Bayes digunakan karena Naïve Bayes

merupakan algoritma klasifikasi yang

mampu mengolah data dalam jumlah yang

besar dengan hasil akurasi yang tinggi [5].

Dalam machine learning, Naïve Bayes

Classifier adalah sebuah keluarga

pengklasifikasi probabilitas yang sederhana

yang diterapkan menggunakan teorema

Bayes dengan asumsi independen yang kuat

antara fitur-fiturnya. Semua pengklasifikasi

Naïve Bayes mengasumsikan bahwa nilai

fitur tertentu tidak tergantung pada nilai fitur

lainnya [6].

Naïve Bayes adalah teknik statistikal yang

populer dalam e-mail filtering. Muncul di

pertengahan tahun 90-an dan merupakan

salah satu upaya pertama untuk mengatasi

masalah penyaringan spam [6].

Naïve Bayes biasanya menggunakan bag of

words features untuk mengidentifikasi e-mail

spam, suatu pendekatan yang biasa

digunakan dalam klasifikasi teks. Naïve

Bayes Classifier bekerja dengan

mengkorelasikan penggunaan token

http://digilib.mercubuana.ac.id/

Page 15: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

(biasanya kata-kata, atau kadang-kadang

konstruksi lainnya, sintaksis atau tidak)

dengan e-mail spam dan non-spam dan

kemudian menggunakan teorema Bayes

untuk menghitung probabilitas bahwa suatu

e-mail adalah spam atau bukan spam [6].

Metode

Tahapan penelitian yang dilakukan adalah

pengumpulan data, pengolahan data,

melakukan cross validation dengan

algoritma naïve bayes, evaluasi dan validasi

hasil dari prediksi. Semua tahapan tersebut

dilakukan dengan menggunakan software

Rapid Miner.

Pengumpulan Data

Teknik pengumpulan data yang dilakukan

adalah crawling data. Crawling data adalah

teknik pengumpulan data yang dilakukan

dengan cara mengunduh data dari suatu

database [7]. Dalam penelitian ini, data

diunduh dari server twitter melalui twitter

API yang sudah terhubung dengan Rapid

Miner.

Twitter API (Application Programming

Interface) merupakan sejumlah fungsi yang

dapat digunakan pengembang perangkat

lunak untuk mengolah data saat membangun

perangkat lunak. Twitter API menyediakan

beberapa fungsi untuk melakukan suatu tugas

tertentu, sehingga pengembang perangkat

lunak hanya memanggil fungsi tersebut di

dalam perangkat lunak yang dibangun.

Twitter API menggunakan arsitektur REST

(Representational State Transfer) sehingga

Twitter API dapat digunakan pada format

data yang beragam seperti XML maupun

JSON [8].

Data yang digunakan ada 2 jenis data, yaitu

data training dan data testing. Data training

adalah data yang digunakan sebagai data

pembelajaran untuk mendeteksi body

shaming tweets yang dimana setiap baris

datanya telah diberi label “body shame” dan

“not body shame”. Sedangkan data testing

adalah data yang digunakan untuk pengujian

model yang telah dihasilkan. Dalam

penelitian ini, peneliti mengumpulkan

sebanyak 120 baris dan 12 kolom data. Daftar

12 kolom data yang dikumpulkan dapat

dilihat pada tabel 1.

Tabel 1.

Daftar 12 kolom data tweet dari twitter API

Nama Kolom Keterangan

Id Id number dari tweet

tersebut

Created-At Tanggal pembuatan tweet

From-User Username pembuat tweet

From-User-Id Id number pembuat tweet

http://digilib.mercubuana.ac.id/

Page 16: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Nama Kolom Keterangan

To-User Username yang dituju

atau yang dibalas

To-User-Id Id number pengguna yang

dituju atau yang dibalas

Language Bahasa yang digunakan

Source Sumber pembuatan tweet

(Web/iPhone/Android)

Text Isi tweet

Geo-

Location-

Latitude

Latitude lokasi

pembuatan tweet

Geo-

Location-

Longitude

Longitude lokasi

pembuatan tweet

Retweet-

Count

Jumlah retweet

Pada penelitian ini, peneliti hanya

mengambil 1 kolom data untuk diolah yaitu

kolom Text.

Pengolahan Data

Setelah mengumpulkan data, peneliti

mengolah data terlebih dahulu agar data

benar-benar valid untuk diproses. Tahapan

pengolahan data yang dilakukan adalah

penyaringan data, data cleansing dan

pemrosesan data.

1. Penyaringan Data (Filtering)

Penyaringan data dilakukan agar

tweet yang akan diolah adalah tweet

berbahasa Indonesia. Maka dilakukan

penyaringan bahasa.

2. Data Cleansing

Pembersihan data yang dilakukan

adalah menghapus jika ada username

yang di-mention (contoh:

@username), menghapus hashtag

(contoh: #hashtag) dan menghapus

link URL (contoh:

https://www.link.com/) pada setiap

baris data serta memastikan tidak ada

baris data yang tidak memiliki value

(missing value).

Tabel 2.

Contoh data cleansing

Sebelum Data

Cleansing

Setelah Data

Cleansing

Lagi

ngebayangin

kalo rambut gw

kribo kayak

gimana

https://t.co/Koj

QHlHlo9

Lagi

ngebayangin

kalo rambut gw

kribo kayak

gimana

Kemarin gua ke

@IndomaretP

oint trus

ditawarin "mau

isi pulsanya

sekalian kak?"

Kemarin gua ke

trus ditawarin

"mau isi

pulsanya

sekalian kak?"

Kok dia tau yak

http://digilib.mercubuana.ac.id/

Page 17: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Sebelum Data

Cleansing

Setelah Data

Cleansing

Kok dia tau yak

kalo pulsa gua

udah abis.

#recehkan

#RecehkanTwi

tterJilid2

#sampahklasik

#ceweknakal

#2019GantiSta

tus

#RECEHKAN

TWITTER

#2019TetapRe

ceh

#JokesReceh

kalo pulsa gua

udah abis.

rambut pirang

muka PUTIH

leher coklat itu

cewe apa

RaInBoW cake

?

#RecehkanTwi

tterJilid2

#recehantwitte

r

#recehtapisaya

ng #recehkan

rambut pirang

muka PUTIH

leher coklat itu

cewe apa

RaInBoW

cake ?

Sebelum Data

Cleansing

Setelah Data

Cleansing

#2019TetapRe

ceh

3. Pemrosesan Data

Tahapan pemrosesan data yang

dilakukan adalah Tokenize,

Transform Cases, Stem (Dictionary),

Filter Stopwords (Dictionary), Filter

Tokens by Length dan Generate n-

Grams (Terms).

• Tokenize

Proses tokenisasi adalah

proses pemotongan sebuah

item, baik elemen skematik

(atribut) dan nilai atribut,

menjadi kata yang lebih kecil

(kata tunggal) yang dilakukan

dengan menggunakan

pembatas [4]. Pembatas yang

digunakan adalah non-letter

yang berupa karakter spasi.

Dalam proses ini, input

stream yang didapat dari file

text akan dipecah-pecah

menjadi bagian bagian yang

lebih kecil. Sebagai contoh

pemecahan kalimat menjadi

kata-kata (tokens) [9].

http://digilib.mercubuana.ac.id/

Page 18: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Contoh proses tokenisasi

dapat dilihat pada tabel 3 di

bawah ini.

Contoh kalimat: rambut

pirang muka putih leher

coklat itu cewe apa rainbow

cake?

Tabel 3.

Contoh proses tokenisasi

Index Daftar kata

0 rambut

1 pirang

2 muka

3 PUTIH

4 leher

5 coklat

6 itu

7 cewe

8 apa

9 RaInBoW

10 cake

• Transform Cases

Transform cases adalah

proses dimana semua huruf

yang ada pada data diubah

sesuai dengan keinginan,

seperti mengubah uppercase

menjadi lowercase atau

sebaliknya [4].

Pada tahap ini, semua data

yang dimasukkan oleh

peneliti diubah menjadi

lowercase. Hal ini dilakukan

agar tidak ada kasus case

sensitive atau kata tidak

terdeteksi karena adanya

perbedaan format huruf.

Tabel 4.

Contoh transform cases

Sebelum

Transform

Cases

Setelah

Transform

Cases

rambut

pirang muka

PUTIH

leher coklat

itu cewe apa

RaInBoW

cake

rambut

pirang muka

putih leher

coklat itu

cewe apa

rainbow

cake

• Stem (Dictionary)

Stemming adalah sebuah

proses transformasi sebuah

kata yang tidak terstruktur

menjadi kata yang terstruktur

[10].

Tahap ini perlu dilakukan

karena sifat umum

http://digilib.mercubuana.ac.id/

Page 19: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

masyarakat pengguna twitter

yang sering menyingkat kata,

menggunakan kata tidak baku

atau sering melakukan

kesalahan penulisan kata

(typo) sehingga perlu untuk

melakukan transformasi kata

agar maknanya tetap terjaga

atau teridentifikasi.

Contoh kata “maap” dari

“maaf”, kata “pengen” dari

“ingin, kata “dpt” dari “dapat”

dan sebagainya.

Tabel 5.

Contoh data stemming

Sebelum

Stemming

Setelah

Stemming

rambut

pirang muka

putih leher

coklat itu

cewe apa

rainbow

cake

rambut

pirang muka

putih leher

coklat itu

wanita apa

rainbow

cake

• Filter Stopwords (Dictionary)

Stopwords adalah kumpulan

kata pembentuk kalimat yang

tidak memiliki nilai informasi

dari kalimat tersebut [4].

Contohnya adalah kata

“dalam”, “dari”, “atau”,

“antara” dan sebagainya.

Proses ini akan menghapus

stopwords dari setiap baris

data.

Tabel 6.

Contoh filter stopwords

Sebelum

Filter

Stopwords

Setelah

Filter

Stopwords

rambut

pirang muka

putih leher

coklat itu

wanita apa

rainbow

cake

rambut

pirang muka

putih leher

coklat

wanita

rainbow

cake

• Filter Tokens by Length

Tahap ini adalah proses

penyaringan kata berdasarkan

panjang kata. Pada penelitian

ini, kata pada setiap baris data

minimal memiliki 3 karakter.

Kata yang memiliki kurang

dari 3 karakter akan dihapus.

• Generate n-Grams (Terms).

Makna dari bahasa tidak

terbentuk dari kata-kata

tunggal, tetapi terdiri dari

frasa 2, 3 atau lebih.

http://digilib.mercubuana.ac.id/

Page 20: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Proses n-Grams digunakan

untuk menentukan

probabilitas urutan kata [4].

Pada penelitian ini, penerapan

n-Grams yang dilakukan

adalah bigram.

Tabel 7.

Contoh generate n-Grams

Sebelum

Generate

n-Grams

Setelah

Generate

n-Grams

rambut

pirang muka

putih leher

coklat

wanita

rainbow

cake

rambut

rambut_pir

ang pirang

pirang_mu

ka muka

muka_puti

h putih

putih_leher

leher

leher_cokla

t coklat

coklat_wan

ita wanita

wanita_rai

nbow

rainbow

rainbow_ca

ke cake

Cross Validation

Setelah tahap pemrosesan data selesai,

selanjutnya masuk ke tahap cross validation.

Cross validation adalah metode statistik

untuk mengevaluasi dan membandingkan

algoritma pembelajaran dengan membagi

data menjadi dua segmen: satu digunakan

untuk mempelajari atau melatih suatu model

(data training) dan yang lainnya digunakan

untuk memvalidasi model (data testing).

Bentuk dasar dari cross validation adalah

validasi silang k-fold [11].

Kelipatan validasi yang digunakan pada

penelitian ini adalah 10-fold. 10-fold cross

validation adalah validasi yang dilakukan

dengan cara membagi suatu set data menjadi

sepuluh segmen (subset) yang berukuran

sama besar dengan cara melakukan

pengacakan data [12]. Dalam 10-fold, dari

120 data yang dikumpulkan, data akan dibagi

menjadi 10 subset. Setiap subset terdiri dari

12 baris data.

Tabel 8.

Jumlah data pada setiap subset

Subset Jumlah Data

Subset 1 12

Subset 2 12

Subset 3 12

Subset 4 12

Subset 5 12

http://digilib.mercubuana.ac.id/

Page 21: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Subset Jumlah Data

Subset 6 12

Subset 7 12

Subset 8 12

Subset 9 12

Subset 10 12

Untuk mengukur kestabilan rata-rata akurasi

yang dihasilkan oleh algoritma, cross

validation dilakukan ke dalam beberapa

iterasi yaitu 5 iterasi, 10 iterasi, 15 iterasi dan

20 iterasi. Pada setiap iterasi, 9 subset

dijadikan sebagai data training dan 1 subset

sebagai data testing. Untuk ilustrasi

penentuan subset sebagai data testing pada

setiap iterasi, dapat dilihat pada tabel 9.

Tabel 9.

Ilustrasi penentuan data testing pada setiap iterasi

Iterasi 1 Iterasi 2 Iterasi 3 Iterasi 4 Iterasi 5 Iterasi 6 Iterasi 7 Iterasi 8 Iterasi 9 Iterasi 10

1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3

4 4 4 4 4 4 4 4 4 4

5 5 5 5 5 5 5 5 5 5

6 6 6 6 6 6 6 6 6 6

7 7 7 7 7 7 7 7 7 7

8 8 8 8 8 8 8 8 8 8

9 9 9 9 9 9 9 9 9 9

10 10 10 10 10 10 10 10 10 10

Keterangan: Data Testing

Data Training

Naïve Bayes

Persamaan umum metode Naïve Bayes,

ditunjukkan dalam Persamaan 1.

𝑃(𝐵𝑆|𝑊) = *(+,)×*(.|+,)*(.)

……… (1)

Keterangan:

• BS: Hipotesis data merupakan suatu

class spesifik (Body Shame/Not Body

Shame).

• W: Data dengan class yang belum

diketahui.

• P(BS|W): Posterior, probabilitas

hipotesis BS berdasarkan kondisi W.

• P(BS): Prior, probabilitas hipotesis BS.

http://digilib.mercubuana.ac.id/

Page 22: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

• P(W|BS): Likelihood, probabilitas W

berdasarkan kondisi pada hipotesis BS.

• P(W): Evidence, probabilitas W.

Nilai evidence akan tetap untuk setiap class

pada satu sampel. Nilai dari posterior

tersebut akan dibandingkan dengan nilai

posterior dari class lainnya untuk

menentukan kelas klasifikasi dari setiap

sampel.

Evaluasi dan Validasi Hasil Prediksi

Hasil yang diperoleh adalah akurasi dari

kinerja model. Akurasi kinerja model

ditentukan oleh 4 kondisi yaitu:

1. True Body Shame (TBS)

2. False Body Shame (FBS)

3. False Not Body Shame (FNBS)

4. True Not Body Shame (TNBS)

Proses evaluasi menghasilkan nilai class

precision dan class recall.

Class precision (CP) diperoleh dari seberapa

besar ketepatan mesin dalam memprediksi

klasifikasi data dengan jawaban yang

diharapkan [13].

𝐶𝑃 = 0012

× 100 ……… (2)

Keterangan:

a: Jumlah data prediksi yang relevan

b: Jumlah data prediksi yang tidak relevan

Class Recall (CR) diperoleh dari seberapa

besar ketepatan mesin dalam memanggil

kembali jumlah data yang relevan dengan

jumlah yang diharapkan [13].

𝐶𝑅 = 0016

× 100 ……… (3)

Keterangan:

a: Jumlah data terpanggil yang relevan

d: Jumlah data terpanggil yang tidak relevan

Tabel 10.

Ilustrasi tabel akurasi, precision dan recall

TBS TNBS CP

Pred. BS a b 𝑎𝑎 + 𝑏

× 100

Pred. NBS c d 𝑐𝑐 + 𝑑

× 100

CR 𝑎𝑎 + 𝑐

× 100 𝑏𝑏 + 𝑑

× 100

HASIL DAN PEMBAHASAN

Pada gambar 1 adalah ilustrasi dari alur

proses pemodelan deteksi tweets yang

mengandung body shaming.

http://digilib.mercubuana.ac.id/

Page 23: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Gambar 1 Proses Utama

Pada cross validation terdapat 3 sub-proses

(gambar 2) yaitu Naïve Bayes untuk

menciptakan model, apply model untuk

menerapkan model pada data dan

performance untuk mengukur nilai akurasi,

precision dan recall.

Gambar 2 Proses Cross Validation

Setelah melakukan cross validation sebanyak

5, 10, 15 dan 20 iterasi, maka dihasilkan nilai

akurasi, precision dan recall untuk setiap

iterasi pada tabel 11.

Tabel 11.

Tabel nilai precision, recall dan akurasi

Iteration

Jumlah Data Precision Recall

Akurasi Training Testing Pred.

BS

Pred.

NBS

True BS True NBS

1 108 12 63.79% 80.65% 75.51% 70.42% 72.50%

2 108 12 63.16% 79.37% 73.47% 70.42% 71.67%

3 108 12 64.41% 81.97% 77.55% 70.42% 73.33%

4 108 12 63.79% 80.65% 75.51% 70.42% 72.50%

http://digilib.mercubuana.ac.id/

Page 24: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Iteration

Jumlah Data Precision Recall

Akurasi Training Testing Pred.

BS

Pred.

NBS

True BS True NBS

5 108 12 60.32% 80.70% 77.55% 64.79% 70.00%

6 108 12 63.64% 78.46% 71.43% 71.83% 71.67%

7 108 12 60.34% 77.42% 71.43% 67.61% 69.17%

8 108 12 63.93% 83.05% 79.59% 69.01% 73.33%

9 108 12 61.02% 78.69% 73.47% 67.61% 70.00%

10 108 12 61.02% 78.69% 73.47% 67.61% 70.00%

11 108 12 60.34% 77.42% 71.43% 67.61% 69.17%

12 108 12 62.71% 80.33% 75.51% 69.01% 71.67%

13 108 12 60.34% 77.42% 71.43% 67.61% 69.17%

14 108 12 63.33% 81.67% 77.55% 69.01% 72.50%

15 108 12 61.82% 76.92% 69.39% 70.42% 70.00%

16 108 12 66.67% 82.54% 77.55% 73.24% 75.00%

17 108 12 63.33% 81.67% 77.55% 69.01% 72.50%

18 108 12 61.40% 77.78% 71.43% 69.01% 70.00%

19 108 12 62.30% 81.36% 77.55% 67.61% 71.67%

20 108 12 62.71% 80.33% 75.51% 69.01% 71.67%

Rata-rata 62.51% 79.85% 74.69% 69.08% 71.37%

Standar Deviasi 1.692% 1.902% 2.915% 1.853% 1.627%

Dari tabel 11, dapat dilihat bahwa nilai rata-

rata precision saat memprediksikan tweet

yang mengandung body shame sebesar

62.51% lebih rendah dibandingkan saat

memprediksikan tweet yang tidak

mengandung body shame sebesar 79.85%.

Nilai rata-rata recall saat mencari data yang

positif body shame sebesar 74.69% lebih

tinggi dibandingkan saat mencari data yang

positif not body shame sebesar 69.08%.

Nilai rata-rata akurasi dari setiap percobaan

iterasi adalah 5 iterasi sebesar 72%, 10 iterasi

sebesar 71.41%, 15 iterasi sebesar 71.11%

dan 20 iterasi sebesar 71.37%. Hal ini

menunjukkan bahwa 5 iterasi menghasilkan

rata-rata akurasi yang paling tinggi.

http://digilib.mercubuana.ac.id/

Page 25: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Standar deviasi dari setiap percobaan iterasi

adalah 5 iterasi sebesar +/-1.262%, 10 iterasi

sebesar +/-1.522%, 15 iterasi sebesar +/-

1.530% dan 20 iterasi sebesar +/-1.6274%.

Hal ini menunjukkan bahwa dari keempat

percobaan iterasi, nilai rata-rata akurasi

model cukup stabil.

SIMPULAN

Berdasarkan hasil dari penelitian yang

dilakukan oleh peneliti, dapat disimpulkan

bahwa algoritma Naïve Bayes cukup baik

dalam mendeteksi body shaming. Hal ini

dibuktikan dengan rata-rata akurasinya yang

cukup tinggi. Hasil dari Naïve Bayes juga

dianggap stabil terbukti dengan standar

deviasi dari setiap percobaan iterasinya

sebesar +/-1.262% hingga +/-1.6274%.

Pada saat pemrosesan data khususnya pada

tahap stemming, peneliti menemukan bahwa

setiap pengguna twitter di Indonesia

memiliki kebiasaan, kosakata dan gaya

pengetikan yang berbeda dan unik. Setiap

tahunnya pasti akan ada kosakata dan gaya

pengetikan yang baru. Ini dapat menjadi

acuan untuk penelitian selanjutnya agar

selalu up to date.

http://digilib.mercubuana.ac.id/

Page 26: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

DAFTAR PUSTAKA

[1] V. Nurvita and M. M. Handayani,

"Hubungan Aantara Self-esteem dengan

Body Image pada Remaja Awal yang

Mengalami Obesitas," Jurnal Psikologi

Klinis dan Kesehatan Mental, vol. 4, pp.

41-49, 2015.

[2] R. P. N. and I. Y. C., "Hubungan Antara

Self-Esteem Dengan Kecenderungan

Body Dysmorphic Disorder Pada

Remaja Putri," Jurnal Psikologi Klinis

dan Kesehatan Mental, vol. 1, pp. 110-

117, 2012.

[3] A. Santoso, "Detiknews," 2018.

[Online]. Available:

https://news.detik.com/berita/4321990/

polisi-tangani-966-kasus-body-

shaming-selama-2018. [Accessed 13

December 2018].

[4] I. Y. Anggraini, S. and R. Indriati,

"Cyberbullying Detection Modelling at

Twitter Social Networking," JUITA,

vol. VI, pp. 113-118, 2018.

[5] A. R. T. Lestari, R. S. Perdana and M.

A. Fauzi, "Analisa Sentimen Tentang

Opini Pilkada DKI 2017 Pada Dokumen

Twitter Berbahasa Indonesia

Menggunakan Naive Bayes dan

Pembobotan Emoji," Jurnal

Pengembangan Teknologi Informasi

dan Ilmu Komputer, vol. 1, pp. 1718-

1724, 2017.

[6] M. Granik and V. Mesyura, "Fake News

Detection Using Naive Bayes

Classifier," in Ukraine Conference on

Electrical and Computer Engineering

(UKRCON), Vinnytsia, 2017.

[7] J. E. Sembodo, E. B. Setiawan and Z. A.

Baizal, "Data Crawling Otomatis pada

Twitter," Ind. Symposium on

Computing, pp. 11-16, 2016.

[8] R. D. Cahyo, W. Wibisono and H.

Studiawan, "Deteksi dan Validasi

Informasi Gempa Secara Real-Time

Berbasis Social Sensor dengan Twitter,"

JURNAL TEKNIK POMITS, vol. 2,

2014.

[9] A. Setiawan, E. Kurniawan and W.

Handiwidjojo, "Implementasi Stop

Word Removal Untuk Pembangunan

Applikasi Alkitab Berbasis Windows

8," Jurnal EKSIS, vol. 06, pp. 1-11,

2013.

[10

]

H. Margono, X. Yi and G. K.

Raikundalia, "Mining Indonesian Cyber

http://digilib.mercubuana.ac.id/

Page 27: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

Jurnal Teknosains: The Journal of Science and Technology

Bullying Patterns in Social Networks,"

Auckland, 2014.

[11

]

P. Refaeilzadeh, L. Tang and H. Liu,

"Cross Validation," in Encyclopedia of

Database Systems, Boston, Springer,

2009, p. 24.

[12

]

M. F. Arifin and D. Fitrianah,

"Penerapan Algoritma Klasifikasi C4.5

dalam Rekomendasi Penerimaan Mitra

Penjualan Studi Kasus : PT Atria Artha

Persada," IncomTech, Jurnal

Telekomunikasi dan Komputer, vol. 8,

pp. 87-102, 2018.

[13

]

D. Bužić and J. Dobša, "Lyrics

Classification using Naive Bayes,"

Opatija, 2018.

http://digilib.mercubuana.ac.id/

Page 28: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

http://digilib.mercubuana.ac.id/

Page 29: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

A

Universitas Mercu Buana

LAMPIRAN KORESPONDENSI

Pada bagian ini berisi Lampiran Bukti Submit Jurnal, Lampiran Korespondensi dengan Penerbit dan Lampiran Progress saat ini.

1. Lampiran Bukti Submit Jurnal

2. Lampiran Korespondensi dengan Penerbit

http://digilib.mercubuana.ac.id/

Page 30: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

B

Universitas Mercu Buana

3. Lampiran Progress saat ini (In Review)

Progress saat ini adalah in review.

http://digilib.mercubuana.ac.id/

Page 31: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

C

Universitas Mercu Buana

DAFTAR RIWAYAT HIDUP

Nama lengkap : Imelda Yohana Uli Rastra Lingga Tempat & tanggal lahir : Pontianak, 13 Mei 1995 Jenis kelamin : Perempuan Kewarganegaraan : Indonesia Status : Belum menikah Nomor ID : 1211015305950003 Nomor Pasport : - Email : [email protected]

Agama : Kristen Protestan Alamat : Jln. Karet Gusuran III No. 11, Karet,

Setiabudi, Jakarta Selatan Nomor HP : 081905257016 PENDIDIKAN Sekolah Dasar : SD INPRES Kalang Simbara Sidikalang Sekolah Menengah Pertama : SMP Negeri 3 Sidikalang Sekolah Menengah Akhir : SMA Negeri 1 Sidikalang Universitas : Universitas Mercu Buana Gelar : Strata 1 Fakultas : Ilmu Komputer Judul Tugas Akhir : Pemodelan Deteksi Body Shaming di Media Sosial Twitter

Menggunakan Algoritma Naïve Bayes IPK : 3.31 (Semester 2) SKILLS Language : English Score TOEIC : 565 Operation Systems & Platforms : Windows, Linux, Android, iOS Programming Language : C, Java, SQL Web Technologies : HTML, CSS, JavaScript, jQuery, AngularJS (Beginner) IDE : Netbeans, Android Studio, STS–Spring, Unity Design Tools : Adobe Photoshop, Adobe Illustrator, Sketch PENGALAMAN ORGANISASI

Tahun Jabatan Nama Organisasi 2015 - 2016 Member of Art and Culture Department Badan Eksekutif Mahasiswa IT

Del 2015 Member of Del Multimedia Community Del Multimedia Community 2014 - 2015 Secretary of Del Dance Drama Club Del Dance Drama Club 2013 Member of Del English Club Del English Club

PENGALAMAN KERJA

Tahun Posisi Nama Perusahaan 2018 UI/UX Designer Coders Colony 2016 - 2018

Front End Developer PT. Mitra Kreasindo

2016 Web Developer Internship PT. Workplace Options Indonesia

HOBI Olahraga : Lari Lainnya : Dance, membaca buku dan menggambar

http://digilib.mercubuana.ac.id/

Page 32: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

D

Universitas Mercu Buana

LEMBAR ASISTENSI

http://digilib.mercubuana.ac.id/

Page 33: HALAMAN SAMPUL - repository.mercubuana.ac.id Yudisium.pdf · done using the Naïve Bayes classification algorithm and Rapid Miner software. In this study, six stages of data processing

E

Universitas Mercu Buana

http://digilib.mercubuana.ac.id/