Upload
prosia
View
117
Download
3
Embed Size (px)
DESCRIPTION
Semakin berkembangnya dunia teknologi informasi, menyebabkan semakin banyaknya orang menggunakan internet dan berbagi melalui web dan internet. Dalam perkembangannya untuk menemukan ulasan atau pendapat tentang produk, layanan, acara dan nama merek, serta jasa tertentu adalah sangat penting dalam dunia bisnis dan perusahaan bahkan dalam dunia politik. Saat ini telah dikembangkan suatu website iFeel guna menganalisis pendapat-pendapat yang berupa teks pada jejaring sosial online dengan menggunakan metode analisis pendapat yang digabungkan dengan beberapa metode analisis pendapat lainnya pada satu platform[1]. Saat ini website iFeel hanya bisa mengambil data berupa teks dalam format txt lalu diuplod dan juga dapat dilakukan dengan mengetikan teks secara langsung pada laman website iFeel[1]. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook, agar dapat menganalisis pendapat yang ada pada website, twitter atau facebook tersebut tentang isu yang hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ? Dengan menambahkan teknik web scraping[4] dan parsing[5] pada website ifeel maka pengguna dapat menganalisa pendapat pada website yang ingin dianalisa dan media sosial seperti twitter dan facebook.
Citation preview
1 | P a g e
PENERAPAN TEKNIK WEB SCRAPING DAN PARSING PADA
WEBSITE IFEEL UNTUK SENTIMENT ANALYSIS
Paper : iFeel: A Web System that Compares and
Combines Sentiment Analysis Methods
ABU SOPIAN-14001202, PASCA SARJANA STMIK NUSA MANDIRI
22 DESEMBER 2014
RINGKASAN
Semakin berkembangnya dunia teknologi informasi, menyebabkan semakin banyaknya orang
menggunakan internet dan berbagi melalui web dan internet. Dalam perkembangannya untuk menemukan
ulasan atau pendapat tentang produk, layanan, acara dan nama merek, serta jasa tertentu adalah sangat
penting dalam dunia bisnis dan perusahaan bahkan dalam dunia politik. Saat ini telah dikembangkan suatu
website iFeel guna menganalisis pendapat-pendapat yang berupa teks pada jejaring sosial online dengan
menggunakan metode analisis pendapat yang digabungkan dengan beberapa metode analisis pendapat
lainnya pada satu platform[1]
. Saat ini website iFeel hanya bisa mengambil data berupa teks dalam format
txt lalu diuplod dan juga dapat dilakukan dengan mengetikan teks secara langsung pada laman website
iFeel[1]. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil
data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook,
agar dapat menganalisis pendapat yang ada pada website, twitter atau facebook tersebut tentang isu yang
hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ?
Dengan menambahkan teknik web scraping[4] dan parsing[5] pada website ifeel maka pengguna dapat
menganalisa pendapat pada website yang ingin dianalisa dan media sosial seperti twitter dan facebook.
A. Latar Belakang dan Masalah Riset
1. iFeel adalah sebuah website analisis pendapat yang menggunakan tools dan metode analisis
pendapat yang ada, yaitu: SentiWordNet, Emoticons, PANAS-t, SASA, Happiness Index, Sentic-Net,
dan SentiStrength serta ditambah dengan Combined Method[1]. Dengan menggunakan tools dan
metode ini, iFeel memiliki tujuh variasi untuk menganalisa suatu pendapat. Akan tetapi, sistem iFeel
hanya memungkinkan input teks yang diketik secara langsung dan teks yang diupload dengan format
txt untuk dianalisis. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan
cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti
twitter atau facebook, agar dapat menganalisis pendapat yang ada tersebut tentang isu yang hangat
dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ?
2. Hasil riset literatur artikel ilmiah 1) paper jurnal IJCSI International Journal of Computer Science
Issues, Vol. 9, Issue 4, No 3, July 2012 ISSN (Online): 1694-0814 yang berjudul Sentiment Analysis
on Twitter (Akshi Kumar and Teeja Mary Sebastian)[2]. Artikel ini menjelaskan untuk merancang
analisis pendapat pada Twitter menggunakan Twitter API dengan menggunakan pendekatan hybrid
dengan metode corpus based approach dan dictionary based approach. 2) Penerapan Teknik Web-
2 | P a g e
Scraping Pada Mesin Pencari Artikel Ilmiah (Ahmat Josi, Leon Andretti Abdillah2, Suryayusra)[3].
Artikel ini menjelaskan penerapan teknik web scraping pada mesin pencari artikel ilmiah
menggunakan pendekatan top-down.
2.1 Ide dasar dari solusi masalah :
Literatur artikel 1 :
Merancang analisis pendapat untuk Twitter menggunakan Twitter API dengan menggunakan
pendekatan hybrid dengan metode corpus based approach dan dictionary based approach.
Literatur artikel 2 :
Merancang mesin pencari artikel dengan teknik web scraping dengan menggunakan pendekatan
top-down menggunakan bahasa pemograman PHP dan database MySQL.
2.2 Kelemahan-kelemahan terhadap solusi yang ada :
Literatur artikel 1 :
Untuk mengambil data Twitter menggunakan Twitter API dengan pendekatan hybrid yang hanya
menggunakan metode corpus based approach dan dictionary based approach untuk analisis
pendapatnya, jadi perlu ditambahkan metode machines learning dan metode lexical.
Literatur artikel 2 :
Data yang diambil bukan untuk dianalisis menjadi sebuah pendapat positif atau negatif. Artikel ini
hanya merancang mesin pencari artikel dengan teknik web scraping, dan dengan teknik web
scraping ini dapat diterapkan pada website iFeel untuk mengambila data dari website.
3. Dari sejumlah literatur artikel diatas, berdasarkan dengan latar belakang dan masalah riset belum
dapat memecahkan sebagian masalah-masalah yang ada, yaitu untuk mengambil data Twitter
menggunakan Twitter API dan hanya menggunakan metode corpus based approach dan dictionary
based approach. Sedangkan pada mesin pencari artikel telah menggunakan web scraping, akan
tetapi data yang diambil bukan untuk dianalisis menjadi sebuah pendapat positif atau negatif. Dengan
ini perlu dilakukan riset untuk mencari solusi dalam memecahkan masalah-masalah tersebut. Dan
masing-masing belum menggunakan satu platform untuk dapat mengambil data dari website, twitter
dan facebook dengan teknik web scraping lalu data tersebut dianalisis sebagai pendapat positif atau
negatif pada website iFeel.
4. Pada analisa pendapat di Twitter telah dilakukan teknik analisis pendapat, tetapi menggunakan Twitter
API dan hanya menggunakan metode corpus based approach dan dictionary based approach untuk
analisis pendapat. Sedangkan teknik web scraping[4] pada mesin pencari artikel hanya digunakan
untuk mengambil data dari website saja dan data yang telah diambil lalu di indeks agar dapat
diurutkan berdasarkan pada file yang terdekat dari hasil pencarian. Mesin pencari artikel ini bukan
untuk dilakukan analisis pendapat positif atau negatif. Dengan teknik web scraping[4] ini, untuk
mengambil data dari website dan data yang masih berupa kumpulan-kumpulan kode html, javascript,
atau css diextract, lalu data yang telah diambil dilakukan proses parsing untuk memisahkan suatu teks
dari tag code html,, javascript, atau css pada halaman website, lalu data yang telah diparsing disimpan
dalam database iFeel untuk dilakukan proses analisis pendapat dengan menggunakan metode yang
telah ada pada iFeel. Dengan menambahkan teknik web scraping dan parsing pada website iFeel-
3 | P a g e
diharapkan dapat menambah cara kerja pengambilan data pada website iFeel yang semula hanya
dilakukan dengan input teks secara langsung dan upload data dengan format txt sehingga dapat
mengambil data yang besar dari website, twitter dan facebook untuk dapat dilakukan analisis
pendapat positif atau negatif tentang isu yang hangat dari produk, layanan, acara dan nama merek,
serta jasa tertentu dan politik dengan satu platform.
B. Tujuan Riset
Menerapkan teknik web scraping[4] dan parsing[5] pada website iFeel yaitu dengan membuat code
scraping pada website iFeel yang menggunakan bahasa phyton agar dapat mengambil data dari
website, twitter dan facebook dan diextract, lalu data yang telah diambil dilakukan proses parsing
untuk memisahkan teks dari tag code html, javascript atau css pada halaman website, lalu data yang
telah diparsing disimpan dalam database iFeel untuk dilakukan proses analisis pendapat dengan
menggunakan metode yang telah ada pada iFeel.
C. Metodologi Penelitian
1. Pada riset ini peneliti menggunakan teknik web scraping[4] dan parsing[5]. Alasannya menggunakan
web scraping adalah untuk mengextract kumpulan-kumpulan kode html, javascript, atau css dari
website, twitter dan facebook. Dan melakukan parsing[5] untuk memisahkan teks dari tag code html,
javascript atau css pada halaman website, twitter dan facebook lalu data yang telah diparsing
disimpan dalam database iFeel untuk dilakukan proses analisis pendapat dengan menggunakan
metode yang telah ada pada iFeel.
2. Artifak (design oriented research) :
1.1 Teknik pencarian solusi yang digunakan yaitu : 1) membuat solusi dengan perbaikan. Dimana
website iFeel saat ini belum dapat mengambil data dari website, twitter dan facebook. Saat ini
hanya dilakukan dengan pengetikan teks secara langsung pada website iFeel dan upload teks
dengan format txt. Untuk itu perlu diterapkan teknik web scraping dan parsing agar website iFeel
dapat mengambil data dari website, twitter dan facebook. 2) Memodelkan solusi yang mirip pada
artikel-artikel literatur. Melihat solusi yang ada dan mencari kelebihan dan kelemahan dari solusi
pada artikel literatur.
1.2 Teknik evaluasi yang digunakan yaitu : melakukan demonstrasi dan ekperimen tentang solusi
yang ada dengan solusi yang akan diterapkan. Teknik dan metode pada artikel literatur 1) hanya
menggunakan metode corpus based approach dan dictionary based approach untuk analisis
pendapat. Sedangkan pada artikel literatur 2) teknik web scraping hanya digunakan untuk
mengambil data website dan data yang diambil bukan untuk dianalisis menjadi positif dan negatif.
Dengan teknik web scraping dan parsing bisa diterapkan untuk solusi pada website iFeel untuk
mengambil data dari website.
2 Untuk riset kualitatif atau kuantitatif, tuliskan hal-hal berikut:
2.1 Populasi riset :
Artikel Literatur dari Internet
4 | P a g e
2.2 Metode penarikan/pengambilan sample :
Sampling Nonprobability :
1. Convenience sampling : saat mencari artikel di internet, lalu mendapatkan artikel yang sesuai
dengan riset maka artikel tersebut dijadikan sample riset.
2. Judgement sampling : mengambil artikel yang berdasarkan karakteristik dari sample riset.
2.3 Metode pengumpulan data (kuesioner, interview, observasi, gabungan, dll) :
Observasi : yaitu mangamati artikel-artikel literatur dari internet yang berkaitan dengan riset.
2.4 Metode analisi data (regresi, SEM, text analysis dll) :
Text document analysis : yaitu dengan mengumpulkan artikel literatur yang berkaitan dengan
riset, artikel dilihat dan dilakukan analisis sebagai sample riset.
D. Timetable Riset
Time Table Rencana Pelaksanaan Riset
No. Uraian Kegiatan Desember 2014 Januari 2015
I II III IV I II III IV
1 Pembuatan Time Table Rencana
Pelaksanaan Riset √
2 Penentuan Topik dan Judul (Scintic Writing,
Website dan Paper Laporan Seminar) √
3 Pengumpulan Data (Scientic Writing) √ √
4 Identifikasi Masalah Riset √ √
5 Mencari Literatur dan Referensi (Internet) √
6 Mencari Solusi dan Metode (Internet dan
Materi) √ √
7 Tahap Penulisan Proposal Riset √ √ √ √
8 Penyelesaian Penulisan Proposal Riset √
9 Deadline Penyerahan Proposal Riset √
E. Referensi
[1] Matheus Araújo, Pollyanna Gonçalves, Meeyoung Cha dan Fabrício Benevenuto. iFeel: A Web
System that Compares and Combines Sentiment Analysis Methods.
[2] Akshi Kumar, Teeja Mary Sebastian. Sentiment Analysis on Twitter. IJCSI International Journal of
Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012.
[3] Ahmat Josi, Leon Andretti Abdillah, Suryayusra. Penerapan Teknik Web Scraping Pada Mesin
Pencari Artikel Ilmiah.
[4] Wikipedia.org.”web scraping”.19 desember 2014.http://en.wikipedia.org/wiki/Web_scraping.
[5] Wikipedia.org.”scraping”.19 desember 2014.http://en.wikipedia.org/wiki/Parsing.