4
1 | Page PENERAPAN TEKNIK WEB SCRAPING DAN PARSING PADA WEBSITE IFEEL UNTUK SENTIMENT ANALYSIS Paper : iFeel: A Web System that Compares and Combines Sentiment Analysis Methods ABU SOPIAN-14001202, PASCA SARJANA STMIK NUSA MANDIRI 22 DESEMBER 2014 RINGKASAN Semakin berkembangnya dunia teknologi informasi, menyebabkan semakin banyaknya orang menggunakan internet dan berbagi melalui web dan internet. Dalam perkembangannya untuk menemukan ulasan atau pendapat tentang produk, layanan, acara dan nama merek, serta jasa tertentu adalah sangat penting dalam dunia bisnis dan perusahaan bahkan dalam dunia politik. Saat ini telah dikembangkan suatu website iFeel guna menganalisis pendapat-pendapat yang berupa teks pada jejaring sosial online dengan menggunakan metode analisis pendapat yang digabungkan dengan beberapa metode analisis pendapat lainnya pada satu platform [1] . Saat ini website iFeel hanya bisa mengambil data berupa teks dalam format txt lalu diuplod dan juga dapat dilakukan dengan mengetikan teks secara langsung pada laman website iFeel[1]. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook, agar dapat menganalisis pendapat yang ada pada website, twitter atau facebook tersebut tentang isu yang hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ? Dengan menambahkan teknik web scraping[4] dan parsing[5] pada website ifeel maka pengguna dapat menganalisa pendapat pada website yang ingin dianalisa dan media sosial seperti twitter dan facebook. A. Latar Belakang dan Masalah Riset 1. iFeel adalah sebuah website analisis pendapat yang menggunakan tools dan metode analisis pendapat yang ada, yaitu: SentiWordNet, Emoticons, PANAS-t, SASA, Happiness Index, Sentic-Net, dan SentiStrength serta ditambah dengan Combined Method[1]. Dengan menggunakan tools dan metode ini, iFeel memiliki tujuh variasi untuk menganalisa suatu pendapat. Akan tetapi, sistem iFeel hanya memungkinkan input teks yang diketik secara langsung dan teks yang diupload dengan format txt untuk dianalisis. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook, agar dapat menganalisis pendapat yang ada tersebut tentang isu yang hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ? 2. Hasil riset literatur artikel ilmiah 1) paper jurnal IJCSI International Journal of Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012 ISSN (Online): 1694-0814 yang berjudul Sentiment Analysis on Twitter (Akshi Kumar and Teeja Mary Sebastian)[2]. Artikel ini menjelaskan untuk merancang analisis pendapat pada Twitter menggunakan Twitter API dengan menggunakan pendekatan hybrid dengan metode corpus based approach dan dictionary based approach. 2) Penerapan Teknik Web-

Penerapan Teknik Web Scraping Dan Parsing Pada Website Ifeel Untuk Sentiment Analysis

  • Upload
    prosia

  • View
    117

  • Download
    3

Embed Size (px)

DESCRIPTION

Semakin berkembangnya dunia teknologi informasi, menyebabkan semakin banyaknya orang menggunakan internet dan berbagi melalui web dan internet. Dalam perkembangannya untuk menemukan ulasan atau pendapat tentang produk, layanan, acara dan nama merek, serta jasa tertentu adalah sangat penting dalam dunia bisnis dan perusahaan bahkan dalam dunia politik. Saat ini telah dikembangkan suatu website iFeel guna menganalisis pendapat-pendapat yang berupa teks pada jejaring sosial online dengan menggunakan metode analisis pendapat yang digabungkan dengan beberapa metode analisis pendapat lainnya pada satu platform[1]. Saat ini website iFeel hanya bisa mengambil data berupa teks dalam format txt lalu diuplod dan juga dapat dilakukan dengan mengetikan teks secara langsung pada laman website iFeel[1]. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook, agar dapat menganalisis pendapat yang ada pada website, twitter atau facebook tersebut tentang isu yang hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ? Dengan menambahkan teknik web scraping[4] dan parsing[5] pada website ifeel maka pengguna dapat menganalisa pendapat pada website yang ingin dianalisa dan media sosial seperti twitter dan facebook.

Citation preview

Page 1: Penerapan Teknik Web Scraping Dan Parsing Pada Website Ifeel Untuk Sentiment Analysis

1 | P a g e

PENERAPAN TEKNIK WEB SCRAPING DAN PARSING PADA

WEBSITE IFEEL UNTUK SENTIMENT ANALYSIS

Paper : iFeel: A Web System that Compares and

Combines Sentiment Analysis Methods

ABU SOPIAN-14001202, PASCA SARJANA STMIK NUSA MANDIRI

22 DESEMBER 2014

RINGKASAN

Semakin berkembangnya dunia teknologi informasi, menyebabkan semakin banyaknya orang

menggunakan internet dan berbagi melalui web dan internet. Dalam perkembangannya untuk menemukan

ulasan atau pendapat tentang produk, layanan, acara dan nama merek, serta jasa tertentu adalah sangat

penting dalam dunia bisnis dan perusahaan bahkan dalam dunia politik. Saat ini telah dikembangkan suatu

website iFeel guna menganalisis pendapat-pendapat yang berupa teks pada jejaring sosial online dengan

menggunakan metode analisis pendapat yang digabungkan dengan beberapa metode analisis pendapat

lainnya pada satu platform[1]

. Saat ini website iFeel hanya bisa mengambil data berupa teks dalam format

txt lalu diuplod dan juga dapat dilakukan dengan mengetikan teks secara langsung pada laman website

iFeel[1]. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan cara mengambil

data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti twitter atau facebook,

agar dapat menganalisis pendapat yang ada pada website, twitter atau facebook tersebut tentang isu yang

hangat dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ?

Dengan menambahkan teknik web scraping[4] dan parsing[5] pada website ifeel maka pengguna dapat

menganalisa pendapat pada website yang ingin dianalisa dan media sosial seperti twitter dan facebook.

A. Latar Belakang dan Masalah Riset

1. iFeel adalah sebuah website analisis pendapat yang menggunakan tools dan metode analisis

pendapat yang ada, yaitu: SentiWordNet, Emoticons, PANAS-t, SASA, Happiness Index, Sentic-Net,

dan SentiStrength serta ditambah dengan Combined Method[1]. Dengan menggunakan tools dan

metode ini, iFeel memiliki tujuh variasi untuk menganalisa suatu pendapat. Akan tetapi, sistem iFeel

hanya memungkinkan input teks yang diketik secara langsung dan teks yang diupload dengan format

txt untuk dianalisis. Untuk itu bagaimana website iFeel dapat menganalisis suatu pendapat dengan

cara mengambil data informasi dari sebuah website seperti : CNN.COM atau media sosial seperti

twitter atau facebook, agar dapat menganalisis pendapat yang ada tersebut tentang isu yang hangat

dari produk, layanan, acara dan nama merek, serta jasa tertentu dan politik dengan satu platform ?

2. Hasil riset literatur artikel ilmiah 1) paper jurnal IJCSI International Journal of Computer Science

Issues, Vol. 9, Issue 4, No 3, July 2012 ISSN (Online): 1694-0814 yang berjudul Sentiment Analysis

on Twitter (Akshi Kumar and Teeja Mary Sebastian)[2]. Artikel ini menjelaskan untuk merancang

analisis pendapat pada Twitter menggunakan Twitter API dengan menggunakan pendekatan hybrid

dengan metode corpus based approach dan dictionary based approach. 2) Penerapan Teknik Web-

Page 2: Penerapan Teknik Web Scraping Dan Parsing Pada Website Ifeel Untuk Sentiment Analysis

2 | P a g e

Scraping Pada Mesin Pencari Artikel Ilmiah (Ahmat Josi, Leon Andretti Abdillah2, Suryayusra)[3].

Artikel ini menjelaskan penerapan teknik web scraping pada mesin pencari artikel ilmiah

menggunakan pendekatan top-down.

2.1 Ide dasar dari solusi masalah :

Literatur artikel 1 :

Merancang analisis pendapat untuk Twitter menggunakan Twitter API dengan menggunakan

pendekatan hybrid dengan metode corpus based approach dan dictionary based approach.

Literatur artikel 2 :

Merancang mesin pencari artikel dengan teknik web scraping dengan menggunakan pendekatan

top-down menggunakan bahasa pemograman PHP dan database MySQL.

2.2 Kelemahan-kelemahan terhadap solusi yang ada :

Literatur artikel 1 :

Untuk mengambil data Twitter menggunakan Twitter API dengan pendekatan hybrid yang hanya

menggunakan metode corpus based approach dan dictionary based approach untuk analisis

pendapatnya, jadi perlu ditambahkan metode machines learning dan metode lexical.

Literatur artikel 2 :

Data yang diambil bukan untuk dianalisis menjadi sebuah pendapat positif atau negatif. Artikel ini

hanya merancang mesin pencari artikel dengan teknik web scraping, dan dengan teknik web

scraping ini dapat diterapkan pada website iFeel untuk mengambila data dari website.

3. Dari sejumlah literatur artikel diatas, berdasarkan dengan latar belakang dan masalah riset belum

dapat memecahkan sebagian masalah-masalah yang ada, yaitu untuk mengambil data Twitter

menggunakan Twitter API dan hanya menggunakan metode corpus based approach dan dictionary

based approach. Sedangkan pada mesin pencari artikel telah menggunakan web scraping, akan

tetapi data yang diambil bukan untuk dianalisis menjadi sebuah pendapat positif atau negatif. Dengan

ini perlu dilakukan riset untuk mencari solusi dalam memecahkan masalah-masalah tersebut. Dan

masing-masing belum menggunakan satu platform untuk dapat mengambil data dari website, twitter

dan facebook dengan teknik web scraping lalu data tersebut dianalisis sebagai pendapat positif atau

negatif pada website iFeel.

4. Pada analisa pendapat di Twitter telah dilakukan teknik analisis pendapat, tetapi menggunakan Twitter

API dan hanya menggunakan metode corpus based approach dan dictionary based approach untuk

analisis pendapat. Sedangkan teknik web scraping[4] pada mesin pencari artikel hanya digunakan

untuk mengambil data dari website saja dan data yang telah diambil lalu di indeks agar dapat

diurutkan berdasarkan pada file yang terdekat dari hasil pencarian. Mesin pencari artikel ini bukan

untuk dilakukan analisis pendapat positif atau negatif. Dengan teknik web scraping[4] ini, untuk

mengambil data dari website dan data yang masih berupa kumpulan-kumpulan kode html, javascript,

atau css diextract, lalu data yang telah diambil dilakukan proses parsing untuk memisahkan suatu teks

dari tag code html,, javascript, atau css pada halaman website, lalu data yang telah diparsing disimpan

dalam database iFeel untuk dilakukan proses analisis pendapat dengan menggunakan metode yang

telah ada pada iFeel. Dengan menambahkan teknik web scraping dan parsing pada website iFeel-

Page 3: Penerapan Teknik Web Scraping Dan Parsing Pada Website Ifeel Untuk Sentiment Analysis

3 | P a g e

diharapkan dapat menambah cara kerja pengambilan data pada website iFeel yang semula hanya

dilakukan dengan input teks secara langsung dan upload data dengan format txt sehingga dapat

mengambil data yang besar dari website, twitter dan facebook untuk dapat dilakukan analisis

pendapat positif atau negatif tentang isu yang hangat dari produk, layanan, acara dan nama merek,

serta jasa tertentu dan politik dengan satu platform.

B. Tujuan Riset

Menerapkan teknik web scraping[4] dan parsing[5] pada website iFeel yaitu dengan membuat code

scraping pada website iFeel yang menggunakan bahasa phyton agar dapat mengambil data dari

website, twitter dan facebook dan diextract, lalu data yang telah diambil dilakukan proses parsing

untuk memisahkan teks dari tag code html, javascript atau css pada halaman website, lalu data yang

telah diparsing disimpan dalam database iFeel untuk dilakukan proses analisis pendapat dengan

menggunakan metode yang telah ada pada iFeel.

C. Metodologi Penelitian

1. Pada riset ini peneliti menggunakan teknik web scraping[4] dan parsing[5]. Alasannya menggunakan

web scraping adalah untuk mengextract kumpulan-kumpulan kode html, javascript, atau css dari

website, twitter dan facebook. Dan melakukan parsing[5] untuk memisahkan teks dari tag code html,

javascript atau css pada halaman website, twitter dan facebook lalu data yang telah diparsing

disimpan dalam database iFeel untuk dilakukan proses analisis pendapat dengan menggunakan

metode yang telah ada pada iFeel.

2. Artifak (design oriented research) :

1.1 Teknik pencarian solusi yang digunakan yaitu : 1) membuat solusi dengan perbaikan. Dimana

website iFeel saat ini belum dapat mengambil data dari website, twitter dan facebook. Saat ini

hanya dilakukan dengan pengetikan teks secara langsung pada website iFeel dan upload teks

dengan format txt. Untuk itu perlu diterapkan teknik web scraping dan parsing agar website iFeel

dapat mengambil data dari website, twitter dan facebook. 2) Memodelkan solusi yang mirip pada

artikel-artikel literatur. Melihat solusi yang ada dan mencari kelebihan dan kelemahan dari solusi

pada artikel literatur.

1.2 Teknik evaluasi yang digunakan yaitu : melakukan demonstrasi dan ekperimen tentang solusi

yang ada dengan solusi yang akan diterapkan. Teknik dan metode pada artikel literatur 1) hanya

menggunakan metode corpus based approach dan dictionary based approach untuk analisis

pendapat. Sedangkan pada artikel literatur 2) teknik web scraping hanya digunakan untuk

mengambil data website dan data yang diambil bukan untuk dianalisis menjadi positif dan negatif.

Dengan teknik web scraping dan parsing bisa diterapkan untuk solusi pada website iFeel untuk

mengambil data dari website.

2 Untuk riset kualitatif atau kuantitatif, tuliskan hal-hal berikut:

2.1 Populasi riset :

Artikel Literatur dari Internet

Page 4: Penerapan Teknik Web Scraping Dan Parsing Pada Website Ifeel Untuk Sentiment Analysis

4 | P a g e

2.2 Metode penarikan/pengambilan sample :

Sampling Nonprobability :

1. Convenience sampling : saat mencari artikel di internet, lalu mendapatkan artikel yang sesuai

dengan riset maka artikel tersebut dijadikan sample riset.

2. Judgement sampling : mengambil artikel yang berdasarkan karakteristik dari sample riset.

2.3 Metode pengumpulan data (kuesioner, interview, observasi, gabungan, dll) :

Observasi : yaitu mangamati artikel-artikel literatur dari internet yang berkaitan dengan riset.

2.4 Metode analisi data (regresi, SEM, text analysis dll) :

Text document analysis : yaitu dengan mengumpulkan artikel literatur yang berkaitan dengan

riset, artikel dilihat dan dilakukan analisis sebagai sample riset.

D. Timetable Riset

Time Table Rencana Pelaksanaan Riset

No. Uraian Kegiatan Desember 2014 Januari 2015

I II III IV I II III IV

1 Pembuatan Time Table Rencana

Pelaksanaan Riset √

2 Penentuan Topik dan Judul (Scintic Writing,

Website dan Paper Laporan Seminar) √

3 Pengumpulan Data (Scientic Writing) √ √

4 Identifikasi Masalah Riset √ √

5 Mencari Literatur dan Referensi (Internet) √

6 Mencari Solusi dan Metode (Internet dan

Materi) √ √

7 Tahap Penulisan Proposal Riset √ √ √ √

8 Penyelesaian Penulisan Proposal Riset √

9 Deadline Penyerahan Proposal Riset √

E. Referensi

[1] Matheus Araújo, Pollyanna Gonçalves, Meeyoung Cha dan Fabrício Benevenuto. iFeel: A Web

System that Compares and Combines Sentiment Analysis Methods.

[2] Akshi Kumar, Teeja Mary Sebastian. Sentiment Analysis on Twitter. IJCSI International Journal of

Computer Science Issues, Vol. 9, Issue 4, No 3, July 2012.

[3] Ahmat Josi, Leon Andretti Abdillah, Suryayusra. Penerapan Teknik Web Scraping Pada Mesin

Pencari Artikel Ilmiah.

[4] Wikipedia.org.”web scraping”.19 desember 2014.http://en.wikipedia.org/wiki/Web_scraping.

[5] Wikipedia.org.”scraping”.19 desember 2014.http://en.wikipedia.org/wiki/Parsing.