30
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE Disusun oleh : Sukmawati Anggraeni Putri Mkom. Indah Purnamasari ST, MKom SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER NUSA MANDIRI JAKARTA 2019

MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

  • Upload
    others

  • View
    60

  • Download
    1

Embed Size (px)

Citation preview

Page 1: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL

DATA WAREHOUSE

&

BUSINESS INTELLIGENCE

Disusun oleh :

Sukmawati Anggraeni Putri Mkom. Indah Purnamasari ST, MKom

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI

JAKARTA

2019

Page 2: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

2

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah SWT, yang telah memberikan

rahmat dan hidayahnya sehingga modul Jaringan Komputer ini dapat terselesaikan dengan

baik. Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang

mempelajari mata kuliah Data warehouse & Business Intelligence dengan software Rapid

Miner.

Tak lupa penulis mengucapkan banyak terima kasih kepada semua pihak yang

telah membantu dengan tenaga dan pikirannya, terima kasih juga kepada rekan–rekan

instruktur, dosen dan semuanya yang tidak bisa disebutkan satu persatu, yang selalu

mendukung penulis sehingga modul ini sehingga dapat selesai sesuai yang kita

inginkan semua.

Penulis menyadari masih banyak kekurangan dalam penyusunan modul ini.

Untuk itu saran dan kritik yang membangun sangat penulis harapkan guna perbaikan

dan pengembangan modul ini ke depan.

Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat

dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk mahasiswa umum yang

ingin mempelajari mata kuliah Data warehouse & Business Intelligence dengan software

Rapid Miner.

Jakarta, Juli 2019

Penulis

Page 3: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

3

DAFTAR ISI

Cover ........................................................................................................................................ 1

Kata Pengantar ......................................................................................................................... 2

Daftar Isi .................................................................................................................................. 3

Pertemuan 1 Business Intelligence dan penjelasan tugas ....................................................... 4

Pertemuan 2 Data Warehousing..............................................................................................7

Pertemuan 3 Business Performance Management...................................................................9

Pertemuan 4 Business Performance Management Methodologies........................................10

Pertemuan 5 Pengantar Data Mining......................................................................................13

Pertemuan 6 Metode Learning Algoritma Data Mining........................................................18

Pertemuan 9 Studi Kasus ...................................................................................................... 22

Pertemuan 10-14 Pembuatan Laporan dan Presentasi ........................................................... 29

Daftar Pustaka.........................................................................................................................30

Page 4: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

4

Pertemuan 1

Business Intelligence

1. Definisi

BI adalah istilah umum yang menggabungkan arsitektur, alat, basis data, alat analisis, aplikasi, dan

metodologi.

Tujuan utama BI adalah untuk memungkinkan akses mudah ke data (dan model) untuk memberikan

manajer bisnis dengan kemampuan untuk melakukan analisis

Sejarah BI

Istilah BI diciptakan oleh Gartner Group pada pertengahan 1990-an

Evolusi Kemampuan BI

Arsitektur BI

Sistem BI memiliki empat komponen utama :

-Data warehouse, dengan data sumbernya

-Bussiness Analitycs, kumpulan alat untuk memanipulasi, menambang, dan menganalisis data di

gudang data;

-Bussiness Performance Management (BPM) untuk memantau dan menganalisis kinerja

-User interface(mis., dashboard)

Model BI

Keunggulan BI

Kemampuan untuk memberikan informasi yang akurat ketika dibutuhkan, termasuk pandangan waktu

nyata dari kinerja perusahaan dan bagian-bagiannya

Sebuah survei oleh Thompson (2004)

-Pelaporan lebih cepat, lebih akurat (81%)

-Pengambilan keputusan yang lebih baik (78%)

-Peningkatan layanan pelanggan (56%)

-Peningkatan pendapatan (49%)

Hubungan DSS dengan BI

Page 5: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

5

Elemen Sistem Kerja

Kategori Alat Utama untuk MSS

2. Penjelasan Tugas

-Soal Latihan Individu setiap pertemuan

-Tugas Kelompok

a. Buat Kelompok maximal 4 orang/kelompok.

b. Pengolahan data menggunakan tools rapidminer

c. Menggunakan salahsatu metode data mining

d. Dataset menggunakan data public atau private, setiap kelompok beda dataset

e. Kumpulkan tugas kelompok tersebut berupa : makalah, dan powerpoint pada pertemuan 10 dan

bisa dipresentasikan.

f. Mengumpulkan draft artikel ilmiah.

g. Nilai project & presentasi akan menjadi nilai kelompok, keaktifan dan nilai penguasaan materi

3. Kriteria Penilaian

a. Penilaian secara kelompok:

1) Penilaian data dan metode data mining = 60% (kesesuaian data dan metode data mining)

2) Penilaian testing, presentasi = 40% (Eksekusi program, kesesuaian tampilan, cara

presentasi)

TOOL CATEGORY TOOLS AND THEIR ACRONYMS

Data management Databases and database management system (DBMS)

Extraction, transformation, and load (ETL) systems

Data warehouses (DW), real-time DW, and data marts

Reporting status tracking Online analytical processing (OLAP)

Executive information systems (EIS)

Visualization Geographical information systems (GIS)

Dashboards, Information portals

Multidimensional presentations

Business analytics Optimization, Web analytics

Data mining, Web mining, and text mining

Strategy and performance

management

Business performance management (BPM)/

Corporate performance management (CPM)

Business activity management (BAM)

Dashboards and Scorecards

Communication and

collaboration

Group decision support systems (GDSS)

Group support systems (GSS)

Collaborative information portals and systems

Social networking Web 2.0, Expert locating systems

Knowledge management Knowledge management systems (KMS)

Intelligent systems Expert systems (ES)

Artificial neural networks (ANN)

Fuzzy logic, Genetic algorithms, Intelligent agents

Enterprise systems Enterprise resource planning (ERP),

Customer Relationship Management (CRM), and

Supply-Chain Management (SCM)

Page 6: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

6

b. Penilaian secara individu:

1) Range nilai: 0-100

2) Nilai individu diketahui pada saat tanya jawab, ketika kelompok mereka

melakukan presentasi.

3) Nilai rata-rata per individu=(total nilai kelompok + nilai individu) / 2.

4) Nilai rata-rata per individu yang diinput di web sebagai nilai UAS.

4. Contoh Penilaian

Data dan Metode : 60% x 100 =60

Testing, Presentasi : 40% x 100 = 40

TOTAL NILAI KELOMPOK : 100

NILAI INDIVIDU : 100

Nilai Rata-rata = (100+100)/2

Nilai UAS = 100

5. Project Program Data Mining

a. Klasifikasi

b. Asosiasi

c. Clustering

d. Prediction / Forecasting

Page 7: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

7

MODUMM

PERTEMUAN 2

IP Address dan Subnetting

1. Definisi

Data Warehouse adalah kumpulan desain basis data terintegrasi dan berorientasi

subjek untuk mendukung fungsi DSS, di mana setiap unit data adalah non-volatile

dan relevan dengan waktu tertentu

2. Karakteristik DW

3. Data warehousing Environment

-Operational data stores (ODS)

-Operational Data Marts

-Enterprise data warehouse (EDW)

-Metadata

4. Arsitektur Umum DW

5. Extraction, Transformation, and Load (ETL) Process

6. Manfaat DW

✓ Mengizinkan tampilan konsolidasi data perusahaan

✓ Informasi yang lebih baik dan lebih tepat waktu

✓ Peningkatan kinerja sistem

✓ Penyederhanaan akses data

Manfaat tidak langsung dari data warehouse

✓ Meningkatkan pengetahuan bisnis

✓ Menghadirkan keunggulan kompetitif

✓ Meningkatkan layanan dan kepuasan pelanggan

✓ Memfasilitasi pengambilan keputusan

✓ Membantu dalam mereformasi proses bisnis

7. Pengembangan DW

8. Resiko Implementasi Dw

9. Hal yang harus dihindari untuk keberhasilan DW

10. Comparing Traditional and Active DW

Page 8: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

8

MODUMM

11. DW Administration, Scalability dan Security

12. Tugas Individu Latihan Soal Per Pertemuan

Page 9: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

9

MODUMM

PERTEMUAN 3

Business Performance Management

1. Definisi

Business Performance Management (BPM) adalah Sistem real-time yang mengingatkan manajer

akan peluang potensial, masalah yang akan datang, dan ancaman, dan kemudian memberdayakan

mereka untuk bereaksi melalui model dan kolaborasi

2. BPM dan BI

BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya

3. Closed Loop

-Strategize

-Plan

-Monitor/analyze

-Act/adjust

4. Sistem Pengukuran Kinerja (KPI)

Suatu sistem yang membantu manajer dalam melacak implementasi strategi bisnis dengan

membandingkan hasil aktual dengan sasaran dan sasaran strategis

5. Tugas Individu Latihan Soal Per Pertemuan

Page 10: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

10

MODUMM

PERTEMUAN 4

Business Performance Management Methodologies

1. Balanced scorecard (BSC)

Metodologi pengukuran dan manajemen kinerja yang membantu menerjemahkan

keuangan, pelanggan, proses internal, dan tujuan serta sasaran pembelajaran dan

pertumbuhan ke dalam serangkaian inisiatif yang dapat ditindaklanjuti,

2. Six Sigma

Metodologi manajemen kinerja yang bertujuan mengurangi jumlah cacat dalam proses

bisnis sedekat mungkin dengan sebisamungkin nol cacat per juta peluang/defects per

million opportunities (DPMO)

3. Arsitektur BPM

Desain logis dan fisik suatu sistem

Sistem BPM terdiri dari tiga bagian logis:

-Aplikasi BPM

-Pusat Informasi (Information Hub)

-Sumber Sistem (Source Systems)

Sistem BPM terdiri dari tiga bagian fisik:

-Tingkat Database

-Tingkat Application

-Client atau user interface

Page 11: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

11

MODUMM

4. Aplikasi BPM

✓ Manajemen strategi

✓ Penganggaran, perencanaan, dan perkiraan

✓ Konsolidasi keuangan

✓ Pemodelan dan optimasi profitabilitas

✓ Pelaporan keuangan, perundang-undangan, dan manajemen

5. Dashboard

Dashboards dan scorecards keduanya menampilkan tampilan visual dari informasi

penting yang dikonsolidasikan dan disusun dalam satu layar sehingga informasi dapat

dicerna dengan sekali pandang dan mudah dieksplorasi

Page 12: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

12

MODUMM

Kinerja dashboards

Tampilan visual yang digunakan untuk memantau kinerja operasional (bentuk bebas ...)

Kinerja scorecards

Tampilan visual yang digunakan untuk memetakan kemajuan terhadap sasaran dan

target strategis dan taktis (tindakan yang telah ditentukan ...)

Tiga jenis kinerja dashboards:

Operational dashboards

Tactical dashboards

Strategic dashboards

6. Tugas Individu latihan soal perpertemuan

Page 13: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

13

MODUMM

PERTEMUAN 5

Pengantar Data Mining

1. Definisi

Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau

menemukan pola dari suatu data yang besar

Ekstraksi dari data ke pengetahuan:

Data: fakta yang terekam dan tidak membawa arti

Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

Nama lain data mining:

✓ Knowledge Discovery in Database (KDD)

✓ Knowledge extraction

✓ Pattern analysis

✓ Information harvesting

✓ Business intelligence

✓ Big data

2. Contoh Data

3. Hubungan Data mining dan Bidang lain

Himpunan DataMetode Data

MiningPengetahuan

Page 14: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

14

MODUMM

4. Masalah data mining

1.Jumlah data yang luar biasa

Algoritma harus sangat skalabel untuk ditangani seperti tera-byte data

2. Dimensi data yang tinggi

Micro-array mungkin memiliki puluhan ribu dimensi

3. Kompleksitas data yang tinggi

Data stream dan data sensor

Data deret waktu, data temporal, data urutan

Struktur data, grafik, jejaring sosial dan data multi-link

Database heterogen dan basis data warisan

Data spasial, spasial, multimedia, teks dan Web

Program perangkat lunak, simulasi ilmiah

Aplikasi baru dan canggih

5. Tipe Data

Data Mining

Pattern Recognition

Machine Learning

StatisticsComputing Algorithms

Database Technology

High Performance Computing

Page 15: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

15

MODUMM

6. Dataset

7. Peran Utama Data Mining

8. Clustering Waktu pengiriman, Bunga Iris, Jenis Pelanggan

1. Estimasi

2. Forecasting

3. Klasifikasi4. Klastering

5. Asosiasi

Page 16: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

16

MODUMM

9. Prediction/ Forecasting Harga saham

10. Klasifikasi Kelulusan Mahasiswa

Page 17: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

17

MODUMM

11. Asosiasi Pembelian Barang

Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut

yang “muncul bersamaan”

Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di

supermaket ABC, dimana:

200 orang membeli Sabun Mandi

dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta

Jadi, association rule menjadi, “Jika membeli sabun mandi, maka membeli Fanta”,

dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%

Algoritma association rule diantaranya adalah: A priori algorithm, FP-Growth

algorithm, GRI algorithm

12. Tugas individu latihan soal perpertemuan

Page 18: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

18

MODUMM

PERTEMUAN 6

Metode Learning Algoritma Data Mining

1. Definisi

Machine learning (ML) adalah keluarga teknologi kecerdasan buatan yang terutama

berkaitan dengan desain dan pengembangan algoritma yang memungkinkan komputer

untuk "belajar" dari data historis

a. ML adalah proses dimana komputer belajar dari pengalaman

b. Ini berbeda dari perolehan pengetahuan di ES: bukannya mengandalkan para ahli

(dan kemauan mereka) ML bergantung pada fakta sejarah

c. ML membantu dalam menemukan pola dalam data

2. Metode

3. Supervised Learning

Pembelajaran dengan guru, data set memiliki target/label/class

Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification)

adalah supervised learning

Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang

terasosiasi dengan nilai dari variable predictor

4. Unsupervised Learning

Algoritma data mining mencari pola dari semua variable (atribut)

Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)

Machine Learning

Supervised

Learning

Reinforcement

Learning

Unsupervised

Learning

Classification

· Decision Tree

· Neural Networks

· Support Vector Machines

· Case-based Reasoning

· Rough Sets

· Discriminant Analysis

· Logistic Regression

· Rule Induction

Regression

· Regression Trees

· Neural Networks

· Support Vector Machines

· Linear Regression

· Non-linear Regression

· Bayesian Linear Regression

Clustering / Segmentation

· SOM (Neural Networks)

· Adaptive Resonance Theory

· Expectation Maximization

· K-Means

· Genetic Algorithms

Association

· Apriory

· ECLAT Algorithm

· FP-Growth

· One-attribute Rule

· Zero-attribute Rule

· Q-Learning

· Adaptive Heuristic Critic

(AHC),

· State-Action-Reward-State-

Action (SARSA)

· Genetic Algorithms

· Gradient Descent

Page 19: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

19

MODUMM

Algoritma clustering adalah algoritma unsupervised learning

5. Semi supervised Learning

Semi-supervised learning adalah metode data mining yang menggunakan data dengan

label dan tidak berlabel sekaligus dalam proses pembelajarannya

Data yang memiliki kelas digunakan untuk membentuk model (pengetahuan), data tanpa

label digunakan untuk membuat batasan antara kelas

6. Algoritma Data Mining

Estimation (Estimasi):

Linear Regression, Neural Network, Support Vector Machine, etc

Prediction/Forecasting (Prediksi/Peramalan):

Linear Regression, Neural Network, Support Vector Machine, etc

Classification (Klasifikasi):

Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,

Logistic Regression, etc

Clustering (Klastering):

K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

Association (Asosiasi):

FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

7. Algoritma klasifikasi

• Klasifikasi (Han, 2006) adalah proses penemuan model (atau fungsi) yang

menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa

digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui.

• Proses klasifikasi didasarkan pada empat komponen: (Gorunescu, 2011) yaitu :

1. Kelas

2. Predictor

3. Training Dataset

4. Testing Dataset

Algoritma Decision Tree

- Siapkan data training

- Pilih atribut sebagai akar

Page 20: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

20

MODUMM

-

- Buat cabang untuk tiap-tiap nilai

- Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki

kelas yg sama

Algoritma NeuralNework

Neural Network adalah suatu model yang dibuat untuk meniru fungsi belajar yang

dimiliki otak manusia atau jaringan dari sekelompok unit pemroses kecil yang

dimodelkan berdasarkan jaringan saraf manusia

8. Analisis Clustering

Cluster: Kumpulan Objek Data

serupa (atau terkait) satu sama lain dalam kelompok yang sama

berbeda (atau tidak terkait) dengan objek dalam kelompok lain

Cluster analysis (atau clustering, segmentasi data, …)

Menemukan kesamaan antara data sesuai dengan karakteristik yang ditemukan dalam data

dan mengelompokkan objek data serupa ke dalam kelompok

Unsupervised learning: tidak ada kelas yang telah ditentukan (mis., learning by

observations vs. learning by examples: supervised)

Typical applications

Sebagai alat yang berdiri sendiri untuk mendapatkan wawasan tentang distribusi data

Sebagai langkah preprocessing untuk algoritma lain

K Means

Pilih jumlah klaster k yang diinginkan

Inisialisasi k pusat klaster (centroid) secara random

Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan

berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)

Page 21: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

21

MODUMM

x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n atribut(kolom) antara

2 record

Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster

adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu

Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster

sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke

langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan

yang signifikan dari nilai SSE (Sum of Squared Errors)

9. Analisi Asosiasi

Frequent pattern: sebuah pola (satu set item, berikutnya, substruktur, dll.) Yang sering

terjadi dalam kumpulan data

Pertama kali diusulkan Agrawal, Imielinski, dan Swami [AIS93] dalam konteks frequent

itemset dan asosiasi rule mining

Motivation: Menemukan keteraturan yang melekat dalam data

Produk apa yang sering dibeli bersama? - Bir dan popok ?!

Apa pembelian selanjutnya setelah membeli PC?

Jenis DNA apa yang sensitif terhadap obat baru ini?

Bisakah kita secara otomatis mengklasifikasikan dokumen web?

Applications

Analisis data keranjang, pemasaran silang, desain katalog, analisis kampanye penjualan,

analisis log Web (aliran klik), dan analisis urutan DNA.

10. Tugas Individu latihan soal per pertemuan

Page 22: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

22

MODUMM

PERTEMUAN 9

Studi Kasus

1. Himpunan Dataset

Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi

Jenis dataset ada dua: Private dan Public

Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian

Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti

data mining

UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)

ACM KDD Cup (http://www.sigkdd.org/kddcup/)

PredictionIO (http://docs.prediction.io/datacollection/sample/)

Data.go.id

Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti

dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable

2. Public Dataset (UCI Repository)

3. Metode Data Mining

Estimation (Estimasi):

Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc

Prediction/Forecasting (Prediksi/Peramalan):

Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc

Classification (Klasifikasi):

Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, DynamicCC4.5), Naive Bayes, K-

Nearest Neighbor, Linear Discriminant Analysis, Logistic Regression, etc

Clustering (Klastering):

K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

Association (Asosiasi):

FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

4. Evaluasi (Akurasi, Error etc)

Akurasi

Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang

telah disediakan

Page 23: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

23

MODUMM

Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang

digunakan

Kehandalan

Ukuran di mana model data mining diterapkan pada dataset yang berbeda

Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data

testing yang disediakan

Kegunaan

Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang

berguna

Estimation:

Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

Prediction/Forecasting (Prediksi/Peramalan):

Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

Classification:

Confusion Matrix: Accuracy

ROC Curve: Area Under Curve (AUC)

Clustering:

Internal Evaluation: Davies–Bouldin index, Dunn index,

External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix

Association:

Lift Charts: Lift Ratio

Precision and Recall (F-measure)

5. Instalasi Rapid Miner

-Fitur Rapid Miner

machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi,

modelling dan evaluasi

Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat

dengan GUI

Mengintegrasikan proyek data mining Weka dan statistika R

-Atribut Rapid Miner

Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi

ID, atribut biasa

Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining

Page 24: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

24

MODUMM

Label, cluster, weight

-Tipe nilai atribut

nominal: nilai secara kategori

binominal: nominal dua nilai

polynominal: nominal lebih dari dua nilai

numeric: nilai numerik secara umum

integer: bilangan bulat

real: bilangan nyata

text: teks bebas tanpa struktur

date_time: tanggal dan waktu

date: hanya tanggal

time: hanya waktu

-Perspektif dan View

Perspektif Selamat Datang (Welcome perspective)

Perspektif Desain (Design perspective)

Perspektif Hasil (Result perspective)

View Operator

• Process Control

Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Utility

Untuk mengelompokkan subprocess, juga macro dan logger

• Repository Access

Untuk membaca dan menulis repositori

• Import

Untuk membaca data dari berbagai format eksternal

• Export

Untuk menulis data ke berbagai format eksternal

• Data Transformation

Untuk transformasi data dan metadata

• Modelling

Untuk proses data mining yang sesungguhnya seperti klasifikasi, regresi, clustering, aturan asosiasi dll

• Evaluation

Untuk menghitung kualitas dan perfomansi dari model

Page 25: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

25

MODUMM

View Proses dan Parameter

View help and comment

View Problem and Log

Page 26: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

26

MODUMM

-Operator dan proses

Proses data mining pada dasarnya adalah proses analisa yang berisi alur kerja dari komponen

data mining

Komponen dari proses ini disebut operator, yang didefinisikan dengan:

Deskripsi input

Deskripsi output

Aksi yang dilakukan

Parameter yang diperlukan

Sebuah operator bisa disambungkan melalui port masukan (kiri) dan port keluaran (kanan)

Indikator status dari operator:

– Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah

behasil dijalankan)

– Segitiga warning: bila ada pesan status

– Breakpoint: bila ada breakpoint sebelum/sesudahnya

– Comment: bila ada komentar

– Subprocess: bila mempunyai subprocess

Page 27: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

27

MODUMM

Melihat Hasil

6. Studi Kasus

-Penentuan Bunga Iris

Lakukan training pada data Bunga Iris (ambil dari repositories rapidminer) dengan

menggunakan algoritma decision tree

Tampilkan himpunan data (dataset) dan pengetahuan (model tree) yang terbentuk

Tampilkan grafik dari cluster yang terbentuk

-Asosiasi Data Transaksi

Lakukan training pada data transaksi (transaksi.xlsx)

Pilih metode yang tepat supaya menghasilkan pola

Page 28: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

28

MODUMM

-Klasifikasi Breast Cancer

Lakukan training pada data breast cancer

(https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)

Gunakan operator Split Data untuk memecah data secara otomatis menjadi dua dengan

perbandingan 0.9:0.1, di mana 0.9 untuk training dan 0.1 untuk testing

Pilih metode yang tepat supaya menghasilkan pola yang bisa menguji data testing 10%

-Forecasting Harga Saham

Lakukan training pada data Harga Saham (hargasaham-training.xls) dengan menggunakan

algoritma yang tepat

Tampilkan himpunan data (dataset) dan pengetahuan (model regresi) yang terbentuk

Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang dihasilkan

dari tahapan 1

Lakukan plot berupa grafik dari data yang terbentuk dengan menggunakan Scatter Multiple

Page 29: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

29

MODUMM

PERTEMUAN 9

Pembuatan Laporan dan Presentasi

1. Gunakan data primer atau sekunder dari UCI Repository

2. Gunakan Rapid Miner

3. Lakukan training dengan menggunakan algoritma yang tepat

4. Tampilkan himpunan data (dataset) dan pengetahuan yang terbentuk

5. Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang

dihasilkan dari tahapan

6. Tampilkan grafik

7. Tampilkan hasil evaluasi

8. Presentasi

Page 30: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE€¦ · Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk

30

MODUMM

DAFTAR PUSTAKA

Imhoff C, Galemmo N, Geiger JG. Mastering Data Warehouse Design. Indianapolis, Indiana: Wiley

Publishing; 2003.

Han J, Kamber M. Data Mining: Concepts and Techniques. Soft Computing. 2006. 800 p.