Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
1
Seputar Perkuliahan• Dosen: Ariesta Damayanti
• Email: [email protected]
• Komunikasi: via email, wa
• Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan
• Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS
• Batas Nilai: A:80, B:65, C:49, D:30
• Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain
Data Mining :
menemukan pola-pola tersembunyi
maupun hubungan-hubungan dalambasis data yang besar
menghasilkan pengetahuan / aturan-aturan yang digunakan untukmemperkirakan perilaku di masa medatang
3
4
Data Informasi Pengetahuan
Masuk Sekolah
jam 07.00
Jarak dari rumah ke
sekolah 30 menit
Supaya tidak terlambat berangkat ke
sekolah maksimal jam 06.30
Data Pelanggan,
Data Produk,
Data Transaksi
Penjualan
Daftar pelanggan,
daftar produk, daftar
produk yang paling
laris
- kelompok pelanggan yang
menguntungkan (frekuensi
pembelian sering atau jumlah
pembelian sangat banyak)
- pola pembelian produk
Contoh Perbedaan Data, Informasi, Pengetahuan
5
6
7
Benarkah prediksi tersebut ?* gold-standar : pakar, alat
◦ Data mining: the core of knowledge discovery process.
Data Cleaning
Data Integration
Databases
Preprocessed
Data
Task-relevant Data
Data transformations
Selection
Data Mining
Knowledge Interpretation
12/74
Mengapa Data Diproses Awal?
Data dalam dunia nyata kotor◦ Tak-lengkap: nilai-nilai atribut kurang, atribut
tertentu yang dipentingkan tidak disertakan, atauhanya memuat data agregasi
Misal, pekerjaan=“”◦ Noisy: memuat error atau memuat outliers (data
yang secara nyata berbeda dengan data-data yang lain)
Misal, Salary=“-10”
13/74
Mengapa Data Diproses Awal?
◦ Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997” Misal, rating sebelumnya “1,2,3”,
sekarang rating “A, B, C” Misal, perbedaan antara duplikasi record
Data yang lebih baik akan menghasilkan data mining yang lebih baik
Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.
14/74
Mengapa Data Kotor?
Ketaklengkapan data datang dari
◦ Nilai data tidak tersedia saat dikumpulkan
◦ Perbedaan pertimbangan waktu antara saat data
dikumpulkan dan saat data dianalisa.
◦ Masalah manusia, hardware, dan software
Noisy data datang dari proses data
◦ Pengumpulan
◦ Pemasukan (entry)
◦ Transmisi
15/74
Mengapa Data Kotor?
Ketak-konsistenan data datang dari
◦ Sumber data yang berbeda
◦ Pelanggaran kebergantungan fungsional
1
6/
7
4
MengapaPemrosesan Awal Data Penting?
• Kualitas data tidak ada, kualitas hasil mining tidak ada!
– Kualitas keputusan harus didasarkankepada kualitas data
•Misal, duplikasi data atau data hilangbisa menyebabkan ketidak-benaranatau bahkan statistik yang menyesatkan.
– Data warehouse memerlukan kualitasintegrasi data yang konsisten
1
7/
7
4
Bentuk-Bentuk Dari Pemrosesan Awal Data
Pembersihan Data
Integrasi Data
Transformasi Data
Reduksi Data
1
8/
7
4
Data Hilang
Data tidak selalu tersedia◦ Misal, banyak tuple atau record tidak memiliki nilai
yang tercatat untuk beberapa atribut, seperticustomer income dalam data sales
Hilangnya data bisa karena◦ Kegagalan pemakaian peralatan◦ Ketak-konsistenan dengan data tercatat lainnya dan
karenanya dihapus◦ Data tidak dimasukkan karena salah pengertian◦ Data tertentu bisa tidak dipandang penting pada saat
entry
◦ Tidak mencatat history atau tidak mencatatperubahan data
Kehilangan data perlu disimpulkan
19/74
Bagaimana Menangani Data Hilang?
Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir◦ Biasanya dilakukan saat label kelas hilang
◦ Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi.
Mengisi nilai-nilai yang hilang secara manual: ◦ Paling baik
◦ Membosankan
◦ Paling mahal biayanya
◦ Tak mungkin dilakukan dalam banyak hal!
20/74
Bagaimana Menangani Data Hilang? Mengisi nilai-nilai yang hilang secara
otomatis menggunakan:◦ Suatu konstanta global: misal, “unknown”, “Null”,
atau suatu kelas baru?!
Suatu pola yang memuat “unknown” atau“Null” adalah buruk
◦ Gunakan rata-rata atribut◦ Pengempisan data ke mean/median◦ Rata-rata atribut untuk seluruh sampel yang masuk
kedalam kelas yang sama
Lebih cerdas, dan suatu metoda yang baik
◦ Gunakan informasi yang paling banyakdari data yang ada untuk memprediksi
21/74
Noisy Data
Noise: error acak atau variansi dalam suatu variabel terukur
Nilai-nilai atribut tak benar mungkin karena◦ Kegagalan instrumen pengumpulan data◦ Problem pemasukan data◦ Problem transmisi data◦ Keterbatasan teknologi◦ Ketak-konsistenan dalam konvensi penamaan
Problem data lainnya yang memerlukan pembersihan data◦ Duplikasi record ◦ Data tak lengkap◦ Data tidak konsisten
22/74
Transformasi Data: Normalisasi
Normalisasi min-max
Normalisasi z-score (saat Min, Max tak
diketahui)
Normalisasi dengan penskalaan desimal
j
vv
10' dimana j adalah integer terkecil sehingga Max(| |)<1'v
23/74
Transformasi Data
Penghalusan: menghilangkan noise dari data
Agregasi: ringkasan, konstruksi kubus data
Generalisasi: konsep hierarchy climbing
Normalisasi: diskalakan agar jatuh didalam
suatu range kecil yang tertentu
◦ Normalisasi min-max
◦ Normalisasi z-score
◦ Normalisasi dengan penskalaan desimal
Konstruksi atribut/fitur
◦ Atribut-atribut baru dibangun dari atribut-atribut
yang ada
Tujuan :
1. Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining
2. Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik
3. Meningkatkan efisiensi dan kemudahan proses penambangan data
24
- Pembersihan
- Integrasi
- Reduksi
- Penambahan
- Transformasi
25
Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi.
Cara membersihkan data :
- Mengisi nilai yang kosong
- Menghaluskan data berderau
- Membuang pencilan/outlayer
- Memperbaiki inkosistensi
26
1. Abaikan tuple tersebut
2. Isi atribut kosong secara manual
3. Gunakan konstanta global
4. Gunakan nila tendensi sentral (rata-rata atau median)
5. Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)
27
1. Binning (pewadahan)
2. Regresi
3. Clustering
28
Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll
29
Inkosistensi karena :
-kurang bagusnya form data
-kesalahan operator
-data kadaluarsa
-kesalahan pengisi data
Memperbaiki :
-Manual
-Tools (ETL)
30
31
Database(s) Dataset Dataset
DL dan DV
Latih dan validasi
Hasil model
32
Dataset
Data latih – 70%
Data uji —30%
What is not Data
Mining?
– Look up phone
number in phone directory
– Query a Web
search engine for information about “Amazon”
What is Data Mining?
– Certain names are more
prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area)
– Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)
34
Bidang Contoh
Pemasaran Mengidentifikasi pembelian yang dilakukan
konsumen
Menemukan hubungan di antara karakteristik
demografi pelanggan
Memperkirakan tanggapan penawaran melalui
surat
Bank Mendeteksi pola penyalahgunaan kartu kredit
Mengidentifikasi tingkat loyalitas pelanggan
Asuransi Analisis klaim
Memperkirakan pelanggan yang akan membeli
produk baru
© Prentice Hall 35
Query◦ Well defined◦ SQL
Query◦ Poorly defined
◦ No precise query language
Output
– Precise
– Subset of database
Output
– Fuzzy
– Not a subset of database
© Prentice Hall 36
Database
Data Mining
– Find all customers who have purchased milk
– Find all items which are frequently purchased with milk. (association rules)
– Find all credit applicants with last name of Smith.– Identify customers who have purchased more than $10,000 in the last month.
– Find all credit applicants who are poor credit risks. (classification)– Identify customers with similar buying habits. (Clustering)
Statistik
Jaringan saraf (neural network)
Logika kabur (fuzzy logic)
Algoritma genetika
SVM
dll
37
© Prentice Hall 38
39
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
© Prentice Hall 40
Classification maps data into predefined groups or classes◦ Supervised learning◦ Pattern recognition◦ Prediction
Regression is used to map a data item to a real valued prediction variable.
Clustering groups similar data together into clusters.◦ Unsupervised learning◦ Segmentation◦ Partitioning
© Prentice Hall 41
Summarization maps data into subsets with associated simple descriptions.◦ Characterization
◦ Generalization
Link Analysis uncovers relationships among data.◦ Affinity Analysis
◦ Association Rules
◦ Sequential Analysis determines sequential patterns.
© Prentice Hall 42
Example: Stock Market Predict future values Determine similar patterns over time Classify behavior
Supervised learning (classification)
◦ Supervision: Data pelatihan mengandung label
kelas.
◦ Data diklasifikasikan menggunakan model.
Unsupervised learning (clustering)
◦ Data pelatihan tidak mengandung label kelas
◦ Mencari kelas atau cluster di dalam data
Pada pembelajaran ini kumpulan input yang digunakan, output-outputnya telahdiketahui.
Perbedaan antara output-output aktualdengan output-output yang diinginkandigunakan untuk menghitung akurasi
Contoh : KNN, Naïve Bayes, Decision Tree
◦ Pada pembelajaran ini, data2 mengorganisasidirinya sendiri untuk membentuk vektor-vektorinput yang serupa, tanpa menggunakan data ataucontoh-contoh pelatihan.◦ Contoh : Kmeans
Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/
[email protected] / Okt 2012
Classification◦ Memprediksi kelas suatu item◦ Membuat model berdasarkan data pelatihan dan
data uji, digunakan untuk mengklasifikasi data.
Prediction ◦ Memprediksi nilai yang belum diketahui
Aplikasi◦ Persetujuan kredit◦ Diagnosis penyakit◦ Target marketing◦ Fraud detection
Input: data mahasiswa
Output: dua kelas (lulus_tepat_waktu dan lulus_terlambat)
Bagaimana kalau diberikan data input mahasiswa, sistem secara otomatis menentukan mhs tersebut akan lulus tepat waktu atau terlambat?
Data
Pelatihan
NAMA IPK Sem 1 Matdas tepat_waktu
Budi 3 A yes
Wati 1.5 E no
Badu 2 A yes
Rudi 3.5 C yes
Algoritma
Klasifikasi
IF IPK > 3
OR MATDAS =A
THEN tepat_waktu =
‘yes’
Classifier
(Model)
Classifier
(MODEL)
Testing
Data
NAMA IPK_SEM1 MADAS TEPAT_WAKTU
Akhmad 3.2 A yes
Intan 3.3 B no
Indah 2.3 C yes
Ujang 1.7 E no Sejauh mana
model tepat
meramalkan?
Classifier
(MODEL)
Data Baru
(Tatang, 3.0, A)
Lulus tepat waktu?
Proses pembuatan model◦ Data latihan Model Klasifikasi
Proses testing model◦ Data testing Apakah model sudah benar?
Proses klasifikasi◦ Data yang tidak diketahui kelasnya kelas data
Data cleaning
◦ Preprocess data untuk mengurangi noise dan
missing value
Relevance analysis (feature selection)
◦ Memilih atribut yang penting
◦ Membuang atribut yang tidak terkait atau
duplikasi.
Data transformation
◦ Generalize and/or normalize data
54
55
56
57
58
59
100
101
102
103
104
No Tes Bhs Inggris Tes Akademik
1 8 9
2 7 7
3 ( C1) 9 8
4 7 8
5 6 7
6 ( C2) 7 7
7 10 5
105