39

8186 8 reduksi data

Embed Size (px)

Citation preview

Page 1: 8186 8 reduksi data
Page 2: 8186 8 reduksi data

KONSEP DASAR Reduksi data adalah proses analisis untuk memilih,

memusatkan perhatian, meyederhanakan,mengabstraksikan serta mentransformasikan datayang muncul dari catatan-catatan lapangan.

Mereduksi data berarti membuat rangkuman, memilihhal-hal pokok, memfokuskan pada hal-hal penting,mencari tema dan pola, serta membuang yangdianggap tidak perlu.

Page 3: 8186 8 reduksi data

KONSEP DASAR Contoh: data yang besar dalam data warehouse

pada data set kompleks.

Reduksi data berarti : Mengurangi ukuran data settetapi menghasilkan hasil analisis yang sama (hampirsama)

Page 4: 8186 8 reduksi data

TUJUAN Menentukan kualitas solusi dalam data mining

Page 5: 8186 8 reduksi data

OPERASI DASAR Tiga dimensi utama dari data set (plain files):

Kolom (fitur)

Baris (kasus/ contoh)

Nilai fitur

Tiga operasi dasar dari proses reduksi data:

Delete kolom,

Delete baris

Pengurangan jumlah nilai kolom (penghalusan suatu fitur).

Page 6: 8186 8 reduksi data

PENDEKATAN YANG DIGUNAKAN Operasi lain mereduksi tetapi data baru tidak dikenali lagi.

Menggantikan sekumpulan fitur awal dengan fitur campuran yang baru.

Contoh: data set fitur (tinggi dan berat) diganti dengan BMI (body-mass-index).

Merupakan proporsi hasil bagi dari dua fitur awal.

Page 7: 8186 8 reduksi data

PARAMETER ANALISIS DASAR Waktu komputasi, data yang lebih sederhana dapat

mereduksi waktu untuk proses data mining

Keakuratan prediksi/deskriptif, mengukurseberapa baik data dapat disimpulkan danmengeneralisasi ke dalam suatu model.

Penyajian dari model data mining, kesederhanaanrepresentasi menjadi model yang dapat dimengerti

Page 8: 8186 8 reduksi data

dapat mereduksi waktu, meningkatkan akurasi danpenyajian dalam bentuk yang sederhana pada waktuyang bersamaan, menggunakan strategiDimensionality reduction.

Page 9: 8186 8 reduksi data

FEATURE REDUCTION Proses reduksi fitur harus menghasilkan:

Data yang lebih kecil, sehingga algoritma data miningdapat bekerja lebih cepat

Akurasi yang tinggi dari proses data mining, sehinggamodel dapat mengeneralisasikan data lebih baik

Hasil yang sederhana, sehingga lebih mudah dimengertidan digunakan

Fitur yang lebih kecil.

Page 10: 8186 8 reduksi data

Klasifikasi Reduksi Fitur Feature selection: proses pememilihan fitur yang

ditemukan pada sebuah data set awal.

Feature composition: faktor penentu dalammenghasilkan hasil data mining yang berkualitas

Page 11: 8186 8 reduksi data

Feature Selection Terdiri dari algoritma feature-rangking dan algoritma

subset minimum. Algoritma feature-rangking.

Daftar fitur yang terurut berdasarkan hasil evaluasi. Suatu ukuran dapat digunakan berdasarkan akurasi data yang

tersedia, konsistensi, isi informasi, jarak. Algoritma ini tidak dapat memberitahukan apakah kumpulan

fitur dapat dianalisa lebih lanjut.

Algoritma subset minimum Mendapatkan subset fitur minimum dan tidak ada perbedaan

urutan diantara fitur-fitur dalam subset. Fitur-fitur dalam subset yang relevan ditujukan untuk proses

mining

Page 12: 8186 8 reduksi data

Seleksi fitur secara umum dapat digambarkan sebagaimasalah pencarian, dengan setiap state di areapencarian khusus suatu subset.

Seleksi fitur dan reduksi dimensi data membantuseluruh tahapan dalam proses data mining untukpenemuan pengetahuan.

Page 13: 8186 8 reduksi data

Entropy Measure Suatu metoda untuk seleksi unsupervised fitur atau

merangking berdasarkan ukuran entropy.

Asumsi dasar adalah semua contoh diberikan sebagaivektor tanpa adanya klasifikasi dari output sample.

Pendekatan didasarkan atas observasi pembuangan fituryang tidak relevan, fitur redundan, atau keduanya darikemungkinan yg tidak mengubah karakteristik data set.

Algoritma didasarkan atas ukuran kesamaan S yangberbanding terbalik dengan jarak D antara dua n-dimensional sample. Ukuran jarak D kecil, dekat dengancontoh, dan yang besar untuk perbedaan pasangan.

Page 14: 8186 8 reduksi data

Ada 2 formula yg dipakai untuk mengukur kesamaanterhadap fitur: data numerik dan non numerik(kategori).

1. Data numerik:

Similarity (S)

dimana: e=2.7183;

Namun sering digunakan sebagai konstanta

Dan ukuran jarak D didapatkan:

Page 15: 8186 8 reduksi data

2. Data non-numerik

Di mana |xij=xjk| adalah 1 jika xij=xjk, dan sebaliknya 0. Jumlah variable adalah n.

Sample F1 F2 F3

R1R2R3R4R5

ABCBC

XYYXZ

12213

R1 R2 R3 R4 R5

R1R2R3R4

0/3 0/32/3

2/31/30/3

0/30/31/30/3

Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples

Page 16: 8186 8 reduksi data

Nilai Entropy yang digunakan untuk rangking fitur adalah:

Kedekatan suatu fitur ditunjukan semakin kecilnya perbedaan nilai entropy.

Page 17: 8186 8 reduksi data

DATA REDUCTION METHODS Principal Component Analysis

Values Reduction

Feature Discretization

Page 18: 8186 8 reduksi data

Principal Component Analysis (PCA) Metoda statistik yang populer untuk mereduksi dimensi

data set yang besar adalah metode Karhunen-Loeve (K-L).

Merupakan metoda pentranformasian data set awal ygdirepresentasikan vector sample menjadi kumpulan vectorsample baru dengan dimensi yang didapatkan.

Tujuannya memfokuskan informasi terhadap perbedaan-perbedaan diantara sample menjadi dimensi yang kecil.

Page 19: 8186 8 reduksi data

Principal Component Analysis (PCA) Ide dasar: sekumpulan vector sampel berdimensi n X={x1,

x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memilikiproperty yg paling informatif isinya disimpan dalamdimensi pertama.

Transformasi didasarkan atas asumsi bahwa informasi ygtinggi berhubungan dengan varian yg tinggi. Sehingga jikamereduksi ke satu dimensi dari matrik X ke matrik Y dapatdituliskan:Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data

set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasiini disebut first principal component.

Page 20: 8186 8 reduksi data

Principal Component Analysis (PCA) Maka untuk menentukan matrix A, dihitung dahulu

covariance matrix S sebagai tahap awal daritransformasi fitur.

Dimana:

Page 21: 8186 8 reduksi data

Eigen values & Eigen vector Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0

Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2≥… λn dan disebut principal axes.

Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahaneigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:

Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),seluruh analisa dari subset atas fitur m merepresentasikan estimasiawal yg baik dari n dimensi ruang.

Page 22: 8186 8 reduksi data

Eigen values & Eigen vector Nilai eigen value diperoleh dengan mengetahui

nilai covariance sehingga dituliskan: det (S – λ) = 0 ; dimana S= matrix covariance

Sedangkan nilai eigen vector (v) diperoleh denganrumusan berikut:

λv = Sv

Page 23: 8186 8 reduksi data

ContohFeature 1 Feature 2 Feature 3 Feature 4

Feature 1 1.0000 1.1094 0.8718 0.8180

Feature 2 −0.1094 1.0000 −0.4205 −0.3565

Feature 3 0.8718 −0.4205 1.0000 0.9628

Feature 4 0.8180 −0.3565 0.9628 1.0000

Feature Eigenvalue

Feature 1 2.91082

Feature 2 0.92122

Feature 3 0.14735

Feature 4 0.02061

Eigenvalue dari data

Covariance

Page 24: 8186 8 reduksi data

Dengan nilai threshold R*=0.95, maka dipilih 2 fitur pertama, sebab:

R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061)

= 0.958 > 0.95, sehingga 2 fitur tersebutcukup mendeskripsikan karakteristik data set.

Page 25: 8186 8 reduksi data

Value Reduction Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg

diberikan didasarkan atas teknik diskritisasi.

Tujuannnya : mendiskritisasi nilai fitur kontinumenuju sejumlah kecil interval, yg mana setiapinterval dipetakkan ke simbol diskrit.

Keuntungan: diskripsi data disederhanakan sehinggadata dan hasil-hasil data-mining mudah dimengerti,juga kebanyakan teknik data mining dapatdiaplikasikan dengan nilai fitur diskrit.

Page 26: 8186 8 reduksi data

Sebagai contoh: suatu umur seseorang, diberikan diawalproses data-mining sebagai nilai kontinu (antara 0 dan 150tahun) mungkin diklasifikasikan menjadi segmen2kategori: anak, remaja, dewasa, setengah tua, tua. Titik2batas didefinisikan secara subyektif.

Cut points?

Child Adolescent Adult Middle-age Elderly

age

0 150

Page 27: 8186 8 reduksi data

Pengelompokan nilai-nilai fitur Diberikan suatu fitur mempunyai suatu jarak nilai-nilai

numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecilke yg terbesar. penempatan pembagian nilai-nilai ke dalam kelompok-kelompok

dengan nilai-nilai yg dekat.

Seluruh nilai dalam kelompok akan digabung ke konseptunggal yg direpresentasikan dengan nilai tunggal,biasanya mean atau median dari nilai-nilai tersebut.

Nilai mean/ mode biasanya efektif untuk jumlah nilai yglumayan besar.

Namun bila kecil/ sedikit, batasan dari setiap kelompokdapat menjadi kandidat untuk representasinya.

Page 28: 8186 8 reduksi data

Contoh Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,

1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,1, 2, 3, 3, 3, 4, 5, 5, 7}

Maka sekarang, mungkin dipecah jumlahkumpulan nilai kedalam 3 bins

{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}

BIN1 BIN2 BIN3

Page 29: 8186 8 reduksi data

Langkah berikutnya, perbedaan representasi dapatdipilih untuk setiap bin.

Berdasarkan mode dalam bin, maka nilai-nilaibaru:

{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}BIN1 BIN2 BIN3

Berdasarkan mean{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}BIN1 BIN2 BIN3

Berdasarkan kedekatan dengan batasan nilaidalam bin:

{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}BIN1 BIN2 BIN3

Page 30: 8186 8 reduksi data

Masalah utama dari metoda ini adalahmenemukan batasan terbaik untuk bin. Makaprosedurenya terdiri langkah-langkah berikut:

Urutkan seluruh nilai bagi fitur yg diberikan

Assign dengan perkiraan sejumlah nilai-nilai ygberdekatan setiap bin

Pindahkan elemen batas dari satu bin ke berikutnya(atau sebelumnya) ketika mereduksi error jarakkeseluruhan (ER)

Page 31: 8186 8 reduksi data

Contoh: Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split

ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikandengan mode-nya.

Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Inisialisasi bin (k=3) BIN1 BIN2 BIN3(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:

ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1

elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dandistribusi akhir menjadi:Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}

BIN1 BIN2 BIN3 Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4. Distribusi akhir, dengan median-median sebagai representative

akan didaptkan masalah reduksi nilai.

Page 32: 8186 8 reduksi data

FEATURE DISCRETIZATION ChiMerge: suatu algoritma diskritisasi yang

menganalisi kualitas interval atas fitur yg diberikandengan menggunakan statistik X2.

Algoritma menentukan kesamaan antara distribusidata dalam interval yg berdekatan berdasarkanklasifikasi output sample.

Jika kesimpulan dari X2 test ini adalah class output ygindependen maka interval harus digabungkan,sebaliknya jika perbedaannya terlalu besar maka tidakdigabung.

Page 33: 8186 8 reduksi data

Algoritma ChiMerge Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:

1. Sort data atas fitur yg diberikan secara urut naik

2. Definisikan inisial awal interval sehingga setiap nilaidalam interval terpisah

3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatanlebih kecil dari nilai threshold.

Page 34: 8186 8 reduksi data

Dimana:

k= jumlah kelas

Aij=jumlah contoh dalam interval ke-i, kelas ke-j

Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N

Ri= jumlah contoh dalam interval ke –i

Cj = jumlah contoh dalam kelas ke –j

N= jumlah total dari contoh

Class 1 Class 2 ∑

Interval-1 A11 A12 R1

Interval-2 A21 A22 R2

∑ C1 C2 N

Page 35: 8186 8 reduksi data

ContohSample: F K

1 1 1

2 3 2

3 7 1

4 8 1

5 9 1

6 11 2

7 23 2

8 37 1

9 39 2

10 45 1

11 46 1

12 59 1

Page 36: 8186 8 reduksi data

No Median

1 5.0

2 7.5

3 8.5

4 10.0

5 17.0

6 30.0

7 38.0

8 42.0

9 45.5

10 52.5

Page 37: 8186 8 reduksi data

K = 1 K = 2 ∑

Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1

Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1

∑ C1 = 2 C2 = 0 N = 2

Berdasarkan tabel di atas didapatkan:E11 = 2/2 = 1E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1

X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2Oleh karena lebih kecil dari threshold (2.706 untuk distribusi dg α =0.1, maka dilakukan penggabungan

Page 38: 8186 8 reduksi data

K = 1 K = 2 ∑

Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3

Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2

∑ C1 = 4 C2 = 1 N = 5

E11 = 12/5 = 2.4E12 = 3/5 = 0.6E21 = 8/5 = 1.6E22 = 2/5 = 0.4

X2 = 0.834

Page 39: 8186 8 reduksi data

K = 1 K = 2 ∑

Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5

Interval [10.0, 42.0]

A21 = 1 A22 = 3 R2 = 4

∑ C1 = 5 C2 = 4 N = 9

E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72

Oleh karena dihasilkan > dari threshold (2.706), maka tidak diperlukan lagi penggabungan