8186 8 reduksi data

KONSEP DASAR Reduksi data adalah proses analisis untuk memilih,

memusatkan perhatian, meyederhanakan,mengabstraksikan serta mentransformasikan datayang muncul dari catatan-catatan lapangan.

Mereduksi data berarti membuat rangkuman, memilihhal-hal pokok, memfokuskan pada hal-hal penting,mencari tema dan pola, serta membuang yangdianggap tidak perlu.

KONSEP DASAR Contoh: data yang besar dalam data warehouse

pada data set kompleks.

Reduksi data berarti : Mengurangi ukuran data settetapi menghasilkan hasil analisis yang sama (hampirsama)

TUJUAN Menentukan kualitas solusi dalam data mining

OPERASI DASAR Tiga dimensi utama dari data set (plain files):

Kolom (fitur)

Baris (kasus/ contoh)

Nilai fitur

Tiga operasi dasar dari proses reduksi data:

Delete kolom,

Delete baris

Pengurangan jumlah nilai kolom (penghalusan suatu fitur).

PENDEKATAN YANG DIGUNAKAN Operasi lain mereduksi tetapi data baru tidak dikenali lagi.

Menggantikan sekumpulan fitur awal dengan fitur campuran yang baru.

Contoh: data set fitur (tinggi dan berat) diganti dengan BMI (body-mass-index).

Merupakan proporsi hasil bagi dari dua fitur awal.

PARAMETER ANALISIS DASAR Waktu komputasi, data yang lebih sederhana dapat

mereduksi waktu untuk proses data mining

Keakuratan prediksi/deskriptif, mengukurseberapa baik data dapat disimpulkan danmengeneralisasi ke dalam suatu model.

Penyajian dari model data mining, kesederhanaanrepresentasi menjadi model yang dapat dimengerti

dapat mereduksi waktu, meningkatkan akurasi danpenyajian dalam bentuk yang sederhana pada waktuyang bersamaan, menggunakan strategiDimensionality reduction.

FEATURE REDUCTION Proses reduksi fitur harus menghasilkan:

Data yang lebih kecil, sehingga algoritma data miningdapat bekerja lebih cepat

Akurasi yang tinggi dari proses data mining, sehinggamodel dapat mengeneralisasikan data lebih baik

Hasil yang sederhana, sehingga lebih mudah dimengertidan digunakan

Fitur yang lebih kecil.

Klasifikasi Reduksi Fitur Feature selection: proses pememilihan fitur yang

ditemukan pada sebuah data set awal.

Feature composition: faktor penentu dalammenghasilkan hasil data mining yang berkualitas

Feature Selection Terdiri dari algoritma feature-rangking dan algoritma

subset minimum. Algoritma feature-rangking.

Daftar fitur yang terurut berdasarkan hasil evaluasi. Suatu ukuran dapat digunakan berdasarkan akurasi data yang

tersedia, konsistensi, isi informasi, jarak. Algoritma ini tidak dapat memberitahukan apakah kumpulan

fitur dapat dianalisa lebih lanjut.

Algoritma subset minimum Mendapatkan subset fitur minimum dan tidak ada perbedaan

urutan diantara fitur-fitur dalam subset. Fitur-fitur dalam subset yang relevan ditujukan untuk proses

mining

Seleksi fitur secara umum dapat digambarkan sebagaimasalah pencarian, dengan setiap state di areapencarian khusus suatu subset.

Seleksi fitur dan reduksi dimensi data membantuseluruh tahapan dalam proses data mining untukpenemuan pengetahuan.

Entropy Measure Suatu metoda untuk seleksi unsupervised fitur atau

merangking berdasarkan ukuran entropy.

Asumsi dasar adalah semua contoh diberikan sebagaivektor tanpa adanya klasifikasi dari output sample.

Pendekatan didasarkan atas observasi pembuangan fituryang tidak relevan, fitur redundan, atau keduanya darikemungkinan yg tidak mengubah karakteristik data set.

Algoritma didasarkan atas ukuran kesamaan S yangberbanding terbalik dengan jarak D antara dua n-dimensional sample. Ukuran jarak D kecil, dekat dengancontoh, dan yang besar untuk perbedaan pasangan.

Ada 2 formula yg dipakai untuk mengukur kesamaanterhadap fitur: data numerik dan non numerik(kategori).

1. Data numerik:

Similarity (S)

dimana: e=2.7183;

Namun sering digunakan sebagai konstanta

Dan ukuran jarak D didapatkan:

2. Data non-numerik

Di mana |xij=xjk| adalah 1 jika xij=xjk, dan sebaliknya 0. Jumlah variable adalah n.

Sample F1 F2 F3

R1R2R3R4R5

ABCBC

XYYXZ

12213

R1 R2 R3 R4 R5

R1R2R3R4

0/3 0/32/3

2/31/30/3

0/30/31/30/3

Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples

Nilai Entropy yang digunakan untuk rangking fitur adalah:

Kedekatan suatu fitur ditunjukan semakin kecilnya perbedaan nilai entropy.

DATA REDUCTION METHODS Principal Component Analysis

Values Reduction

Feature Discretization

Principal Component Analysis (PCA) Metoda statistik yang populer untuk mereduksi dimensi

data set yang besar adalah metode Karhunen-Loeve (K-L).

Merupakan metoda pentranformasian data set awal ygdirepresentasikan vector sample menjadi kumpulan vectorsample baru dengan dimensi yang didapatkan.

Tujuannya memfokuskan informasi terhadap perbedaan-perbedaan diantara sample menjadi dimensi yang kecil.

Principal Component Analysis (PCA) Ide dasar: sekumpulan vector sampel berdimensi n X={x1,

x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memilikiproperty yg paling informatif isinya disimpan dalamdimensi pertama.

Transformasi didasarkan atas asumsi bahwa informasi ygtinggi berhubungan dengan varian yg tinggi. Sehingga jikamereduksi ke satu dimensi dari matrik X ke matrik Y dapatdituliskan:Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data

set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasiini disebut first principal component.

Principal Component Analysis (PCA) Maka untuk menentukan matrix A, dihitung dahulu

covariance matrix S sebagai tahap awal daritransformasi fitur.

Dimana:

Eigen values & Eigen vector Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0

Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2≥… λn dan disebut principal axes.

Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahaneigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:

Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),seluruh analisa dari subset atas fitur m merepresentasikan estimasiawal yg baik dari n dimensi ruang.

Eigen values & Eigen vector Nilai eigen value diperoleh dengan mengetahui

nilai covariance sehingga dituliskan: det (S – λ) = 0 ; dimana S= matrix covariance

Sedangkan nilai eigen vector (v) diperoleh denganrumusan berikut:

λv = Sv

ContohFeature 1 Feature 2 Feature 3 Feature 4

Feature 1 1.0000 1.1094 0.8718 0.8180

Feature 2 −0.1094 1.0000 −0.4205 −0.3565

Feature 3 0.8718 −0.4205 1.0000 0.9628

Feature 4 0.8180 −0.3565 0.9628 1.0000

Feature Eigenvalue

Feature 1 2.91082

Feature 2 0.92122

Feature 3 0.14735

Feature 4 0.02061

Eigenvalue dari data

Covariance

Dengan nilai threshold R*=0.95, maka dipilih 2 fitur pertama, sebab:

R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061)

= 0.958 > 0.95, sehingga 2 fitur tersebutcukup mendeskripsikan karakteristik data set.

Value Reduction Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg

diberikan didasarkan atas teknik diskritisasi.

Tujuannnya : mendiskritisasi nilai fitur kontinumenuju sejumlah kecil interval, yg mana setiapinterval dipetakkan ke simbol diskrit.

Keuntungan: diskripsi data disederhanakan sehinggadata dan hasil-hasil data-mining mudah dimengerti,juga kebanyakan teknik data mining dapatdiaplikasikan dengan nilai fitur diskrit.

Sebagai contoh: suatu umur seseorang, diberikan diawalproses data-mining sebagai nilai kontinu (antara 0 dan 150tahun) mungkin diklasifikasikan menjadi segmen2kategori: anak, remaja, dewasa, setengah tua, tua. Titik2batas didefinisikan secara subyektif.

Cut points?

Child Adolescent Adult Middle-age Elderly

age

0 150

Pengelompokan nilai-nilai fitur Diberikan suatu fitur mempunyai suatu jarak nilai-nilai

numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecilke yg terbesar. penempatan pembagian nilai-nilai ke dalam kelompok-kelompok

dengan nilai-nilai yg dekat.

Seluruh nilai dalam kelompok akan digabung ke konseptunggal yg direpresentasikan dengan nilai tunggal,biasanya mean atau median dari nilai-nilai tersebut.

Nilai mean/ mode biasanya efektif untuk jumlah nilai yglumayan besar.

Namun bila kecil/ sedikit, batasan dari setiap kelompokdapat menjadi kandidat untuk representasinya.

Contoh Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,

1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,1, 2, 3, 3, 3, 4, 5, 5, 7}

Maka sekarang, mungkin dipecah jumlahkumpulan nilai kedalam 3 bins

{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}

BIN1 BIN2 BIN3

Langkah berikutnya, perbedaan representasi dapatdipilih untuk setiap bin.

Berdasarkan mode dalam bin, maka nilai-nilaibaru:

{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}BIN1 BIN2 BIN3

Berdasarkan mean{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}BIN1 BIN2 BIN3

Berdasarkan kedekatan dengan batasan nilaidalam bin:

{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}BIN1 BIN2 BIN3

Masalah utama dari metoda ini adalahmenemukan batasan terbaik untuk bin. Makaprosedurenya terdiri langkah-langkah berikut:

Urutkan seluruh nilai bagi fitur yg diberikan

Assign dengan perkiraan sejumlah nilai-nilai ygberdekatan setiap bin

Pindahkan elemen batas dari satu bin ke berikutnya(atau sebelumnya) ketika mereduksi error jarakkeseluruhan (ER)

Contoh: Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split

ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikandengan mode-nya.

Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Inisialisasi bin (k=3) BIN1 BIN2 BIN3(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:

ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1

elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dandistribusi akhir menjadi:Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}

BIN1 BIN2 BIN3 Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4. Distribusi akhir, dengan median-median sebagai representative

akan didaptkan masalah reduksi nilai.

FEATURE DISCRETIZATION ChiMerge: suatu algoritma diskritisasi yang

menganalisi kualitas interval atas fitur yg diberikandengan menggunakan statistik X2.

Algoritma menentukan kesamaan antara distribusidata dalam interval yg berdekatan berdasarkanklasifikasi output sample.

Jika kesimpulan dari X2 test ini adalah class output ygindependen maka interval harus digabungkan,sebaliknya jika perbedaannya terlalu besar maka tidakdigabung.

Algoritma ChiMerge Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:

1. Sort data atas fitur yg diberikan secara urut naik

2. Definisikan inisial awal interval sehingga setiap nilaidalam interval terpisah

3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatanlebih kecil dari nilai threshold.

Dimana:

k= jumlah kelas

Aij=jumlah contoh dalam interval ke-i, kelas ke-j

Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N

Ri= jumlah contoh dalam interval ke –i

Cj = jumlah contoh dalam kelas ke –j

N= jumlah total dari contoh

Class 1 Class 2 ∑

Interval-1 A11 A12 R1

Interval-2 A21 A22 R2

∑ C1 C2 N

ContohSample: F K

1 1 1

2 3 2

3 7 1

4 8 1

5 9 1

6 11 2

7 23 2

8 37 1

9 39 2

10 45 1

11 46 1

12 59 1

No Median

1 5.0

2 7.5

3 8.5

4 10.0

5 17.0

6 30.0

7 38.0

8 42.0

9 45.5

10 52.5

K = 1 K = 2 ∑

Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1

Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1

∑ C1 = 2 C2 = 0 N = 2

Berdasarkan tabel di atas didapatkan:E11 = 2/2 = 1E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1

X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2Oleh karena lebih kecil dari threshold (2.706 untuk distribusi dg α =0.1, maka dilakukan penggabungan

K = 1 K = 2 ∑

Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3

Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2

∑ C1 = 4 C2 = 1 N = 5

E11 = 12/5 = 2.4E12 = 3/5 = 0.6E21 = 8/5 = 1.6E22 = 2/5 = 0.4

X2 = 0.834

K = 1 K = 2 ∑

Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5

Interval [10.0, 42.0]

A21 = 1 A22 = 3 R2 = 4

∑ C1 = 5 C2 = 4 N = 9

E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72

Oleh karena dihasilkan > dari threshold (2.706), maka tidak diperlukan lagi penggabungan

Data & Analytics

8186 8 reduksi data