50
Data Mining I

DataMiningI_p12

  • Upload
    honkonk

  • View
    140

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DataMiningI_p12

Data Mining I

Page 2: DataMiningI_p12

Bussiness Intelligent

“proses perubahan data menjadi informasi dan dari kumpulan informasi

yang ada akan diambil polanya menjadi pengetahuan”

Page 3: DataMiningI_p12

Data Mining - definisi

• Istilah yang digunakan untuk menguraikan penemuan pengetahuan dalam database

• Data mining menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar

Page 4: DataMiningI_p12

Data Mining-definisi (lanj)

• Analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan menemukan pola atau kecenderungan yang penting yang biasanya tidka disadari keberadaannya. (pramudiono, 2006)

• Analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya yang dapat dipahamidan bermanfaat bagi pemilik data (Larose, 2005)

Page 5: DataMiningI_p12

Data Mining-definisi (lanj)

• Data Mining ~ Knowledge Discovery ~ pattern recognition

Page 6: DataMiningI_p12

Faktor perlunya Data Mining

• Pertumbuhan data yang cepat• Penyimpanan data dalam data warehouse,

sehingga seluruh perusahaan memiliki akses ke dalam DB yang handal

• Peningkatan akses data melalui web dan intranet

• Tekanan kompetisi bisnis• Ketersediaan teknologi• Perkembangan komputasi yang sangat maju

dan pesat dan kapasitas media simpan

Page 7: DataMiningI_p12

Hal penting terkait data mining

• Proses otomatisasi terhadap data yang sudah ada

• Data yang akan diproses berupa data yang sangat besar

• Tujuan data mining mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat

Page 8: DataMiningI_p12

Fungsi data mining

• Fungsi deskripsi (description)

• Fungsi estimasi (estimation)

• Fungsi prediksi (prediction)

• Fungsi klasifikasi (classification)

• Fungsi pengelompokan (clustering)

• Fungsi asosiasi (association)

Fungsi minor

Fungsi major

Page 9: DataMiningI_p12

Data mining-Deskripsi

• Sebagai kasus akan diberi suatu data nilai UAS matakuliah Datawarehouse kelas pagi dan malam

Page 10: DataMiningI_p12

Data Mining-deskripsi (lanj)

• Ketika diberi kumpulan data kita sukar menangkap arti kumpulan data tersebut sehingga data harus “dirangkum” sedemikian rupa agar “berbicara” sehingga kita memiliki gambaran mengenai kumpulan data tersebut

• Bayangkan bila datanya adalah ribuan bahkan jutaan data. jutaan angka

Page 11: DataMiningI_p12

Data Mining-deskripsi (lanj)

• Diperlukan suatu cara untuk menggambarkan sekumpulan data secara ringkas

deskripsi

• Metode Statistika

Page 12: DataMiningI_p12

Data Mining-deskripsi (lanj)

• Terdapat beberapa cara untuk memberikan gambaran secara ringkas.

1. Deskripsi grafis mendeskripsikan data dalam bentuk gambar

a. diagram titik

b. histogram

2. Deskripsi lokasi memberikan informasi mengenai data pada posisi tempat tertentu

Page 13: DataMiningI_p12

Data mining-deskripsi (lanj)

3. Deskripsi keberagaman

meski deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data (mean, median, modus) kita masih belum memiliki gambaran atas keberagaman data.

Page 14: DataMiningI_p12

Data mining-deskripsi(lanj)

• Sebagai gambaran akan kita lihat studi kasus nilai UAS MK datawarehouse

• Nilai UAS terdiri dari 2 kelas yaitu kelas pagi dan malam

• Kelas pagi ditampilkan pada tabel berikut

Page 15: DataMiningI_p12

Data mining-deskripsi(lanj)

Page 16: DataMiningI_p12

Data mining-deskripsi(lanj)

• Mengapa kita perlu memproses data di atas?

• Apakah data di tabel tersebut memberikan arti bagi kita?

• Bagaimana kita mengetahui makna sekumpulan data di atas?

• Bagaimana bila data di atas berjumlah ribuan bahkan jutaan data?

Page 17: DataMiningI_p12

Data mining-deskripsi grafis

• Mendeskripsikan data dalam bentuk visual

• ‘a picture paints a thousand words’

• Berupa diagram titik dan histogram

Page 18: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

• Diagram titik

setiap data digambarkan sebagai sebuah titik (dot)

Misal nilai kelas pagi digambarkan tiitik penuh sementara kelas malam digambarkan titik dengan lubang tengah

Page 19: DataMiningI_p12

Data mining-deskripsi grafis(lanj)• Diagram histogram

• Misalnya kita mempunyai data nilai UAS kelas pagi

Page 20: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

• Langkah pertama dalam membuat histogram adalah membuat beberapa interval dalam hal ini misalnya membuat interval sesuai dengan klasifikasi nilai

80 – 100 = A68 - 79.99 = B67.99 – 56 = C55.9 – 46 = D45 – 0 = E

Page 21: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

• Langkah kedua adalah menghitung seberapa banyak data yang menjadi anggota tiap interval

• Langkah ketiga, membuat histogram berdasarkan data di atas

Page 22: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

Page 23: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

histogram berdasarkan interval nilai

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

1 2 3 4

jumlah frekuensi

S eries 1

Page 24: DataMiningI_p12

Data mining-deskripsi grafis(lanj)

• Pengetahuan apa yang diperoleh?

Dengan melihat batang-batang tersebut kita dapat melihat lokasi kecenderungan mengumpulnya data dari batang tertinggi. Histogram yang menunjukkan data yang merata menunjukkan keberagaman data beragam dan menyebar

Page 25: DataMiningI_p12

Data mining-deskripsi lokasi

• Meskipun deskripsi grafis sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita memerlukan angka yang cukup mewakili data dan diperoleh secara praktis daripada grafis.

Page 26: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

1. Rata-rata (Mean)

membuat menjadi rata. Rumus mean adalah jumlah semua data dibagi dengan banyaknya data

Page 27: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Melihat kasus nilai UAS kelas PAGI dan MALAM maka bisa dilihat masing-masing mean nilai UAS tersebut

Page 28: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Rata-rata / mean

• Pengetahuan apa yang bisa diperoleh?Dengan mudah bisa kita katakan bahwa PADA

UMUMNYA nilai kelas malam memiliki nilai 70.3 dan kelas pagi 66.33. Nilai rata-rata kelas malam lebih tinggi daripada kelas pagi.

Mengapa?

Page 29: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Median / nilai tengah

• Dengan median, kita mencari nilai “di tengah”.

• Langkah pertama adalah mengurutkannya.• Data asli: 85 65 55 75 65 55 55 70 70 60 65 80 95 75 85

• Data urut: 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

• Karena data kita ganjil (15) maka nilai tengahnya adalah 70

• Bila banyaknya data genap maka pertengahan data dijumlahkan kemudian dibagi 2

Page 30: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Pengetahuan apa yang dapat diperoleh?Bila kita mengurutkan data nilai dari yang

terendah sampai ke tertinggi maka ditengahnya adalah 70.

Keuntungan menggunakan median adalah tidak terpengaruh nilai ekstrim. Bila rata-rata/mean akan terpengaruh nilai ekstrim.

Contohnya?

Page 31: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Modus nilai yang paling banyak muncul. • Data nilai : 55 55 55 60 65 65 65 70 70 75 75 80 85

85 95• Nilai yang menjadi modus adalah 55 3x dan 65

3x• Pengetahuan apa yang muncul?Nilai mahasiswa UAS pagi banyak yang memperoleh

55 dan 65Modus mencerminkan lokasi kecenderungan

berkumpulnya sebagian besar data dibanding yang lain.

Page 32: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Contoh: sebuah perusahaan menyatakan bahwa gaji rata-rata perusahaan XYZ adalah Rp. 10 juta. Kenyataann 90 karyawan digaji Rp. 1 Juta, dan hanya 10 karyawan yang digaji Rp. 100 juta.

• Dibandingkan rata-rata, informasi yang lebih tidak menyesatkan dan berguna adalah bahwa sebagian besar / modus karyawan digaji sekitar Rp. 1 juta

Page 33: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Kuartil : membagi seluruh data menjadi empat bagian dan mencari nilai di tiap seperempat bagian/kuartil tersebut.

• 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

• Pengetahuan apa yang bisa diperoleh? Bila kita mengurutkan data nilai UAS pagi

kemudian urutan kita bagi empat maka akan diperoleh angka 55, 62.5, 70, 77.5, 95

Page 34: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Persentil : pembagian data dengan 100 bagian

• 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

Page 35: DataMiningI_p12

Data mining-deskripsi lokasi(lanj)

• Pengetahuan yang diperoleh:

Bila kita mengurutkan data nilai UAS kelas pagi dari yang terendah sampai tertinggi akan diperoleh angka tersebut

Page 36: DataMiningI_p12

Data mining-deskripsi keberagaman

• Deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data (rata-rata, modus, median) tetapi kita belum memiliki keberagaman data.

• Data I 6, 6, 7, 7, 7, 8, 8

mean = 7, median = 7, modus = 7

• Data II 0, 1, 3, 7, 7, 12,19

mean = 7, median = 7, modus = 7

Page 37: DataMiningI_p12

Data mining-deskripsi keberagaman

• Mean, median dan modus nya sama apakah data di atas sama?

• Data di atas tidak sama karena persebarannya beda. Pada data I cenderung berkumpul di 7, sementara data II beragam dan menyebar.

• Tiga ukuran untuk melihat keberagaman yaitu range, varians dan standar deviasi

Page 38: DataMiningI_p12

Data mining-deskripsi keberagaman

1. Rentang

menyatakan besarnya rentang jarak antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya

Contoh:• Data I 6, 6, 7, 7, 7, 8, 8

Data II 0, 1, 3, 7, 7, 12,19

range data I 8 – 6 = 2

range data II 19 – 0 = 19

Page 39: DataMiningI_p12

Data mining-deskripsi keberagaman

• Pengetahuan apa yang kita peroleh?Kelompok data II memiliki data lebih

beragam dengan range yang lebar.Tetapi karena ukuran yang diambil nilai

min dan max maka kurang terlihat juga keberagaman data nya

Page 40: DataMiningI_p12

Data mining-deskripsi keberagaman

Contoh 2: memodifikasi contoh 1

• Data I 6, 15, 15, 16, 16, 16, 25

Data II 0, 1, 3, 7, 7, 12,19

Meski range nya sama, data I masih relatif lebih seragam/kurang beragam dibanding data II

Page 41: DataMiningI_p12

Data mining-deskripsi keberagaman

2. Varians dan standar deviasi

Range tidak dapat dijadikan pijakan yang kokoh untuk menilai keberagaman data. Oleh karena itu ukuran varians yang menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean) sering digunakan.

Page 42: DataMiningI_p12

Data mining-deskripsi keberagaman

• Setiap data observasi dikurangi dengan rata-rata seluruh data.

• Setiap hasl pengurangan dikuadratkan kemudian semuanya dijumlahkan. Hasil penjumlahan dibagi dengan (n-1), dengan n menyatakan banyaknya data.

Page 43: DataMiningI_p12

Data mining-deskripsi keberagaman

• Bila data I dan II di olah dengan varians dan standar deviasi maka (Data ke n – mean)2

Jumlah (Data ke n – mean)2/banyaknya data

Page 44: DataMiningI_p12

Data mining-deskripsi keberagaman

• Berdasarkan varians nya Pengetahuan apa yang diperoleh?

Data pada kelompok II berjarak relatif lebih jauh dengan pusatnya (dalam hal ini rata-ratanya) sehingga variansinya lebih besar. Dengan kata lain data pada kelompok II lebih beragam dibanding data I

Page 45: DataMiningI_p12

Data mining-deskripsi keberagaman

• Standar deviasinya adalah 5.5 dan 6.7

• Pengetahuan apakah yang bisa digali?

Data pada kelompok II lebih beragam dibanding kelompok I.

Page 46: DataMiningI_p12

penutup

• Kegunaan fungsi deskripsi

• Berbagai cara menjalankan fungsi deskripsi

• Ukuran yang digunakan dalam cara-cara deskripsi

• Ilmu yang digunakan dalam data mining

Page 47: DataMiningI_p12

Pertanyaan?

Page 48: DataMiningI_p12

tugas

• Berikut adalah catatan temperatur tertinggi tiap jam dalam sebuah lemari pendingin:

4.2; 4.7; 4.7; 5.0; 3.8; 3.6; 3.0; 5.1; 3.1; 3.8; 4.8; 4.0; 5.2; 4.3; 2.8; 2.0; 2.8; 3.3; 4.8 dan 5.0

Gambar dan interpretasikan dengan histogramHitung mean, median, modusHitung range , varians dan standar deviasi nyaTugas tulis tangan di kertas folio bergaris

Page 49: DataMiningI_p12
Page 50: DataMiningI_p12

catatan

Dalam ilmu statistik standar deviasi digunakan untuk membandingkan penyebaran atau penyimpangan data dua kelompok atau lebih. Apabila standar deviasi suatu data tersebut kecil maka hal tersebut menunjukkan data-data tersebut berkumpul disekitar rata-rata hitungnya, dan jika standar deviasinya besar hal tersebut menunjukkan penyebaran yang besar dari nilai rata-rata hitungnya.

Salah satu penerapan standar deviasi ini misalnya dalam bidang ekonomi. Standar deviasi dapat digunakan untuk menghitung perbandingan pertumbuhan ekonomi suatu negara, misalnya mengukur pertumbungan ekonomi negara-negara ASEAN. Dalam kurun waktu lima tahun terakhir misalnya, standar deviasi pertumbuhan ekonomi Negara Singapura adalah 0.55, Malaysia sebesar 0.87, Indonesia sebesar 1.03, dan Thailand sebesar 1.01.

Dari hasil penghitungan tersebut dapat diketahui dan dianalisis mengenai pertumbuhan ekonomi Indonesia yang memiliki standar deviasi lebih besar dibanding 3 Negara ASEAN lainnya, hal ini mengindikasikan pertumbuhan ekonomi Indonesia yang lebih fluktuatif dan ketidakmenentuan dibandingkan 3 negara laiinya.