Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
Buku Referensi:
1. Hermawati, Fajar Astuti. 2013.Data Mining. Yogyakarta: Andi Offset
2. Larose, Daniel T.2005. Discovering Knowledge in Data, An Introduction To Data Mining. New Jersey : John Wiley & Sons, Inc. Publication.
3. Han, Jiawei dan Michelin Kamber. 2006. Data Mining Concept and Techniques. San Fransisco: Elseiver Inc.
4. Kusrini dan Luthfi, Emha Taufiq.2009. Algoritma Data Mining. Yogyakarta : Andi Offset
PERTEMUAN I
PENGERTIAN DATA MINING
Definisi
Data Mining berisi pencarian trend atau pola yang diinginkan dalam database yang besar untuk membantu pengambilan keputusan diwaktu yang akan datang. Harapannya, perangkat data mining mampu mengenali pola-pola ini dalam data dengan masukan yang minimal. Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan yang lain.
Definisi Lanjutan
Menurut Gartner Group Data Mining adalah suatu proses menemukan hubungan yang berarti, pola dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2005)
Definisi Lanjutan
Data Mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.
Definisi Lanjutan
Data Mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.
Definisi Lanjutan
Proses yang mempekerjakan satu atau lebih teknik pembelajaran computer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis
Definisi Lanjutan
Pembelajaran berbasis induksi (induction-based learning) adalah pembentukan definisi-definisi konsep umum yang dilakukan dengan cara mengobservasi contoh-contoh spesifik dari konsep-konsep yang akan dipelajari
Definisi Lanjutan
Merupakan proses iteratif dan interaktif untuk menemukan pola atau model baru yang sahih (sempurna), bermanfaat dan dapat dimengerti dalam suatu database yang sangat besar (massive database).
Sahih : dapat digeneralisasi untuk masa yang akan dating
Baru : apa yang sedang tidak diketahui
Bermanfaat : dapat digunakan untuk melakukan suatu tindakan
Iteratif : memerlukan sejumlah proses yang diulang
Interaktif : memerlukan interaksi manusia dalam prosesnya
Definisi Lanjutan
Dalam dunia nyata, data mining lebih dari sekedar menerapkan satu dari algoritma-algortima tersebut secara sederhana. Seringkali data terlalu ramai dan tidak lengkap. Jika hal ini dibenarkan, besar kemungkinan banyak pola yang diinginkan akan hilang dan kemampuan deteksi pola pun akan turun. Lebih lanjut, analis harus memutuskan jenis dari algoritma mining yang digunakan, menerapkannya kedalam himpunan bagian data-data sample dan variable (seperti tuple atau atribut), mencerna hasilnya, menerapkan perangkat decision support dan mining dan mengiterasi proses tersebut.
Contoh data mining
Mencari nama-nama khusus yang lazim dilokasi tertentu, misalnya di Amerika (O’Brien, O’Rurke, O’Reilly, dll di daerah Boston) dan mengelompokkan dokumen-dokumen yang sama yang diperoleh dari search engine menurut konteksnya (missal, Amazon rainforest, Amazon.com)
Contoh yang bukan data mining
1. Mencari nomor telepon dalam direktori telepon
2. Query suatu web search engine untuk informasi mengenai amazon.
Faktor yang mendorong perkembangan dalam bidang data mining:
1. Pertumbuhan yang cepat dalam koleksi data, sebagai contoh adalah banyaknya koleksi barang di supermarket
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses kedalam database yang handal
3. Adanya peningkatan akses data melalui navigasi web dan intranet 4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar
dalam globalisasi ekonomi 5. Perkembangan teknologi perangkat lunak untuk data mining 6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasistas media penyimpanan
Data mining dapat menyelesaikan masalah: 1. Description
2. Estimation
3. Prediction
4. Classification
5. Clustering
6. Association
Data Mining vs Data Warehouse
• Teknologi data warehouse digunakan untuk melakukan OLAP (Online Analytic Processing) sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang data analyst dan business analyst.
• Dalam prakteknya data mining juga mengambil data dari data warehouse
• Aplikasi dari data mining lebih khusus dan lebih spesifik dibanding OLAP mengingat database bukan satu-satunya ilmu yang mempengaruhi data mining.
Bidang ilmu yang berhubungan dengan data mining • Ilmu informasi (information science) • High performance computing • Visualisasi • Machine learning • Statistik • Jaringan syaraf tiruan (neural network) • Pemodelan matematika • Information retrieval • Information extraction • Pengenalan pola • Pengolahan citra
Tantangan dalam data mining
1. Scalability besarnya ukuran basis data yang digunakan 2. Dimensionality banyaknya jumlah atribut dalam data yang akan
diproses 3. Complex and heterogeneous data data yang kompleks dan
mempunyai variasi yang beragam 4. Data quality kualitas data yang akan diproses seperti data yang
bersih dari noise, missing value, dsb 5. Data ownership and distribution siapa yang memiliki data dan
bagaimana distribusinya 6. Privacy Preservation menjaga kerahasiaan data yang banyak
diterapkan pada data nasabah perbankan 7. Streaming data aliran data itu sendiri
Latihan Soal
1. Tujuan utama dari data mining adalah
A. Pencarian data
B. Pencarian pola
C. Pencarian database
D. Pencarian relationship
E. Pengeditan data
2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut, kecuali
A. Estimasi
B. Prediksi
C. Klasifikasi
D. Relationship
E. Asosiasi
Latihan Soal Lanjutan
2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut, kecuali
A. Estimasi B. Prediksi C. Klasifikasi D. Relationship E. Asosiasi 3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemroses
informasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebut dengan
A. Information science B. Machine learning C. Neural network D. Information retrieval E. High performance computing
Latihan Soal Lanjutan 3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemroses
informasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebut dengan
A. Information science B. Machine learning C. Neural network D. Information retrieval E. High performance computing 4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut A. Scalability B. Dimensionality C. Data quality D. Streaming data E. Privacy preservation
Latihan Soal Lanjutan 4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut A. Scalability B. Dimensionality C. Data quality D. Streaming data E. Privacy preservation 5. Data mining digunakan untuk melakukan information discovery yang ditujukan untuk: A. data analyst B. programmer C. network enginer D. database administrator E. operator komputer
Latihan Soal Lanjutan 5. Data mining digunakan untuk melakukan information discovery yang ditujukan
untuk: A. data analyst B. programmer C. network enginer D. database administrator E. operator komputer 1. Tujuan utama dari data mining adalah A. Pencarian data B. Pencarian pola C. Pencarian database D. Pencarian relationship E. Pengeditan data