Upload
trannhan
View
218
Download
0
Embed Size (px)
Citation preview
PengantarDataMiningDataMining|SistemInformasi|FakultasIlmuKomputer|2019
ApaituDataMining• Disiplinilmuyangmempelajarimetode untukmengekstrakpengetahuan ataumenemukanpoladarisuatudatayangbesar
• Ekstraksidaridatakepengetahuan:1. Data:faktayangterekamdantidakmembawaarti2. Pengetahuan:pola,rumus,aturanataumodelyangmunculdaridata
• Nama laindatamining:• KnowledgeDiscoveryinDatabase(KDD)• Knowledgeextraction• Patternanalysis• Informationharvesting• Businessintelligence• Bigdata
DefinisiDataMining
• Melakukanekstraksi untukmendapatkaninformasipentingyangsifatnyaimplisit dansebelumnyatidakdiketahui,darisuatudata(Wittenetal.,2011)
• Kegiatanyangmeliputipengumpulan,pemakaiandatahistorisuntukmenemukanketeraturan,poladan hubungan dalamsetdataberukuranbesar(Santosa,2007)• Extractionofinteresting (non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdata(Hanetal.,2011)
DataMiningTasksandRoles
HubunganDataMiningdanBidangLain
ProsesUtamapadaDataMining
Input(Data)
Metode(AlgoritmaDataMining)
Output(Pola/Model)
Evaluation(Akurasi,AUC,RMSE,etc)
DataMining
• Mengolahdataterstrukturdalambentuktabelyangmemilikiatributdankelas• Menggunakanmetodedatamining,
• Yangdasarberpikirnyamenggunakankonsepstatistika atauheuristikalamachinelearning
Input..• Datainternalperusahaanmaupundataeksternalperusahaan• Berupadataset dengantipedatatertentu,atributdatatertentu
PeranUtamaDataMining
Prediksi
Forecasting
KlasifikasiKlastering
Asosiasi
PeranUtamaDataMining
Tid Refund Marital Status
Taxable Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
11 No Married 60K No
12 Yes Divorced 220K No
13 No Single 85K Yes
14 No Married 75K No
15 No Single 90K Yes 10
Milk
Data
Estimasi
Estimasi WaktuPengirimanPizzaCustomer Jumlah Pesanan(P) JumlahTraffic Light(TL) Jarak(J) Waktu Tempuh(T)
1 3 3 3 162 1 7 4 203 2 4 6 184 4 6 8 36...1000 2 4 2 12
WaktuTempuh(T)=0.48P+0.23TL +0.5JPengetahuan
Pembelajaran denganMetode Estimasi (Regresi Linier)
Label
• Memprediksi nilai variabel bernilai kontinu yangdiberikanberdasarkan nilai-nilai variabel lain,dengan asumsi modeldependensi linieratau nonlinier.• Secara ekstensif dipelajari dalam statistik,bidang jaringan saraf.• Contoh:• Memprediksi jumlah penjualan produk baru berdasarkan pembelanjaanyangmenguntungkan.• Memprediksi kecepatan angin sebagai fungsi suhu,kelembaban,tekananudara,dll.• Prediksi deret waktu dari indeks pasar saham.
Klasifikasi - Prediksi
KlasifikasiKelulusanMahasiswa
Prediksi
Prediksi Harga Saham
Prediksihargasaham
Clustering
• Menemukan kelompok objek sedemikian rupa sehinggaobjek dalam grup akan serupa (atau terkait)satu samalaindan berbeda dari (atau tidak terkait dengan)objekdalam grup lain
Inter-cluster distances are maximized
Intra-cluster distances are
minimized
Asosiasi
• Diberikan satu setrecords(catatan)yangmasing-masing berisisejumlah itemdari koleksi yangdiberikan• Menghasilkan aturan ketergantungan yangakan memprediksi terjadinyasuatu itemberdasarkan kemunculan itemlainnya.
TID Items
1 Bread, Coke, Milk2 Beer, Bread3 Beer, Coke, Diaper, Milk4 Beer, Bread, Diaper, Milk5 Coke, Diaper, Milk
Rules Discovered:{Milk} --> {Coke}{Diaper, Milk} --> {Beer}
AssociationRules
Output/Pola/Model/Knowledge1. Formula/Function (RumusatauFungsiRegresi)
• WAKTUTEMPUH=0.48+0.6JARAK+0.34LAMPU+0.2PESANAN
2. DecisionTree (PohonKeputusan)
3. Rule (Aturan)• IFips3=2.8THENlulustepatwaktu
4. Cluster (Klaster)
FromStupidAppstoSmart Apps
Referensi1. IanH.Witten,FrankEibe,MarkA.Hall,Datamining:Practical
Machine LearningTools andTechniques 3rdEdition,Elsevier,2011
2. Santosa Budi,Teknik Pemanfaatan DataUntuk KeperluanBisnis,Graha Ilmu,2007
3. Materi Romi Satrio Wahono