Upload
dangnhan
View
287
Download
3
Embed Size (px)
Citation preview
STK335 Analisis Eksplorasi Data Pertemuan 07
Penduga Kekar untuk Ukuran Pemusatan dan Ukuran Penyebaran
Bagus Sartono
Outline
• Pendahuluan
• Ladder Transformation (Tukey, 1977)
• Box-Cox Transformation
Mengapa Butuh Penduga yang Kekar (Robust)
• Terdapat kemungkinan adanya pencilan (outlier) dalam data yang kita miliki
• Sebaran dari data tidak selalu sama dengan yang kita asumsikan
• Perspektif lain: – Tidak semua orang rajin melakukan screening terhadap data
– Proses screening bisa jadi membuang-buang waktu
– Pada data multivariate, tidak mudah mendeteksi pencilan
– Pada pendugaan ukuran penyebaran, membuang pencilan akan menyebabkan penduganya bersifat under-estimate
Apa itu statistik yang kekar?
• Statistik yang tidak sensitif jika ada pelanggaran asumsi atau data-data yang menyebabkan sebarannya sedikit berbeda dengan yang diasumsikan
Ukuran Pemusatan yang Kekar
• Median
• Trimmed Mean (rataan terpangkas, rataan terpancung)
• Winsorized Mean
• M-estimator (penduga M)
Median
siapa tidak kenal median?
Trimmed Mean
• Merupakan rata-rata dari 1 - 2 bagian tengah dari data dengan 0 < < 1
• Artinya sebanyak n data paling besar dan n data paling kecil disisihkan dan tidak ikut dalam perhitunganr rataan.
• Jika nilai αn tidak integer, bagian bilangan integer-nya yang digunakan
M-estimator
• Prinsip dasar: memberikan bobot yang lebih kecil kepada data-data pencilan
Ukuran Penyebaran yang Robust
• Ragam dan simpangan baku adalah ukuran penyebaran yang banyak digunakan. Namun keduanya sensitif terhadap keberadaan pencilan.
• Beberapa ukuran penyebaran yang kekar: – IQR, interquartile range, jarak/jangkauan antar kuartile
– MAD, median absolute deviation
– Gini’s mean difference
IQR (inter quartile range)
• IQR didefinisikan sebagai selisih antara kuartil ketiga dengan kuartil pertama
IQR=Q3 – Q1
• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.34898 IQR.
MAD (median absolute deviation)
• Merupakan ukuran penyebaran kekar yang paling banyak digunakan
• Definisi
MAD = median {|xi – median(x)|}
• Tahapan perhitungan – Hitung median dari data, beri nama median(x)
– Hitung selisih mutlak dari setiap data terhadap median(x)
– Hitung median dari selisih mutlah
• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.4826 MAD
Gini’s mean difference
• Merupakan rata-rata dari setiap selisih antar amatan
• Pada data yang menyebar normal, simpangan baku dapat didekati sebesar G / 2
• Prosedur di SAS yang dapat digunakan untuk menghasilkan nilai penduga kekar: – UNIVARIATE – STDIZE
• Ilustrasi proc univariate data=data robustscale trimmed=0.2
winsorized=0.2; var x; run;
proc stdize data=data method=huber pstat; var x; run;