7/22/2019 Multivariat data outlier
1/9
2. Pengertian data outlierData outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat
diidentifikasi sebagai sesuatu yang berbeda dari observasi yang lainnya. Yang
dimaksud dengan karakteristik yang unik yaitu nilai yang terlalu rendah atau
tinggi dari suatu variabel atau sekumpulan variabel yang membuat observasi
berbeda dari yang lainnya. Untuk menaksir akibat dari adanya data outlier maka
harus mempertimbangkan beberapa pertimbangan yang praktis dan substansif.
2.1 Pengaruh adanya data outlierData outlier memiliki beberapa dampak sebagai berikut :
Dari sudut pandang peneliti, data outlier memiliki efek tetap tertentuuntuk segala analisis empiris. Sebagai contoh, yaitu misalkan kita
mengambil sampel sebanyak 20 individu untuk menentukan
pendapatan rata-rata rumah tangga. Pada sampel yang dimiliki, kita
memperoleh respon dengan kisaran pendapatan antara $20.000 dan
$100.000, sehingga rata-rata pendapatan menjadi $45.000. Tetapi
bayangkan bila orang ke-21 memiliki pendapatan $1 juta. Jika kita
memasukkan nilai ini ke dalam analisis, rata-rata pendapatan
meningkat menjadi lebih dari $90.000. Pada permasalahan ini terdapat
data outlier, tetapi mana yang lebih baik untuk mengestimasi rata-rata
pendapatan rumah tangga: $45.000 atau $90.000 ? Peneliti harus
mengerti apakah nilai outlier harus dipertahankan atau harus
dihilangkan berdasarkan hasilnya.
Secara substantif, data outlier harus dilihat seberapa representatif datatersebut terhadap populasi. Dengan menggunakan contoh pengeluaran
rumah tangga sebelumnya, seberapa representatif segmen untukorang-orang kaya adalah milyuner. Jika peneliti merasa bahwa nilai
representatif masih terlalu kecil, tetapi segmen di dalam populasi
tersebut masih dapat diseimbangkan maka nilai ini patut untuk
dipertahankan. Tetapi, jika milyuner ini hanya sebanyak satu orang di
keseluruhan populasi dan nilainya merupakan nilai yang terlalu
ekstrim maka boleh untuk dibuang.
7/22/2019 Multivariat data outlier
2/9
7/22/2019 Multivariat data outlier
3/9
tidak teridentifikasi. Di sini, peneliti harus menentukan untuk
mempertahankan atau menghapus data.
2.2 Langkah-langkah mendeteksi data outlierUntuk mendeteksi adanya data outlier atau tidak dapat diidentifikasi dari
perspektif univariat, bivariat atau multivariate berdasarkan pertimbangan banyak
variable atau karakteristik. Peneliti sebaiknya menggunakan perspektif tersebut
untuk mencari pola yang konsisten untuk mengidentifikasi data outlier.
Univariate DetectionIdentifikasi univariat untuk mengidentifikasi distribusi dari masing-
masing variable pada analisis dan memilih data outlier yang memiliki
range tinggi atau rendah dari distribusi tersebut. Masalah utama yaitu
membuat ambang batas untuk data outlier tersebut. Pendekatan
pertama mengkonversikan data ke nilai yang standar, dengan nilai
rata-rata 0 dan deviasi standar 1. Karena nilai ini dibuat dalam format
standar, perbandingan dari variable dapat dibuat dengan mudah. Pada
beberapa kasus, peneliti harus mengenali banyak observasi secara
pasti yang dapat terjadi secara normal di luar nilai ambang batas
tersebut.
Bivariate DetectionPada bivariate detection, pasangan dari variable dapat dijadikan satu
pada diagram pencar. Kasus yang terjadi di luar range dari observasi
akan diletakkan pada poin yang terisolasi dari diagram pencar. Untuk
menentukan range yang diharapkan dari penelitian ini adalah
gambaran dua dimensi, sebuah elips yang mempresentasikan tingkat
kepercayaan distribusi bivariat normal (biasanya level 90% atau 95%)terdapat di atas pada diagram pencar. Elips menyediakan gambaran
yang grafikal pada batas kepercayaan dan memfasilitasi identifikasi
data outlier. Varian dari diagram pencar menunjukkan pengaruh dari
plot, dengan masing-masing poin bervariasi pada ukuran.
Masing-masing metode menyediakan keunikan tersendiri untuk
masing-masing observasi dalam hubungan dengan observasi lainnya
berdasarkan spesifikasi dari pasangan variabel. Kekurangan pada
7/22/2019 Multivariat data outlier
4/9
metode bivariat yaitu banyak diagram pencar disebabkan oleh banyak
variabel yang meningkat. Untuk tiga variabel, hanya tiga grafik untuk
seluruh perbandingan pasangan. Tetapi untuk lima variabel,
membutuhkan 10 grafik, dan untuk 10 variabel membutuhkan 45
diagram pencar. Akibatnya, peneliti harus membatasi penggunaan
metode bivariat untuk menspesifikasikan hubungan antara variabel,
seperti hubungan antara variabel dependen dan independen pada
analisis regresi. Peneliti kemudian meneliti diagram pencar tersebut
untuk mengidentifikasi pola untuk satu atau lebih observasi yang akan
menghasilkan desain data yang outlier.
Multivariate DetectionKarena analisis multivariate melibatkan lebih dari dua variabel,
metode bivariat menjadi tidak cocok karena beberapa alas an.
Pertama, mereka membutuhkan banyak grafik, seperti yang telah
dijelaskan sebelumnya, ketika banyak variabel mencapai ukuran yang
cukup. Kedua, mereka dibatasi pada dua dimensi (variabel).
Walaupun demikian, ketika lebih dari dua variabel dipertimbangkan,
peneliti membutuhkan rata-rata untuk mengukur posisimultidimensional untuk masing-masing observasi yang relative
terhadap beberapa poin. Kejadian ini disebut dengan ukuran D2
Mahalanobis, taksiran multivariate untuk masing-masing observasi
pada setiap data set variabel. Metode ini untuk mengukur jarak dari
masing-masing observasi pada ruang multidimensional dari tengah
rata-rata untuk semua observasi, menyediakan nilai sendiri untuk
masing-masing observasi tidak peduli berapa banyak variabel yangdipertimbangkan. Semakin tinggi nilai D2 mempresentasikan
observasi yang semakin jauh dibuang dari distribusi general dari
observasi pada ruang multidimensional. Metode ini juga memiliki
kekurangan yaitu hanya menyediakan taksiran secara keseluruhan.
Outlier DesignationDengan menggunakan metode univariat, bilvariat, multivariate,
peneliti memiliki perspektif yang komplit untuk meneliti status
7/22/2019 Multivariat data outlier
5/9
observasi apakah outlier atau bukan. Masing-masing dari metode
dapat menyediakan perspektif yang unik pada observasi dan
digunakan untuk mengidentifikasi outlier.
Ketika observasi dapat diidentifikasi dengan metode univariat,
bivariat, dan multivariate sebagai data outlier yang mungkin, peneliti
harus memilih observasi yang mendemonstrasikan keunikan yang
nyata pada perbandingan dengan menyisakan populasi berlawanan
dengan perspektif. Peneliti harus mengulang dari mendesain terlalu
banyak observasi sebagai outlierdan tidak bias untuk mengeliminasi
kasus tersebut karena mereka berbeda.
Outlier description and profilingKetika data outlier yang potensial teridentifikasi, peneliti sebaiknya
membangkitkan profil dari masing masing observasi yang outlier dan
mengidentifikasi tanggung jawab variabel mengapa menjadi outlier.
Peneliti harus menggunakan tekhnik multivariate seperti analisis
diskriminan atau regresi berganda untuk mengidentifikasikan
perbedaan antara data outlier dan observasi lainnya. Jika
memungkinkan peneliti sebaiknya menyertakan data outlier pada satukelas hingga empat kelas yang tekah dijelaskan sebelumnya untuk
membantu pada keputusan penyimpanan atau pembuangan data yang
akan diambil. Peneliti sebaiknya melanjutkan analisis hingga
terbentuk aspek yang membedakan outlier dari beberapa observasi.
Retention or deletion of the outlierSetelah data outlier diidentifikasi, dikarakteristikkan, dan
dikategorikan, peneliti harus menentukan apakah data tetapdipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti
menyediakan petunjun untuk memperlakukan data outlier. Data ini
harus dipertahankan ada bukti yang menyatakan data tersebut benar-
benar tidak representatif terhadap populasi. Ketika data outlier
dibuang, peneliti harus memperhitungkan resiko dengan analisis
multivariate tetapi membatasi secara umum.
2.3 Cara mengatasi data outlier
7/22/2019 Multivariat data outlier
6/9
Setelah data outlier diidentifikasi, dikarakteristikkan, dan dikategorikan,
peneliti harus menentukan apakah data tetap dipertahankan ataukan dibuang.
Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan
data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data
tersebut benar-benar tidak representatif terhadap populasi. Ketika data outlier
dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate
tetapi membatasi secara umum.
2.4 Contoh soalSebagai contoh pengamatan dari basis data HBAT akan diperiksa adanya
kasus outlier atau tidak. Variabel yang dipertimbangkan dalam analisis adalah
matriks X6 melalui X19 dengan konteks pemeriksaan ini, menggunakan analisis
regresi di mana XI9 adalah variabel dependen dan X6melalui XI8adalah variabel
independen. Analisis outlier termasuk analisis univariat, bivariat, dan diagnosa
multivariat. Ketika data yang menunjukan outlier ditemukan, maka data tersebut
diperiksa, dan keputusan tentang penyimpanan atau penghapusan dibuat.
Outlier DetectionLangkah pertama adalah pemeriksaan semua variabel dari perspektif
univariat. Metode bivariat kemudian akan digunakan untuk mengujihubungan antara variabel dependen (XI9) dan masing-masing variabel
independen. Dari masing-masing diagram pencar, pengamatan di luar
distribusi dapat diidentifikasi dan dampaknya terhadap hubungan itu
dipastikan sebagai data outlier. Akhirnya, penilaian multivariat akan
dilakukan pada semua variabel independen secara kolektif. Perbandingan
dari pengamatan di tiga metode diharapkan akan memberikan dasar bagi
keputusan penghapusan / penyimpanan. Univariate Detection
Langkah pertama adalah memeriksa pengamatan pada masing-masing
variabel individual. Tabel 10 berisi pengamatan dengan nilai-nilai variabel
standar melebihi 2,5 pada masing-masing variabel (X6 ke XI9). Dari
perspektif univariat ini, hanya pengamatan 7, 22, dan 90 melebihi ambang
batas pada lebih dari satu variabel. Selain itu, tak satu pun dari pengamatan
ini memiliki nilai sangat ekstrim untuk mempengaruhi tindakan
7/22/2019 Multivariat data outlier
7/9
keseluruhan variabel, seperti penyimpangan. Harus dicatat bahwa variabel
dependen memiliki satu pengamatan terpencil (22), yang dapat
mempengaruhi diagram pencar bivariat karena variabel dependen muncul
di setiap sebaran. Tiga pengamatan akan dicatat untuk melihat apakah
mereka muncul dalam berikutnya bivariat dan penilaian multivariat.
Tabel 2.1 Hasil Deteksi Outliers
Bivariat Detection.Untuk perspektif bivariat, 13 diagram pencar dibentuk untuk masing-
masing variabel independen ( X6 melalui X18 ) dengan variabel dependen
( X19 ). Elips merepresentasikan tingkat kepercayaan 95 % dari distribusi
normal bivariat kemudian ditampilkan pada diagram pencar. Gambar 2.1
berisi contoh-contoh dari dua diagram pencar tersebut yang melibatkan X6
dan X7. Seperti yang bisa dilihat pada sebaran untuk X6 dengan X19 , dua
data outlier jatuh di luar elips dan tidak memiliki nilai-nilai ekstrim di
kedua variabel . Hasil ini berbeda dengan sebaran dari X7 dengan X19 , di
mana pengamatan 22 berbeda dari pengamatan lain dan menunjukkan
nilai-nilai tertinggi baik di X7 dan X19. Yang kedua dari Tabel 2.1 yang
berisi kompilasi data yang masih jatuh diluar elips ini untuk setiap
variabel. Karena menggunakan tingkat kepercayaan 95 %, yang
diharapkan beberapa pengamatan biasanya jatuh di luar elips. Hanya
7/22/2019 Multivariat data outlier
8/9
empat pengamatan ( 2 , 22 , 24 , dan 90 ) berada di luar elips lebih dari dua
kali. Pengamatan 22 berada di luar 12 dari 13 diagram pencar, karena data
ini adalah data outlier pada variabel dependen. Hanya pengamatan 90 yang
tercatat dalam deteksi univariat.
Multivariate Detection.Metode diagnostik terakhir adalah untuk menilai data outlier dari metode
multivariat dengan menggunakan pengukuran D2Mahalanobis (lihat Tabel
10). Analisis ini mengevaluasi posisi dari masing-masing observasi
dibandingkan dengan pusat dari setiap pengamatan pada satu set variabel
yang ada. Dalam hal ini, semua varibel independen digunakan.
Perhitungan dari D2/df nilai (df = 13) memungkinkan identifikasi dari
outlier melalui pendekatan uji statistik. Karena sampelnya hanya terdiri
100 pengamatan, nilai ambang 2,5 akan lebih baik digunakan daripada
nilai 3,5 atau 4,0. dengan ini nilai ambang sebesar 2,5 maka dua
pengamatan (98 dan 36) diidentifikasi sebagai pengamatan yang berbeda
secara signifikan. Hasil ini menunjukkan bahwa dua pengamatan tersebut
tidak unik pada setiap variabel tunggal tetapi unik secara kombinasi.
Gambar 2.1 Diagram Pencar Detection Outliers
Retention or Deletion of The OutliersSebagai hasil dari pengujian diagnostik, tidak ada pengamatan yang
meunjukkan bahwa karateristik dari data outliers harus dihapuskan.
Setiap variabel memiliki beberapa pengamatan yang bernilai ekstrim,
dan dari pengamatan tersebut data outliers harus dipertimbangkan
untuk tetap digunakan dalam sebuah analisis. Tidak ada pengamatan
7/22/2019 Multivariat data outlier
9/9
yang bernilai ekstrim bila jumlah variabel yang dipertimbangkan
cukup memadai dan dapat mewakili populasinya. Peneliti harus selalu
memeriksa hasil dari setiap pengujian multivariat untuk
mengidentifikasi observasi yang mungkin bisa menjadi data outlier
dalam aplikasi tertentu.