Multivariat data outlier

Embed Size (px)

Citation preview

  • 7/22/2019 Multivariat data outlier

    1/9

    2. Pengertian data outlierData outlier yaitu data dengan kombinasi unik dari karakteristik yang dapat

    diidentifikasi sebagai sesuatu yang berbeda dari observasi yang lainnya. Yang

    dimaksud dengan karakteristik yang unik yaitu nilai yang terlalu rendah atau

    tinggi dari suatu variabel atau sekumpulan variabel yang membuat observasi

    berbeda dari yang lainnya. Untuk menaksir akibat dari adanya data outlier maka

    harus mempertimbangkan beberapa pertimbangan yang praktis dan substansif.

    2.1 Pengaruh adanya data outlierData outlier memiliki beberapa dampak sebagai berikut :

    Dari sudut pandang peneliti, data outlier memiliki efek tetap tertentuuntuk segala analisis empiris. Sebagai contoh, yaitu misalkan kita

    mengambil sampel sebanyak 20 individu untuk menentukan

    pendapatan rata-rata rumah tangga. Pada sampel yang dimiliki, kita

    memperoleh respon dengan kisaran pendapatan antara $20.000 dan

    $100.000, sehingga rata-rata pendapatan menjadi $45.000. Tetapi

    bayangkan bila orang ke-21 memiliki pendapatan $1 juta. Jika kita

    memasukkan nilai ini ke dalam analisis, rata-rata pendapatan

    meningkat menjadi lebih dari $90.000. Pada permasalahan ini terdapat

    data outlier, tetapi mana yang lebih baik untuk mengestimasi rata-rata

    pendapatan rumah tangga: $45.000 atau $90.000 ? Peneliti harus

    mengerti apakah nilai outlier harus dipertahankan atau harus

    dihilangkan berdasarkan hasilnya.

    Secara substantif, data outlier harus dilihat seberapa representatif datatersebut terhadap populasi. Dengan menggunakan contoh pengeluaran

    rumah tangga sebelumnya, seberapa representatif segmen untukorang-orang kaya adalah milyuner. Jika peneliti merasa bahwa nilai

    representatif masih terlalu kecil, tetapi segmen di dalam populasi

    tersebut masih dapat diseimbangkan maka nilai ini patut untuk

    dipertahankan. Tetapi, jika milyuner ini hanya sebanyak satu orang di

    keseluruhan populasi dan nilainya merupakan nilai yang terlalu

    ekstrim maka boleh untuk dibuang.

  • 7/22/2019 Multivariat data outlier

    2/9

  • 7/22/2019 Multivariat data outlier

    3/9

    tidak teridentifikasi. Di sini, peneliti harus menentukan untuk

    mempertahankan atau menghapus data.

    2.2 Langkah-langkah mendeteksi data outlierUntuk mendeteksi adanya data outlier atau tidak dapat diidentifikasi dari

    perspektif univariat, bivariat atau multivariate berdasarkan pertimbangan banyak

    variable atau karakteristik. Peneliti sebaiknya menggunakan perspektif tersebut

    untuk mencari pola yang konsisten untuk mengidentifikasi data outlier.

    Univariate DetectionIdentifikasi univariat untuk mengidentifikasi distribusi dari masing-

    masing variable pada analisis dan memilih data outlier yang memiliki

    range tinggi atau rendah dari distribusi tersebut. Masalah utama yaitu

    membuat ambang batas untuk data outlier tersebut. Pendekatan

    pertama mengkonversikan data ke nilai yang standar, dengan nilai

    rata-rata 0 dan deviasi standar 1. Karena nilai ini dibuat dalam format

    standar, perbandingan dari variable dapat dibuat dengan mudah. Pada

    beberapa kasus, peneliti harus mengenali banyak observasi secara

    pasti yang dapat terjadi secara normal di luar nilai ambang batas

    tersebut.

    Bivariate DetectionPada bivariate detection, pasangan dari variable dapat dijadikan satu

    pada diagram pencar. Kasus yang terjadi di luar range dari observasi

    akan diletakkan pada poin yang terisolasi dari diagram pencar. Untuk

    menentukan range yang diharapkan dari penelitian ini adalah

    gambaran dua dimensi, sebuah elips yang mempresentasikan tingkat

    kepercayaan distribusi bivariat normal (biasanya level 90% atau 95%)terdapat di atas pada diagram pencar. Elips menyediakan gambaran

    yang grafikal pada batas kepercayaan dan memfasilitasi identifikasi

    data outlier. Varian dari diagram pencar menunjukkan pengaruh dari

    plot, dengan masing-masing poin bervariasi pada ukuran.

    Masing-masing metode menyediakan keunikan tersendiri untuk

    masing-masing observasi dalam hubungan dengan observasi lainnya

    berdasarkan spesifikasi dari pasangan variabel. Kekurangan pada

  • 7/22/2019 Multivariat data outlier

    4/9

    metode bivariat yaitu banyak diagram pencar disebabkan oleh banyak

    variabel yang meningkat. Untuk tiga variabel, hanya tiga grafik untuk

    seluruh perbandingan pasangan. Tetapi untuk lima variabel,

    membutuhkan 10 grafik, dan untuk 10 variabel membutuhkan 45

    diagram pencar. Akibatnya, peneliti harus membatasi penggunaan

    metode bivariat untuk menspesifikasikan hubungan antara variabel,

    seperti hubungan antara variabel dependen dan independen pada

    analisis regresi. Peneliti kemudian meneliti diagram pencar tersebut

    untuk mengidentifikasi pola untuk satu atau lebih observasi yang akan

    menghasilkan desain data yang outlier.

    Multivariate DetectionKarena analisis multivariate melibatkan lebih dari dua variabel,

    metode bivariat menjadi tidak cocok karena beberapa alas an.

    Pertama, mereka membutuhkan banyak grafik, seperti yang telah

    dijelaskan sebelumnya, ketika banyak variabel mencapai ukuran yang

    cukup. Kedua, mereka dibatasi pada dua dimensi (variabel).

    Walaupun demikian, ketika lebih dari dua variabel dipertimbangkan,

    peneliti membutuhkan rata-rata untuk mengukur posisimultidimensional untuk masing-masing observasi yang relative

    terhadap beberapa poin. Kejadian ini disebut dengan ukuran D2

    Mahalanobis, taksiran multivariate untuk masing-masing observasi

    pada setiap data set variabel. Metode ini untuk mengukur jarak dari

    masing-masing observasi pada ruang multidimensional dari tengah

    rata-rata untuk semua observasi, menyediakan nilai sendiri untuk

    masing-masing observasi tidak peduli berapa banyak variabel yangdipertimbangkan. Semakin tinggi nilai D2 mempresentasikan

    observasi yang semakin jauh dibuang dari distribusi general dari

    observasi pada ruang multidimensional. Metode ini juga memiliki

    kekurangan yaitu hanya menyediakan taksiran secara keseluruhan.

    Outlier DesignationDengan menggunakan metode univariat, bilvariat, multivariate,

    peneliti memiliki perspektif yang komplit untuk meneliti status

  • 7/22/2019 Multivariat data outlier

    5/9

    observasi apakah outlier atau bukan. Masing-masing dari metode

    dapat menyediakan perspektif yang unik pada observasi dan

    digunakan untuk mengidentifikasi outlier.

    Ketika observasi dapat diidentifikasi dengan metode univariat,

    bivariat, dan multivariate sebagai data outlier yang mungkin, peneliti

    harus memilih observasi yang mendemonstrasikan keunikan yang

    nyata pada perbandingan dengan menyisakan populasi berlawanan

    dengan perspektif. Peneliti harus mengulang dari mendesain terlalu

    banyak observasi sebagai outlierdan tidak bias untuk mengeliminasi

    kasus tersebut karena mereka berbeda.

    Outlier description and profilingKetika data outlier yang potensial teridentifikasi, peneliti sebaiknya

    membangkitkan profil dari masing masing observasi yang outlier dan

    mengidentifikasi tanggung jawab variabel mengapa menjadi outlier.

    Peneliti harus menggunakan tekhnik multivariate seperti analisis

    diskriminan atau regresi berganda untuk mengidentifikasikan

    perbedaan antara data outlier dan observasi lainnya. Jika

    memungkinkan peneliti sebaiknya menyertakan data outlier pada satukelas hingga empat kelas yang tekah dijelaskan sebelumnya untuk

    membantu pada keputusan penyimpanan atau pembuangan data yang

    akan diambil. Peneliti sebaiknya melanjutkan analisis hingga

    terbentuk aspek yang membedakan outlier dari beberapa observasi.

    Retention or deletion of the outlierSetelah data outlier diidentifikasi, dikarakteristikkan, dan

    dikategorikan, peneliti harus menentukan apakah data tetapdipertahankan ataukan dibuang. Beberapa filosofer diantara peneliti

    menyediakan petunjun untuk memperlakukan data outlier. Data ini

    harus dipertahankan ada bukti yang menyatakan data tersebut benar-

    benar tidak representatif terhadap populasi. Ketika data outlier

    dibuang, peneliti harus memperhitungkan resiko dengan analisis

    multivariate tetapi membatasi secara umum.

    2.3 Cara mengatasi data outlier

  • 7/22/2019 Multivariat data outlier

    6/9

    Setelah data outlier diidentifikasi, dikarakteristikkan, dan dikategorikan,

    peneliti harus menentukan apakah data tetap dipertahankan ataukan dibuang.

    Beberapa filosofer diantara peneliti menyediakan petunjun untuk memperlakukan

    data outlier. Data ini harus dipertahankan ada bukti yang menyatakan data

    tersebut benar-benar tidak representatif terhadap populasi. Ketika data outlier

    dibuang, peneliti harus memperhitungkan resiko dengan analisis multivariate

    tetapi membatasi secara umum.

    2.4 Contoh soalSebagai contoh pengamatan dari basis data HBAT akan diperiksa adanya

    kasus outlier atau tidak. Variabel yang dipertimbangkan dalam analisis adalah

    matriks X6 melalui X19 dengan konteks pemeriksaan ini, menggunakan analisis

    regresi di mana XI9 adalah variabel dependen dan X6melalui XI8adalah variabel

    independen. Analisis outlier termasuk analisis univariat, bivariat, dan diagnosa

    multivariat. Ketika data yang menunjukan outlier ditemukan, maka data tersebut

    diperiksa, dan keputusan tentang penyimpanan atau penghapusan dibuat.

    Outlier DetectionLangkah pertama adalah pemeriksaan semua variabel dari perspektif

    univariat. Metode bivariat kemudian akan digunakan untuk mengujihubungan antara variabel dependen (XI9) dan masing-masing variabel

    independen. Dari masing-masing diagram pencar, pengamatan di luar

    distribusi dapat diidentifikasi dan dampaknya terhadap hubungan itu

    dipastikan sebagai data outlier. Akhirnya, penilaian multivariat akan

    dilakukan pada semua variabel independen secara kolektif. Perbandingan

    dari pengamatan di tiga metode diharapkan akan memberikan dasar bagi

    keputusan penghapusan / penyimpanan. Univariate Detection

    Langkah pertama adalah memeriksa pengamatan pada masing-masing

    variabel individual. Tabel 10 berisi pengamatan dengan nilai-nilai variabel

    standar melebihi 2,5 pada masing-masing variabel (X6 ke XI9). Dari

    perspektif univariat ini, hanya pengamatan 7, 22, dan 90 melebihi ambang

    batas pada lebih dari satu variabel. Selain itu, tak satu pun dari pengamatan

    ini memiliki nilai sangat ekstrim untuk mempengaruhi tindakan

  • 7/22/2019 Multivariat data outlier

    7/9

    keseluruhan variabel, seperti penyimpangan. Harus dicatat bahwa variabel

    dependen memiliki satu pengamatan terpencil (22), yang dapat

    mempengaruhi diagram pencar bivariat karena variabel dependen muncul

    di setiap sebaran. Tiga pengamatan akan dicatat untuk melihat apakah

    mereka muncul dalam berikutnya bivariat dan penilaian multivariat.

    Tabel 2.1 Hasil Deteksi Outliers

    Bivariat Detection.Untuk perspektif bivariat, 13 diagram pencar dibentuk untuk masing-

    masing variabel independen ( X6 melalui X18 ) dengan variabel dependen

    ( X19 ). Elips merepresentasikan tingkat kepercayaan 95 % dari distribusi

    normal bivariat kemudian ditampilkan pada diagram pencar. Gambar 2.1

    berisi contoh-contoh dari dua diagram pencar tersebut yang melibatkan X6

    dan X7. Seperti yang bisa dilihat pada sebaran untuk X6 dengan X19 , dua

    data outlier jatuh di luar elips dan tidak memiliki nilai-nilai ekstrim di

    kedua variabel . Hasil ini berbeda dengan sebaran dari X7 dengan X19 , di

    mana pengamatan 22 berbeda dari pengamatan lain dan menunjukkan

    nilai-nilai tertinggi baik di X7 dan X19. Yang kedua dari Tabel 2.1 yang

    berisi kompilasi data yang masih jatuh diluar elips ini untuk setiap

    variabel. Karena menggunakan tingkat kepercayaan 95 %, yang

    diharapkan beberapa pengamatan biasanya jatuh di luar elips. Hanya

  • 7/22/2019 Multivariat data outlier

    8/9

    empat pengamatan ( 2 , 22 , 24 , dan 90 ) berada di luar elips lebih dari dua

    kali. Pengamatan 22 berada di luar 12 dari 13 diagram pencar, karena data

    ini adalah data outlier pada variabel dependen. Hanya pengamatan 90 yang

    tercatat dalam deteksi univariat.

    Multivariate Detection.Metode diagnostik terakhir adalah untuk menilai data outlier dari metode

    multivariat dengan menggunakan pengukuran D2Mahalanobis (lihat Tabel

    10). Analisis ini mengevaluasi posisi dari masing-masing observasi

    dibandingkan dengan pusat dari setiap pengamatan pada satu set variabel

    yang ada. Dalam hal ini, semua varibel independen digunakan.

    Perhitungan dari D2/df nilai (df = 13) memungkinkan identifikasi dari

    outlier melalui pendekatan uji statistik. Karena sampelnya hanya terdiri

    100 pengamatan, nilai ambang 2,5 akan lebih baik digunakan daripada

    nilai 3,5 atau 4,0. dengan ini nilai ambang sebesar 2,5 maka dua

    pengamatan (98 dan 36) diidentifikasi sebagai pengamatan yang berbeda

    secara signifikan. Hasil ini menunjukkan bahwa dua pengamatan tersebut

    tidak unik pada setiap variabel tunggal tetapi unik secara kombinasi.

    Gambar 2.1 Diagram Pencar Detection Outliers

    Retention or Deletion of The OutliersSebagai hasil dari pengujian diagnostik, tidak ada pengamatan yang

    meunjukkan bahwa karateristik dari data outliers harus dihapuskan.

    Setiap variabel memiliki beberapa pengamatan yang bernilai ekstrim,

    dan dari pengamatan tersebut data outliers harus dipertimbangkan

    untuk tetap digunakan dalam sebuah analisis. Tidak ada pengamatan

  • 7/22/2019 Multivariat data outlier

    9/9

    yang bernilai ekstrim bila jumlah variabel yang dipertimbangkan

    cukup memadai dan dapat mewakili populasinya. Peneliti harus selalu

    memeriksa hasil dari setiap pengujian multivariat untuk

    mengidentifikasi observasi yang mungkin bisa menjadi data outlier

    dalam aplikasi tertentu.