7
Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB PENGGUNAAN ANALISIS KOMPONEN UTAMA KEKAR DAN REGRESI KEKAR DALAM PENDUGAAN CURAH HUJAN LOKAL DI INDRAMAYU Oleh: Rahma Anisa G14061334 Pembimbing: Dr. Ir. Aji Hamim Wigena, M.Sc. Dr. Ir. I Made Sumertajaya, M.Si. Ringkasan Prediksi iklim akan memberikan kontribusi positif terhadap berbagai bidang. Salah satu cara untuk melakukan prediksi iklim adalah melakukan Empirical Statistical Downscaling (ESD) terhadap data luaran Global Circulation Model (GCM). Namun data luaran GCM memiliki dimensi tinggi, terdapat multikolinieritas antar grid, dan kemungkinan terdapat pencilan. Metode Analisis Komponen Utama (AKU) klasik yang selama ini digunakan untuk mereduksi dimensi data tersebut tidak bersifat kekar terhadap pencilan. Untuk mengatasi permasalah tersebut maka akan diterapkan metode Analisis Komponen Utama Kekar (AKU-K) atau Robust Principal Component Analysis (ROBPCA) dengan penduga Minimum Covariance Determinant (MCD). Di sisi lain, terdapat pula kemungkinan adanya pencilan pada data stasiun lokal, maka penduga Huber M dan penimbang ganda Tukey akan digunakan untuk menyusun model regresi yang bersifat kekar terhadap pencilan. Penelitian ini bertujuan untuk menduga curah hujan lokal di wilayah Indramayu serta membandingkan performa kedua fungsi penimbang, yaitu penduga Huber M dan penimbang ganda Tukey dalam memodelkan data luaran GCM. Kata kunci: Global Circulation Model (GCM), Empirical Statistical Downscaling (ESD), Minimum Covariance Determinant (MCD), ROBPCA, Huber M, Penimbang Ganda Tukey. PENDAHULUAN Latar Belakang Iklim memiliki peranan yang cukup penting dalam berbagai bidang, termasuk di bidang ekonomi. Oleh karena itu prediksi mengenai kondisi iklim akan memberikan kontribusi positif terhadap bidang-bidang tersebut. Salah satu cara untuk melakukan prediksi iklim di suatu wilayah adalah dengan memanfaatkan model iklim global atau disebut juga sebagai Global Circulation Model (GCM). GCM adalah suatu model berbasis komputer yang terdiri atas berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena 2006). Dengan menggunakan metode Empirical Statistical Downscaling (ESD), data luaran GCM tersebut kemudian diolah sedekimian rupa sehingga mampu menghasilkan prediksi iklim pada wilayah tertentu 1

Draft Kolokium

Embed Size (px)

Citation preview

Page 1: Draft Kolokium

Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB

PENGGUNAAN ANALISIS KOMPONEN UTAMA KEKAR DAN REGRESI KEKAR DALAM PENDUGAAN CURAH HUJAN LOKAL DI INDRAMAYU

Oleh:Rahma Anisa

G14061334

Pembimbing:Dr. Ir. Aji Hamim Wigena, M.Sc.Dr. Ir. I Made Sumertajaya, M.Si.

RingkasanPrediksi iklim akan memberikan kontribusi positif terhadap berbagai bidang. Salah satu cara

untuk melakukan prediksi iklim adalah melakukan Empirical Statistical Downscaling (ESD) terhadap data luaran Global Circulation Model (GCM). Namun data luaran GCM memiliki dimensi tinggi, terdapat multikolinieritas antar grid, dan kemungkinan terdapat pencilan. Metode Analisis Komponen Utama (AKU) klasik yang selama ini digunakan untuk mereduksi dimensi data tersebut tidak bersifat kekar terhadap pencilan. Untuk mengatasi permasalah tersebut maka akan diterapkan metode Analisis Komponen Utama Kekar (AKU-K) atau Robust Principal Component Analysis (ROBPCA) dengan penduga Minimum Covariance Determinant (MCD). Di sisi lain, terdapat pula kemungkinan adanya pencilan pada data stasiun lokal, maka penduga Huber M dan penimbang ganda Tukey akan digunakan untuk menyusun model regresi yang bersifat kekar terhadap pencilan. Penelitian ini bertujuan untuk menduga curah hujan lokal di wilayah Indramayu serta membandingkan performa kedua fungsi penimbang, yaitu penduga Huber M dan penimbang ganda Tukey dalam memodelkan data luaran GCM.

Kata kunci: Global Circulation Model (GCM), Empirical Statistical Downscaling (ESD), Minimum Covariance Determinant (MCD), ROBPCA, Huber M, Penimbang Ganda Tukey.

PENDAHULUAN

Latar Belakang

Iklim memiliki peranan yang cukup penting dalam berbagai bidang, termasuk di bidang ekonomi. Oleh karena itu prediksi mengenai kondisi iklim akan memberikan kontribusi positif terhadap bidang-bidang tersebut. Salah satu cara untuk melakukan prediksi iklim di suatu wilayah adalah dengan memanfaatkan model iklim global atau disebut juga sebagai Global Circulation Model (GCM).

GCM adalah suatu model berbasis komputer yang terdiri atas berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena 2006). Dengan menggunakan metode Empirical Statistical Downscaling (ESD), data luaran GCM tersebut kemudian diolah sedekimian rupa sehingga mampu menghasilkan prediksi iklim pada wilayah tertentu yang bersifat lokal. Namun, terdapat beberapa kendala pada data

luaran GCM, yaitu data memiliki ruang dimensi yang tinggi, terdapat multikolinearitas antar grid yang saling berdekatan, dan kemungkinan terdapat pencilan. Untuk itu perlu dilakukan reduksi dimensi data yang bersifat kekar terhadap pencilan.

Selama ini analisis komponen utama (AKU) klasik kerap kali digunakan, namun metode tersebut tidak kekar terhadap keberadaan data pencilan. Untuk mengatasi hal tersebut maka akan diterapkan metode analisis komponen utama kekar (AKU-K) dengan penduga Minimum Covariance Determinant (MCD) yang dikembangkan dengan algoritma ROBPCA. Selain itu, untuk mengatasi kemungkinan adanya pencilan pada data yang diperoleh dari statiun klimatologi lokal, maka model regresi kekar akan disusun dengan menggunakan penduga Huber M dan penimbang ganda Tukey.

TujuanPenelitian ini memiliki dua tujuan utama,

yaitu:1. melakukan pendugaan curah hujan lokal di

wilayah Indramayu menggunakan prosedur analsis komponen utama kekar (ROBPCA) dengan penduga Minimum Covariance

1

Page 2: Draft Kolokium

Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB

Determinant (MCD) dan penerapannya pada pemodelan regresi kekar dengan penduga Huber M dan penimbang ganda Tukey,

2. membandingkan performa penduga Huber M dan penimbang ganda Tukey dalam pemodelan regresi kekar untuk data luaran GCM.

TINJAUAN PUSTAKA

Empirical Statistical Downscaling(ESD)

Benestad et al. (2008) mendefinisikan statistical downscaling sebagai suatu proses yang menghubungkan antara kumpulan beberapa variabel yang mewakili sebuah ruang berdimensi tinggi (skala besar) dengan beberapa variabel yang mewakili ruang dengan dimensi yang jauh lebih rendah (skala kecil). Inti dari downscaling dijelaskan sebagai pemanfaatan hubungan antara skala yang berbeda untuk menjelaskan tentang suatu kondisi pada skala yang jauh lebih kecil dari informasi yang diperoleh pada variabel dengan skala besar.

Model iklim global cenderung memiliki resolusi spasial yang kasar, dan tidak mampu mewakili aspek spasial dengan skala lebih yang kecil dari ukuran kotak grid. Model-model iklim global juga tidak mampu menjelaskan variasi substansial dalam statistik iklim di suatu wilayah kecil. Oleh karena itu perlu dilakukan downscaling yang konsepnya adalah melihat hubungan secara statistik antara data luaran GCM yang berskala besar dengan data lokal yang berskala kecil, dengan memanfaatkan data historis yang kemudian dapat digunakan untuk memprediksi kondisi iklim lokal di masa depan.

Analisis Regresi BergandaPersamaan regresi berguna untuk

menganalisis hubungan antara peubah respon dan peubah penjelas yang saling bebas. Dalam regresi linier berganda, parameter yang diduga bersifat linier serta jumlah peubah bebas dan atau tak bebas yang terlibat di dalamnya berjumlah lebih dari satu. Secara umum, regresi linier berganda dapat dinyatakan dengan model berikut:

Y=Xβ+εdimana Y, X, β, dan ε berturut-turut adalah peubah respon, peubah penjelas, parameter regresi, dan sisaan.

MultikolinieritasMyers (1989) menjelaskan secara harfiah

bahwa multikolinieritas berasal dari kata multi yang berarti banyak dan collinear yang berarti keterpautan linier, dan multikolinieritas didefinisikan sebagai suatu fenomena yang menggambarkan adanya hubungan korelasi antar peubah penjelas sehingga mengindikasikan adanya informasi yang berlebihan. Fenomena ini perlu diatasi untuk memenuhi salah satu asumsi dalam menyusun model regresi berganda karena dapat menimbulkan bias dalam pendugaan parameter-parameter di dalamnya.

PencilanAunuddin (1989) mendefinisikan pencilan

sebagai nilai ekstrim yang menyimpang agak jauh dari kumpulan pengamatan lainnya, yang secara kasar berada pada jarak sejauh tiga atau empat kali simpangan baku dari nilai tengahnya. Dengan cara yang sama, Draper dan Smith (1992) menjelaskan bahwa sisaan yang merupakan pencilan adalah yang nilai mutlaknya jauh lebih besar daripada sisaan-sisaan lainnya dan bisa jadi terletak tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Pencilan merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibandingkan data lainnya. Hubert dan Debruyne (2010) menjelaskan bahwadengan cara klasik, pencilan diidentifikasikan sebagai pengamatan dengan jarak mahalanobis atau Mahalanobis Distance (MD) jika:

MD ( x )=√ ( x−x )t S−1(x−x ) >

√ χ p , o .9752

Sementara perhitungan menggunakan jarak kekar atau Robust Distance (RD) mengidentifikasikan pencilan jika:

RD (x )=√(x− μ̂MCD)t ∑̂MCD

−1 (x− μ̂MCD)>√ χ p ,0.9752

dimana μ̂MCDdidefinisikan sebagai penduga

nilai tengah MCD, ∑̂MCDsebagai penduga

kovarians MCD, dan χ p , α2

merupakan quantil-α

pada sebaran χ p2 .

Analisis Komponen Utama Kekar (AKU-K)

Hubert et al. (2005) menerangkan bahwa metode Analisis Komponen Utama Kekar (AKU-K) atau Robust Principal Component Analysis (ROBPCA) merupakan kombinasi konsep Projection Pursuit (PP) dan penduga kovarians yang kekar. Konsep PP digunakan

2

Page 3: Draft Kolokium

Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB

dalam tahap inisiasi reduksi dimensi. Beberapa konsep penduga kovarians yang kekar menggunakan Minimum Covariance Determinant (MCD) kemudian diterapkan pada data dengan dimensi yang lebih rendah. Secara umum algoritma AKU-K terdiri dari tahap-tahap berikut:1. Mereduksi ruang data, terutama ketika

p≥n, dimana p merupakan jumlah peubah penjelas dan n adalah jumlah observasi. Langkah ini dilakukan dengan metode Singular Value Decomposition (SVD) terhadap mean-centered data matrix dengan rumus:

X n , p−1n μ̂0' =U n ,r 0 Dr 0 , r 0 V r 0 , p '

'

dimana μ̂0 merupakan vektor rataan klasik,

r0=rank(X n , p−1n μ̂0' ), D adalah matriks

diagonal berukuran r0 x r0, dan U’U=Iro=V’V, dimana Ir0 adalah matriks identitas berukuran r0 x r0.

2. Menemukan h keterpencilan terkecil (least outlyingness), tahap ini dilakukan dengan memilih ½<α<1 untuk mendapatkan nilai h=max{[αn],[(n+kmax+1)/2]}, dimana kmax

merupakan jumlah maksimum komponen yang akan dihitung. Selanjutnya keterpencilan dihitung dengan rumus Stahel-Donoho:

OutlO(xi) = maxvϵB

|x i' v− μ̂MCD( x j

' v)|∑̂MCD (x j

' v)dimana μ̂MCD dan ∑̂MCD merupakan

penduga nilai tengah dan simpangan baku MCD. h pengamatan dengan nilai keterpencilan terkecil dihitung vektor nilai tengah (μ̂1) dan matriks kovariansnya (S0). Kemudian Matriks kovarians didekomposisi sehingga diperoleh komponen utamanya. Sebanyak k komponen utama pertama dipilih dan semua data diproyeksikan pada subruang berdimensi-k yang direntang oleh k vektor ciri pertama sehingga diperoleh Xn,k.

3. Pada Xn,k dari langkah 2, dihitung kembali penduga nilai tengah ( μ̂2) dan matriks kovarians MCD (S1) menggunakan algoritma FAST-MCD yang diadaptasi. Komponen utama akhir adalah vektor ciri dari matriks kovarians tersebut (S1).

Minimum Covariance Determinant (MCD)

Hubert dan Debryune (2010) menyebutkan bahwa penduga Minimum Covariance

Determinant (MCD) merupakan penduga yang sangat kekar dalam lokasi dan tebaran multivariat. Karena sifatnya yang kekar tersebut, penduga MCD amat berguna dalam mendeteksi pencilan, serta mampu menghasilkan analisis yang lebih reliable. Perhitungan untuk memperoleh penduga MCD dilakukan dengan algoritma FAST-MCD yang dijelaskan oleh Rousseeuw dan Van Driessen (1999) dalam Ningsih (2009) sebagai berikut:1. Ditentukan h, dimana (n+p+1)/2≤h≤n atau

h=(n+p+1)/2 atau h=0.75n dimana n merupakan banyaknya pengamatan.

2. Diambil sejumlah himpunan bagian dari data secara acak. Himpunan bagian tersebut berukuran (p+1) dan diperbesar hingga mencapai h menggunakan C-Step.

3. Dalam setiap h bagian yang terambil dilakukan dua C-Step. C-Step melakukan perhitungan penduga nilai tengah μ̂0 dan

penduga matriks kovarians ∑̂0 dari h

pengamatan, kemudian menghitung jarak dari tiap titik sebagai berikut:

d ( μ̂0 , ∑̂0 ) ( x i)=√(x i− μ̂0)' ∑̂0

−1(x i− μ̂0)Himpunan h baru dibentuk dari h pengamatan dengan jarak pengamatan terkecil.

4. Untuk 10 himpunan bagian h dengan determinan matriks kovarian terkecil, dilakukan C-Step hingga konvergen dan himpunan bagian terakhir disimpan dalam H1.

5. Penduga nilai tengah μ̂MCD dan matriks

kovarians ∑̂MCD diperoleh dari H1 dengan

determinan matriks kovarian terkecil.6. Selanjutnya, dilakukan tahap pembobotan:

μ̂1=(∑

i=1

n

wi x i)(∑

i=1

n

wi)S1=

∑i=1

n

w i ( x i−T i ) ( x i−T i )'

∑i=1

n

w i−1

dimana T i=1h∑iϵ H i

xi , dan

w i={1; jika d ( μ̂0 ,∑̂0 ) (i ) ≤√ χ p , o .9752

0 ; lainnya

3

Page 4: Draft Kolokium

Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB

7. Terakhir, komponen utama didefinisikan sebagai k vektor ciri dari S1 yang bersesuaian dengan k akar ciri terbesar dari S1.

Penduga Huber MPenduga Huber M merupakan salah satu

metode pada regresi kekar. Metode ini menggantikan kuadrat sisaan MKT dengan suatu fungsi lain dari sisaan. Penduga M diperoleh dengan meminimumkan fungsi obyektif:

min∑i=1

n

ρ (e i )=min∑i=1

n

ρ ( y i−x i β )sehingga akan dihasilkan persamaan:

min∑i=1

n

wi ( y i−x i' b ) x i

'=0

dimana w merupakan fungsi penimbang. Solusi dari persamaan di atas dapat diperoleh secara iteratif dengan metode iteratively reweighted least-squares (IRLS). Fungsi penimbang yang disarankan oleh Huber menggunakan fungsi obyektif:

ρH (e)={ 12

e2;untuk|e|≤ k

k|e|−12

k2 ;untuk|e|>k

dan fungsi penimbang:

wH (e )={ 1;untuk|e|≤ kk|e|

;untuk|e|>k

dimana k merupakan tunning constant, Huber merekomendasikan nilai k= 1.345σ, dengan σ didefinisikan sebagai simpangan baku dari sisaan.

Penimbang Ganda TukeyMetode lain dalam regresi kekar yaitu

dengan menggunakan penimbang ganda Tukey. Fungsi penimbang yang disarankan oleh Tukey disebut juga sebagai bisquare weight (penimbang kuadrat ganda) atau biweight (penimbang ganda) menggunakan fungsi obyektif:

ρB(e)={k2

6 {1−[1−( ek )

2]3};untuk|e|≤ k

k2

6;untuk|e|>k

dan fungsi penimbang (w):

wB (e )={ [1−( ek )

2]2

0 ;untuk|e|>k

; untuk|e|≤ k

dimana k merupakan tunning constant, untuk penimbang ganda Tukey direkomendasikan nilai k= 4.586σ, dengan σ didefinisikan sebagai simpangan baku dari sisaan.

METODOLOGI

DataData yang digunakan dalam penelitian ini

adalah data curah hujan lokal dari stasiun klimatologi di Indramayu sebagai peubah respon. Data tersebut merupakan data curah hujan bulanan dari tahun 1979 hingga 2008. Sebagai peubah penjelas digunakan data luaran GCM yang dikeluarkan oleh National Centers for Environmental Predicition and the National Center for Atmospheric Research (NCEP-NCAR) reanalysis dengan domain berukuran 8x8 grid yang terletak di atas wilayah Indramayu yaitu pada 98,75BT-116,25BB dan 1,25LU-16,25LS.

MetodeBerikut adalah tahapan yang dilakukan

dalam penelitian ini:1. Memilih domain GCM yang akan

digunakan sebagai peubah penjelas.2. Mengeksplorasi karakteristik data luaran

GCM dan data curah hujan lokal.3. Melakukan regresi komponen utama kekar

dengan metode ROBPCA.4. Menentukan jumlah komponen utama yang

akan digunakan serta meregresikan komponen utama terpilih dari setiap peubah penjelas terhadap peubah respon.

5. Memeriksa sisaan dari model awal.6. Jika terdapat pencilan, dilakukan regresi

untuk k komponen utama terpilih dari setiap peubah penjelas terhadap peubah respon dengan penduga M Huber dan penimbang ganda Tukey.

7. Melakukan pendugaan curah hujan dan membandingkan hasil yang diperoleh pada penggunaan penduga M Huber dan penimbang ganda Tukey.

DAFTAR PUSTAKA

Aunuddin. 1989. Analisis Data. Bogor: Depdikbud Dirjen Pendidikan Tinggi Pusat Antar Universitas Ilmu Hayat IPB.

4

Page 5: Draft Kolokium

Makalah Kolokium Departemen Statistika IPB Senin, 21 Juni 2010, pukul 10.30-11.15 WIB

Benestad RE, Hanssen-Bauer I, Chen D. 2008. Empirical Statistical Downscaling. Singapore: World Scientific Publishing.

Draper NR, Smith H. 1992. Analisis Regresi Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.

Hubert M, Debruyne M. 2010. Minimum Covariance Determinant. WIREs Compstats. Vol.2: 36-43.

Hubert M, Rousseeuw PJ, Vanden-Branden K. 2005. ROBPCA: A New Approach to Robust Principal Component Analysis. Technometrics. 47: 64-79.

Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.

Ningsih W. 2009. Identifikasi dan Penanganan Pengaruh Pencilan pada Analisis Komponen Utama [Skripsi]. Bogor: Departemen Statistika FMIPA IPB.

Rousseeuw PJ, et al. 2004. Robust Multivariate Regression. Technometrics: Vol.46 No.3: 293-305.

Todorov V, Filzmoser P. 2009. An Object-Oriented Framework for Robust Multivariate Analysis. Journal of Statistical Software. Vol.32: Issue 3.

Wigena AH. 2006. Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan: Kasus Curah Hujan Bulanan di Indramayu [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Wilby RL, et al. 2009. A Review of Climate Risk Information for adaptation and Development Planning. Int. J. Climatol. 29: 1193-1215.

5