12
METODE KLASIFIKASI TUMOR BERDASARKAN WAVELET PACKET TRANSFORM DAN NEIGHBORHOOD ROUGH SET Shan-Wen Zhang, De-ShuangHuang *, Shu-LinWang Hefei Institute of Intelligent Machines, Chinese Academy of Sciences, P.O. Box 1130, Hefei, Anhui 230031, China ABSTRACT Klasifikasi tumor adalah aplikasi penting dalam data ekspresi gen. karena karakteristiknya yang berdimensi tinggi dan small simple size (SSS), dan besarnya jumlah gen redundan yang tidak terkait dengan fenotip tumor, berbagai ekstraksi fitur atau metode seleksi gen telah diaplikasikan untuk menganalisis data ekspresi gen. Wavelet packet transform (WPT) dan neighborhood rough set (NRS) adalah cara yang efektif untuk mengekstraksi dan menyeleksi fitur. Pada paper ini, pendekatan baru klasifikasi tumor diusulkan berdasarkan WPT dan NRS. Pertama, klasifikasi fitur diekstraksi dengan WPT dan tabel keputusan terbentuk, kemudian atribut tabel keputusan direduksi dengan NRS. Ketiga, subset fitur dengan sedikit atribut dan klasifikasi berkemampuan tinggi didapatkan. Hasil eksperimen pada tiga dataset ekspresi gen membuktikan bahwa metode yang diusulkan efektif dan dapat dilakukan. I. PENDAHULUAN Teknologi DNA microarray telah menemukan banyak aplikasi pada bidang gene discovery, diagnosa penyakit, drug discovery, dan toxicology research. Dari kesemuanya, klasifikasi tumor adalah aplikasi penting dalam data ekspresi gen yang memiliki masa depan menjanjikan pada clinical medical. Karena karakteristik alami data ekspresi gen yang small-size- sample dan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma clustering telah diusulkan untuk menganalisi data ekspresi gen. Algoritma clustering berupaya untuk membagi gen-gen ke dalam kelompok yang menunjukan kemiripan pola variasi pada level ekspresi, tetapi sedikit petunjuk yang mampu membantu memilih diantaranya. Pilihan metode yang sesuai untuk dataset experimental yang diberikan tidak tepat. Kerr et al. [5] meninjau seni aplikasi dan menyediakan framework untuk mengevaluasi clustering pada analisis ekspresi gen. Yang et al. [6] menyediakan framework sistematis untuk mengevaluasi hasil dari algoritma clustering. Karena masalah small-size- sample, banyak metode clustering tidak efektif untuk menganalisis data ekspresi gen. Reduksi dimensi dan ekstraksi fitur memiliki banyak aplikasi di bidang bioinformatic dan komputasional biologi. Independent Component Analysis (ICA) telah dikembangkan pada analisis GEP. Pada [7], teknik sequential floating forward selection (SFFS) digunakan untuk memilih komponen independen pada klasifikasi data GEP. Pada waktu yang bersamaan, seleksi fitur yang merupakan proses seleksi subset fitur original dengan mereduksi jumlah fitur, menyingkirkan data yang tidak relevan, berlebihan, atau noise. Seleksi fitur telah diaplikasikan secara ekstensif menggunakan data GEP. Pembelajaran statistik berguna untuk menganalisa ekspresi data. Beberapa metode seleksi fitur gen yang informatif berdasar pada peringkat gen seperti T- statistic rank criterion [8, 9] dan Fisher’s discriminant criterion [10]. Jaeger[11] membandingkan performa klasifikasi

derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

METODE KLASIFIKASI TUMOR BERDASARKAN WAVELET PACKET TRANSFORM DAN NEIGHBORHOOD ROUGH SET

Shan-Wen Zhang, De-ShuangHuang *, Shu-LinWang

Hefei Institute of Intelligent Machines, Chinese Academy of Sciences, P.O. Box 1130, Hefei, Anhui 230031, China

ABSTRACT

Klasifikasi tumor adalah aplikasi penting dalam data ekspresi gen. karena karakteristiknya yang berdimensi tinggi dan small simple size (SSS), dan besarnya jumlah gen redundan yang tidak terkait dengan fenotip tumor, berbagai ekstraksi fitur atau metode seleksi gen telah diaplikasikan untuk menganalisis data ekspresi gen. Wavelet packet transform (WPT) dan neighborhood rough set (NRS) adalah cara yang efektif untuk mengekstraksi dan menyeleksi fitur. Pada paper ini, pendekatan baru klasifikasi tumor diusulkan berdasarkan WPT dan NRS. Pertama, klasifikasi fitur diekstraksi dengan WPT dan tabel keputusan terbentuk, kemudian atribut tabel keputusan direduksi dengan NRS. Ketiga, subset fitur dengan sedikit atribut dan klasifikasi berkemampuan tinggi didapatkan. Hasil eksperimen pada tiga dataset ekspresi gen membuktikan bahwa metode yang diusulkan efektif dan dapat dilakukan.

I. PENDAHULUAN

Teknologi DNA microarray telah menemukan banyak aplikasi pada bidang gene discovery, diagnosa penyakit, drug discovery, dan toxicology research. Dari kesemuanya, klasifikasi tumor adalah aplikasi penting dalam data ekspresi gen yang memiliki masa depan menjanjikan pada clinical medical. Karena karakteristik alami data ekspresi gen yang small-size-sample dan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data.

Banyak algoritma clustering telah diusulkan untuk menganalisi data ekspresi gen. Algoritma clustering berupaya untuk membagi gen-gen ke dalam kelompok yang menunjukan kemiripan pola variasi pada level ekspresi, tetapi sedikit petunjuk yang mampu membantu memilih diantaranya. Pilihan metode yang sesuai untuk dataset experimental yang diberikan tidak tepat. Kerr et al. [5] meninjau seni aplikasi dan menyediakan framework untuk mengevaluasi clustering pada analisis ekspresi gen. Yang et al. [6] menyediakan framework sistematis untuk mengevaluasi hasil dari algoritma clustering. Karena masalah small-size-sample, banyak metode clustering tidak efektif untuk menganalisis data ekspresi gen.

Reduksi dimensi dan ekstraksi fitur memiliki banyak aplikasi di bidang bioinformatic dan komputasional biologi. Independent Component Analysis (ICA) telah dikembangkan pada analisis GEP. Pada [7], teknik sequential floating forward selection (SFFS) digunakan untuk memilih komponen independen pada klasifikasi data GEP. Pada

waktu yang bersamaan, seleksi fitur yang merupakan proses seleksi subset fitur original dengan mereduksi jumlah fitur, menyingkirkan data yang tidak relevan, berlebihan, atau noise. Seleksi fitur telah diaplikasikan secara ekstensif menggunakan data GEP.

Pembelajaran statistik berguna untuk menganalisa ekspresi data. Beberapa metode seleksi fitur gen yang informatif berdasar pada peringkat gen seperti T-statistic rank criterion [8, 9] dan Fisher’s discriminant criterion [10]. Jaeger[11] membandingkan performa klasifikasi dengan lima tes statistik yang berbeda. Fisher [12], Golub [13], Wilcoxon [14], TNoM [15], dan ipada tiga dataset tumor. Diantara kelimanya, kebanyakan metode gene-rank membutuhkan dataset mengikuti distribusi Gaussian. Untuk mencegah asumsi pada kondisi normal, Deng et al.[16] mengusulkan rank sum test method untuk gen informatif, dan korespondensi menunjukan kombinasi seleksi gen dengan klasifikator, yang menggabungkan family metode sequential forward search dengan klasifikator yang berbeda[17]. Dengan anggapan bagaimana mengevaluasi kualitas dari subset fitur, metode seleksi fitur memilih dua kategori : pendekatan filter dan pendekatan wrapper [18]. Pada pendekatan filter, set fitur yang baik dipilih sebagai hasil dari pre-processing berdasarkan karakteristik data itu sendiri dan tidak bergantung pada algoritma klasifikasi. Pendekatan wrapper membutuhkan algroitma mining yang ditentukan sebelumnya pada seleksi fitur dan menggunakan performa dari algoritma tersebut untuk mengevaluasi dan menentukan fitur mana yang dipilih. Hal tersebut condong untuk memberikan performa yang unggul karena menemukan fitur yang lebih sesuai untuk algoritma klasifikasi yang ditentukan sebelumnya, tetapi hal itu lebih mahal secara komputasional daripada pendekatan filter [9]. Untuk alasan ini, model filter secara luas digunakan pada seleksi gen dari GEP.

Tranformasi wavelet [20] dirasa lebih sesuai untuk pengukuran struktur biological daripada tranformasi matematika yang lain. WT menyediakan representasi matematika yang ekonomis dan informatif dari banyak objek yang menarik. Akhir-akhir ini, WT telah diaplikasikan untuk varietas besar dari analisis sinyal biomedical [21,22]. Apalagi WT mampu menyediakan analisa ragam secara umum, yang dibutuhkan pada kasus analisis data GEP. Tinjauan pada aplikasi wavelet data GEP diperlihatkan pada [23, 24]. Wavelet power spectrum (WPS) lokal dihitung dengan menjumlahkan nilai kuadrat setiap kelompok , ketika WPS global adalah rata-rata sejumlah power spectra lokal. Keaslian gen kelas yang berbeda akan berbeda dan

Page 2: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

jumlahnya pun bervariasi. Jadi, hal ini mungkin diteliti untuk menganalisis WPS atau entrophy yang mungkin tidak sama pada semua kelas. Berdasarkan eksperimen ini, metode untuk memilih fitur penting yang relevan untuk setiap kategori terhadap kategori lain dapat tercipta. Oleh karena itu, ada kemungkinan temuan kelas tumor dan prediksi dengan memonitor ekspresi gen menggunakan WPS.

Transformasi paket wavelet multi resolusi dapat memproses data stasioner dan nonstasioner dan memiliki kemampuan multi resolusi yang bagus. Karena keuntungan tersebut, WPT telah digunakan secara efektif di banyak aplikasi bioinformatic seperti analisis data microarray dan analisis data genomic. WT dan WPT telah diaplikasikan untuk analisis data microarray. Klevecz [25] menggunakan dekomposisi wavelet dan teknik denoising untuk menganalisa GEP dan menemukan bahwa ekspresi kebanyakan gen ragi berfluktuasi, termasuk gen siklus sel teregulasi dan yang tidak berhubungan dengan siklus sel. Wang et al. [26] mengusulkan metode ekstrasi fitur dan klasifikasi tumor berdasarkan WPT dan SVM. Klasifikasi fitur tumor dapat diekstrasi dari GEP oleh WPT dan menggunakannya sebagai input dari klasifikator SVM untuk mengklasifikasikan kelas-kelas tumor. Eksperimen membuktikan metode mereka sesuai dengan kebutuhan aplikasi realtime pada daerah klinis. Myasnikova et al. [27] menggunakan WT untuk menganalisa pengukuran ekspresi gen dengan menggunakan antibody berlabel pada satu set embrio. Mereka mendapatkan peta ekspresi gen yang detail pada bidang morphogenetic dari data yang terpisah-pisah. Efron et al.[28] menunjukan bahwa “False Discovery Rate” (FDR) adalah pendekatan yang sangat bermanfaat, yang mungkin mengarahkan aplikasi WT lain pada analisis data GEP.

Teori Rough Set (RS), diusulkan oleh Pawlak [29], dapat dilihat sebagai pendekatan matematika yang baru untuk pertanyaan yang samar-samar. RS telah diaplikasikan terutama pada tugas-tugas mining seperti klasifikasi, clustering dan seleksi fitur. Kegunaan utama RS adalah untuk mengurangi jumlah atribut pada database yang dengan cara demikian akan memperbaiki performa aplikasi pada sejumlah aspek seperti kecepatan, penyimpanan, dan ketepatan [30, 31]. Data microarray seringkali berisi sejumlah kecil sampel dan sejumlah besar gen. Ultra high dimension GEP membuat hal tersebut dibutuhkan untuk membangun metode seleksi fitur yang efektif yang bertujuan untuk mereduksi komputasi cost dan memperbaiki akurasi klasifikasi. RS menyediakan cara yang dapat dilakukan untuk mengatasi redundansi. Tujuan reduksi pada RS adalah untuk menemukan set minimum pada atribut (fitur) relevan yang menggambarkan data set sebaik yang dilakukan semua atribut original. Zhou et al. [32] mengusulkan metode seleksi fitur novel berdasarkan

informasi yang sama dan RS. Mereka menyeleksi beberapa top-ranked features yang mempunyai kemiripan informasi lebih tinggi untuk memprediksi target class. Kemudian TS diaplikasikan untuk membuang redundansi diantara seleksi gen tersebut. Binary particle swarm optimization adalah usulan pertama untuk reduksi atribut RS. Banerjee et al. [33] menunjukan sebuah algoritma seleksi fitur rough evolusioner yang digunakan untuk mengklasifikasi pola GEP.

Walaupun seleksi fitur pada RS klasik adalah metode reduksi yang efektif, atribut harus didiskritkan sebelum reduksi, yang mengarah pada kehilangan informasi. Walaupun demikian, model neighbourhood rough set (NRS) [34, 35] mengecualikan prosedur diskritisasi sehingga kehilangan informasi tidak terjadi. NRS berdasarkan algoritma seleksi fitur dapat menghapus banyak fitur yang redundan dan tidak relevan.. Pencarian cepat dari literatul biological menunjukan bahwa NRS masih jarang digunakan pada bioinformatic. Berdasar pada WPT dan NRS, metode klasifikasi tumor diusulkan pada paper ini. Kontribusi utama dari paper adalah sebagai berikut :

1. Data GEP diuraikan dengan WPT dan klasifikasi fitur diekstrasi dari koefisien WPT, yang kuat terhadap noise

2. Klasifikasi subset fitur direduksi dan diseleksi dengan NRS, yang mampu menghapus banyak fitur yang berlebihan dan titerakhir, dak relevan

3. Hasil eksperimen dianalisa secara detail.

WPT diperkenalkan pada bagian 2.1. Pada bagian 2.1 dan 2.3, konsep NRS dan algoritma reduksi atribut diperkenalkan. Pada bagian 2.4 algoritma klasifikasi tumor dijelaskan berdasarkan WPT dan NRS. Pada bagian 2.5, tiga klasifikator didiskusikan. Hasil eksperimen ditampilkan pada bagian 3. Kata penutup dan kerja di waktu yang akan datang diberikan pada bagian 4.

II. METODE

2.1 Wavelet Packet Transform (WPT)

WPT adalah ekstensi dari WT diskrit ke full binary tree. Pada discrete wavelet packet transform (DWPT), scalling dan koefisien wavelet adalah subjek untuk highpass dan lowpass filtering ketika menghitung scaling layer selanjutnya dan koefisien wavelet.

Dengan transformasi standar, pengidentifikasian koefisian scaling band frekuensi [1,1/2 j+1], dengan J,

coarsest layer, ketika koefisien wavelet pada J-layer

menggambarkan band frekuensi [1/2 j+1 ,1/2 j]. DPWT menginduksikan partisi yang lebih baik untuk space frekuensi, yaitu koleksi dari fungsi

{2− j /2un(2− j t−k) , j , k ϵ Z ,n ϵ Z+¿ }¿ dihasilkan dari

rangkaian fungsi berikut [36] :

Page 3: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

u2n (t )=√2∑k∈ z

hk un (2t−k ) ;u2n+1 (t )=√2∑k∈z

gkun (2 t−k ); (1)

dimana h dan g merupakan kuadrat dari filter refleksi,

∑n∈ z

hn−2k hn−2 l=δ kl , ∑n∈ z

hn=√2 , gk=−1k h1−k , k∈ z ,

u0(t ), dan u1(t) masing-masing adalah fungsi scaling dan dasar wavelet. Paket wavelet

{2− j /2un(2− j t−k) , j , k ϵ Z ,n ϵ Z+¿ }¿ adalah fungsi

lokalisasi dari unit energy dengan scale 2 j, translasi 2 jk

dan parameter oscillation dari n.

Untuk sinyal diskrit, koefisien dekomposisi paket wavelet dapat dihitung iteratif dengan

x2n j+1k =∑

lhl−2k xn j

k ; x2n+1 j+1k =∑

lgl−2k xn j

k ; (2)

dimana xn jk adalah urutan koefisien dekomposisi dari node

ke-n pada j-layer pada wavelet packet tree, pada umumnya, j = 1, 2, 3, 4.

Sinyal original dapat direkonstruksi secara iterative dengan

x2n j+1k =∑

khl−2k xn j+1

k +¿∑kgl−2k x2n+ 1 j+1

k (3)¿

Wavelet packet tree decomposition diperlihatkan pada gambar 1. Setiap node berkorespondensi pada band frekuensi. Node leaf pada sub-tree terkoneksi pada node root yang sama sebagai full tree membentuk dasar orthonormal dan dapat menampilkan sinyal finite energy secara lengkap.

Gambar 1 : forward attribute reduction berdasarkan mode neighborhood (algoritma FARNeM)

2.2 Neighborhood Rough Set (NRS)

Pada sub bagian ini, akan diperkenalkan konsep dasar dari teori RS dan algoritma NRS yang berhubungan dengan pendekatan reduksi atribut. Konsep dasar dari neighborhood dan NRS dijelaskan pada [34, 37-42].

Formalnya, struktur data untuk klasifikasi dapat dituliskan RD= ⟨U , A ,V , f ⟩, dimana U adalah set

sample yang tidak kosong, U={x1 , x2,……. , xn},

A={a1 , a2 ,……. ,am } adalah set variable yang tidak kosong (disebut juga sebagai fitur, input, atribut) untuk mengkarakteristikan sampel,V a adalah nilai domain dari

atribut a, dan f adalah fungsi informasi, f :U × A→V . Lebih khususnya, RD juga disebut table keputusan jika

A=C∪D dan C∩D=∅ , ketika C adalah set dari atribut kondisi (attribute condition); D adalah output, atau disebut set atribut keputusan (decision attribute set).

Definition 1. Diberikan sembarang sampel x i∈U dan

subset B⊆C , neighborhood δB(x i) dari x i pada

subspace B didefinisikan sebagai

δB (x i )= {x j∨x j∈U ,∆B (x j , x j≤δ )} (4)

dimana ∆B adalah fungsi metric. Untuk ∀ x1 , x2, x3∈U ,

∆B (x1 , x2 )≥0

∆B (x1 , x2 )=0, jika dan hanya jika x1=x2 ∆B (x1 , x2 )=∆B (x2 , x1 ) ∆B (x1 , x2 )≤∆B (x1 , x2 )+∆B (x2 , x3 )

Definition 2. Diberikan satu set sampel U , R adalah relasi

neighborhood pada U , {δB (x i )¿ x i∈U } adalah family of

neighborhood granules. Kemudian kita sebut RD= ⟨U ,R ⟩ ruang perkiraan neighborhood.

Definition 3. Diberikan RD= ⟨U ,R ⟩, untuk sembarang

X⊆U , dua subset objek, disebut lower and upper approximation X pada relasi term R, didefinisikan sebagai

RD ( X )={x i∨δB (x i )⊆X , xi⊆U }

RD ( X )={x i∨δB (x i )∩X ≠∅ , x i⊆U }

Diberikan tabel keputusan neighborhood

RD= ⟨U , A=C∪D ,V , f ⟩,X1 , X2 ,…, XN adalah

subset objek dengan keputusan dari 1 sampai N ,δB (x i ) adalah neighborhoof information granules mencakup x i dan di-generate oleh subset atribut ∀B⊆C , kemudian lower and upper approximation dari keputusan D dengan memperhatikan atribut B didefinisikan sebagai

Page 4: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

RD ( X )=¿ i=1¿N RD (X i ) ; RD ( X )=¿ i=1¿N RD (X i )(6)

dimana

RD ( X i )= {xi∨δB (xi )⊆X , x i⊆U }

RD ( X i )= {xi∨δB (xi )∩ X≠∅ , x i⊆U }

Ukuran daerah batas merefleksikan derajat kekasaran set X pada ruang perkiraan. Anggapan bahwa X adalah subset sampel dengan tabel keputusan, biasanya kita berharap daerah batas pada tabel keputusan sekecil mungkin untuk mengurangi keraguan pada keputusan. Ukuran daerah batas bergantung pada X ,B dan U , dan threshold δ . Batas keputusan adalah subset objek yang neighborhoodnya datang lebih dari satu kelas keputusan. Dengan kata lain, keputusan perkiraan yang lebih rendah, juga disebut daerah positif keputusan, dinotasikan dengan Pos(D), adalah subset objek yang neighborhoodnya secara konsisten sesuai dengan kelas keputusan.

Model neighborhood membagi sampel ke dalam dua kelompok: daerah positif dan batas. Daerah positif adalah set sampel yang dapat diklasifikasikan kedalam satu kelas tanpa ketidakpastian dengan atribut yang sudah ada, sementara batas adalah set sampe yang tidak dapat diklasifikasikan secara pasti. Sampe pada subspace fitur yang berbeda akan mempunyai daerah batas berbeda. Ukuran daerah batas merefleksikan resolving-power pada masalah klasifikasi pada subspace yang berhubungan. Daerah batas yang lebih besar adalah, kekuatan karakteristik yang lebih lemah pada kondisi atribut. Hal itu dapat diformulasikan sebagai berikut.

Definition 5. Diberikan RD= ⟨U ,C∪D ⟩,B⊆C , derajat dependensi D ke B didefinisikan sebagai rasio objek yang konsisten :

γB (D )=¿PosB¿ (8)

dimana γB (D ) mencerminkan kemampuan B untuk

memperkirakan D.

Definisi 6. Diberikan RD= ⟨U ,C∪D ⟩,B⊆C , kita definisikan signifikansi dari sembarang atribut a sebagai

SIG (a ,B , D )=γB (D )−γB−a (D ) (9)

Signifikansi atribut adalah variable fungsi: a , B dan D. Dijelaskan bahwa sebuah atribut mungkin signifikansinya besar untuk subset B1 tetapi signifikansinya kecil pada

subset B2. Signifikansi atribut mungkin berbeda untuk setiap keputusan jika ada lebih dari satu atribut keputusan pada tabel keputusan a.

2.3 Attribute Reduction

Walaupun memakai reduksi atribut pada teori klasik RS ke seleksi klasifikasi fitur adalah metode yang efektif, tingkat akurasi klasifikasi biasanya tidak setinggi dibandingkan dengan pendekatan seleksi fitur tumor lain yang berhubungan, untuk nilai fitur gen harus didiskritkan sebelum reduksi data, yang mengarah pada kehilangan informasi pada klasifikasi. Oleh karena itu, model NRS diperkenalkan pada klasifikasi tumor, yang mengecualikan prosedur diskritisasi, jadi tidak terjadi kehilangan informasi sebelum reduksi atribut. Algoritma forward attribute reduction based on neighborhood model (FARNeM) [34, 35] didesain, yang digunakan sebagai pendekatan reduksi tabel keputusan pada eksperimen.

Pada algoritma FARNeM, γB (D )=¿PosB (D )∨¿∨U∨¿ menunjukan ketergantungan atribut keputusan D ke subset atribut

kondisi B⊆C , dimana PosB(D) adalah subset sampel tumor yang lingkungannya secara konsisten sesuai dengan satu dari kelas keputusan, dan SIG (a .B , D )=γB (D )−γB−a (D )menunjukan atribut kondisi signifikan a dengan memperhatikan subset atribut kondisi B⊆C . Algoritma FARNeM digambarkan pada Gambar 1.

Algoritma FARNeM adalah untuk menemukan sampel region positif untuk mengevaluasi sgnifikan atribut pada tabel keputusan pada langkah 2. Masalah terpenting dalah klasifikasi berbasis neighborhood adalah untuk men-set threshold δ , yang menentukan ukuran neighborhood. Dengan kata lain, jika δ terlalu besar, maka neighborhood tidak dapat merefleksi informasi lokan dari pengujian.

2.4 Tumor Classification Algorithm Description

Pada masalah klasifikasi tumor, tujuan penting dari analisis GEP adalah mengekstraksi fitur dan kemudian mereduksi fitur. Misalkan ¿{x ij} adalah data ekspresi gen

tumor, dimana 1≤i ≤M , 1≤ j≤ N ,N≫M . Kita mengekstraksi klasifikasi fitur tumor dengan menggunakan WPT sebagai berikut

Mean : M njk =

1Knj

k ∑k=0

K njk −1

xnjk

Energy : ERnjk =

1Knj

k ∑k=0

Knjk −1

[ xnjk ]2

Entropy : ET njk =−∑

k=0

K njk−1

[ xnjk ]2 ∙ log2 [ xnjk ]2

Page 5: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

dimana Knjk adalah panjang dari urutan koefisien

dekomposisi X njk .

Mean, energy, dan entropy masing-masing menunjukan klasifikasi fitur, yang dapat direkontruksi klasifikasi tabel keputusan, menunjukan RD= ⟨U ,C∪D ⟩, dimana U adalah sampel set tumor,

C adalah set atribut kondisi yang dibentuk oleh M njk , ERnj

k ,

ET njk , dan D adalah set atribut keputusan atau subtype

tumor.

Model algoritma kami dijelaskan sebagai berikut :

1. Menghitung J-layer dekomposisi tree paket wavelet full GEP

2. Mengekstraksi klasifikasi vector fitur dan membentuk tabel keputusan

3. Mereduksi tabel keputusan dengan NRS4. Mengevaluasi hasil klasifikasi menggunakan klasifikator

2.5 Classifier

Tiga jenis klasifikator : support vector machines (SVM), K-nearest neighbor (K-NN) dan neighbourhood classifier (NEC) digunakan secara luas saat ini.

SVM adalah tipe baru teori pembelajaran statistic secara relative. SVM membangun hyper-plane sebagai permukaan keputusan ke maksimisasi tepi pemisahan antara dua kelas sampel.

K-NN adalah metode non parametric dan paling umum. Untuk mengklsifikasikan sampel x yang tidak diketahui, K-NN mengekstraksi vector terdekat k dari set eksperimen menggunakan kemiripan ukuran, dan membuat keputusan dari tabel sampel x yang tidak diketahui menggunakan kelas tabel mayoritas dari tetangga terdekat k. disini kita memacai jarak Euclidian untuk mengukur kemiripan sampel.

NEC mirip dengan K-NN, juga berdasar pada ide umum perkiraan kelas dari sampel yang tidak diketahui menurut tetangganya, tetapi berbeda dari K-NN, NEC mempertimbangkan jenis tetangga didalam area yang cukup kecil dan dekat disekitar sampel, dengan kata lain, semua sampel eksperimen mengelilingi sampel pengujian ikut ambil bagian dalam proses pemutusan klasifikasi.

Toolbox MATLAB mengimplementasikan SVM secara bebas untuk tujuan akademik. Kita dapat mengunduh SVM dari http://www.isis.ecs.soton.ac.uk /resources/svminfo/. Karena ada sedikit sampel GEP dicapai pada umumnya, SVM seringkali digunakan sebagai klasifikator untuk mengklasifikasikan sampel tumor menggunakan GEP, yang telah dibuktikan sangat berguna untuk klasifikasi tumor [43].

III. HASIL EKSPERIMEN

Pada bagian ini, kita akan mengemukakan satu set eksperimen pada tiga dataset GEP umum untuk menunjukan efektivitas metode klasifikasi tumor yang kami usulkan. Walaupun semua sampel data pada tiga dataset telah ditugaskan untuk set eksperimen atau set pengujian, yang bertujuan mendapatkan hasil eksperimen yang dapat diandalkan, kita memakai 4-fold cross-validation untuk mengklasifikasilan sampel tumor pada semua eksperimen.

3.1 Eksperimen pada SRBCT

Kita dapat mengunduh dataset small round blue cell tumor (SRBCT) dari http://research.nhgri.nih.gov/ microarray/Supplement yang berisi 88 sampel dengan 2308 gen di setiap sampel. Diantara semua sampel tersebut, lima yang bukan sampel dari tumor terkait dibuang dari eksperimen ini. Untuk mencegah over-fitting pada klasifikator, kami mendesain eksperimen pada 83 sampel menggunakan 4-fold cross-validation untuk mengklasifikasi model.

Pertama, kita menghitung 4-layer full wavelet packet decomposition tree dari 83 sampel GEP. Fungsi wavelet yang diuji pada projek ini adalah Haar, Debauchies 2, Debauchies 4, Debauchies 8, Biorthogonal 2.2, Biorthogonal 3.7, dan Biorthogonal 6.8. Wavelet Haar dipilih karena alasan wavelet yang paling sederhana. Debauchies (“Db”) family dipilih karena sifatnya yang compact support dan orthonormality. Wavelet Biorthogonal (“Bior”) dipilih karena sifat exact reconstruction-nya. Pada eksprerimen, kita memilih fungsi wavelet yang berbeda dan menggunakan fungsi wavelet packet decomposition ‘wpdec’ dan ‘wpcoef’ pada toolbox MATLAB untuk menguraikan data GEP. Untuk sampel tumor ke-k , koefisien wavelet packet decomposition node ke-n pada layer jwavelet

packet tree ditandai sebagai xnjk , j = 1, 2, 3, 4. Sebagai

contoh, GEP ‘EWS-T11’ dan koefisien waveletnya pada note (4.1)-(4.4), ditunjukkan oleh gambar 2 dan 3 pada supplementary material.

Kedua, vector fitur dapat diekstraksi dari {xnjk }, ditandai

sebagai M njk , ERnj

k , ET njk , yang masing-masing

berkorespondensi dengan mean, energy, dan entropy node ke-n pada layer j wavelet packet tree. Sebelum digunakan, ketiganya harus dinormalisasi dengan mean zero dan variance one. Sebagai contoh percobaan, kita bentuk 4 tabel keputusan (U menandai set sampel tumor dan D adalah set atribut keputusan, i.e. tumor subtype), dituliskan sebagai berikut :

RD1=⟨U ,ER njk , D ⟩

Page 6: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

RD2=⟨U ,ET njk ,D ⟩

RD3=⟨U , (ER njk , ET nj

k ) , D ⟩

RD 4=⟨U , (M njk ,ERnj

k , ETnjk ) , D ⟩ (10)

Karena 4-layer WPT decomposition graph memiliki 30 crunodes, seperti yang ditunjukkan Gambar 1 pada supplementary material, tabel keputusan RD1, RD2,

RD3, dan RD 4 memiliki 30, 30, 60, dan 90 atribut.

Ketiga, kita lakukan reduksi atribut menggunakan algoritma FARNeM yang membutuhkan setting parameter neighborhood δ , 0<δ<1. Untuk konstanta δ , atribut subset dapat didapatkan dari penggunaan algoritma FARNeM, jadi, 100 subset dapat didapatkan sebagai variasi δ dari 0 sampai 1 dengan sela 0.01.

Keempat, kita memakai 3 klasifikator, SVM-RBF (SVM

dengan fungsi dasar radial K ( x , y )=exp (−β‖x− y‖2),

K-NN dan NEC, untuk memilih subset atribut optimal dengan akurasi tertinggi. SVM-RBF membutuhkan dua parameter : α dan β ; klasifikator K-NN membutuhkan parameter K ; klasifikator NEC membutuhkan parameter w bervariasi dari 0 sampai 0.6.

Akhirnya, untuk tes sampel, dengan metode 4-fold cross-validated, kita dapatkan banyak hasil klasifikasi. Hasil klasifikasi pada tabel RD1 menggunakan klasifikasi SVM-RBF, K-NN dan NEC dirincikan pada Tabel 1-3.

Dari Tabel 1-3, diketahui bahwa SVM-RBF kinerja melebihi K-NN dan NEC. Jadi, kita memilih SVM-RBF sebagai klasifikator untuk mengklasifikasikan sampel tumor. Hasil klasifikasi tabel keputusan RD2, RD3, dan RD 4 menggunakan SVM-RBF dirincikan pada Tabel 4-6.

Dari Tabel 1-6, diketahui bahwa hasil eksperimen pada Tabel 6 lebih tinggi dari kelima Tabel, dan memilih ‘Db8’ sebagai fungsi wavelet lebih sesuai. Jadi pada percobaan ini, kita memilih RD3, ‘Db8’ dan SVM-RBF untuk mengimplementasikan eksperimen klasifikasi tumor.

Walaupun WPT sangat berguna untuk mereduksi noise, dari sini diketahui jika kita menggunakan keseluruhan (2308) sampel gen, terkadang hasil eksperimen tidak stabil. Untuk menyelesaikan masalah, kita peringkatkan gen pada data ekspresi gen menggunakan Kruskal-Wallist rank sum

Page 7: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

test [44] untuk memilih gen yang informative. Distribusi nilai p untuk setiap gen pada SRBCT ditunjukan Gambar 2.

Dari gambar 2, dapat kita lihat bahwa jumlah gen dengan nilai p lebih besar sekitar 200, jadi kita bisa memilih 200 top-ranked gen sebagai inisial gen informatif. Heat map dari 200 top-ranked gen ditunjukan Gambar 3, dimana perbedaan konsisten jelas antara empat subtype tumor, i. e., 29 Ewing family of tumors (EWS), 11 Burkitt lymphomas (BL), 18 Neuroblastoma (NB) dan 25 Rhabdomyosarcoma (RMS). Oleh karena itu, kita memilih 200 urutan teratas gen yang digunakan sebagai inisial gen informatif yang berisi informasi klasifikasi lengkap, yang juga mengindikasi bahwa metode penggunaan Kruskal-Wallis rank sum test untuk mengurutkan gen sangat efektif.

Menggunakan 200 urutan teratas pada setiap sampel, kita mengimplementasi berulang kali eksperimen pada tabel keputusan RD3 diatas, dimana nilai δ bervariasi dari 0 sampai 1 dengan langkah 0,1; klasifikator SVM-RBF; fungsi wavelet ‘Db8’;α=200, β=0.0003, dan 4-fold cross-validated. Mean hasil klasifikasi dan δ neighborhood ditunjukan gambar 4. Mean hasil klasifikasi dan jumlah atribut fitur ditunjukan gambar 5.

Dari gambar 4 dan 5, hasil klasifikasi mengindikasikan bahwa pemilihan 200 peringkat tertinggi gen sebagai gen informatif oleh Kruskal-Wallis rank sum test efektif.

Dengan membandingkan hasil eksperimen diatas, kita dapatkan bahwa skema optimal menggunakan wavelet Db8, tabel keputusan RD3, klasifikator SVM-RBF, α=200, β=0.0002-0.0004,δ=0.6-0.8, dan memilih gen peringkat tinggi dengan Kruskal-Wallis rank sum tes. Kita juga menemukan bahwa mean atribut fitur M nj redundan.

Dari eksprerimen diatas, kita buat beberapa kesimpulan menarik. Mudah untuk mengurutkan gen dengan Kruskal-Wallis rank sum tes, ditunjukan gambar 2. Perlu sekitar 2-4 detik untuk mengurutkan semua gen pada data SRBCT. Urutan gen hanya dianggap sebagai preprocessing pertama. FARNeM adalah algoritma reduksi atribut yang efektif, tetapi ketika jumlah atribut besar akan membutuhkan lebih banyak waktu CPU untuk mereduksi atribut. Metode klasifikasi optimal digambarkan sebagai berikut :

Page 8: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

1. Mengurutkan GEP dengan Kruskal-Wallis rank sum tes dan mendapatkan 200 gen dengan nilai p tertinggi

2. Menghitung WPT dan mengekstraksi vector fitur dari koefisien wavelet packet decomposition, lalu membentuk tabel keputusan

3. Mereduksi atribut dengan FARNeM4. Terakhir, mengklasifikasikan sampel tumor dengan

klasifikator SVM

3.2 Experiment on leukemia and colon data

Pada subbagian ini, kita akan menyelidiki lebih jauh kinerja dari metode yang diusulkan pada dua dataset terkenal: dataset leukemia [13] dan dataset colon [45]. Dua dataset hanya berisi dua subkelas, ditampilkan Tabel 7.

Setelah memilih 200 gen urutan tertinggi dengan Kruskal Wallis rank sum test, kita lakukan WPT dan mengekstraksi vector fitur lalu membentuk tabel keputusan RD3; mereduksi atribut dengan algoritma FARNeM; mengklasifikasi sampel tumor dengan klasifikator SVM, dimana fungsi waveletnya ‘Db8’, parameter, α=200, β=0.0003,δ=0.7. pada eksperimen, metode 4-fold cross-validated digunakan. Perbandingan mean klasifikasi pada data leukemia dan data colon adalah 95,53% dan 90,47%.

Performance comparison with other methods

Untuk memastikan keefektivan dari metode yang diusulkan, kita bandingkan dengan metode klasifikasi tumor yang lain [26,45-47]. Sama dengan metode [26], Liu [45] menggunakan WT and SVM untuk mengklasifikasikan sampel tumor ke dalam kelas diagnosis yang berbeda. Wang et al. [46] mengusulkan neighborhood rough set model (NRS) based gene selection for muti subtype tumor classification. Mereka menggunakan Kruskal-Wallis rank sum test untuk mengurutkan semua gen dan kemudian mengaplikasikan model NRS untuk mereduksi gen untuk mendapatkan subset gen dengan gen paling sedikit dan kemampuan klasifikasi yang lebih. Lee et al. [47] mengusulkan a multi-category SVM(MSVM), yang belakangan diusulkan ekstendi dari binary SBM. Mereka mengaplikasikan MSVM ke multi-class cancer classification problem.

Kita memilih wavelet ‘Db8’, parameter, α=200, β=0.0003,δ=0.7, dan menggunakan klasifikator SVM-RBF dan metode 4-fold cross-validated pada eksperimen. Tabel 8 menampilkan perbandingan kinerja denga pekerjaan lain yang berhubungan pada tiga dataset yang sama: SRBCT,

Leukimia, dan Colon tumor. Dari tabel 8, kita ketahui bahwa metode yang kita usulkan selalu lebih dari metode lain. Hasil perbandingan menunjukan bahwa metode kita efektif dan dapat dilakukan.

IV. CONCLUSION

Walaupun eksperimen DNA microarray menyediakan kita sejumlah besar informasi ekspresi gen, hanya sedikit gen berhubungan dengan tumor. Sulit unuk memilih gen informatif yang berhubungan dengan tumor dari GEP karena karakteristiknya, seperti berdimensi tinggi, small size sample, dan noise pada GEP. Bagaimana menganalisa dan menangani data tersebut, dan mengemukakan nilai biological dan pengetahuan medical, menjadi hambatan dan titik konflik pada penelitian umur post-genomic. Ultra high dimension data GEP membuat hal tersebut perlu membangun ekstraksi itur yang efektif dan meode seleksi agar mengurangi harga komputasi dan memperbaiki akurasi klasifikasi. Paper ini mengusulkan metode klasifikasi tumor berdasarkan WPT dan NRS. Menggunakan WPT, kita dapat mengekstraksi vector fitur dengan mudah, yang kuat melawan noise, dan mereduksi atribut dengan NRS yang mempercepat klasifikasi tumor dengan klasifikator SVM-RBF. Berbagai fungsi wavelet, tiga jenis klasifikator dan empat tabel keputusan diuji dan kinerja mereka diukur. Pada kebanyakan kasus, projek yang menggunakan wavelet ‘Db8’, tabel keputusan RD3, α=200, β=0.0003,δ=0.7 bekerja lebih baik daripada program lain pada term akurasi klasifikasi. Eksperimen pada SRBCT, Leukimia dan Colon menunjukan bahwa metode yang diusulkan dapat mencapai laju klasifikasi yang tinggi. Hasil perbandingan menunjukan bahwa metode kami efektif.

Pada eksperimen, ada beberapa masalah yang perlu penelitian lebih jauh, seperti bagaimana memilih fungsi wavelet, δ neighborhood, dan parameter klasifikator SVM-RBF, dll. Pada kerja selanjutnya, kinerja dapat ditambahkan dengan menyesuaikan nilai parameter dan membuat klasifikasi lebih baik.

Conflict of interest statement

None conflict.

Acknowledgments

This work was supported by the Grants of the National Science Foundation of China, nos. 60705007,60472111.

Page 9: derienct.files.wordpress.com  · Web viewdan berdimensi tinggi, semakin banyak prediksi baru, klasifikasi dan teknik clustering digunakan untuk menganalisis data. Banyak algoritma

Appendix A. Supplementary material

Supplementary data associated with this article can be found in the online version at doi:10.1016/j.compbiomed.2010.02.007.