Upload
abdurrohman-hidayat
View
43
Download
2
Embed Size (px)
DESCRIPTION
Laporan KKNP untuk deteksi Intron dan Exon
Citation preview
LAPORAN KULIAH KERJA NYATA – PRAKTIK
PADA LABORATORIUM BIOKOMPUTASI FMIPA - UB
PENCARIAN MOTIF SEKUENS DNA UNTUK IDENTIFIKASI
PENYAKIT DENGAN SELF ORGANZING NEURAL NETWORK
Disusun oleh :
AHMAD NUR ROYYAN 125150200111043
GHENNIY RACHMANSYAH 125150201111040
ABDURROHMAN HIDAYAT 125150201111075
PROGRAM STUDI INFORMATIKA/ILMU KOMPUTER
PROGRAM TEKNOLOGI INFORMASI DAN ILMU KOMPUTER
UNIVERSITAS BRAWIJAYA
2015
i
LEMBAR PENGESAHAN
LAPORAN KERJA PRAKTIK
AHMAD NUR ROYYAN 125150200111043
GHENNIY RACHMANSYAH 125150201111040
ABDURROHMAN HIDAYAT 125150201111075
Laporan ini dibuat sebagai hasil kerja praktik
yang telah dilaksanakan di:
LABORATORIUM BIOKOMPUTASI FAKULTAS MIPA - UB
Tanggal :
29 juni 2015 – 29 Juli 2015
Telah diperiksa dan disetujui oleh
Pihak Laboratorium Biokomputasi FMIPA-UB :
Pembimbing Kerja Praktik
Widodo, S.Si., M.Si., Ph.D.Med. Sc
ii
LEMBAR PENGESAHAN
LAPORAN KERJA PRAKTIK
AHMAD NUR ROYYAN 125150200111043
GHENNIY RACHMANSYAH 125150201111040
ABDURROHMAN HIDAYAT 125150201111075
Laporan ini diajukan untuk memenuhi sebagian persyaratan kurikulum
Program Studi Informatika
Program Teknologi Informasi dan Ilmu Komputer
Universitas Brawijaya
Dilaksanakan di :
LABORATORIUM BIOKOMPUTASI FAKULTAS MIPA - UB
Tanggal :
29 juni 2015 – 29 Juli 2015
Telah diketahui dan disetujui oleh:
Ketua Program Studi Informatika Dosen Pembimbing
Drs. Marji, MT. Lailil Muflikhah, S.Kom, M.Sc
NIP 19670801 199203 1001 NIP. 19741113 200501 2 001
iii
KATA PENGANTAR
Puji syukur kehadirat Allah SWT yang telah memberikan rahmat, taufik,
dan hidayahnya sehingga kami dapat menyelesaikan karya tulis ilmiah ini dengan
baik. Adapun laporan Kuliah Kerja Nyata Praktik (KKN-P) yang kami buat ini
berjudul …………………………………………………………
Penulis mengucapkan terimakasih kepada pihak-pihak yang telah
membantu dalam menyelesaikan kegiatan ini, antara lain:
1. Ibu, Bapak dan seluruh keluarga atas segenap dukungan dan kasih saying
yang diberikan.
2. Ibu Lailil Muflikhah, S.Kom, M.Sc selaku dosen pembimbing yang telah
menyediakan waktu untuk konsultasi mengenai pelaksanaan kegiatan
KKN-P.
3. Bapak Drs. Marji, MT selaku Ketua Program Studi Informatika Program
Teknologi Informasi dan Ilmu Komputer (PTIIK) Universitas Brawijaya.
4. Bapak Issa Arwani, S.Kom., M.Sc selaku Sekretaris Program Studi
Informatika Program Teknologi Informasi dan Ilmu Komputer (PTIIK)
Universitas Brawijaya.
5. Teman-teman yang telah memberikan semangat dan dukungan.
Penulis menyadari, dalam proposal ini masih banyak terdapat kesalahan,
baik dari segi penulisan, penyusunan, maupun isi dari proposal. Oleh sebab itu,
penulis dengan terbuka menerima semua kritik dan saran yang membangun
sebagai bekal dan pengalaman sebagai pedoman perbaikan.
Malang, 29 Agustus 2015
Penyusun,
iv
DAFTAR ISI
LEMBAR PENGESAHAN................................................................................................ii
KATA PENGANTAR.......................................................................................................iv
DAFTAR ISI......................................................................................................................v
DAFTAR GAMBAR........................................................................................................vii
DAFTAR TABEL...........................................................................................................viii
BAB I PENDAHULUAN..................................................................................................1
1.1. Latar Belakang.....................................................................................................1
1.2. Rumusan Masalah...............................................................................................3
1.3. Batasan Masalah..................................................................................................3
1.4. Tujuan Penelitian.................................................................................................3
1.5. Manfaat Penelitian...............................................................................................4
1.6. Sistematika Penulisan..........................................................................................4
1.7. Rencana dan Jadwal Penelitian............................................................................5
BAB II TINJAUAN PUSTAKA........................................................................................6
2.1. Kajian Pustaka.....................................................................................................6
2.2. Biologi Molekuler...............................................................................................7
2.3. Sekuens DNA dan Penyakit.................................................................................9
2.4. Data Mining.........................................................................................................9
2.5. Pola Sekuensial..................................................................................................10
2.6. Jaringan Syaraf Tiruan.......................................................................................11
2.7. Self-Organizing Neural Network.......................................................................12
BAB III METODOLOGI PENELITIAN.........................................................................15
3.1. Studi Literatur....................................................................................................16
3.2. Data Penelitian...................................................................................................16
v
3.3. Analisis dan Perancangan Sistem......................................................................17
3.4. Implementasi Sistem..........................................................................................20
3.5. Pengujian Sistem...............................................................................................21
3.6. Kesimpulan dan Saran.......................................................................................22
DAFTAR PUSTAKA..............................................................................................23
vi
DAFTAR GAMBAR
Gambar 2.1 Struktur DNA8
Gambar 2.2 Ilustrasi sub-sekuens DNA10
Gambar 2.3 Struktur Unit Jaringan Syaraf Tiruan11
Gambar 2.4 Struktur Self-Organizing Map (SOM)13
Gambar 3.1 Diagram Alir Penelitian16
Gambar 3.2 Sekuens DNA gen p5317
Gambar 3.3 Diagram blok sistem18
Gambar 3.4 Arsitektur jaringan self organizing neural network (SOM)18
Gambar 3.5 Tahapan sub-sekuens pada sekuens DNAGambar 3.6 Diagram Alir Sistem
19
Gambar 3.7 Diagram Alir Clustering SOM20
vii
DAFTAR TABEL
Tabel 1.1 Rencana Jadwal Penelitian
Tabel 2.1 Fungsi AktivasiTabel 3.1 Uji Pengaruh Learning Rate (α)
viii
BAB I
PENDAHULUAN
1.1. Latar Belakang
Pengumpulan data maupun analisis data berlangsung sejak waktu yang
lama. Kemajuan teknologi memungkinkan untuk mengantarkan banyak
eksperimen dalam skala yang besar, hal ini juga berlaku pada koleksi data biologi
dan medis yang mengalami peningkatan yang signifikan. Evolusi bioinformatika
muncul seiring dengan adanya ledakan pertumbuhan data di bidang biologi [1: 42-
43, 44][2: 1]. Dalam bioinformatika, digunakan teknologi komputasional dan juga
pemrosesan data (data processing) untuk membantu menangani proses komputasi
dan mengambil alih dalam proses knowledge discovery secara efektif pada data
biologis dengan kuantitas yang besar [1: 42-43][2: 1]. Teknik data mining yang
merupakan cabang dari artificial intelligence (AI) mencoba untuk menggali
informasi atau knowledge dalam sebuah data [3: 11303]. Biological sequence
mining, salah satu teknik data mining di bioinformatika untuk mengungkap baik
struktur, fungsi, dan berbagai fitur dalam biological sequence, seperti sekuens
DNA, RNA, dan protein [1: 46, 49][4][13]. Selain itu, analisis sekuens ini juga
mengungkap karakteristik tertentu, seperti hubungan urutan gen dengan fungsi
biologis tertentu dan deteksi pola genetik dari suatu penyakit tertentu [13].
Pola pada sekuens biologi, merepresentasikan beberapa pola penting yang
berkaitan baik secara fungsional maupun struktural. Dalam sekuens DNA yang
terdiri dari 4 basa (A, T, C, G) terdapat suatu informasi tersembunyi berupa aturan
tertentu yang menyusun sekuens DNA tersebut [1: 43-44][5]. Penggalian
informasi (knowledge) terhadap sekuens DNA inilah yang menjadi topik penting
dalam bioinformatika yang akan diulas dalam penelitian ini, khususnya kaitannya
dengan suatu penyakit tertentu.
Penelitian terkait sebelumnya yaitu mengenai pendekatan yang
mengkombinasikan model Back-Propagation Neural Network (BPNN) dan
sequential pattern mining untuk memodelkan prediksi krisis suatu korporasi.
BPNN digunakan dalam mekanisme klasifikasi, sedangkan sequential pattern
1
2
mining digunakan untuk mendapatkan pola-pola prediksi. Berdasarkan hasil uji,
rata-rata akurasi BPNN dalam proses klasifikasi sekitar 73.75%. Sedangkan untuk
kebenaran dari hasil prediksi sekitar 73.76% [6].
Penelitian kedua, yaitu penggunaan self-organizing neural network untuk
identifikasi motif pada sekuens DNA dan deteksi sinyal subtle. Terdapat
mekanisme yang dilakukan seperti subsequence dan encoding terhadap sekuens
DNA atau protein. Kemudian pengujian dilakukan pada sampel sekuens DNA
dengan panjang tertentu dan menunjukkan bahwa self-organizing neural network
handal untuk mengidentifikasi motif pada sekuens DNA dan protein [7].
Penelitian ketiga, yaitu mengenai klasifikasi trayektori dengan
menggunakan pendekatan jaringan syaraf tiruan. Kombinasi pencarian pola
sekuensial (sequential pattern) digunakan untuk mengenali perilaku dari
trayektori dalam road network. Berdasarkan hasil uji yang dilakukan dengan
menggunakan 2 parameter, yaitu efisiensi dan akurasi, menunjukkan bahwa
metode yang diusulkan memiliki efisiensi dan akurasi yang lebih baik [8].
Penelitian keempat, yaitu mengenai klasifikasi data log geofisik dengan
menggunakan self-organizing map neural network (SOM). Kemudian hasil
klasifikasi dibandingkan dengan algoritma feed-forward neural network (FFNN)
dan menunjukkan bahwa SOM memiliki kinerja yang baik, sebanding dengan
algoritma feed-forward neural network (FFNN) dengan rata-rata akurasi 77.6 %
[14].
Berdasarkan pemaparan dari penelitian sebelumnya, maka dirancang sebuah
sistem untuk pencarian motif sekuens DNA untuk identifikasi penyakit dengan
algoritma self organizing neural network. Dengan demikian, dapat membantu
men-discover pola sekuens DNA dan kaitannya dengan suatu penyakit.
Menggunakan neural network karena merupakan metode yang handal dalam hal
self-learning dan klasifikasi [8]. Self organizing neural network sendiri tergolong
pembelajaran tak terbimbing (unsupervised) yang lebih handal jika dibandingkan
dengan analisis kluster tradisional [15: 11780] [16: 90-91]. Self organizing neural
network (SOM) juga merupakan algoritma clustering yang menyediakan topologi
yang bisa digunakan untuk ekstraksi fitur dan task visualisasi data [16: 90-91].
3
Sistem ini mengolah sebuah sekuens DNA dan mengidentifikasi berdasarkan
kaitannya dengan penyakit.
1.2. Rumusan Masalah
Berdasarkan latar belakang, maka rumusan masalah yang bisa dikaji, adalah
sebagai berikut :
1. Bagaimana merancang sistem untuk pencarian motif DNA dan identifikasi
kaitannya dengan penyakit?
2. Bagaiman implementasi sistem dengan mengkombinasikan pola sekuensial
(sequential pattern) dan self organizing neural network ?
3. Bagaimana hasil pengujian menggunakan parameter akurasi dari sistem
dengan pendekatan yang dilakukan ?
1.3. Batasan Masalah
Dari permasalahan yang dirumuskan di atas, maka batasan permasalahan
yang digunakan adalah sebagai berikut :
1. Data untuk sekuens DNA yang digunakan sebagai data penelitian diperoleh
dari website http://www.ncbi.nlm.nih.gov.
2. Untuk penyakit yang digunakan dalam penelitian ini yaitu penyakit kanker
payudara (breast cancer).
3. Untuk spesies yang diteliti dalam penelitian ini adalah jenis homo sapiens
(manusia).
4. Jenis DNA yang digunakan yaitu gen P53 atau TP53.
1.4. Tujuan Penelitian
Tujuan dari penelitian ini dipaparkan sebagai berikut :
1. Merancang dan mengimplementasikan sistem pencarian motif DNA untuk
membantu peneliti dalam mendiagnosa penyakit terkait dengan sekuens
DNA.
2. Menggali pengetahuan dari suatu sekuens DNA yang merepresentasikan
suatu motif atau pola dan kaitannya dengan penyakit.
4
3. Menguji bagaimana tingkat akurasi yang dihasilkan dengan pendekatan yang
dilakukan.
1.5. Manfaat Penelitian
Manfaat dari penelitian ini dipaparkan sebagai berikut :
1.5.1. Bagi Penulis
1. Dapat lebih memahami mengenai implementasi sequence mining dan neural
network dalam pencarian pola sekuens DNA dan kaitannya dengan penyakit.
2. Dapat mengaplikasikan bidang keilmuan yang telah didapat, khususnya
mengenai data mining dan jaringan syaraf tiruan.
1.5.2. Bagi Pengguna
1. Memudahkan untuk men-discover pola pada sekuens DNA dan kaitannya
dengan penyakit.
2. Memudahkan pengguna, khususnya peneliti untuk melakukan analis
terhadap data sekuens DNA.
1.6. Sistematika Penulisan
Untuk mencapai tujuan yang diharapkan, sistematika penulisan disusun
sebagai berikut :
BAB I PENDAHULUAN
Bab pendahuluan berisi tentang latar belakang, rumusan masalah, batasan
masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.
BAB II TINJUAN PUSTAKA
Tinjauan pustaka menjelaskan mengenai kajian pustaka terkait dengan penelitian
yang telah ada sebelumnya. Kemudian dasar teori yang diperlukan guna
mendukung penelitian yang dilakukan. Dasar teori yang diperlukan adalah data
mining, neural network, dan beberapa dasar teori mengenai DNA.
BAB III METODOLOGI PENELITIAN
Metodologi penelitian membahas tentang metode yang digunakan untuk
perancangan sistem dan langkah kerja yang dilakukan dalam penelitian.
5
BAB IV PERANCANGAN
Membahas mengenai perancangan sistem pencarian motif sekuens DNA untuk
identifikasi penyakit dengan menggunakan algoritma self organzing neural
network.
BAB V IMPLEMENTASI SISTEM
Membahas bagaimana implementasi sistem pencarian motif sekuens DNA untuk
identifikasi penyakit dengan menggunakan algoritma self organzing neural
network.
BAB VI PENGUJIAN DAN ANALISIS
Membahas mengenai skenario pengujian yang dilakukan dengan parameter
akurasi pada sistem. Kemudian mengenai analisis terhadap hasil pengujian dan
hipotesis awal.
BAB VII PENUTUP
Memuat kesimpulan yang diperoleh dari awal sampai pengujian serta saran-saran
untuk pengembangan penelitian lebih lanjut.
1.7. Rencana dan Jadwal Penelitian
Berikut merupakan rencana dan jadwal penelitian yang akan dilakukan :
No Uraian KegiatanBulan
1 2 3 4 5 6
1 Studi Literatur
2 Pengumpulan Data
3 Perancangan dan Analisis Sistem
4 Implementasi Sistem
5 Pengujian Sistem
6 Analisis dan Evaluasi
7 Penyusunan Laporan
Tabel 1.1 Rencana Jadwal Penelitian
6
BAB II
TINJAUAN PUSTAKA
Tinjauan Pustaka terdiri atas kajian pustaka dan dasar teori. Kajian pustaka
membahas mengenai penelitian yang sudah dilakukan sebelumnya dan yang akan
diusulkan untuk penelitian selanjutnya. Dasar teori membahas mengenai teori yang
diperlukan guna mendukung penelitian yang dilakukan.
2.1. Kajian Pustaka
Pada penelitian sebelumnya, diusulkan algoritma yang mengkombinasikan
model Back-Propagation Neural Network (BPNN) dan sequential pattern mining
untuk permasalahan model prediksi krisis suatu korporasi. BPNN digunakan
dalam mekanisme klasifikasi, sedangkan sequential pattern mining digunakan
untuk mendapatkan pola-pola prediksi. BPNN diperkenalkan oleh Rumelhart dan
McClelland pada tahun 1986. Dalam suatu neural network, terdapat 3 lapisan,
yaitu lapisan input, lapisan tersembunyi (hidden layer), dan lapisan output. Dalam
proses sequential mining, digunakanlah BSA (Binary Sequence Analysis).
Berdasarkan hasil uji, kombinasi algoritma tersebut menghasilkan rata-rata
akurasi BPNN dalam proses klasifikasi sekitar 73.75%, sedangkan untuk
kebenaran dari hasil prediksi sekitar 73.76% [6].
Kemudian, penggunaan neural network juga digunakan untuk
mengklasifikasikan data trayektori dengan mengkombinasikan pencarian pola
sekuensial (sequential pattern mining) untuk mengenali perilaku dari urutan
informasi trayektori dalam road network. Berdasarkan hasil uji yang dilakukan
dengan menggunakan 2 parameter, yaitu efisiensi dan akurasi, menunjukkan
bahwa metode yang diusulkan memiliki efisiensi dan akurasi yang lebih baik [8].
Ahmed Amara dkk. Juga melakukan penelitian mengenai klasifikasi data log
geofisik dengan menggunakan self-organizing map neural network (SOM).
Kemudian hasil klasifikasi dibandingkan dengan algoritma feed-forward neural
network (FFNN). Berdasarkan hasil uji yang dilakukan, menunjukkan bahwa
7
SOM memiliki kinerja yang baik, sebanding dengan algoritma feed-forward
neural network (FFNN) dengan rata-rata akurasi 77.6 % [14].
Untuk aplikasi neural network terkait biological sequencing, diterapkan self-
organizing neural network untuk mengidentifikasi motif pada sekuens DNA dan
deteksi sinyal subtle. Terdapat mekanisme yang dilakukan seperti subsequence
dan encoding terhadap sekuens DNA atau protein. Kemudian pengujian dilakukan
pada sampel sekuens DNA dengan panjang tertentu dan menunjukkan bahwa self-
organizing neural network handal untuk mengidentifikasi motif pada sekuens
DNA dan protein [7] [21]. Dalam proposal ini, penulis mengusulkan sebuah
gagasan untuk mengembangkan pendekatan neural network untuk menangani
biological sequencing. Dalam penelitian kali ini, diusulkan suatu pendekatan self-
organzing neural network untuk pencarian motif sekuens DNA dan kaitannya
dengan identifikasi suatu penyakit.
Berikut juga disajikan beberapa aplikasi neural network lainnya terkait
biological sequencing, seperti algoritma plausible neural network (PNN) untuk
prediksi batas exon/intron [17]. Kemudian, penerapan Back-Propagation (BP)
neural network untuk menangani task klasifikasi sekuens DNA [5], klasifikasi
sekuens protein [18], dan prediksi struktur protein [19].
2.2. Biologi Molekuler
Dalam keanekaragaman makhluk hidup, yang mendasari rincian molekuler
yang mendasarinya hampir universal. Semua organisme tergantung pada aktifitas
dari protein, sebuah molekul kompleks yang terdiri dari struktural utama dan
fungsional dari sel. Asam nukleat, yaitu deoxyribonucleic acid (DNA) dan
ribonucleic acid (RNA) merupakan molekul yang ditemukan di setiap organisme
yang berperan sebagai pembawa kode kehidupan [1: 43-44].
Urutan protein dan asam nukleat biasanya direpresentasikan dengan String
dari simbol yang berbeda untuk setiap monomer. Protein dibentuk dengan
kombinasi dari dua puluh asam amino, sedangkan asam nukleat dibentuk dari
kombinasi linear dari empat nukleotida [1: 43-44][21][9: 138-139]. Setiap
nukleotida mengacu pada basa nitrogen di dalamya. Dalam DNA terdapat 4
macam basa nitrogen yang ditemukan, yaitu Adenin (A), Sitosin (C), Guanine
8
(G), atau Timin (T). Dalam molekul RNA, timin digantikan Urasil (U). DNA
terdiri dari dua jenis rangkaian, yaitu rangkaian panjang tak berpilin (single helix)
dan rangkaian panjang berpilin (double helix) [1: 43-44][21][9: 138-139], seperti
pada Gambar 2.1 berikut :
Gambar 2.1 Struktur DNA
Pada DNA double helix, DNA berbentuk rantai panjang, ganda, termasuk dua
rantai yang saling melengkapi, dimana tiap A dari satu rantai mengikat T dan tiap
C dari satu rantai mengikat G. DNA merupakan materi genetik pada setiap
organisme [1: 43-44][9 :138-139]. Sebuah genom didefinisikan sebagai materi
genetik yang lengkap dari sebuah organisme. Ukuran genom biasanya
direpresentasikan sebagai jumlah keseluruhan dari pasangan basa [9: 138-139].
Data berupa urutan genom dapat digunakan oleh banyak peneliti, utamanya
di bidang data mining dan bioinformatika untuk membantu para ahli biologi
dalam mengidentifikasi regulatori elemen gen, menemukan hubungan antara gen
dan protein, memahami fungsi gen, serta pada akhirnya memahami mekanisme
yang mengatur ekspresi gen dan fungsi dari jaringan secara keseluruhan dengan
menggunakan urutan data biologis (biological sequences) [10]. Pada urutan data
biologis terdapat pola atau trend yang tersembunyi yang didalamnya terdapat
9
banyak pengetahuan (knowledge) yang merepresentasikan hal yang berguna,
seperti penyakit.
2.3. Intron
Intron adalah setiap urutan nukleotida dalam gen yang dihapus oleh RNA
splicing selama pematangan produk RNA akhir. [1] [2] Kata Intron merujuk pada
urutan DNA dalam gen dan urutan yang bersesuaian dalam transkrip RNA. [3]
Urutan yang tergabung dalam RNA matang setelah RNA splicing adalah ekson.
Intron ditemukan dalam gen dari sebagian besar organisme dan banyak virus, dan
dapat ditemukan di berbagai gen, termasuk yang menghasilkan protein, RNA
ribosom (rRNA), dan RNA transfer (tRNA). Ketika protein yang dihasilkan dari
gen yang mengandung intron, RNA splicing terjadi pada bagian pengolahan RNA
yang mengikuti transkripsi dan mendahului translasi.
Kata intron berasal dari istilah daerah intragenik, yaitu suatu daerah di dalam
gen. Meskipun intron kadang-kadang disebut intervening sequence, istilah "
intervening sequence " dapat merujuk ke salah satu dari beberapa keluarga dari
sekuens asam nukleat internal yang tidak ada dalam produk gen akhir, termasuk di
dalamnya inteins, untranslated sequences (UTR), dan nukleotida yang dihapus
selama RNA editing, selain intron.
Panjang dan ukuran intron berbeda pula pada satu spesies yang sama dan
berbeda pada gen yang berbeda dalam satu individu. Intron sering ditemukan
dalam genome eukariotik dalam pasangan AU atau AC.
Intron terdiri dari 4 kelas : intron inti, intro grup I, intron grup II dan intron
grup III. Intron inti, atau disebut pula splisiomal intron merupakan bagian intron
yang diputus oleh spliceosome. Ada beberapa rangkaian khusus yang mendukung
proses identifikasi pemutusan (spalacing) oleh intron ini. Intron I, II dan III
merupakan inton yang dengan tanpa spleceosom dalam prosesi splacing dari pre
mRNA. Intron I melakukan spacing dengan bantuan nukleosida guanine bebas.
Intron grop II dan III proses pemutusan melalui lintasan Lariat, yang mempunyai
fungsi yang sama dengan spleceosome, yang kemungkinan merupakan hasil dari
evolusi spliceosome.
Ada dua hipotesis mengenai mengapa intron terbentuk [11] :
10
1. Intron- Early (IE), Pada awalnya intron banyak ditemukan pada organism
purba/awal prokariotik maupun eukariotik. Kemudian intron menghilang
pada organism prokariotik disebabkan untuk efesiensi kelangsungan
hidupnya. Fakta yang menjadi dasar teori ini adalah intron memfasilitasi
exon sebagai domain dalam pembentukan potein. Model ini
memungkinkan adanya evolusi gen baru.
2. Intron-Late (IL). Pada awalnya intron berupa parasit yang memiliki gen
yang disebut transposable elemen. Gen ini masuk pada organism yang
tidak memiliki intron kemudian terakmulasi sehingga terbentuk dalam
rangkain DNA yang ditranskripsi sebagai intron. Model ini didasarkan
pada adanya speciomal intron yang ditemui hanya pada organism
eukariotik.
Intron mempunyai fungsi diantaranya :
1. Fungsi intron adalah mengatur aktivitas gen mengatur gen dalam setiap
tahap pertumbuhan dan perkembangan suatu organism dan kebutuhan
biologis sesaat melalui kontrol ekpresi gen. Intron inti bisa bersifat sebagai
katalis dari beberapa reaksi kimia, yang disebut ribozyme. Ribozim
memfasilitasi pemotongan intron dengan sendirinya (self splicing),
sehingga protein yang ditranslasi menjadi hanya protein yang bermanfaat
saja.
2. Struktur stabil yang ada pada intron memungkinkan intron dapat
melindungi pre mRNA dari degradasi enzim.
3. Intron menghasilkan variasi fenotipik dengan mengatur atau memfasilitasi
trasposisi dari exon. Pembuktian hal ini berasal dari kenyataan bahwa
intron berada pada dua batas domain pada molekul DNA, dinamakan Exon
shuffling. Mekanisme ini memungkin adanya variasi kombinasi exon baru.
4. Beberapa intron mempunyai fungsi mengontrol rangkaian proses pada
kromosom X, hal ini penting dalam menentukan jenis kelamin pada
tanaman dan vertebrata. gen Sxl merupakan pengatur utama dalam
penetuan jenis kelamin dan fungsinya adalah mengatur intron yang
dipotong pada mRNA. Gen Sxl menghalagi pemutusan intron pada betina,
sehingga menghentikan betina memproduksi protein fungsional msl-2.
11
Gen msl-2 juga dikontrol oleh dengan memutus intron pada jantan, tidak
pada betina. Jantan tidak memiliki gen Sxl, sehingga proses expresi gen
msl-2 dapat berjalan.
5. Intron tidak mempunyai fungsi dalam proses translasi, tapi mempengaruhi
peran dalam pengaturan sintesis protein. Intron yang tidak terpotong
(unspliced) yang ada dalam mRNA mengakibatkan penyimpangan dalam
expresi gen, contohnya terbentuk sel kanker.
a. Exon
Sebuah ekson adalah setiap sequence nukleotida yang dikodekan oleh gen
yang tetap ada dalam produk RNA matang, dimana intron telah dihapus selama
RNA splicing. Ekson berada di dalam sequence DNA di dalam gen dan sequence
yang sesuai dalam transkrip RNA. Dalam RNA splicing, intron akan dihapus dan
ekson yang kovalen akan bergabung sebagai bagian dari RNA messenger yang
matang.
Daerah ekson berasal dari expressed region dan diciptakan oleh ahli
Biokimia Amerika Walter Gilbert pada tahun 1978: "Gagasan Cistron yang ...
harus diganti dengan daerah unit transkripsi yang akan hilang dari RNA messenger
yang matang - yang disarankan untuk disebut sebagai intron (untuk daerah
intragenik) - bergantian dengan daerah yang akan dinyatakan - ekson "[4]
Definisi ini awalnya dibuat untuk transkrip protein-coding yang disambung
sebelum ditranslasikan. Istilah ekson kemudian muncul dalam sequence rRNA [5]
dan tRNA, [6] dan juga digunakan kemudian untuk molekul RNA yang berasal
dari bagian yang berbeda dari genom yang kemudian diikat oleh trans-splicing.
[7]
Dalam banyak gen, masing-masing ekson mengandung bagian dari Open
Reading Frame (ORF) yang mengkodekan untuk bagian tertentu dari protein
lengkap. Namun, ekson Istilah ini sering disalahgunakan untuk merujuk hanya
pada coding sequence untuk protein akhir. Ini tidak benar, karena banyak ekson
noncoding dikenal dalam gen manusia. [8] [9]
12
Di sebelah kanan adalah diagram dari RNA nuklir heterogen (hnRNA), yang
merupakan transkrip unedited mRNA, atau pre-mRNA. Ekson dapat mencakup
sequence untuk mengkodekan asam amino (merah) dan untranslated sequence
(abu-abu). Sequence yang membentang dan tidak terpakai disebut intron (biru)
dan akan dihapus, dan ekson tersebut akan bergabung bersama untuk membentuk
mRNA fungsional akhir. Notasi 5' dan 3' mengacu pada arah template DNA
dalam kromosom dan digunakan untuk membedakan antara dua daerah belum
diterjemahkan (abu-abu).
Beberapa ekson akan seluruhnya atau bagian dari 5' untranslated regions
(5' UTR) atau 3' translated region (3' UTR) dari masing-masing transkrip.
Untranslated regions penting untuk proses translasi yang efisien dari transkrip
dan untuk mengontrol laju translasi dan separuh transkrip. Selanjutnya, transkrip
yang dibuat dari gen yang sama bisa saja memiliki struktur ekson yang tidak
sama, karena bagian dari mRNA bisa dihilangkan dengan proses alternative
splicing. Beberapa transkrip mRNA memiliki ekson tanpa ORFs dan kadang-
kadang disebut sebagai non-coding RNA.
Exonization adalah penciptaan ekson baru, sebagai hasil dari mutasi pada
sequence intronic. [10] Pesan polycistronic memiliki beberapa ORFs dalam satu
transkrip dan juga memiliki daerah kecil untranslated sequence diantara setiap
ORF.
b. Data Mining
Teknik data mining merupakan salah satu cabang dari artificial intelligence
(AI). Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database atau sering disebut dengan
istilah Knowledge Discovery in Databases (KDD) . Data mining merupakan
proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi pengetahuan potensial (knowledge) dan berguna dalam sebuah data
13
dengan kuantitas besar atau dalam database besar (massive database) [1: 46] [3;
11303] [12].
Operasi data mining menurut sifatnya dibedakan menjadi dua, pertama yaitu
bersifat prediksi (prediction driven) digunakan untuk menjawab pertanyaan apa
dan sesuatu yang bersifat transparan. Kedua yaitu bersifat penemuan dimana
digunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi
database, analisa keterkaitan dan deteksi deviasi [12]. Beberapa teknik data
mining yang banyak dikembangkan, seperti generalisasi, karakterisasi
(characterization), klasifikasi, clustering, asosiasi, evolusi, pattern mining,
visualisasi data, meta-rule, dan sebagainya [1: 46-47][2: 1][3: 11303].
c. Pola Sekuensial
Sekuens DNA dibentuk oleh urutan basa nukleotida dengan panjang
tertentu. Sequential pattern mining sendiri merupakan metode data mining untuk
memperoleh frequent pola sekuensial dalam database sekuens dan pertama kali
diperkenalkan oleh Agrawal dan Srikant pada tahun 1994 [20: 86]. Dalam sekuens
DNA, RNA, ataupun protein terdiri dari pola yang membentuk motif tertentu
yang tidak terbatas [7: 129].
Untuk mengidentifikasi motif dari sejumlah urutan DNA ataupun protein,
terdapat ukuran untuk jumlah maksimum ketidaksesuaian (mismatches) dan
memproyeksikan panjang motif yang dapat ditemukan. Gambar 2.2 menunjukkan
ilustrasi bagaimana beberapa pola input sekuens yang diperoleh dari sekuens
DNA. Sub-sekuens atau proyeksi motif dengan panjang M = 7 dapat membentuk
beberapa pola input dari sekuens DNA dengan panjang W [7: 130].
Sekuens DNA : GAGAATGCTATTC ........ AGTTCGATCCAPola input 1 : GAGAATGPola input 2 : AGAATGCPola input 3 : GAATGCTPola input 4 : AATGCTA............Pola input (W-M+1) : CGATCCA
Gambar 2.2 Ilustrasi sub-sekuens pada sekuens DNA
Sumber : [7: 130]
14
Kemudian, istilah n-Gram yang didefinisikan sebagai sebuah subsequence
atau substring dengan panjang n karakter dari sebuah string S. Diberikan sebuah
sekuens S = (s1, s2, …, sN+(n-1)) dari huruf A, yang mana N dan n bilangan bulat
positif. Setiap subsequence dengan panjang n merupakan n-gram dari sekuens S
[9: 138].
d. Jaringan Syaraf Tiruan
Neural network dalam teknik data mining merupakan istilah yang digunakan
untuk merujuk pada jaringan syaraf tiruan yang menyerupai jaringan syaraf secara
biologis. Neural network terdiri dari neuron buatan atau node, serta sinyal atau
isyarat yang mengalir diantara neuron tersebut [3: 11304][13:3]. Jaringan syaraf
tiruan (neural network) dapat menciptakan sendiri representasi melalui pengaturan
diri sendiri atau kemampuan belajar (self-organizing) [7][21].
Selama proses pembelajaran (learning), jaringan memerlukan sejumlah
pemetaan asosiatif untuk mengamati urutan data record dan menyesuaikan
kekuatan sinapsis (bobot), sehingga input akan mengarah ke output target
(Gambar 2.3). Pada proses pembelajaran, jaringan dapat belajar secara terbimbing
(supervised) dan tak terbimbing (unsupervised).
Gambar 2.3 Struktur Unit Jaringan Syaraf Tiruan
Sumber : [13: 3]
Kemudian, fungsi aktivasi (f) yang digunakan dalam jaringan syaraf tiruan,
disajikan dalam Tabel 2.1. berikut :
Neuron dengan bias
bias
fΣp
1
w n aKeluaran (output)
a = f(wp + b)
Masukan (input)
15
16
Fungsi Aktivasi
Nama Formula
Identitas f ( x )=x
Sigmoid f ( x )= 1
1+e− x
Tanh f ( x )= ex−e−x
ex+e−x
Undak (Step)
bipolarf ( x )={−1 jika x<0
1 jika x ≥ 0
Undak (Step)
binerf ( x )={0 jika x<0
1 ji ka x ≥ 0
Tabel 2.1 Fungsi Aktivasi
Sumber : [13: 3]
e. Self-Organizing Neural Network
Self organizing neural network merupakan jaringan syaraf tiruan yang
strukturnya mengalami perubahan selama proses learning berdasarkan data yang
diamati. Self organizing neural network dibagi ke dalam beberapa kelompok,
salah satunya self organizing map (SOM) [13:10]. SOM telah banyak digunakan
sebagai pendekatan untuk task clustering di banyak area, termasuk juga genomik.
Beberapa aplikasi SOM dalam area genomik, diantaranya untuk men-discover
pola ekspresi gen [13:10], prediksi motif DNA [24], dan identifikasi motif
sekuens protein dengan insersi dan delesi [21]. Kemudian, dalam bidang lain,
SOM juga digunakan untuk memprediksi beban listrik dan juga peramalan harga
[25]; analisis dan visualisasi situasi keuangan dari suatu perusahaan [26].
Self organizing map (SOM) atau sering disebut dengan jaringan Kohonen
merupakan salah satu teknik dalam jaringan syaraf tiruan untuk task clustering
dan visualisasi yang dikembangkan oleh Prof. Kohonen [25:84] [26:386]. Dalam
proses learning, SOM tergolong pembelajaran tak terbimbing (unsupervised).
Pada metode ini, penyesuain bobot sebagai tanggapan terhadap input dan tidak
disertai sasaran atau target. Dalam proses pembelajaran tak terbimbing, jaringan
mengklasifikasikan pola-pola yang ada bedasarkan derajat kemiripan (similarity)
[7] [14:39] [15:11774] [16:90-91] [26:386]. Tugas pembelajaran SOM, yaitu
17
untuk menyesuaikan parameter bobot dan memungkinkan neuron yang berdekatan
untuk menandai posisi tetangga pada ruang input, sehingga membentuk peta
topologi dari ruang input [24:604]. Pada SOM, node atau neuron dapat disusun
dalam berbagai topologi, yaitu rectangular, hexagonal, ataupun bentuk irregular
[24:604] [25:86].
Arsitektur dari SOM ditunjukkan dalam Gambar. 2.4. Jaringan SOM terdiri
dari dua lapisan neuron, yaitu lapisan neuron input (X1, X2, ..., Xn) dan lapisan
neuron output (Y1, Y2, ..., Ym). Neuron input terhubung secara penuh dengan
bobot Wij ke neuron output. Neuron output menunjukkan jumlah cluster yang
akan dibentuk [14:41] [15:11774] [22:2290].
Gambar 2.4 Struktur Self-Organizing Map (SOM)
Sumber : [14: 42]
Proses pembelajaran (learning) pada SOM dijelaskan sebagai berikut [7]
[14:43] [22:2290] [26:388] :
1. Inisialisasi bobot wij , tentukan topologi pada SOM,
Tentukan parameter learning rate (α).
2. Siapkan vektor input x dari data training.
3. Tentukan neuron output j apakah dekat atau memiliki kemiripan dengan
vektor x.
d j=min {∑i
❑
|w ij−xi|} ................................................. (Persamaan 2-1)
18
Untuk menghitung jarak atau kemiripan bisa digunakan berbagai fungsi,
seperti Euclidean [16] dan Manhattan distance [14] [26] [7].
19
4. Update vektor bobot untuk semua neuron output j dalam daereh sekitar j.
w ij (new )=w ij (old )+α [x i−wij (old )] ....................... (Persamaan 2-2)
Jika menggunakan topologi, maka persamaan update vektor bobot :
w ij (new )=w ij (old )+α ht ,r [x i−wij (old)] ; dimana ht ,rmerupakan fungsi
ketetanggaan (neighborhood) berdasarkan jarak topologi yang digunakan
antara output neuron j dan neuron j*r [14: 41].
5. Cek kondisi untuk berhenti.
20
BAB III
METODOLOGI PENELITIAN
Metodologi penelitian membahas tentang metode dan perancangan yang
diterapkan dalam pembuatan sistem Pencarian Motif Sekuens DNA untuk
Identifikasi Penyakit dengan self organizing neural network. Langkah-langkah
yang akan dilakukan dalam penelitian ini, yaitu :
1. Melakukan studi literatur yang berkaitan dengan sekuens DNA dan metode
self organizing neural network.
2. Melakukan pengumpulan data sekuens DNA.
3. Melakukan analisis dan perancangan sistem pencarian motif sekuens DNA
untuk identifikasi penyakit.
4. Implementasi dalam bentuk program berdasarkan analisis dan perancangan
yang telah dilakukan.
5. Melakukan serangkaian skenario pengujian terhadap sistem.
6. Melakukan evaluasi terhadap hasil pengujian dan tingkat keberhasilan sistem.
Alur metodologi penelitian ditunjukkan pada Gambar 3.1.
21
Gambar 3.1 Diagram Alir Penelitian
Sumber : Perancangan
3.1. Studi Literatur
Studi literatur merupakan proses mempelajari literatur-literatur yang
berkaitan dengan pembuatan sistem. Literatur dapat berupa buku, jurnal penelitian
terkait, ataupun internet. Beberapa bidang yang berkaitan dengan pembuatan
sistem antara lain : Data mining, sequence pattern mining, neural network,
biological sequencing, dan mengenai DNA gen p53.
3.2. Data Penelitian
Data yang digunakan dalam penelitian kali ini merupakan data sekunder
yang didapatkan dari bank database DNA yang disediakan di internet, dapat
22
diperoleh dari website dari website http://www.ncbi.nlm.nih.gov. Data yang
digunakan yaitu data DNA gen p53 pada manusia (homo sapiens).
Gambar 3.2 Sekuens DNA gen p53
Sumber : [www.ncbi.nlm.nih.gov]
3.3. Analisis dan Perancangan Sistem
Pada analisis sistem dilakukan analisis proses yang menjelaskan mengenai
proses atau gambaran umum sistem bagaimana sistem akan bekerja menggunakan
algoritma yang diusulkan.
3.3.1. Deskripsi Umum Sistem
Sistem pencarian motif sekuens DNA ini dibangun untuk mengidentifikasi
sekuens DNA kaitannya dengan suatu penyakit. Pada urutan data biologis, seperti
sekuens DNA terdapat pola atau trend yang tersembunyi yang didalamnya
terdapat banyak pengetahuan (knowledge) yang merepresentasikan hal yang
berguna, seperti penyakit yang akan dibahas pada penelitian kali ini. Algoritma
self-organizing neural network digunakan untuk mengelompokkan data sekuens
DNA berdasarkan kaitannya dengan penyakit. Algoritma self-organizing neural
network juga merupakan algoritma yang digunakan untuk task visualisasi data.
Deskripsi umum sistem digambarkan pada blok diagram berikut :
23
Gambar 3.3 Diagram Blok Sistem
Sumber : Perancangan
3.3.2. Perancangan Proses
Arsitektur jaringan self organizing neural network (SOM) yang digunakan
ditunjukkan pada Gambar 3.4 berikut :
Gambar 3.4 Arsitektur jaringan self organizing neural network (SOM)
Sumber : Perancangan
Arsitektur dari jaringan SOM terdiri dari dua lapisan neuron, yaitu lapisan neuron
input (X1, X2, ..., Xn) dan lapisan neuron output (Y1, Y2, ..., Ym). Neuron input
terhubung secara penuh dengan bobot Wij ke neuron output. Neuron output
menunjukkan jumlah cluster yang akan dibentuk.
Data sekuens DNA yang diperoleh, sebelum diproses pada jaringan SOM,
data sekuens di preprocessing terlebih dahulu untuk ekstraksi fitur. Tahapan
. . . . . .
W11
W1j
Wn1 W1m
Wnm
Wnj
Wij
WimWi1
Y1YmYj
. . . . . .
X1 XnXi
Layer Input
Layer Output
24
preprocessing meliputi sub-sequence dan pengkodean (encoding). Untuk tahapan
sub-sequence untuk memperoleh pola input ditunjukkan pada Gambar 3.5 berikut:
Sekuens DNA : GAGAATGCTATTC ........ AGTTCGATCCAPola input 1 GAGAATGPola input 2 AGAATGCPola input 3 GAATGCTPola input 4 AATGCTA...... ......... ...Pola input (W-M+1) CGATCCA
Gambar 3.5 Tahapan sub-sekuens pada sekuens DNA
Sumber : Perancangan
Sub-sekuens atau proyeksi motif dengan panjang M = 7 dapat membentuk
beberapa pola input dari sekuens DNA dengan panjang W. Setelah didapatkan
pola input, kemudian dilakukan pengkodean (encoding) pada pola input agar bisa
diolah pada jaringan SOM. Secara keseluruhan, alur proses sistem ditunjukkan
pada diagram alir berikut (Gambar 3.6) :
Gambar 3.6 Diagram Alir Sistem
Sumber : Perancangan
25
Kemudian untuk tahapan clustering jaringan SOM ditunjukkan pada diagram alir berikut (Gambar 3.7).
Gambar 3.7 Diagram Alir Clustering SOM
Sumber : Perancangan
3.4. Implementasi Sistem
Pada tahap implementasi sistem, dilakukan dengan mengacu pada analisis
dan perancangan yang dilakukan. Kemudian untuk lingkungan impelementasi
26
yang akan digunakan meliputi lingkungan perangkat keras dan perangkat lunak.
Implementasi sistem akan dilakukan dengan menggunakan bahasa pemrogaman
Java dan perangkat pendukung lainnya. Implementasi dari sistem meliputi sebagai
berikut :
1. Pembuatan antarmuka pengguna.
2. Memasukkan data penelitian untuk diolah pada sistem.
3. Penerapan algoritma self organizing neural network (SOM) untuk
mengelompokkan data sekuens DNA dan sistem akan menghasilkan
keluaran berupa cluster sekuens DNA berdasarkan identifikasi penyakit.
3.5. Pengujian Sistem
Pengujian sistem dilakukan dengan beberapa skenario pengujian untuk
mengetahui kinerja sistem serta kesesuaian sistem dengan tujuan yang telah
ditetapkan. Pengujian sistem dilakukan dengan cara membandingkan hasil
clustering sekuens DNA berdasarkan penyakit dengan sekuens DNA yang
sebenarnya. Terdapat dua skenario pengujian, yaitu proses untuk mengetahui
pengaruh learning rate (α) dan pengaruh topologi jaringan terhadap akurasi yang
dihasilkan.
Dari perbandingan itulah, diperoleh akurasi sistem sebagai acuan
keberhasilan sistem untuk menangani task pencarian motif pada sekuens DNA.
Kemudian evaluasi dilakukan terhadap tingkat keberhasilan sistem dan analisis
terhadap hasil pengujian.
3.5.1. Uji Pengaruh Learning Rate (α)
Uji pengaruh learning rate (α) merupakan proses pengujian yang dilakukan
dengan beberapa nilai learning rate (α) antara 0,1 – 0,9. Tujuannya yaitu untuk
membandingkan nilai learning rate yang akan digunakan dengan mengambil nilai
learning rate yang menghasilkan akurasi terbaik. Tabel 3.1 menggambarkan
rancangan tabel pengaruh learning rate terhadap akurasi.
27
Akurasi
%
Learning rate (α)
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Tabel 3.1 Uji Pengaruh Learning Rate (α)
Sumber : Perancangan
3.5.2. Uji Pengaruh Topologi Jaringan
Uji pengaruh topologi jaringan merupakan proses pengujian yang dilakukan
untuk membandingkan jenis topologi jaringan yang digunakan baik terhadap
akurasi data maupun visualisasi data yang dihasilkan. Topologi yang digunakan,
yaitu bentuk linear, rectangular dan hexagonal.
3.6. Kesimpulan dan Saran
Pengambilan kesimpulan dilakukan setelah semua tahapan mulai dari
perancangan sampai pengujian selesai dilakukan. Kesimpulan didasarkan pada
hasil pengujian sistem dan analisa metode terhadap hasil pengujian. Selanjutnya,
saran-saran yang dapat diberikan untuk memperbaiki kesalahan pada penelitian
yang telah dilakukan serta pengembangan penelitian lebih lanjut.
28
DAFTAR PUSTAKA
x
[1] Lubert Stryer, Jeremy Mark Berg, and John L Tymoczko, Biochemistry. San Fransisco: W.H. Freeman, 2007.
[2] Alan Kinniburgh, J Mertz, and J Ross, "The precursor of mouse β-globin messenger RNA contains two intervening RNA sequences," Cell, pp. 681-693, 1978.
[3] Bruce Alberts, Molecular biology of the cell. New York: Garland Science, 2008.
[4] Gilbert W, "Why Genes in pieces?," Nature, vol. 271, p. 501, February 1978.
[5] Kister KP and Eckert WA, "Characterization of an authentic intermediate in the self-splicing process of ribosomal precursor RNA in macronuclei of Tetrahymena thermophila," Nucleic Acid Research, vol. 15, no. 5, p. 20, March 1905.
[6] Valenzuela P, Venegas A, Weinberg F, Bishop R, and Rutter WJ, "Structure of yeast phenylalanine-tRNA genes: an intervening DNA segment within the region coding for the tRNA," Proceedings of the National Academy of Sciences of the United States of America, vol. 75, no. 1, p. 4, January 1978.
[7] Liu AY, Van Der Ploeg LH, Rijsewijk FA, and Borst P, "The transposition unit of variant surface glycoprotein gene 118 of Trypanosoma brucei. Presence of repeated elements at its border and absence of promoter-associated sequences," Journal of Molecular Biology, vol. 167, no. 1, pp. 57-75, June 1983.
[8] MQ Zhang, "Statistical features of human exons and their flanking regions," Human Molecular Genetics, vol. 7, no. 5, p. 919, May 1998.
[9] XH Zhang, KA Heller, I Hefter, CS Leslie, and LA Chasin, "Sequence information for the splicing of human pre-mRNA identified by support vector machine classification.," Genome Research, vol. 13, no. 12, p. 50, December 2003.
[10] Sorek R, "The birth of new exons: mechanisms and evolutionary consequences," RNA, vol. 13, no. 10, p. 8, October 2007.
[11] Jerry Bergman, "The Functions of Introns: From Junk DNA to Designed DNA," Perspectives on Science and Christian Faith, vol. 53, no. 3, pp. 23-34, 2001.
x