Laporan KKNP

LAPORAN KULIAH KERJA NYATA – PRAKTIK

PADA LABORATORIUM BIOKOMPUTASI FMIPA - UB

PENCARIAN MOTIF SEKUENS DNA UNTUK IDENTIFIKASI

PENYAKIT DENGAN SELF ORGANZING NEURAL NETWORK

Disusun oleh :

AHMAD NUR ROYYAN 125150200111043

GHENNIY RACHMANSYAH 125150201111040

ABDURROHMAN HIDAYAT 125150201111075

PROGRAM STUDI INFORMATIKA/ILMU KOMPUTER

PROGRAM TEKNOLOGI INFORMASI DAN ILMU KOMPUTER

UNIVERSITAS BRAWIJAYA

2015

i

LEMBAR PENGESAHAN

LAPORAN KERJA PRAKTIK




Laporan ini dibuat sebagai hasil kerja praktik

yang telah dilaksanakan di:

LABORATORIUM BIOKOMPUTASI FAKULTAS MIPA - UB

Tanggal :

29 juni 2015 – 29 Juli 2015

Telah diperiksa dan disetujui oleh

Pihak Laboratorium Biokomputasi FMIPA-UB :

Pembimbing Kerja Praktik

Widodo, S.Si., M.Si., Ph.D.Med. Sc

ii

LEMBAR PENGESAHAN

LAPORAN KERJA PRAKTIK




Laporan ini diajukan untuk memenuhi sebagian persyaratan kurikulum

Program Studi Informatika

Program Teknologi Informasi dan Ilmu Komputer

Universitas Brawijaya

Dilaksanakan di :

LABORATORIUM BIOKOMPUTASI FAKULTAS MIPA - UB

Tanggal :

29 juni 2015 – 29 Juli 2015

Telah diketahui dan disetujui oleh:

Ketua Program Studi Informatika Dosen Pembimbing

Drs. Marji, MT. Lailil Muflikhah, S.Kom, M.Sc

NIP 19670801 199203 1001 NIP. 19741113 200501 2 001

iii

KATA PENGANTAR

Puji syukur kehadirat Allah SWT yang telah memberikan rahmat, taufik,

dan hidayahnya sehingga kami dapat menyelesaikan karya tulis ilmiah ini dengan

baik. Adapun laporan Kuliah Kerja Nyata Praktik (KKN-P) yang kami buat ini

berjudul …………………………………………………………

Penulis mengucapkan terimakasih kepada pihak-pihak yang telah

membantu dalam menyelesaikan kegiatan ini, antara lain:

1. Ibu, Bapak dan seluruh keluarga atas segenap dukungan dan kasih saying

yang diberikan.

2. Ibu Lailil Muflikhah, S.Kom, M.Sc selaku dosen pembimbing yang telah

menyediakan waktu untuk konsultasi mengenai pelaksanaan kegiatan

KKN-P.

3. Bapak Drs. Marji, MT selaku Ketua Program Studi Informatika Program

Teknologi Informasi dan Ilmu Komputer (PTIIK) Universitas Brawijaya.

4. Bapak Issa Arwani, S.Kom., M.Sc selaku Sekretaris Program Studi

Informatika Program Teknologi Informasi dan Ilmu Komputer (PTIIK)

Universitas Brawijaya.

5. Teman-teman yang telah memberikan semangat dan dukungan.

Penulis menyadari, dalam proposal ini masih banyak terdapat kesalahan,

baik dari segi penulisan, penyusunan, maupun isi dari proposal. Oleh sebab itu,

penulis dengan terbuka menerima semua kritik dan saran yang membangun

sebagai bekal dan pengalaman sebagai pedoman perbaikan.

Malang, 29 Agustus 2015

Penyusun,

iv

DAFTAR ISI

LEMBAR PENGESAHAN................................................................................................ii

KATA PENGANTAR.......................................................................................................iv

DAFTAR ISI......................................................................................................................v

DAFTAR GAMBAR........................................................................................................vii

DAFTAR TABEL...........................................................................................................viii

BAB I PENDAHULUAN..................................................................................................1

1.1. Latar Belakang.....................................................................................................1

1.2. Rumusan Masalah...............................................................................................3

1.3. Batasan Masalah..................................................................................................3

1.4. Tujuan Penelitian.................................................................................................3

1.5. Manfaat Penelitian...............................................................................................4

1.6. Sistematika Penulisan..........................................................................................4

1.7. Rencana dan Jadwal Penelitian............................................................................5

BAB II TINJAUAN PUSTAKA........................................................................................6

2.1. Kajian Pustaka.....................................................................................................6

2.2. Biologi Molekuler...............................................................................................7

2.3. Sekuens DNA dan Penyakit.................................................................................9

2.4. Data Mining.........................................................................................................9

2.5. Pola Sekuensial..................................................................................................10

2.6. Jaringan Syaraf Tiruan.......................................................................................11

2.7. Self-Organizing Neural Network.......................................................................12

BAB III METODOLOGI PENELITIAN.........................................................................15

3.1. Studi Literatur....................................................................................................16

3.2. Data Penelitian...................................................................................................16

v

3.3. Analisis dan Perancangan Sistem......................................................................17

3.4. Implementasi Sistem..........................................................................................20

3.5. Pengujian Sistem...............................................................................................21

3.6. Kesimpulan dan Saran.......................................................................................22

DAFTAR PUSTAKA..............................................................................................23

vi

DAFTAR GAMBAR

Gambar 2.1 Struktur DNA8

Gambar 2.2 Ilustrasi sub-sekuens DNA10

Gambar 2.3 Struktur Unit Jaringan Syaraf Tiruan11

Gambar 2.4 Struktur Self-Organizing Map (SOM)13

Gambar 3.1 Diagram Alir Penelitian16

Gambar 3.2 Sekuens DNA gen p5317

Gambar 3.3 Diagram blok sistem18

Gambar 3.4 Arsitektur jaringan self organizing neural network (SOM)18

Gambar 3.5 Tahapan sub-sekuens pada sekuens DNAGambar 3.6 Diagram Alir Sistem

19

Gambar 3.7 Diagram Alir Clustering SOM20

vii

DAFTAR TABEL

Tabel 1.1 Rencana Jadwal Penelitian

Tabel 2.1 Fungsi AktivasiTabel 3.1 Uji Pengaruh Learning Rate (α)

viii

BAB I

PENDAHULUAN

1.1. Latar Belakang

Pengumpulan data maupun analisis data berlangsung sejak waktu yang

lama. Kemajuan teknologi memungkinkan untuk mengantarkan banyak

eksperimen dalam skala yang besar, hal ini juga berlaku pada koleksi data biologi

dan medis yang mengalami peningkatan yang signifikan. Evolusi bioinformatika

muncul seiring dengan adanya ledakan pertumbuhan data di bidang biologi [1: 42-

43, 44][2: 1]. Dalam bioinformatika, digunakan teknologi komputasional dan juga

pemrosesan data (data processing) untuk membantu menangani proses komputasi

dan mengambil alih dalam proses knowledge discovery secara efektif pada data

biologis dengan kuantitas yang besar [1: 42-43][2: 1]. Teknik data mining yang

merupakan cabang dari artificial intelligence (AI) mencoba untuk menggali

informasi atau knowledge dalam sebuah data [3: 11303]. Biological sequence

mining, salah satu teknik data mining di bioinformatika untuk mengungkap baik

struktur, fungsi, dan berbagai fitur dalam biological sequence, seperti sekuens

DNA, RNA, dan protein [1: 46, 49][4][13]. Selain itu, analisis sekuens ini juga

mengungkap karakteristik tertentu, seperti hubungan urutan gen dengan fungsi

biologis tertentu dan deteksi pola genetik dari suatu penyakit tertentu [13].

Pola pada sekuens biologi, merepresentasikan beberapa pola penting yang

berkaitan baik secara fungsional maupun struktural. Dalam sekuens DNA yang

terdiri dari 4 basa (A, T, C, G) terdapat suatu informasi tersembunyi berupa aturan

tertentu yang menyusun sekuens DNA tersebut [1: 43-44][5]. Penggalian

informasi (knowledge) terhadap sekuens DNA inilah yang menjadi topik penting

dalam bioinformatika yang akan diulas dalam penelitian ini, khususnya kaitannya

dengan suatu penyakit tertentu.

Penelitian terkait sebelumnya yaitu mengenai pendekatan yang

mengkombinasikan model Back-Propagation Neural Network (BPNN) dan

sequential pattern mining untuk memodelkan prediksi krisis suatu korporasi.

BPNN digunakan dalam mekanisme klasifikasi, sedangkan sequential pattern

1

2

mining digunakan untuk mendapatkan pola-pola prediksi. Berdasarkan hasil uji,

rata-rata akurasi BPNN dalam proses klasifikasi sekitar 73.75%. Sedangkan untuk

kebenaran dari hasil prediksi sekitar 73.76% [6].

Penelitian kedua, yaitu penggunaan self-organizing neural network untuk

identifikasi motif pada sekuens DNA dan deteksi sinyal subtle. Terdapat

mekanisme yang dilakukan seperti subsequence dan encoding terhadap sekuens

DNA atau protein. Kemudian pengujian dilakukan pada sampel sekuens DNA

dengan panjang tertentu dan menunjukkan bahwa self-organizing neural network

handal untuk mengidentifikasi motif pada sekuens DNA dan protein [7].

Penelitian ketiga, yaitu mengenai klasifikasi trayektori dengan

menggunakan pendekatan jaringan syaraf tiruan. Kombinasi pencarian pola

sekuensial (sequential pattern) digunakan untuk mengenali perilaku dari

trayektori dalam road network. Berdasarkan hasil uji yang dilakukan dengan

menggunakan 2 parameter, yaitu efisiensi dan akurasi, menunjukkan bahwa

metode yang diusulkan memiliki efisiensi dan akurasi yang lebih baik [8].

Penelitian keempat, yaitu mengenai klasifikasi data log geofisik dengan

menggunakan self-organizing map neural network (SOM). Kemudian hasil

klasifikasi dibandingkan dengan algoritma feed-forward neural network (FFNN)

dan menunjukkan bahwa SOM memiliki kinerja yang baik, sebanding dengan

algoritma feed-forward neural network (FFNN) dengan rata-rata akurasi 77.6 %

[14].

Berdasarkan pemaparan dari penelitian sebelumnya, maka dirancang sebuah

sistem untuk pencarian motif sekuens DNA untuk identifikasi penyakit dengan

algoritma self organizing neural network. Dengan demikian, dapat membantu

men-discover pola sekuens DNA dan kaitannya dengan suatu penyakit.

Menggunakan neural network karena merupakan metode yang handal dalam hal

self-learning dan klasifikasi [8]. Self organizing neural network sendiri tergolong

pembelajaran tak terbimbing (unsupervised) yang lebih handal jika dibandingkan

dengan analisis kluster tradisional [15: 11780] [16: 90-91]. Self organizing neural

network (SOM) juga merupakan algoritma clustering yang menyediakan topologi

yang bisa digunakan untuk ekstraksi fitur dan task visualisasi data [16: 90-91].

3

Sistem ini mengolah sebuah sekuens DNA dan mengidentifikasi berdasarkan

kaitannya dengan penyakit.

1.2. Rumusan Masalah

Berdasarkan latar belakang, maka rumusan masalah yang bisa dikaji, adalah

sebagai berikut :

1. Bagaimana merancang sistem untuk pencarian motif DNA dan identifikasi

kaitannya dengan penyakit?

2. Bagaiman implementasi sistem dengan mengkombinasikan pola sekuensial

(sequential pattern) dan self organizing neural network ?

3. Bagaimana hasil pengujian menggunakan parameter akurasi dari sistem

dengan pendekatan yang dilakukan ?

1.3. Batasan Masalah

Dari permasalahan yang dirumuskan di atas, maka batasan permasalahan

yang digunakan adalah sebagai berikut :

1. Data untuk sekuens DNA yang digunakan sebagai data penelitian diperoleh

dari website http://www.ncbi.nlm.nih.gov.

2. Untuk penyakit yang digunakan dalam penelitian ini yaitu penyakit kanker

payudara (breast cancer).

3. Untuk spesies yang diteliti dalam penelitian ini adalah jenis homo sapiens

(manusia).

4. Jenis DNA yang digunakan yaitu gen P53 atau TP53.

1.4. Tujuan Penelitian

Tujuan dari penelitian ini dipaparkan sebagai berikut :

1. Merancang dan mengimplementasikan sistem pencarian motif DNA untuk

membantu peneliti dalam mendiagnosa penyakit terkait dengan sekuens

DNA.

2. Menggali pengetahuan dari suatu sekuens DNA yang merepresentasikan

suatu motif atau pola dan kaitannya dengan penyakit.

http://www.ncbi.nlm.nih.gov/

4

3. Menguji bagaimana tingkat akurasi yang dihasilkan dengan pendekatan yang

dilakukan.

1.5. Manfaat Penelitian

Manfaat dari penelitian ini dipaparkan sebagai berikut :

1.5.1. Bagi Penulis

1. Dapat lebih memahami mengenai implementasi sequence mining dan neural

network dalam pencarian pola sekuens DNA dan kaitannya dengan penyakit.

2. Dapat mengaplikasikan bidang keilmuan yang telah didapat, khususnya

mengenai data mining dan jaringan syaraf tiruan.

1.5.2. Bagi Pengguna

1. Memudahkan untuk men-discover pola pada sekuens DNA dan kaitannya

dengan penyakit.

2. Memudahkan pengguna, khususnya peneliti untuk melakukan analis

terhadap data sekuens DNA.

1.6. Sistematika Penulisan

Untuk mencapai tujuan yang diharapkan, sistematika penulisan disusun

sebagai berikut :

BAB I PENDAHULUAN

Bab pendahuluan berisi tentang latar belakang, rumusan masalah, batasan

masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.

BAB II TINJUAN PUSTAKA

Tinjauan pustaka menjelaskan mengenai kajian pustaka terkait dengan penelitian

yang telah ada sebelumnya. Kemudian dasar teori yang diperlukan guna

mendukung penelitian yang dilakukan. Dasar teori yang diperlukan adalah data

mining, neural network, dan beberapa dasar teori mengenai DNA.

BAB III METODOLOGI PENELITIAN

Metodologi penelitian membahas tentang metode yang digunakan untuk

perancangan sistem dan langkah kerja yang dilakukan dalam penelitian.

5

BAB IV PERANCANGAN

Membahas mengenai perancangan sistem pencarian motif sekuens DNA untuk

identifikasi penyakit dengan menggunakan algoritma self organzing neural

network.

BAB V IMPLEMENTASI SISTEM

Membahas bagaimana implementasi sistem pencarian motif sekuens DNA untuk

identifikasi penyakit dengan menggunakan algoritma self organzing neural

network.

BAB VI PENGUJIAN DAN ANALISIS

Membahas mengenai skenario pengujian yang dilakukan dengan parameter

akurasi pada sistem. Kemudian mengenai analisis terhadap hasil pengujian dan

hipotesis awal.

BAB VII PENUTUP

Memuat kesimpulan yang diperoleh dari awal sampai pengujian serta saran-saran

untuk pengembangan penelitian lebih lanjut.

1.7. Rencana dan Jadwal Penelitian

Berikut merupakan rencana dan jadwal penelitian yang akan dilakukan :

No Uraian KegiatanBulan

1 2 3 4 5 6

1 Studi Literatur

2 Pengumpulan Data

3 Perancangan dan Analisis Sistem

4 Implementasi Sistem

5 Pengujian Sistem

6 Analisis dan Evaluasi

7 Penyusunan Laporan

Tabel 1.1 Rencana Jadwal Penelitian

6

BAB II

TINJAUAN PUSTAKA

Tinjauan Pustaka terdiri atas kajian pustaka dan dasar teori. Kajian pustaka

membahas mengenai penelitian yang sudah dilakukan sebelumnya dan yang akan

diusulkan untuk penelitian selanjutnya. Dasar teori membahas mengenai teori yang

diperlukan guna mendukung penelitian yang dilakukan.

2.1. Kajian Pustaka

Pada penelitian sebelumnya, diusulkan algoritma yang mengkombinasikan

model Back-Propagation Neural Network (BPNN) dan sequential pattern mining

untuk permasalahan model prediksi krisis suatu korporasi. BPNN digunakan

dalam mekanisme klasifikasi, sedangkan sequential pattern mining digunakan

untuk mendapatkan pola-pola prediksi. BPNN diperkenalkan oleh Rumelhart dan

McClelland pada tahun 1986. Dalam suatu neural network, terdapat 3 lapisan,

yaitu lapisan input, lapisan tersembunyi (hidden layer), dan lapisan output. Dalam

proses sequential mining, digunakanlah BSA (Binary Sequence Analysis).

Berdasarkan hasil uji, kombinasi algoritma tersebut menghasilkan rata-rata

akurasi BPNN dalam proses klasifikasi sekitar 73.75%, sedangkan untuk

kebenaran dari hasil prediksi sekitar 73.76% [6].

Kemudian, penggunaan neural network juga digunakan untuk

mengklasifikasikan data trayektori dengan mengkombinasikan pencarian pola

sekuensial (sequential pattern mining) untuk mengenali perilaku dari urutan

informasi trayektori dalam road network. Berdasarkan hasil uji yang dilakukan

dengan menggunakan 2 parameter, yaitu efisiensi dan akurasi, menunjukkan

bahwa metode yang diusulkan memiliki efisiensi dan akurasi yang lebih baik [8].

Ahmed Amara dkk. Juga melakukan penelitian mengenai klasifikasi data log

geofisik dengan menggunakan self-organizing map neural network (SOM).

Kemudian hasil klasifikasi dibandingkan dengan algoritma feed-forward neural

network (FFNN). Berdasarkan hasil uji yang dilakukan, menunjukkan bahwa

7

SOM memiliki kinerja yang baik, sebanding dengan algoritma feed-forward

neural network (FFNN) dengan rata-rata akurasi 77.6 % [14].

Untuk aplikasi neural network terkait biological sequencing, diterapkan self-

organizing neural network untuk mengidentifikasi motif pada sekuens DNA dan

deteksi sinyal subtle. Terdapat mekanisme yang dilakukan seperti subsequence

dan encoding terhadap sekuens DNA atau protein. Kemudian pengujian dilakukan

pada sampel sekuens DNA dengan panjang tertentu dan menunjukkan bahwa self-

organizing neural network handal untuk mengidentifikasi motif pada sekuens

DNA dan protein [7] [21]. Dalam proposal ini, penulis mengusulkan sebuah

gagasan untuk mengembangkan pendekatan neural network untuk menangani

biological sequencing. Dalam penelitian kali ini, diusulkan suatu pendekatan self-

organzing neural network untuk pencarian motif sekuens DNA dan kaitannya

dengan identifikasi suatu penyakit.

Berikut juga disajikan beberapa aplikasi neural network lainnya terkait

biological sequencing, seperti algoritma plausible neural network (PNN) untuk

prediksi batas exon/intron [17]. Kemudian, penerapan Back-Propagation (BP)

neural network untuk menangani task klasifikasi sekuens DNA [5], klasifikasi

sekuens protein [18], dan prediksi struktur protein [19].

2.2. Biologi Molekuler

Dalam keanekaragaman makhluk hidup, yang mendasari rincian molekuler

yang mendasarinya hampir universal. Semua organisme tergantung pada aktifitas

dari protein, sebuah molekul kompleks yang terdiri dari struktural utama dan

fungsional dari sel. Asam nukleat, yaitu deoxyribonucleic acid (DNA) dan

ribonucleic acid (RNA) merupakan molekul yang ditemukan di setiap organisme

yang berperan sebagai pembawa kode kehidupan [1: 43-44].

Urutan protein dan asam nukleat biasanya direpresentasikan dengan String

dari simbol yang berbeda untuk setiap monomer. Protein dibentuk dengan

kombinasi dari dua puluh asam amino, sedangkan asam nukleat dibentuk dari

kombinasi linear dari empat nukleotida [1: 43-44][21][9: 138-139]. Setiap

nukleotida mengacu pada basa nitrogen di dalamya. Dalam DNA terdapat 4

macam basa nitrogen yang ditemukan, yaitu Adenin (A), Sitosin (C), Guanine

8

(G), atau Timin (T). Dalam molekul RNA, timin digantikan Urasil (U). DNA

terdiri dari dua jenis rangkaian, yaitu rangkaian panjang tak berpilin (single helix)

dan rangkaian panjang berpilin (double helix) [1: 43-44][21][9: 138-139], seperti

pada Gambar 2.1 berikut :

Gambar 2.1 Struktur DNA

Pada DNA double helix, DNA berbentuk rantai panjang, ganda, termasuk dua

rantai yang saling melengkapi, dimana tiap A dari satu rantai mengikat T dan tiap

C dari satu rantai mengikat G. DNA merupakan materi genetik pada setiap

organisme [1: 43-44][9 :138-139]. Sebuah genom didefinisikan sebagai materi

genetik yang lengkap dari sebuah organisme. Ukuran genom biasanya

direpresentasikan sebagai jumlah keseluruhan dari pasangan basa [9: 138-139].

Data berupa urutan genom dapat digunakan oleh banyak peneliti, utamanya

di bidang data mining dan bioinformatika untuk membantu para ahli biologi

dalam mengidentifikasi regulatori elemen gen, menemukan hubungan antara gen

dan protein, memahami fungsi gen, serta pada akhirnya memahami mekanisme

yang mengatur ekspresi gen dan fungsi dari jaringan secara keseluruhan dengan

menggunakan urutan data biologis (biological sequences) [10]. Pada urutan data

biologis terdapat pola atau trend yang tersembunyi yang didalamnya terdapat

9

banyak pengetahuan (knowledge) yang merepresentasikan hal yang berguna,

seperti penyakit.

2.3. Intron

Intron adalah setiap urutan nukleotida dalam gen yang dihapus oleh RNA

splicing selama pematangan produk RNA akhir. [1] [2] Kata Intron merujuk pada

urutan DNA dalam gen dan urutan yang bersesuaian dalam transkrip RNA. [3]

Urutan yang tergabung dalam RNA matang setelah RNA splicing adalah ekson.

Intron ditemukan dalam gen dari sebagian besar organisme dan banyak virus, dan

dapat ditemukan di berbagai gen, termasuk yang menghasilkan protein, RNA

ribosom (rRNA), dan RNA transfer (tRNA). Ketika protein yang dihasilkan dari

gen yang mengandung intron, RNA splicing terjadi pada bagian pengolahan RNA

yang mengikuti transkripsi dan mendahului translasi.

Kata intron berasal dari istilah daerah intragenik, yaitu suatu daerah di dalam

gen. Meskipun intron kadang-kadang disebut intervening sequence, istilah "

intervening sequence " dapat merujuk ke salah satu dari beberapa keluarga dari

sekuens asam nukleat internal yang tidak ada dalam produk gen akhir, termasuk di

dalamnya inteins, untranslated sequences (UTR), dan nukleotida yang dihapus

selama RNA editing, selain intron.

Panjang dan ukuran intron berbeda pula pada satu spesies yang sama dan

berbeda pada gen yang berbeda dalam satu individu. Intron sering ditemukan

dalam genome eukariotik dalam pasangan AU atau AC.

Intron terdiri dari 4 kelas : intron inti, intro grup I, intron grup II dan intron

grup III. Intron inti, atau disebut pula splisiomal intron merupakan bagian intron

yang diputus oleh spliceosome. Ada beberapa rangkaian khusus yang mendukung

proses identifikasi pemutusan (spalacing) oleh intron ini. Intron I, II dan III

merupakan inton yang dengan tanpa spleceosom dalam prosesi splacing dari pre

mRNA. Intron I melakukan spacing dengan bantuan nukleosida guanine bebas.

Intron grop II dan III proses pemutusan melalui lintasan Lariat, yang mempunyai

fungsi yang sama dengan spleceosome, yang kemungkinan merupakan hasil dari

evolusi spliceosome.

Ada dua hipotesis mengenai mengapa intron terbentuk [11] :

10

1. Intron- Early (IE), Pada awalnya intron banyak ditemukan pada organism

purba/awal prokariotik maupun eukariotik. Kemudian intron menghilang

pada organism prokariotik disebabkan untuk efesiensi kelangsungan

hidupnya. Fakta yang menjadi dasar teori ini adalah intron memfasilitasi

exon sebagai domain dalam pembentukan potein. Model ini

memungkinkan adanya evolusi gen baru.

2. Intron-Late (IL). Pada awalnya intron berupa parasit yang memiliki gen

yang disebut transposable elemen. Gen ini masuk pada organism yang

tidak memiliki intron kemudian terakmulasi sehingga terbentuk dalam

rangkain DNA yang ditranskripsi sebagai intron. Model ini didasarkan

pada adanya speciomal intron yang ditemui hanya pada organism

eukariotik.

Intron mempunyai fungsi diantaranya :

1. Fungsi intron adalah mengatur aktivitas gen mengatur gen dalam setiap

tahap pertumbuhan dan perkembangan suatu organism dan kebutuhan

biologis sesaat melalui kontrol ekpresi gen. Intron inti bisa bersifat sebagai

katalis dari beberapa reaksi kimia, yang disebut ribozyme. Ribozim

memfasilitasi pemotongan intron dengan sendirinya (self splicing),

sehingga protein yang ditranslasi menjadi hanya protein yang bermanfaat

saja.

2. Struktur stabil yang ada pada intron memungkinkan intron dapat

melindungi pre mRNA dari degradasi enzim.

3. Intron menghasilkan variasi fenotipik dengan mengatur atau memfasilitasi

trasposisi dari exon. Pembuktian hal ini berasal dari kenyataan bahwa

intron berada pada dua batas domain pada molekul DNA, dinamakan Exon

shuffling. Mekanisme ini memungkin adanya variasi kombinasi exon baru.

4. Beberapa intron mempunyai fungsi mengontrol rangkaian proses pada

kromosom X, hal ini penting dalam menentukan jenis kelamin pada

tanaman dan vertebrata. gen Sxl merupakan pengatur utama dalam

penetuan jenis kelamin dan fungsinya adalah mengatur intron yang

dipotong pada mRNA. Gen Sxl menghalagi pemutusan intron pada betina,

sehingga menghentikan betina memproduksi protein fungsional msl-2.

11

Gen msl-2 juga dikontrol oleh dengan memutus intron pada jantan, tidak

pada betina. Jantan tidak memiliki gen Sxl, sehingga proses expresi gen

msl-2 dapat berjalan.

5. Intron tidak mempunyai fungsi dalam proses translasi, tapi mempengaruhi

peran dalam pengaturan sintesis protein. Intron yang tidak terpotong

(unspliced) yang ada dalam mRNA mengakibatkan penyimpangan dalam

expresi gen, contohnya terbentuk sel kanker.

a. Exon

Sebuah ekson adalah setiap sequence nukleotida yang dikodekan oleh gen

yang tetap ada dalam produk RNA matang, dimana intron telah dihapus selama

RNA splicing. Ekson berada di dalam sequence DNA di dalam gen dan sequence

yang sesuai dalam transkrip RNA. Dalam RNA splicing, intron akan dihapus dan

ekson yang kovalen akan bergabung sebagai bagian dari RNA messenger yang

matang.

Daerah ekson berasal dari expressed region dan diciptakan oleh ahli

Biokimia Amerika Walter Gilbert pada tahun 1978: "Gagasan Cistron yang ...

harus diganti dengan daerah unit transkripsi yang akan hilang dari RNA messenger

yang matang - yang disarankan untuk disebut sebagai intron (untuk daerah

intragenik) - bergantian dengan daerah yang akan dinyatakan - ekson "[4]

Definisi ini awalnya dibuat untuk transkrip protein-coding yang disambung

sebelum ditranslasikan. Istilah ekson kemudian muncul dalam sequence rRNA [5]

dan tRNA, [6] dan juga digunakan kemudian untuk molekul RNA yang berasal

dari bagian yang berbeda dari genom yang kemudian diikat oleh trans-splicing.

[7]

Dalam banyak gen, masing-masing ekson mengandung bagian dari Open

Reading Frame (ORF) yang mengkodekan untuk bagian tertentu dari protein

lengkap. Namun, ekson Istilah ini sering disalahgunakan untuk merujuk hanya

pada coding sequence untuk protein akhir. Ini tidak benar, karena banyak ekson

noncoding dikenal dalam gen manusia. [8] [9]

12

Di sebelah kanan adalah diagram dari RNA nuklir heterogen (hnRNA), yang

merupakan transkrip unedited mRNA, atau pre-mRNA. Ekson dapat mencakup

sequence untuk mengkodekan asam amino (merah) dan untranslated sequence

(abu-abu). Sequence yang membentang dan tidak terpakai disebut intron (biru)

dan akan dihapus, dan ekson tersebut akan bergabung bersama untuk membentuk

mRNA fungsional akhir. Notasi 5' dan 3' mengacu pada arah template DNA

dalam kromosom dan digunakan untuk membedakan antara dua daerah belum

diterjemahkan (abu-abu).

Beberapa ekson akan seluruhnya atau bagian dari 5' untranslated regions

(5' UTR) atau 3' translated region (3' UTR) dari masing-masing transkrip.

Untranslated regions penting untuk proses translasi yang efisien dari transkrip

dan untuk mengontrol laju translasi dan separuh transkrip. Selanjutnya, transkrip

yang dibuat dari gen yang sama bisa saja memiliki struktur ekson yang tidak

sama, karena bagian dari mRNA bisa dihilangkan dengan proses alternative

splicing. Beberapa transkrip mRNA memiliki ekson tanpa ORFs dan kadang-

kadang disebut sebagai non-coding RNA.

Exonization adalah penciptaan ekson baru, sebagai hasil dari mutasi pada

sequence intronic. [10] Pesan polycistronic memiliki beberapa ORFs dalam satu

transkrip dan juga memiliki daerah kecil untranslated sequence diantara setiap

ORF.

b. Data Mining

Teknik data mining merupakan salah satu cabang dari artificial intelligence

(AI). Data mining adalah suatu istilah yang digunakan untuk menemukan

pengetahuan yang tersembunyi di dalam database atau sering disebut dengan

istilah Knowledge Discovery in Databases (KDD) . Data mining merupakan

proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan

buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi

informasi pengetahuan potensial (knowledge) dan berguna dalam sebuah data

13

dengan kuantitas besar atau dalam database besar (massive database) [1: 46] [3;

11303] [12].

Operasi data mining menurut sifatnya dibedakan menjadi dua, pertama yaitu

bersifat prediksi (prediction driven) digunakan untuk menjawab pertanyaan apa

dan sesuatu yang bersifat transparan. Kedua yaitu bersifat penemuan dimana

digunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi

database, analisa keterkaitan dan deteksi deviasi [12]. Beberapa teknik data

mining yang banyak dikembangkan, seperti generalisasi, karakterisasi

(characterization), klasifikasi, clustering, asosiasi, evolusi, pattern mining,

visualisasi data, meta-rule, dan sebagainya [1: 46-47][2: 1][3: 11303].

c. Pola Sekuensial

Sekuens DNA dibentuk oleh urutan basa nukleotida dengan panjang

tertentu. Sequential pattern mining sendiri merupakan metode data mining untuk

memperoleh frequent pola sekuensial dalam database sekuens dan pertama kali

diperkenalkan oleh Agrawal dan Srikant pada tahun 1994 [20: 86]. Dalam sekuens

DNA, RNA, ataupun protein terdiri dari pola yang membentuk motif tertentu

yang tidak terbatas [7: 129].

Untuk mengidentifikasi motif dari sejumlah urutan DNA ataupun protein,

terdapat ukuran untuk jumlah maksimum ketidaksesuaian (mismatches) dan

memproyeksikan panjang motif yang dapat ditemukan. Gambar 2.2 menunjukkan

ilustrasi bagaimana beberapa pola input sekuens yang diperoleh dari sekuens

DNA. Sub-sekuens atau proyeksi motif dengan panjang M = 7 dapat membentuk

beberapa pola input dari sekuens DNA dengan panjang W [7: 130].

Sekuens DNA : GAGAATGCTATTC ........ AGTTCGATCCAPola input 1 : GAGAATGPola input 2 : AGAATGCPola input 3 : GAATGCTPola input 4 : AATGCTA............Pola input (W-M+1) : CGATCCA

Gambar 2.2 Ilustrasi sub-sekuens pada sekuens DNA

Sumber : [7: 130]

14

Kemudian, istilah n-Gram yang didefinisikan sebagai sebuah subsequence

atau substring dengan panjang n karakter dari sebuah string S. Diberikan sebuah

sekuens S = (s1, s2, …, sN+(n-1)) dari huruf A, yang mana N dan n bilangan bulat

positif. Setiap subsequence dengan panjang n merupakan n-gram dari sekuens S

[9: 138].

d. Jaringan Syaraf Tiruan

Neural network dalam teknik data mining merupakan istilah yang digunakan

untuk merujuk pada jaringan syaraf tiruan yang menyerupai jaringan syaraf secara

biologis. Neural network terdiri dari neuron buatan atau node, serta sinyal atau

isyarat yang mengalir diantara neuron tersebut [3: 11304][13:3]. Jaringan syaraf

tiruan (neural network) dapat menciptakan sendiri representasi melalui pengaturan

diri sendiri atau kemampuan belajar (self-organizing) [7][21].

Selama proses pembelajaran (learning), jaringan memerlukan sejumlah

pemetaan asosiatif untuk mengamati urutan data record dan menyesuaikan

kekuatan sinapsis (bobot), sehingga input akan mengarah ke output target

(Gambar 2.3). Pada proses pembelajaran, jaringan dapat belajar secara terbimbing

(supervised) dan tak terbimbing (unsupervised).

Gambar 2.3 Struktur Unit Jaringan Syaraf Tiruan

Sumber : [13: 3]

Kemudian, fungsi aktivasi (f) yang digunakan dalam jaringan syaraf tiruan,

disajikan dalam Tabel 2.1. berikut :

Neuron dengan bias

bias

fΣp

1

w n aKeluaran (output)

a = f(wp + b)

Masukan (input)

15

16

Fungsi Aktivasi

Nama Formula

Identitas f ( x )=x

Sigmoid f ( x )= 1

1+e− x

Tanh f ( x )= ex−e−x

ex+e−x

Undak (Step)

bipolarf ( x )={−1 jika x<0

1 jika x ≥ 0

Undak (Step)

binerf ( x )={0 jika x<0

1 ji ka x ≥ 0

Tabel 2.1 Fungsi Aktivasi

Sumber : [13: 3]

e. Self-Organizing Neural Network

Self organizing neural network merupakan jaringan syaraf tiruan yang

strukturnya mengalami perubahan selama proses learning berdasarkan data yang

diamati. Self organizing neural network dibagi ke dalam beberapa kelompok,

salah satunya self organizing map (SOM) [13:10]. SOM telah banyak digunakan

sebagai pendekatan untuk task clustering di banyak area, termasuk juga genomik.

Beberapa aplikasi SOM dalam area genomik, diantaranya untuk men-discover

pola ekspresi gen [13:10], prediksi motif DNA [24], dan identifikasi motif

sekuens protein dengan insersi dan delesi [21]. Kemudian, dalam bidang lain,

SOM juga digunakan untuk memprediksi beban listrik dan juga peramalan harga

[25]; analisis dan visualisasi situasi keuangan dari suatu perusahaan [26].

Self organizing map (SOM) atau sering disebut dengan jaringan Kohonen

merupakan salah satu teknik dalam jaringan syaraf tiruan untuk task clustering

dan visualisasi yang dikembangkan oleh Prof. Kohonen [25:84] [26:386]. Dalam

proses learning, SOM tergolong pembelajaran tak terbimbing (unsupervised).

Pada metode ini, penyesuain bobot sebagai tanggapan terhadap input dan tidak

disertai sasaran atau target. Dalam proses pembelajaran tak terbimbing, jaringan

mengklasifikasikan pola-pola yang ada bedasarkan derajat kemiripan (similarity)

[7] [14:39] [15:11774] [16:90-91] [26:386]. Tugas pembelajaran SOM, yaitu

17

untuk menyesuaikan parameter bobot dan memungkinkan neuron yang berdekatan

untuk menandai posisi tetangga pada ruang input, sehingga membentuk peta

topologi dari ruang input [24:604]. Pada SOM, node atau neuron dapat disusun

dalam berbagai topologi, yaitu rectangular, hexagonal, ataupun bentuk irregular

[24:604] [25:86].

Arsitektur dari SOM ditunjukkan dalam Gambar. 2.4. Jaringan SOM terdiri

dari dua lapisan neuron, yaitu lapisan neuron input (X1, X2, ..., Xn) dan lapisan

neuron output (Y1, Y2, ..., Ym). Neuron input terhubung secara penuh dengan

bobot Wij ke neuron output. Neuron output menunjukkan jumlah cluster yang

akan dibentuk [14:41] [15:11774] [22:2290].

Gambar 2.4 Struktur Self-Organizing Map (SOM)

Sumber : [14: 42]

Proses pembelajaran (learning) pada SOM dijelaskan sebagai berikut [7]

[14:43] [22:2290] [26:388] :

1. Inisialisasi bobot wij , tentukan topologi pada SOM,

Tentukan parameter learning rate (α).

2. Siapkan vektor input x dari data training.

3. Tentukan neuron output j apakah dekat atau memiliki kemiripan dengan

vektor x.

d j=min {∑i

❑

|w ij−xi|} ................................................. (Persamaan 2-1)

18

Untuk menghitung jarak atau kemiripan bisa digunakan berbagai fungsi,

seperti Euclidean [16] dan Manhattan distance [14] [26] [7].

19

4. Update vektor bobot untuk semua neuron output j dalam daereh sekitar j.

w ij (new )=w ij (old )+α [x i−wij (old )] ....................... (Persamaan 2-2)

Jika menggunakan topologi, maka persamaan update vektor bobot :

w ij (new )=w ij (old )+α ht ,r [x i−wij (old)] ; dimana ht ,rmerupakan fungsi

ketetanggaan (neighborhood) berdasarkan jarak topologi yang digunakan

antara output neuron j dan neuron j*r [14: 41].

5. Cek kondisi untuk berhenti.

20

BAB III

METODOLOGI PENELITIAN

Metodologi penelitian membahas tentang metode dan perancangan yang

diterapkan dalam pembuatan sistem Pencarian Motif Sekuens DNA untuk

Identifikasi Penyakit dengan self organizing neural network. Langkah-langkah

yang akan dilakukan dalam penelitian ini, yaitu :

1. Melakukan studi literatur yang berkaitan dengan sekuens DNA dan metode

self organizing neural network.

2. Melakukan pengumpulan data sekuens DNA.

3. Melakukan analisis dan perancangan sistem pencarian motif sekuens DNA

untuk identifikasi penyakit.

4. Implementasi dalam bentuk program berdasarkan analisis dan perancangan

yang telah dilakukan.

5. Melakukan serangkaian skenario pengujian terhadap sistem.

6. Melakukan evaluasi terhadap hasil pengujian dan tingkat keberhasilan sistem.

Alur metodologi penelitian ditunjukkan pada Gambar 3.1.

21

Gambar 3.1 Diagram Alir Penelitian

Sumber : Perancangan

3.1. Studi Literatur

Studi literatur merupakan proses mempelajari literatur-literatur yang

berkaitan dengan pembuatan sistem. Literatur dapat berupa buku, jurnal penelitian

terkait, ataupun internet. Beberapa bidang yang berkaitan dengan pembuatan

sistem antara lain : Data mining, sequence pattern mining, neural network,

biological sequencing, dan mengenai DNA gen p53.

3.2. Data Penelitian

Data yang digunakan dalam penelitian kali ini merupakan data sekunder

yang didapatkan dari bank database DNA yang disediakan di internet, dapat

22

diperoleh dari website dari website http://www.ncbi.nlm.nih.gov. Data yang

digunakan yaitu data DNA gen p53 pada manusia (homo sapiens).

Gambar 3.2 Sekuens DNA gen p53

Sumber : [www.ncbi.nlm.nih.gov]

3.3. Analisis dan Perancangan Sistem

Pada analisis sistem dilakukan analisis proses yang menjelaskan mengenai

proses atau gambaran umum sistem bagaimana sistem akan bekerja menggunakan

algoritma yang diusulkan.

3.3.1. Deskripsi Umum Sistem

Sistem pencarian motif sekuens DNA ini dibangun untuk mengidentifikasi

sekuens DNA kaitannya dengan suatu penyakit. Pada urutan data biologis, seperti

sekuens DNA terdapat pola atau trend yang tersembunyi yang didalamnya

terdapat banyak pengetahuan (knowledge) yang merepresentasikan hal yang

berguna, seperti penyakit yang akan dibahas pada penelitian kali ini. Algoritma

self-organizing neural network digunakan untuk mengelompokkan data sekuens

DNA berdasarkan kaitannya dengan penyakit. Algoritma self-organizing neural

network juga merupakan algoritma yang digunakan untuk task visualisasi data.

Deskripsi umum sistem digambarkan pada blok diagram berikut :



23

Gambar 3.3 Diagram Blok Sistem


3.3.2. Perancangan Proses

Arsitektur jaringan self organizing neural network (SOM) yang digunakan

ditunjukkan pada Gambar 3.4 berikut :

Gambar 3.4 Arsitektur jaringan self organizing neural network (SOM)


Arsitektur dari jaringan SOM terdiri dari dua lapisan neuron, yaitu lapisan neuron

input (X1, X2, ..., Xn) dan lapisan neuron output (Y1, Y2, ..., Ym). Neuron input

terhubung secara penuh dengan bobot Wij ke neuron output. Neuron output

menunjukkan jumlah cluster yang akan dibentuk.

Data sekuens DNA yang diperoleh, sebelum diproses pada jaringan SOM,

data sekuens di preprocessing terlebih dahulu untuk ekstraksi fitur. Tahapan

. . . . . .

W11

W1j

Wn1 W1m

Wnm

Wnj

Wij

WimWi1

Y1YmYj

. . . . . .

X1 XnXi

Layer Input

Layer Output

24

preprocessing meliputi sub-sequence dan pengkodean (encoding). Untuk tahapan

sub-sequence untuk memperoleh pola input ditunjukkan pada Gambar 3.5 berikut:

Sekuens DNA : GAGAATGCTATTC ........ AGTTCGATCCAPola input 1 GAGAATGPola input 2 AGAATGCPola input 3 GAATGCTPola input 4 AATGCTA...... ......... ...Pola input (W-M+1) CGATCCA

Gambar 3.5 Tahapan sub-sekuens pada sekuens DNA


Sub-sekuens atau proyeksi motif dengan panjang M = 7 dapat membentuk

beberapa pola input dari sekuens DNA dengan panjang W. Setelah didapatkan

pola input, kemudian dilakukan pengkodean (encoding) pada pola input agar bisa

diolah pada jaringan SOM. Secara keseluruhan, alur proses sistem ditunjukkan

pada diagram alir berikut (Gambar 3.6) :

Gambar 3.6 Diagram Alir Sistem


25

Kemudian untuk tahapan clustering jaringan SOM ditunjukkan pada diagram alir berikut (Gambar 3.7).

Gambar 3.7 Diagram Alir Clustering SOM


3.4. Implementasi Sistem

Pada tahap implementasi sistem, dilakukan dengan mengacu pada analisis

dan perancangan yang dilakukan. Kemudian untuk lingkungan impelementasi

26

yang akan digunakan meliputi lingkungan perangkat keras dan perangkat lunak.

Implementasi sistem akan dilakukan dengan menggunakan bahasa pemrogaman

Java dan perangkat pendukung lainnya. Implementasi dari sistem meliputi sebagai

berikut :

1. Pembuatan antarmuka pengguna.

2. Memasukkan data penelitian untuk diolah pada sistem.

3. Penerapan algoritma self organizing neural network (SOM) untuk

mengelompokkan data sekuens DNA dan sistem akan menghasilkan

keluaran berupa cluster sekuens DNA berdasarkan identifikasi penyakit.

3.5. Pengujian Sistem

Pengujian sistem dilakukan dengan beberapa skenario pengujian untuk

mengetahui kinerja sistem serta kesesuaian sistem dengan tujuan yang telah

ditetapkan. Pengujian sistem dilakukan dengan cara membandingkan hasil

clustering sekuens DNA berdasarkan penyakit dengan sekuens DNA yang

sebenarnya. Terdapat dua skenario pengujian, yaitu proses untuk mengetahui

pengaruh learning rate (α) dan pengaruh topologi jaringan terhadap akurasi yang

dihasilkan.

Dari perbandingan itulah, diperoleh akurasi sistem sebagai acuan

keberhasilan sistem untuk menangani task pencarian motif pada sekuens DNA.

Kemudian evaluasi dilakukan terhadap tingkat keberhasilan sistem dan analisis

terhadap hasil pengujian.

3.5.1. Uji Pengaruh Learning Rate (α)

Uji pengaruh learning rate (α) merupakan proses pengujian yang dilakukan

dengan beberapa nilai learning rate (α) antara 0,1 – 0,9. Tujuannya yaitu untuk

membandingkan nilai learning rate yang akan digunakan dengan mengambil nilai

learning rate yang menghasilkan akurasi terbaik. Tabel 3.1 menggambarkan

rancangan tabel pengaruh learning rate terhadap akurasi.

27

Akurasi

%

Learning rate (α)

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Tabel 3.1 Uji Pengaruh Learning Rate (α)


3.5.2. Uji Pengaruh Topologi Jaringan

Uji pengaruh topologi jaringan merupakan proses pengujian yang dilakukan

untuk membandingkan jenis topologi jaringan yang digunakan baik terhadap

akurasi data maupun visualisasi data yang dihasilkan. Topologi yang digunakan,

yaitu bentuk linear, rectangular dan hexagonal.

3.6. Kesimpulan dan Saran

Pengambilan kesimpulan dilakukan setelah semua tahapan mulai dari

perancangan sampai pengujian selesai dilakukan. Kesimpulan didasarkan pada

hasil pengujian sistem dan analisa metode terhadap hasil pengujian. Selanjutnya,

saran-saran yang dapat diberikan untuk memperbaiki kesalahan pada penelitian

yang telah dilakukan serta pengembangan penelitian lebih lanjut.

28

DAFTAR PUSTAKA

x

[1] Lubert Stryer, Jeremy Mark Berg, and John L Tymoczko, Biochemistry. San Fransisco: W.H. Freeman, 2007.

[2] Alan Kinniburgh, J Mertz, and J Ross, "The precursor of mouse β-globin messenger RNA contains two intervening RNA sequences," Cell, pp. 681-693, 1978.

[3] Bruce Alberts, Molecular biology of the cell. New York: Garland Science, 2008.

[4] Gilbert W, "Why Genes in pieces?," Nature, vol. 271, p. 501, February 1978.

[5] Kister KP and Eckert WA, "Characterization of an authentic intermediate in the self-splicing process of ribosomal precursor RNA in macronuclei of Tetrahymena thermophila," Nucleic Acid Research, vol. 15, no. 5, p. 20, March 1905.

[6] Valenzuela P, Venegas A, Weinberg F, Bishop R, and Rutter WJ, "Structure of yeast phenylalanine-tRNA genes: an intervening DNA segment within the region coding for the tRNA," Proceedings of the National Academy of Sciences of the United States of America, vol. 75, no. 1, p. 4, January 1978.

[7] Liu AY, Van Der Ploeg LH, Rijsewijk FA, and Borst P, "The transposition unit of variant surface glycoprotein gene 118 of Trypanosoma brucei. Presence of repeated elements at its border and absence of promoter-associated sequences," Journal of Molecular Biology, vol. 167, no. 1, pp. 57-75, June 1983.

[8] MQ Zhang, "Statistical features of human exons and their flanking regions," Human Molecular Genetics, vol. 7, no. 5, p. 919, May 1998.

[9] XH Zhang, KA Heller, I Hefter, CS Leslie, and LA Chasin, "Sequence information for the splicing of human pre-mRNA identified by support vector machine classification.," Genome Research, vol. 13, no. 12, p. 50, December 2003.

[10] Sorek R, "The birth of new exons: mechanisms and evolutionary consequences," RNA, vol. 13, no. 10, p. 8, October 2007.

[11] Jerry Bergman, "The Functions of Introns: From Junk DNA to Designed DNA," Perspectives on Science and Christian Faith, vol. 53, no. 3, pp. 23-34, 2001.

x

Documents

Laporan KKNP