13
4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul “Verifikasi Suara menggunakan Jaringan Syaraf Tiruan dan Ekstraksi Ciri Mel Frequency Cepstral Coefficientinput data yang dianalisis merupakan data rekaman suara yang tidak dikenali pemiliknya dan data rekaman suara yang sudah diketahui pemiliknya sebagai data pembanding. Input data diproses dengan ekstraksi ciri yang terdiri atas framing, windowing, fast fourier transform, mel frequency wrapping, discrete cosine transform menghasilkan mel frequency coefficient wrapping. Koefisien mel frequency wrapping dari setiap frame pada masing-masing suara masukan digunakan sebagai masukan pada pengenalan pola menggunakan jaringan syaraf tiruan. Hasil dari jaringan syaraf tiruan dianalisis menggunakan logika keputusan untuk mendapatkan keputusan apakah kedua suara tersebut sama atau tidak. Keluaran dari sistem berupa keputusan bahwa suara yang diujikan sama atau tidak dengan suara pembanding. Berdasarkan tingkat kecocokan dari data uji menghasilkan sistem verifikasi suara dengan mel frequency wrapping dan jaring syaraf tiruan mempunyai tingkat keakuratan 96% (Kurniawan, 2017). Penelitian dengan judul “Pengenalan Suara menggunakan Metode MFCC (Mel Frequency Cepstral Coefficient) dan DTW (Dynamic Time Wrapping) untuk Sistem Pengunci Pintu”, merancang sebuah sistem keamanan penguncian pintu menggunakan suara. Sistem ini mengggunakan metode MFCC untuk mengekstraksi ciri sinyal suara dan metode DTW (Dynamic Time Warping) untuk mencocokan pola suara. Mikrofon portable digunakan untuk meng-input-kan suara dan pengolahan dilakukan dengan menggunakan komputer. Pertama, ciri suara diekstraksi, kemudian dilakukan pencocokan pola suara antara sinyal uji dengan sinyal referensi. Jika skor normalized distance yang dihasilkan < 80, maka akan dikirim data “1” ke mikrokontroler dan pintu akan terbuka. Selain itu, data “0” akan dikirim ke mikrokontroler dan pintu tetap terkunci. Pengujian dilakukan oleh 4 trainer yang mengucapkan kata uji “pintu buka” dan kata uji acak. Tingkat

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

Embed Size (px)

Citation preview

Page 1: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

4

BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

Tinjauan Pustaka

Dalam penelitian yang berjudul “Verifikasi Suara menggunakan

Jaringan Syaraf Tiruan dan Ekstraksi Ciri Mel Frequency Cepstral

Coefficient” input data yang dianalisis merupakan data rekaman suara yang tidak

dikenali pemiliknya dan data rekaman suara yang sudah diketahui pemiliknya

sebagai data pembanding. Input data diproses dengan ekstraksi ciri yang terdiri atas

framing, windowing, fast fourier transform, mel frequency wrapping, discrete

cosine transform menghasilkan mel frequency coefficient wrapping. Koefisien mel

frequency wrapping dari setiap frame pada masing-masing suara masukan

digunakan sebagai masukan pada pengenalan pola menggunakan jaringan syaraf

tiruan. Hasil dari jaringan syaraf tiruan dianalisis menggunakan logika keputusan

untuk mendapatkan keputusan apakah kedua suara tersebut sama atau tidak.

Keluaran dari sistem berupa keputusan bahwa suara yang diujikan sama atau tidak

dengan suara pembanding. Berdasarkan tingkat kecocokan dari data uji

menghasilkan sistem verifikasi suara dengan mel frequency wrapping dan jaring

syaraf tiruan mempunyai tingkat keakuratan 96% (Kurniawan, 2017).

Penelitian dengan judul “Pengenalan Suara menggunakan Metode

MFCC (Mel Frequency Cepstral Coefficient) dan DTW (Dynamic Time

Wrapping) untuk Sistem Pengunci Pintu”, merancang sebuah sistem keamanan

penguncian pintu menggunakan suara. Sistem ini mengggunakan metode MFCC

untuk mengekstraksi ciri sinyal suara dan metode DTW (Dynamic Time Warping)

untuk mencocokan pola suara. Mikrofon portable digunakan untuk meng-input-kan

suara dan pengolahan dilakukan dengan menggunakan komputer. Pertama, ciri

suara diekstraksi, kemudian dilakukan pencocokan pola suara antara sinyal uji

dengan sinyal referensi. Jika skor normalized distance yang dihasilkan < 80, maka

akan dikirim data “1” ke mikrokontroler dan pintu akan terbuka. Selain itu, data “0”

akan dikirim ke mikrokontroler dan pintu tetap terkunci. Pengujian dilakukan oleh

4 trainer yang mengucapkan kata uji “pintu buka” dan kata uji acak. Tingkat

Page 2: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

5

keberhasilan untuk kata uji “pintu buka” yaitu sebesar 81,25%. Sedangkan untuk

kata uji acak, memiliki tingkat keberhasilan sebesar 57,5% (Effendi, et. al., 2015).

Penelitian dengan judul “Aplikasi Pengenalan Ucapan dengan

Ekstraksi Mel Frequency Cepstral Coefficient melalui Jaringan Syaraf Tiruan

(JST) Learning Vector Quantization (LVQ) untuk Mengoperasikan Kursor

Komputer”, membuat suatu program aplikasi dari pengenalan ucapan dengan

ekstraksi Mel-Frequency Cepstral Coefficients (MFCC) melalui Jaringan Syaraf

Tiruan (JST) Learning Vector Quantization (LVQ) untuk mengoperasikan kursor

komputer. Ucapan yang akan dijadikan objek dalam pembuatan program direkam

sekaligus dipicu sebagai data masukan bagi proses pengenalan dan pembentukan

jaringan LVQ. Data masukan ucapan diperoleh melalui mikrofon. Sinyal tersebut

dengan frekuensi pencuplikan (sampling frequency) sebesar 11025 Hz, resolusi

delapan bit dan waktu pemicuan sebanyak satu detik (11025 sampel). Keluaran dari

MFCC adalah koefisien ciri yang berisi nilai-nilai yang mewakili sinyal ucapan.

Rata-rata persentase keberhasilan pengenalan suara program dengan menggunakan

data latih adalah sebesar 88,89 % sedangkan rata-rata persentase keberhasilan

pengenalan suara program dengan menggunakan data uji adalah sebesar 83,99%

(Setiawan, et. al., 2011).

Penelitian dengan judul “Pengenalan Ucapan Suku Kata Bahasa Lisan

Menggunakan Ciri LPC, MFCC, dan JST”, mengembangkan suatu program

aplikasi untuk mengenali ucapan 1741 suku kata dalam bahasa Indonesia.

Penelitian ini menggunakan nilai koefisien pre-emphasis : 0.97, dan jumlah orde

analisis koefisien LPC sejumlah 12, sedangkan jumlah filterbank yang digunakan

pada ekstraksi ciri MFCC adalah 20 koefisien. Hasil yang didapatkan dari observasi

utama adalah akurasi pelatihan senilai 85.75% dan pengujian 0.65% untuk data

yang menggunakan esktraksi ciri MFCC, sedangkan untuk data yang menggunakan

LPC akurasi pelatihan mencapain nilai 95.80% dan pengujian 0.52%. Namun

ketika peneliti mengubah jumlah target menjadi 20, 50, 100, dan 500 ternyata

MFCC menghasilkan akurasi yang lebih baik daripada LPC. Hasil tertinggi MFCC

adalah 35% sedangkan LPC hanya 25%. Selain itu peneliti juga mencoba untuk

mengubah jumlah data latih yaitu sejumlah 2, 3, 6, 8, dan 12. Hasilnya

Page 3: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

6

menunjukkan bahwa akurasi MFCC dapat mencapai 95%. Ketika data latih yang

digunakan semakin banyak maka tingkat akurasi pengujian yang didapatkan akan

semakin baik (Abriyono & Harjoko, 2012).

Penelitian dengan judul “Identifikasi Gender Melalui Suara

menggunakan Metode Discreate Fourier Transform (DFT)”, membangun

sebuah sistem yang dapat melakukan identifikasi gender melalui suara. Penelitian

ini menggunakan dua parameter penentu, yaitu identification rate (IR) dan false

identification rate (FIR). File audio yang digunakan berekstensi *.wav dengan

frekuensi 12.000 Hz dan durasi setiap file adalah 3 detik. Efek noise pada sampel

suara akan sangat mempengaruhi pelatihan dan pengujian sehingga peneliti

menyarankan untuk melakukan perekaman data dengan kondisi noise yang sangat

rendah. Selain itu jumlah data pelatihan juga akan mempengaruhi akurasi

pengujian, semakin banyak data pelatihan maka akan semakin baik. Tingkat

keberhasilan dari pengujian sistem ini mencapai 70% berdasarkan 10 sampel

(Safriadi & Risawandi, 2014).

Landasan Teori

2.2.1. Sinyal dan Sinyal Percakapan

2.2.1.1. Sinyal

Sebuah sinyal adalah variasi dari variabel seperti gelombang tekanan

udara dari suara, warna dari gambar, kedalaman sebuah permukaan, temperatur dari

tubuh, tegangan atau arus dari sebuah konduktor atau sistem biologis, cahaya,

sinyal elektromagnetik radio, harga-harga barang atau volume dan berat dari suatu

objek. Sebuah sinyal membawa informasi mengenai satu atau lebih atribut

mengenai status, komposisi, arah pergerakan dan tujuan dari sumber. Dapat

dikatakan sebuah sinyal adalah sebuah media untuk membawa informasi mengenai

keadaan masa lalu, masa sekarang dan masa yang akan datang dari suatu variabel

(Vaseghi, 2007). Sinyal dapat diklasifikasikan menjadi beberapa jenis yaitu sinyal

waktu, sinyal nilai, sinyal random dan sinyal non-random.

Klasifikasi sinyal berdasarkan waktu dibedakan menjadi sinyal waktu

kontinyu dan waktu diskrit seperti ditunjukkan pada Gambar 2.1 sinyal waktu

kontinyu ditunjukkan dalam Gambar 2.1 (a) dimanapun amplitudonya terdefinisi di

Page 4: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

7

setiap waktu t dengan t= bilangan real. Sedangkan sinyal waktu diskrit ditunjukkan

dalam Gambar 2.1 (b) dimana amplitudonya hanya terdefinisi di setiap nilai waktu

diskrit n dengan n = bilangan diskrit (Fitriyah & Widasari, 2017).

Gambar 2. 1 (a) Sinyal Waktu Kontinu dan (b) Sinyal Waktu Diskrit (Fitriyah & Widasari, 2017)

Sinyal waktu kontinu dengan ampitudo kontinu biasanya disebut sebagai

sinyal analog. Contoh sinyal analog adalah sinyal suara. Sinyal waktu diskrit

dengan amplitudo bernilai diskrit yang dipresentasikan oleh digit angka yang

terbatas (finite), biasanya disebut sebagai sinyal digital. Berdasarkan jenis

frekuensinya, sinyal terbagi sinyal stationary dan sinyal non-stationary. Frekuensi

dalam sinyal stationary tidak berubah dan selalu berulang dalam waktu, sedangkan

frekuensi dalam sinyal non-stationary berubah-ubah dalam waktu.

2.2.1.2. Sinyal Percakapan

Sinyal percakapan adalah sinyal yang dihasilkan dari suara manusia

sewaktu melakukan percakapan. Sinyal percakapan merupakan kombinasi

kompleks dari variasi tekanan udara yang melewati pita suara dan vocal tract, yaitu

mulut, lidah, bibir dan langit-langit mulut. Speech (wicara) dihasilkan dari sebuah

kerja sama antara lungs (paru-paru), glottis (dengan vocal cords) dan articulations

tract (mouth atau mulut dan nasal cavity atau rongga hidung). Sinyal suara terdiri

dari serangkaian suara yang masing-masing menyimpan sepotong informasi.

Berdasarkan cara menghasilkannya, suara dapat dibagi menjadi voiced dan

unvoiced. Voiced sounds atau suara ucapan dihasilkan dari getaran pita suara,

sedangkan unvoiced sounds dihasilkan dari gesekan antara udara dengan vocal

tract.

Sinyal percakapan memiliki beberapa karakteristik, seperti pitch dan

intensitas suara yang berguna dalam melakukan analisis sinyal suara. Pitch adalah

Page 5: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

8

frekuensi dari sinyal atau sering disebut dengan intonasi. Intensitas suara adalah

tinggat kekuatan suara.

Gambar 2. 2 Produksi Suara Manusia (Holmes and Holmes 2001,8)

Impuls tekanan pada umumnya disebut sebagai pith impulses dan

frekuensi sinyal tekanan adalah pitch frequency atau fundamental frequency.

Sederet impuls (fungsi tekanan udara) dihasilkan oleh pita suara untuk sebuah

suara. Hal ini merupakan bagian dari sinyal suara yang mendifinikasn speech

melody (melodi wicara). Ketika berbicara dengan pitch yang stabil, suara sinyal

wicara cenderung bersifat monoton tetapi dalam kasus normal sebuah perubahan

permanen pada frekuensi akan terjadi. Impuls pitch merangsang udara dalam mulut

dan untuk suara tertentu (nasals) juga merangsang nasal cavity (rongga hidung).

Ketika rongga beresonansi, timbul radiasi sebuah gelombang suara yang

merupakan sinyal percakapan. Kedua rongga bereaksi sebagai resonators dengan

karakteristik frekuensi resonansi masing-masing yang disebut formant frequenciest,

sehingga formant merupakan variasi resonansi yang dihasilkan oleh vocal tract.

Pada saat rongga mulut mengalami perubahan besar, dihasilkan beragam pola

ucapan suara yang berbeda. Didalam kasus unvoiced sounds, keluaran pada vocal

tract lebih menyerupai noise atau derau.

2.2.1.3. Sampling Rate

Sampling Rate (biasa disebut juga sampling frequency) menyatakan

jumlah sampel per detik yang diambil dari sinyal kontinu untuk membuat sinyal

diskrit. Untuk sinyal time-domain, sampling rate dapat diukur dalam hertz (Hz).

Page 6: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

9

Kebalikan dari sampling rate adalah sampling period yang menyatakan selang

waktu diantara setiap sampel (Antoniou, 2006).

Gambar 2. 3 Sampling Sinyal (Park 2009, 21)

Semakin tinggi sampling rate, maka semakin akurat resolusi file suara

tersebut. Sebagai contoh, suara 16 bit dan 44,1 Khz bermakna suara tersebut di

sampling 44.100 kali per detik dan diukur dengan akurasi 16 bit. Sinyal suara yang

hanya berisi suara manusia (speech signal) dapat di-sampling pada nilai yang jauh

lebih rendah. Dalam kebanyakan kasus, hampir semua energi dalam suara

tersimpan dalam rentang 0-4000 Hz sehingga sampling cukup dilakukan pada 8000

Hz (Vaseghi 2007,166). Hal ini didasarkan pada teori Nyquist-Shannon yang

menyebutkan bahwa untuk mencegah hilangnya informasi dalam sebuah konversi

sinyal kontinu ke diskrit, sampling minimal harus dua kali lebih besar dari sinyal

asli (Shannon, 1949).

2.2.2. Normalisasi

Salah satu masalah yang cukup rumit dalam pengenalan suara adalah

proses perekaman suara yang terjadi sering kali suara latar atau sinyal yang bukan

suara itu sendiri ikut terekam. Sebagai akibatnya proses pengenalan antara data uji

dengan data sampel sering kali tidak menghasilkan nilai yang optimal, maka dari

itu sebelum diproses ke tahap selanjutnya perlu dinormalisasikan terlebih dahulu.

Normalisasi suara adalah proses pengolahan suara menaikkan atau menurunkan

amplitudo atau volume dari sebuah file suara agar semua nilai sampel di dalamnya

berada pada rentang tertentu (Tandyo, et. al., 2008).

Page 7: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

10

2.2.3. Ekstraksi Fitur

Setelah pengambilan sampel, sinyal percakapan diketahui masih relatif

berulang, sehingga speech coders/decoders (codecs) didesain untuk mengekstraksi

representasi yang kompak (compact representation) yang cukup untuk rekontruksi

dari sinyal dengan kualitas tinggi. Dalam sistem pengenalan suara, representasi

yang kompak ini juga diperlukan. Algoritma pemrosesan sinyal digunakan untuk

mengekstrak vektor fitur, mempertahankan informasi yang diperlukan untuk

mengenali percakapan dan membuang sisanya. Langkah ini sering disebut sebagai

ekstraksi fitur (feature extraction) (Thiran, Marques, dan Bourlard, 2010). Fitur dari

sebuah sistem pengenalan pola yang baik harus bersifat alamiah, dapat diukur

dengan mudah, tidak berubah dari waktu ke waktu atau terpengaruh oleh kondisi

kesehatan pengguna, tidak terpengaruh oleh noise dan tidak dapat ditiru oleh orang

lain.

Pengenalan suara pada dasarnya bergantung pada pengenalan-pengenalan

rangkaian fenomena yang bergantung pada bentuk suara. Pada umumnya

pendekatan umum untuk ekstraksi fitur adalah mengekstraksi representasi halus

dari kepadatan kekuatan sprektum sinyal (karakteristik dari respon filter frekuensi),

biasanya diperkirakan dari analis frame yang sepanjang 20-30 ms. Beberapa alat

dalam pemrosesan sering digunakan pada implementasi ekstraksi fitur. Alat

tersebut termasuk transformasi Fourier waktu singkat (short-time Fourier

transform) yang dapat digunakan untuk memperoleh kekuatan dan fase spektrum

dari analisa frame singkat. Alat lainnya yang biasa digunakan adalah Linear

Predictive Coding (LPC) dengan filter all-pole pada daerah vokal. Alat lainnya

adalah cepstrum, yang dihitung sebagai invers short-time fourier transform dari

logaritma pangkat dari spektrum. Elemen urutan rendah dari cepstrum vector

merupakan pendekatan yang baik dari bagian filter sebuah model. Perkembangan

pengetahuan akan sistem pendengaran manusia telah membuat beberapa model dari

resolusi frekuensi non-linear dan kehalusan dari pendengaran sering digunakan,

salah satunya MFCC.

Page 8: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

11

2.2.3.1. Frame Blocking

Framing merupakan proses pertama kali dalam perhitungan MFCC. Pada

proses suara yang dianalisis dibagi menjadi beberapa frame dengan jumlah sinyal

suara yang sama. Proses framing ini dilakukan terus sampai seluruh sinyal suara

dapat diproses. Selain itu, proses ini umumnya dilakukan secara overlapping untuk

setiap frame-nya. Panjang daerah overlap yang umum digunakan adalah kurang

lebih 30% sampai 50% dari panjang frame. Overlapping dilakukan untuk

menghindari hilangnya ciri atau karakteristik suara pada perbatasan perpotongan

setiap frame (Kurniawan, 2017).

2.2.3.2. Windowing

Proses windowing bertujuan untuk meminimalkan diskontinuitas pada

bagian awal dan akhir sinyal dan mengintregasikan garis-garis frekuensi terdekat.

Windowing dilakukan pada setiap bagian sinyal yang telah dibuat pada proses

framing (Setiawan, dkk, 2011). Jika didefinikasian sebuah window W(n), 0 < n <

N – 1 dan sinyal setiap bagian adalah X(n) maka sinyal hasil proses windowing ini

seperti pada Persamaan 2.1.

Y(n) = X(n) – W(n), 0 < n < N – 1 …………………...…………….……..(2.1)

Adapun N adalah jumlah sampel dari setiap frame. Model window yang

paling sering digunakan adalah Hamming Window yang dipresentasikan pada

Persamaan 2.2.

W(n) = 0,54 – 0,46 cos (2𝜋𝑛𝑁−1

) , 0 ≤ n ≤ N – 1 …………………………….. (2.2)

2.2.3.3. Fast Fourier Transform (FFT)

Fast Fourier Transform (FFT) yang ditemukan tahun 1965 merupakan

pengembangan dari Fourier Transform (FT). Penemu FT adalah J. Fourier pada

tahun 1822. FT membagi sebuah sinyal menjadi frekuensi yang berbeda – beda

dalam fungsi eksponensial yang kompleks.

Untuk pemrosesan sinyal diskrit, sebuah algoritma baru yang disebut

Discrete Fourier Transform (DFT) diciptakan. DFT memiliki rumus yang

dipresentasikan pada Persamaan 2.3.

Xk = ∑ 𝑋𝑛𝑁−1𝑛=0 𝑒

2𝜋𝑡

𝑁𝑛𝑘, k = 0, …, N – 1 ……………………………..…….. (2.3)

Page 9: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

12

Adapun N menyatakan jumlah sampel, FFT membagi sampel N menjadi

dua buah N1 dan N2 secara rekursif bersama perkalian dengan hasil yang didapatkan

lalu dikalikan dengan sampel 𝑒2𝜋𝑡

𝑁𝑛𝑘. Hal ini membuat FFT hanya hanya memiliki

kompleksitas O (N log N). Dalam pemrosesan sinyal suara, FFT akan mengubah

sinyal suara dalam domain waktu menjadi domain frekuensi.

2.2.3.4. Mel Filter Bank Processing

Jangkauan frekuensi dalam spektrum FFT sangat lebar. Sinyal suara juga

tidak mengikuti skala linear. Maka filter kemiringan menurut skala Mel yang

ditunjukkan pada Gambar 2.4.

Gambar 2. 4 Mel Scale Filter Bank (Holmes and Holmes 2001, 161)

Gambar 2.4 menunjukkan rangkaian filter segitiga yang digunakan

menghitung jumlah berat dari filter komponen spektral sehingga hasil dari proses

mendekati skala Mel. Setiap ketinggian filter frequency response adalah bentuk

segitiga dan setara pada penggabungan pusat frekuensi dan penurunan secara linear

menuju nol pada pusat frekuensi dari dua filter bersebelahan.

Gambar 2. 5 Gambar Skala Mel (Vaseghi 2007, 518)

Page 10: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

13

MFCC merupakan parameter domain frekuensi yang lebih konsisten dan

akurat daripada fitur domain waktu. Sebagian besar langkah dalam menghitung

MFCC dapat dijabarkan sebagai berikut : Fast Fourier Transform memfilter

dengan filter Mel dan cosine transform dari vektor log energi. MFCC mulai

dihitung dengan mengambil windowed frame dari sinyal suara, lalu menggunakan

Fast Fourier Transform (FFT) untuk memperoleh parameter tertentu dan kemudian

diubah menjadi skala Mel untuk memperoleh fitur yang mewakili amplitude

terkompres secara logaritmik dan informasi frekuensi yang sederhana. Kemudian

dihitung dengan mengaplikasikan Discrete Cosine Transform (DCT) kepada log

dari Mel-filter bank. Hasilnya adalah fitur yang menggambarkan bentuk spektral

dari sinyal (Muda, et. al., 2010).

Gambar 2. 6 Diagram Frequency Cepstral Coefficients (Muda, et. al., 2010).

2.2.3.5. Discrete Cosine Transform (DCT)

Setelah melalui Mel filter, spektrum Log Mel perlu untuk diubah menjadi

domain waktu menggunakan Discrete Cosine Transform (DCT). Hasil dari

konversi inilah yang disebut sebagai Mel-Frequency Cepstrum Coefficients.

Kumpulan dari koefisien ini disebut sebagai vektor akustik (acoustic vectors) yang

akan digunakan sebagai nilai. Perumusan DCT dapat dilihat pada Persamaan 2.4.

𝑋(𝑛) = ∑ (logS𝑘) cos[𝐾𝑘=1 𝑛(𝑘 −

1

2)𝑛

𝐾] , n = 1,2, … , K …………..…….. (2.4)

Dimana Sk adalah nilai yang keluar dari proses filter bank pada index k

dan K adalah jumlah koefisien yang diharapkan. Koefisien ke nol dari DCT pada

frame sinyal tersebut. Hal ini dilakukan karena berdasarkan penelitian-penelitian

Page 11: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

14

yang pernah dilakukan. Koefisien ke nol ini tidak reliable terhadap speaker

recognition.

2.2.3.6. Mel-Frequency Ceptrum Coefficients (MFCC)

Mel-Frequency Cepstrum Coefficients merupakan metode yang paling

dikenal dan paling banyak digunakan pada bidang ekstraksi fitur suara. MFC (Mel-

Frequency Cepstrum) memetakan komponen frekuensi dengan menggunakan skala

Mel yang dimodelkan berdasarkan persepsi suara dari telinga manusia. Mel-

Frequency Cepstrum mewakili spectrum jangka pendek dari suara menggunakan

linear cosine transform dari log sebuah spectrum skala Mel. Perumusan skala Mel

dapat dilihat pada Persamaan 2.5.

M = 2595log10(1

700+1) ………………………………..…..…….. (2.5)

2.2.4. Jaringan Syaraf Tiruan

Jaringan syaraf tiruan (neural network) adalah sebuah alat pemodelan data

statistik nonlinier. Neural network dapat digunakan untuk memodelkan hubungan

yang kompleks antara input dan output untuk menemukan pola-pola data (Widodo,

2005).

Jaringan Syaraf Tiruan (JST) sebenarnya mengadopsi dari kemampuan

otak manusia yang mampu memberikan stimulasi/rangsangan, melakukan proses,

dan memberi output. Output diperoleh dari variasi stimulasi dan proses yang terjadi

di dalam otak manusia. Kemampuan manusia dalam memproses informasi

merupakan hasil kompleksitas proses di dalam otak. Misalnya yang terjadi pada

anak-anak, mereka mampu belajar untuk melakukan pengenalan meskipun mereka

tidak mengetahui algoritma apa yang digunakan. Kekuatan komputasi dari otak

manusia ini merupakan sebuah keunggulan di dalam kajian ilmu pengetahuan.

Terdapat two layer network dalam jaringan syaraf tiruan, yang disebut

sebagai perceptron (Siang, 2005). Perceptron memungkinkan untuk pekerjaan

kliasifikasi pembelajaran tertentu dengan penambahan bobot pada setiap koneksi

antar network seperti yang ditunjukkan pada Gambar 2.7.

Page 12: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

15

Gambar 2. 7 Perceptron (Siang, 2005)

Keberhasilan perceptron dalam pengklasifikasian pola tertentu ini tidak

sepenuhnya sempurna, masih ditemukan juga beberapa keterbatasan di dalamnya.

Perceptron tidak mampu menyelesaikan permasalahan XOR (exclusive-OR).

Namun demikian, perceptron berhasil menjadi sebuah dasar untuk penelitian-

penelitian selanjutnya di bidang JST. Saat ini JST dapat diterapkan pada beberapa

task, diantaranya classification, recognition, approximation, prediction,

clusterization, memory simulation dan banyak task-task berbeda yang lainnya,

dimana jumlahnya semakin bertambah seiring berjalan waktu.

Learning Vector Quantization (LVQ) merupakan salah satu terapan dari

JST. LVQ melakukan proses pemetaan vektor yang berjumlah banyak menjadi

vektor dengan jumlah tertentu (Kusumadewi, 2004). Pada pengenalan citra, berupa

vektor ciri dari masing-masing citra, yang diperoleh dari proses ekstraksi ciri.

Untuk lebih jelasnya ditunjukkan pada Gambar 2.8.

Gambar 2. 8 Jaringan Syaraf Tiruan (Kusumadewi, 2004)

2.2.4.1. Learning Vector Quantization

Learning Vector Quantization adalah suatu metode untuk melakukan

pembelajaran pada lapisan kompetitif yang terawasi. Suatu lapisan kompetitif akan

Page 13: BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORIeprints.mercubuana-yogya.ac.id/4225/3/BAB II.pdf · 4 BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI Tinjauan Pustaka Dalam penelitian yang berjudul

16

secara otomatis belajar untuk mengklasifikasikan vektor-vektor input. Kelas-kelas

yang didapatkan sebagai hasil dari lapisan kompetitif ini hanya tergantung pada

jarak antara vektor-vektor input. Jika dua vektor input mendekati sama, maka

lapisan kompetitif akan meletakkan kedua vektor input tersebut ke dalam kelas

yang sama (Kusumadewi, 2003).

Dalam hal ini diberikan sehimpunan pola yang klasifikasinya diketahui,

diberikan bersama distribusi awal vektor referensi. Setelah pelatihan, JST LVQ

mengklasifikasikan vektor masukan dalam kelas yang sama dengan unit keluaran

yang memiliki vektor bobot yang paling dekat dengan vektor masukan. Arsitektur

dari LVQ ditunjukkan pada Gambar 2.9.

x1

x2

x3

x4

x5

xn

|| x-w ||1

|| x-w ||2

F1

F2

y_in1

y_in2

y1

y2

Gambar 2. 9 Arsitektur Learning Vector Quantization (Kusumadewi, 2004)

Keterangan :

X1,X2,…,Xn = Vektor masukan (X1,X2,…, Sn)

F1, F2 = Lapisan Kompetitif

y_in 1, y_in2 = Masukan lapisan kompetitif

y1, y2 = Keluaran

W1, W2 = Vektor bobot untuk unit keluaran

||X-W|| = Selisih nilai jarak Euclidean antara vector input