Speech Recognition

Perbandingan Keakuratan Antara Jaringan Saraf Tiruan

Back Propagation dan Self Organizing Maps Untuk

Speech Recognition

Mimi Tantono535020172

Speech Recognition(Pengenalan Suara)

Adalah proses yang dilakukan komputer untuk mengidentifikasikan kata-kata yang diucapkan kepadanya.

Sistem pengenalan suara isolated utterances: mengenali suatu kata sebagai perintah kepada sistem untuk melakukan fungsi atau aksi tertentu sesuai dengan arti kata.

Sistem Pengenalan Suara

Ekstraksi fitur: mengkompresi informasi dalam ucapan.

Pengenalan: menentukan keluaran dari sistem, dapat digunakan jaringan saraf tiruan

Tujuan Penelitian

Membandingkan kinerja antara JST MBPNN dan JST SOM dalam hal akurasi bila digunakan untuk pengenalan suara.

Sinyal Percakapan dan Sistem Produksi Suara

Sinyal Percakapan

Sinyal yang dihasilkan dari suara manusia sewaktu melakukan percakapan.

Vocal Tract: mulut, lidah, gigi, bibir, dan langit-langit.

Metode Linear Predictive Coding (LPC)

Transformasi Fourier

Transformasi Fourier merupakan metode untuk transformasi sinyal domain waktu menjadi sinyal domain frekuensi.

Untuk transformasi terhadap sinyal diskrit, digunakan Discrete Fourier Transform (DFT).

DFT

Inverse DFT

1

0

/2)()(N

n

NnkjenxkX

1

0

/2)(1

)(N

k

NnkjekXN

nx

Momentum Back Propagation Neural Network (MBPNN)

Back Propagation Neural Network (BPNN) dikembangkan oleh Rumelhart, Hinton, dan Williams pada tahun 1986

MBPNN merupakan JST dengan pembelajaran yang supervised, artinya data pembelajaran terdiri dari vektor pasangan input dan target (output yang diharapkan).

Arsitektur MBPNN

Self Organizing Maps

Self Organizing Maps (SOM) dikembangkan pada tahun 1982 oleh Teuvo Kohonen dari The Academy of Finland.

SOM menggunakan metode pembelajaran unsupervised, artinya di dalam melakukan pembelajaran tidak menggunakan data output sebagai target pembelajaran.

Arsitektur SOM

Rumusan Hipotesis

JST MBPNN memberikan tingkat akurasi pengenalan yang lebih tinggi daripada JST SOM untuk pengenalan suara dengan ekstraksi fitur menggunakan metode LPC dan transformasi FFT

Rancangan Penelitian (1)

Sampel suara yang digunakan adalah 300 buah sinyal digital yang direkam untuk 30 buah kata masing-masing diucapkan oleh 10 orang.

Percobaan dilakukan terhadap model 1, 2, dan 3 yang masing-masing terdiri dari 10 kata. Untuk masing-masing model, dilakukan pembelajaran terhadap 80 sinyal suara dan pengenalan terhadap 100 sinyal suara.


Model 1 terdiri dari kata “nol”, “satu”, “dua”, “tiga”, “empat”, “lima”, “enam”, “tujuh”, “delapan”, dan “sembilan”.

Model 2 terdiri dari kata “maju”, “mundur”, “kiri”, “kanan”, “atas”, “bawah”, “naik”, “turun”, “buka” dan “tutup”.

Model 3 terdiri dari kata “barat”, “utara”, “timur”, “selatan”, “tarik”, “dorong”, “tambah”, “kurang”, “kali”, dan “bagi”.


Jaringan

Saraf

Tiruan

Ekstraksi fitur

(LPC)

Output (dalam bentuk teks kata)

Fast Fourier

Transform

(FFT)

Sinyal suara digital

Koefisien cepstral

Nilai spektral

Perangkat keras : PC dengan prosesor AMD Duron 950 MHz dan memori 352 MB.

Perangkat lunak : Java 2 Platform Standard Edition (J2SE) versi 1.5.0_01 untuk merancang JST dan Matlab 6.1 untuk merancang pemrosesan sinyal, dengan sistem operasi Windows XP.

Teknik Analisis Data

Hipotesis Statistika

H0 : µXm = µXs

H1 : µXm > µXs Keterangan:

µXm = jumlah keberhasilan pengenalan suara menggunakan JST MBPNN.

µXs = jumlah keberhasilan pengenalan suara menggunakan JST SOM.

Tampilan Program

Tabel Rata-rata jumlah keberhasilan

Model Jaringan Saraf

Tiruan

Rata-rata jumlah keberhasilan

Simpangan baku

Model 1MBPNN 8.6 0.516398

SOM 3.2 2.043961


SOM 3.1 3.414023


SOM 3.1 1.449138

Grafik Rata-Rata Jumlah Keberhasilan

0

2

4

6

8

10

Jumlah keberhasilan

per kata

Model 1 Model 2 Model 3

Model

MBPNN

SOM

Kesimpulan

JST Momentum Back Propagation lebih akurat dibandingkan dengan jaringan saraf tiruan Self Organizing Maps jika digunakan untuk melakukan pengenalan suara sebagai kata tertentu dengan ekstraksi parameter menggunakan metode LPC dan transformasi dengan metode FFT.

Saran

Penelitian ini dapat dikembangkan dengan penelitian mengenai pengenalan suara dengan jaringan saraf tiruan jenis lainnya seperti time delay neural network.

Penelitian ini dapat dilanjutkan dengan penelitian mengenai identifikasi dan verifikasi suara.

Penelitian yang Relevan

Penggunaan JST untuk pengenalan suara, 1998. Studi perbandingan antara JST MLP, MOLP,

TDNN, dan SOM untuk pengenalan suara, 1998. Pengenalan Suara Manusia dengan Metode LPC

dan JST Back Propagation, 1999. Perbandingan Akurasi Prediksi Harga Stok Antara

Back Propagation dan SOM, 2003. Perbandingan Keakuratan Pengenalan Pola

Kurva Tertutup Dua Dimensi Antara MBPNN dengan Kohonen SOM, 2004.

Jaringan Lapis Tunggal

Jaringan Lapis Jamak

Algoritma Momentum Back Propagation

Algoritma SOM

Sinyal dan Sinyal Digital

Sinyal

Kuantitas fisik yang bervariasi seiring waktu dan variabel lainnya. Sinyal Digital

Sinyal analog yang telah melalui proses sampling, quantization, dan encoding.

Jaringan Saraf Tiruan

JST adalah sebuah sistem pemrosesan informasi yang memiliki karakteristik yang hampir sama dengan jaringan saraf biologis.

Karakteristik JST- Arsitektur jaringan: jaringan lapis jamak dan jaringan lapis tunggal- Algoritma pembelajaran: supervised dan unsupervised- Fungsi aktivasi

Documents

Speech Recognition