28
Perbandingan Keakuratan Antara Jaringan Saraf Tiruan Back Propagation dan Self Organizing Maps Untuk Speech Recognition Mimi Tantono 535020172

Speech Recognition

Embed Size (px)

DESCRIPTION

Final Thesis Presentation

Citation preview

Page 1: Speech Recognition

Perbandingan Keakuratan Antara Jaringan Saraf Tiruan

Back Propagation dan Self Organizing Maps Untuk

Speech Recognition

Mimi Tantono535020172

Page 2: Speech Recognition

Speech Recognition(Pengenalan Suara)

Adalah proses yang dilakukan komputer untuk mengidentifikasikan kata-kata yang diucapkan kepadanya.

Sistem pengenalan suara isolated utterances: mengenali suatu kata sebagai perintah kepada sistem untuk melakukan fungsi atau aksi tertentu sesuai dengan arti kata.

Page 3: Speech Recognition

Sistem Pengenalan Suara

Ekstraksi fitur: mengkompresi informasi dalam ucapan.

Pengenalan: menentukan keluaran dari sistem, dapat digunakan jaringan saraf tiruan

Page 4: Speech Recognition

Tujuan Penelitian

Membandingkan kinerja antara JST MBPNN dan JST SOM dalam hal akurasi bila digunakan untuk pengenalan suara.

Page 5: Speech Recognition

Sinyal Percakapan dan Sistem Produksi Suara

Sinyal Percakapan

Sinyal yang dihasilkan dari suara manusia sewaktu melakukan percakapan.

Vocal Tract: mulut, lidah, gigi, bibir, dan langit-langit.

Page 6: Speech Recognition

Metode Linear Predictive Coding (LPC)

Page 7: Speech Recognition

Transformasi Fourier

Transformasi Fourier merupakan metode untuk transformasi sinyal domain waktu menjadi sinyal domain frekuensi.

Untuk transformasi terhadap sinyal diskrit, digunakan Discrete Fourier Transform (DFT).

DFT

Inverse DFT

1

0

/2)()(N

n

NnkjenxkX

1

0

/2)(1

)(N

k

NnkjekXN

nx

Page 8: Speech Recognition

Momentum Back Propagation Neural Network (MBPNN)

Back Propagation Neural Network (BPNN) dikembangkan oleh Rumelhart, Hinton, dan Williams pada tahun 1986

MBPNN merupakan JST dengan pembelajaran yang supervised, artinya data pembelajaran terdiri dari vektor pasangan input dan target (output yang diharapkan).

Page 9: Speech Recognition

Arsitektur MBPNN

Page 10: Speech Recognition

Self Organizing Maps

Self Organizing Maps (SOM) dikembangkan pada tahun 1982 oleh Teuvo Kohonen dari The Academy of Finland.

SOM menggunakan metode pembelajaran unsupervised, artinya di dalam melakukan pembelajaran tidak menggunakan data output sebagai target pembelajaran.

Page 11: Speech Recognition

Arsitektur SOM

Page 12: Speech Recognition

Rumusan Hipotesis

JST MBPNN memberikan tingkat akurasi pengenalan yang lebih tinggi daripada JST SOM untuk pengenalan suara dengan ekstraksi fitur menggunakan metode LPC dan transformasi FFT

Page 13: Speech Recognition

Rancangan Penelitian (1)

Sampel suara yang digunakan adalah 300 buah sinyal digital yang direkam untuk 30 buah kata masing-masing diucapkan oleh 10 orang.

Percobaan dilakukan terhadap model 1, 2, dan 3 yang masing-masing terdiri dari 10 kata. Untuk masing-masing model, dilakukan pembelajaran terhadap 80 sinyal suara dan pengenalan terhadap 100 sinyal suara.

Page 14: Speech Recognition

Rancangan Penelitian (2)

Model 1 terdiri dari kata “nol”, “satu”, “dua”, “tiga”, “empat”, “lima”, “enam”, “tujuh”, “delapan”, dan “sembilan”.

Model 2 terdiri dari kata “maju”, “mundur”, “kiri”, “kanan”, “atas”, “bawah”, “naik”, “turun”, “buka” dan “tutup”.

Model 3 terdiri dari kata “barat”, “utara”, “timur”, “selatan”, “tarik”, “dorong”, “tambah”, “kurang”, “kali”, dan “bagi”.

Page 15: Speech Recognition

Rancangan Penelitian (3)

Jaringan

Saraf

Tiruan

Ekstraksi fitur

(LPC)

Output (dalam bentuk teks kata)

Fast Fourier

Transform

(FFT)

Sinyal suara digital

Koefisien cepstral

Nilai spektral

Perangkat keras : PC dengan prosesor AMD Duron 950 MHz dan memori 352 MB.

Perangkat lunak : Java 2 Platform Standard Edition (J2SE) versi 1.5.0_01 untuk merancang JST dan Matlab 6.1 untuk merancang pemrosesan sinyal, dengan sistem operasi Windows XP.

Page 16: Speech Recognition

Teknik Analisis Data

Hipotesis Statistika

H0 : µXm = µXs

H1 : µXm > µXs Keterangan:

µXm = jumlah keberhasilan pengenalan suara menggunakan JST MBPNN.

µXs = jumlah keberhasilan pengenalan suara menggunakan JST SOM.

Page 17: Speech Recognition

Tampilan Program

Page 18: Speech Recognition

Tabel Rata-rata jumlah keberhasilan

Model Jaringan Saraf

Tiruan

Rata-rata jumlah keberhasilan

Simpangan baku

Model 1MBPNN 8.6 0.516398

SOM 3.2 2.043961

Model 2MBPNN 8.5 0.707107

SOM 3.1 3.414023

Model 3MBPNN 8.3 0.483046

SOM 3.1 1.449138

Page 19: Speech Recognition

Grafik Rata-Rata Jumlah Keberhasilan

0

2

4

6

8

10

Jumlah keberhasilan

per kata

Model 1 Model 2 Model 3

Model

MBPNN

SOM

Page 20: Speech Recognition

Kesimpulan

JST Momentum Back Propagation lebih akurat dibandingkan dengan jaringan saraf tiruan Self Organizing Maps jika digunakan untuk melakukan pengenalan suara sebagai kata tertentu dengan ekstraksi parameter menggunakan metode LPC dan transformasi dengan metode FFT.

Page 21: Speech Recognition

Saran

Penelitian ini dapat dikembangkan dengan penelitian mengenai pengenalan suara dengan jaringan saraf tiruan jenis lainnya seperti time delay neural network.

Penelitian ini dapat dilanjutkan dengan penelitian mengenai identifikasi dan verifikasi suara.

Page 22: Speech Recognition

Penelitian yang Relevan

Penggunaan JST untuk pengenalan suara, 1998. Studi perbandingan antara JST MLP, MOLP,

TDNN, dan SOM untuk pengenalan suara, 1998. Pengenalan Suara Manusia dengan Metode LPC

dan JST Back Propagation, 1999. Perbandingan Akurasi Prediksi Harga Stok Antara

Back Propagation dan SOM, 2003. Perbandingan Keakuratan Pengenalan Pola

Kurva Tertutup Dua Dimensi Antara MBPNN dengan Kohonen SOM, 2004.

Page 23: Speech Recognition

Jaringan Lapis Tunggal

Page 24: Speech Recognition

Jaringan Lapis Jamak

Page 25: Speech Recognition

Algoritma Momentum Back Propagation

Page 26: Speech Recognition

Algoritma SOM

Page 27: Speech Recognition

Sinyal dan Sinyal Digital

Sinyal

Kuantitas fisik yang bervariasi seiring waktu dan variabel lainnya. Sinyal Digital

Sinyal analog yang telah melalui proses sampling, quantization, dan encoding.

Page 28: Speech Recognition

Jaringan Saraf Tiruan

JST adalah sebuah sistem pemrosesan informasi yang memiliki karakteristik yang hampir sama dengan jaringan saraf biologis.

Karakteristik JST- Arsitektur jaringan: jaringan lapis jamak dan jaringan lapis tunggal- Algoritma pembelajaran: supervised dan unsupervised- Fungsi aktivasi