5
Voice verification systems can be 1. text dependent, 2. text independent, 3. or a combination of the two. Text dependent systems require a person to speak a predetermined word or phrase. This information, known as a "pass phrase," can be a piece of information such as a name, birth city, favorite color or a sequence of numbers. The pass phrase is then compared to a sample captured during enrollment. Text independent systems recognize a speaker without requiring a predefined pass phrase. It operates on speech inputs of longer duration so that it has a greater opportunity to identify the distinctive vocal characteristics (i.e., pitch, cadence, tone). Tujuan utama dari pemroses MFCC adalah menirukan perilaku dari pendengaran manusia. Adapun prosesnya sebagai berikut : Frame Blocking Windowing Transformasi Fourier Cepat Mel-Frequency Wrapping Cepstrum Vektor Kuantisasi Pelatihan Vektor-Vektor Algoritma K-Means Pengukuran Jarak Yang kedua adalah memroses koefisien mel-frequency cepstrum tujuannya adalah menirukan perilaku dari pendengaran manusia. Yang ketiga adalah proses pelatihan. Dalam proses pelatihan pola kata dimasukkan secara urut mulai penutur 1 dengan pola kata /kampus/. Kemudian penutur 2 dengan pola kata yang sama, demikian seterusnya sampai pembicara ke-10 (pelatihan data set). Dalam proses pelatihan ini untuk mengenali pola kata yang dilatihkan sesuai target yang ditentukan pula. Yang keempat adalah menguji

Voice Verification Systems Can Be

  • Upload
    tonny

  • View
    36

  • Download
    2

Embed Size (px)

DESCRIPTION

cara voice verification

Citation preview

Page 1: Voice Verification Systems Can Be

Voice verification systems can be

1. text dependent,2. text independent,3. or a combination of the two.

Text dependent systems require a person to speak a predetermined word or phrase. This information, known as a "pass phrase," can be a piece of information such as a name, birth city, favorite color or a sequence of numbers. The pass phrase is then compared to a sample captured during enrollment. Text independent systems recognize a speaker without requiring a predefined pass phrase. It operates on speech inputs of longer duration so that it has a greater opportunity to identify the distinctive vocal characteristics (i.e., pitch, cadence, tone).

Tujuan utama dari pemroses MFCC adalah menirukan perilaku dari pendengaran manusia. Adapun prosesnya sebagai berikut :

  Frame Blocking  Windowing  Transformasi Fourier Cepat  Mel-Frequency Wrapping  Cepstrum  Vektor Kuantisasi  Pelatihan Vektor-Vektor  Algoritma K-Means  Pengukuran Jarak

Yang kedua adalah memroses koefisien mel-frequency cepstrum tujuannya adalah menirukan perilaku dari pendengaran manusia. Yang ketiga adalah proses pelatihan. Dalam proses pelatihan pola kata dimasukkan secara urut mulai penutur 1 dengan pola kata /kampus/. Kemudian penutur 2 dengan pola kata yang sama, demikian seterusnya sampai pembicara ke-10 (pelatihan data set). Dalam proses pelatihan ini untuk mengenali pola kata yang dilatihkan sesuai target yang ditentukan pula. Yang keempat adalah menguji penutur dengan MFCC dan VQ untuk mengenali penutur. Yang kelima yaitu menganalisa dan pengambilan kesimpulan.

Penelitian ini untuk membuat sistem pengenalan penutur. Ekstraksi ciri wicara dari penutur tak dikenal dan dibandingkan dengan ekstraksi ciri dari penutur yang ada dalam database. Ekstraksi ciri menggunakan mel frequency wraping yaitu dengan MFCC. Fungsi mel cepstrum digunakan untuk menghitung sinyal mel. Penutur dimodelkan dengan menggunakan VQ. Codebook VQ dibangkitkan oleh kluster dari pelatihan vektor-vektor ciri dari masing-masing penutur dan di-simpan dalam database. Dalam metode

Page 2: Voice Verification Systems Can Be

ini, algoritma K-mean digunakan untuk kluster. Dalam tahap pengenalan penutur, distorsi diukur berdasarkan minimisasi jarak Euclidean yang digunakan saat mencocokkan (matching) penutur tak dikenal dengan database penutur. Dengan MFCC dan VQ pengenalan penutur dapat digunakan untuk identifikasi penutur.

ra (voice)

Sistem pengenalan berbasis suara menganalisa bentuk gelombang dan

pola-pola tekanan udara yang dihasilkan ketika seseorang berbicara kedalam

mikropon.

Biometrika suara sesungguhnya merupakan kombinasi dari karakteristik

fisiologis dan tingkah laku. Mulut, rongga hidung, bibir, gigi, dan lain-lainya

merupakan karakteristik fisiologis (fisik) yang berkaitan dengan bagian-

bagian pembentukan suara, sedangkan bagaimana seseorang mengucapkan

suaranya, tekanan udara yang bervariasi sepanjang waktu pembicaraan

merupakan karakteristik tingkah laku.

Suara seseorang dapat berubah sehubungan dengan perkembangan jaman,

kondisi-kondisi medis (seperti kedinginan), emosional, dan lain lain

merupakan faktor-faktor yang akan mempengaruhi sistem berbasis

biometrika suara. Memisahkan derau latarbelakang (background noise)

merupakan tantangan terberat dalam membangun sistem berbasis

biometrika suara.

Salah satu filter yangdapat digunakan untuk menekan derau dari sinyal suaraadalah filter adaptif. Filter adaptif merupakan filterdigital yang menggunakan umpan balik untukmenentukan nilai dari koefisien filter terbaik yangdipakai untuk memperoleh sinyal yang diinginkan.Filter adaptif dapat ditambahkan pada sistempengenalan suara untuk menekan derau yang menyertaisuara masukan yang akan dikenali.

Setelah melalui filter adaptif

kemudian diproses pada sistempengenalan suara yang menggunakan LPC (LinearPredictive Coding) untuk ekstraksi ciri dan HMM

(Hidden Markov Model) untuk memodelkan suaranya.

(Least Mean Square) untuk mencari nilai MSE(Mean Square Error) pada sistem yang kemudiandigunakan untuk menentukan koefisien filter.

Page 3: Voice Verification Systems Can Be

Penghitungan koefisien filter pada filter adaptif denganmenggunakan nilai MSE adalah sebagai berikut :

w(n+1) = w(n) + μe(n)d’(n)

Dalam proses pengenalan digunakan algoritma ekstraksi ciri yang disebut LinearPredictive Coding (LPC), sedang pola pengenalan menggunakan metode Hidden Markov Model(HMM). LPC merupakan salah satu metode analisis sinyal suara yang menyatakan ciri-ciri pentingdari sinyal suara tersebut dalam bentuk koefisien-koefisien LPC. Selanjutnya HMM digunakan

untuk pelatihan dan pengenalan.

Ekstraksi CiriSetelah melalui proses perekaman, sinyal suara akan dibaca atau dipanggilkembali dengan fungsi wavread. Hasil pembacaan data untuk keseluruhansinyal suara digunakan untuk proses selanjutnya yaitu ekstraksi ciri. Prosesekstraksi ciri digunakan untuk mencari nilai koefisien-koefisien LPC dari sinyalsuara.3.3 Pemodelan Parameter HMMUntuk mendapatkan parameter HMM melalui lima tahap, yaitu :memasukkan runtun observasi hasil dari proses ekstraksi ciri, memilih state,inisialisasi parameter HMM, pelatihan HMM, pelatihan parameter HMM dengantujuan untuk mendapatkan parameter yang lebih baik dan penyimpanan. Stateuntuk pemodelan parameter HMM dapat dipilih dari state 15 sampai 20. Proses

untuk mendapatkan parameter HMM ditunjukkan pada

Pengenalan KataProses pengenalan kata dibagi menjadi 5 tahap, tahap pertamamemasukkan sinyal suara s(n), tahap kedua adalah proses ekstraksi ciri sinyalsuara, tahap ketiga menghitung probabilitas dari runtun observasi hasil prosesekstraksi ciri, tahap keempat memilih hasil probabilitas maksimum dan tahap

kelima menetapkan kata terkenali dengan keluara berupa teks

analisis korelasi terhadap spektrumnya \ untuk melihat apakah benar terdapat korelasi yang

tinggi antara kata yang satu dengan yang lain

Abstrak – Pengenalan ucapan dengan jaringan syaraf tiruan dapat dipahami dan dimengerti melalui beberapametode ekstraksi ciri, diantaranya dengan metode LPC dan transformasi Fourier. Linear Predictive Coding adalah

Page 4: Voice Verification Systems Can Be

salah satu alat dalam pemrosesan atau analisa sinyal untuk memperoleh fitur atau ciri unik dari tiap pola suara.Sedangkan Transformasi Fourier digunakan untuk memperjelas ciri tiap pola karena dapat memberikaninformasi-informasi yang disajikan dalam ranah frekuensi baik yang bersifat diskret maupun kontinu.JST (Jaringan Syaraf Tiruan) banyak digunakan untuk aplikasi pengenalan pola (pattern recognition).Kemampuan untuk pembelajaran dari data pelatihan dan generalisasi ke situasi/kondisi yang baru adalah alasan

mendasar mengapa JST banyak digunakan.

Untuk proses ekstraksi parameter suara digunakan metode LinearPredictive Coding (LPC) untuk mendapatkan koefisien cepstral. Koefisien cepstral LPC ini ditransformasikan kedalam domain frekuensi dengan beberapa titik pada Fast Fourier Transform (FFT), yaitu 32, 64, 128, dan 512point. Selanjutnya dari data tersebut diambil setengahnya saja yang sudah mewakili representasi frekuensi darisinyal tersebut. Data numeris tersebut dilatih dengan Jaringan Syaraf Tiruan untuk dikenali. Metoda pembelajaranyang digunakan adalah Back Propagation. Dari hasil pembelajaran akan didapatkan bobot jaringan yang telah

berubah. Jaringan diuji dengan memberikan masukkan berupa data pengu

Dalam tugas akhir ini dilakukan pengenalan suara dengan suatu algoritma ekstraksi ciri yang disebut metode Linear Predictive Coding (LPC) untuk analisa sinyal. LPC merupakan salah satu metode analisis sinyal suara yang menyatakan ciri-ciri penting dari sinyal suara tersebut dalam bentuk koefisien-koefisien LPC. Sedangkan untuk pengenalan pola digunakan Jaringan Saraf Tiruan dengan algoritma pelatihan Learning Vector Quantization (LVQ). Jaringan saraf Tiruan dengan pelatihan LVQ memiliki kemampuan mengklasifikasikan vector masukan ke kelas target yang telah ditentukan sebelumnya. Eksperimen dilakukan dengan beberapa perubahan nilai parameter untuk memperoleh presentase pengenalan tertinggi.