Upload
heidy-kaeni
View
746
Download
4
Embed Size (px)
DESCRIPTION
Penandaan Prosodik terhadap Batas-Batas Frase (Dugaan & Hasil) , review dari jurnal penelitian oleh A.Batliner, R.Kompe, A.KieBling, E.Noth, H.Niemann,U.Killian, dipresentasikan oleh Heidyanne R. Kaeni (Linguistik-UI, Februari 2012)
Citation preview
PENANDAAN PROSODIK BATAS-BATAS FRASA(DUGAAN & HASIL)
Dipresentasikan oleh Heidyanne R. Kaeni
S2 Liguistik – FIB UI
Februari 2012
oleh A.Batliner, R.Kompe, A.KieBling, E.Noth, H.Niemann,U.Killian
Abstrak Penelitian
Dengan menggunakan template kalimat dan tata bahasa stokastik yang bebas konteks, diciptakan sebuah corpus besar (10.000 kalimat) dimana batas-batas frasa dilabeli dalam kalimat secara otomatis selama generasi kalimat
Dengan eksperimen persepsi pada 500 ucapan diverivikasi bahwa 92% dari batas-batas yang ditandai otomatis dirasa tertandai secara prosodik.
Dalam eksperimen otomatis awal untuk 3 level batas dapat tercapai angka pengenalan hingga 81%.
Peta Pembahasan1. Pendahuluan & Material
2. Penandaan Batas Berdasarkan Pengetahuan Linguistik
3. Eksperimen Persepsi
4. Pengelompokan Otomatis terhadap Batas-Batas Frasa
5. Penutup
1a. Pendahuluan
Penemuan otomatis batas-batas frasa
membantu memisahkan hipotesa sebuah kata dalam suatu sistem automatic speech understanding (ASU)
Pandangan dalam Pendekatan Statistik
perlu training database yg besar (corpus dengan label referensi untuk batas-batas frasa yang
ditandai secara prosodik)
metode: generasi otomatis terhadap label-label verifikasi: eksperimen persepsi
1b. Material
Material : Erlanger Bahn Anfragen (ERBA) speech training database besar untuk pengenalan kata
Menggunakan pembangkit kalimat stokastik berdasarkan tatabahasa yang bebas kontes & 38 pola dasar kalimat
corpus teks arbitrer
10000 kalimat direkam dari 100 penutur tidak terlatih
(masing-masing 100 kalimat)
Yang digunakan untuk evaluasi persepsi:
50 dari 100 ucapan oleh 10 penutur (5 pria, 5 wanita)
Dapat diabaikan: pengaruh kalimat dengan keganjilan semantik pada pengenalan kata
2. Penandaan Batas Berdasarkan Ilmu Linguistik
Empat (4) tipe of batas: B3, B2, B1, B0
Batas B3 antara klausa elipitik & klausa
Guten Morgen B3 Ich mochte gerne… (Good morning B3 I would like to…)
antara klausa induk & anak klausa …einen Zug B3 der sehr fruh fahrt (…a train B3 that every early leaves)
pada partikel-partikel penghubung antarklausa Ich mochte um acht Uhr nach Munchen fahren B3 und moglischst fruh
ankommen (I would like at 8 o’clock to Munich to go B3 and as early as possible arrive)
Batas B2 antar konstituen
in der Nacht B2 mit dem IC B2 nach Ulm (during the night B2 with the IC B2 to Ulm)
pada partikel-partikel penghubung antar konstituen zwischem Ulm B2 und Stuttgart between Ulm B2 and Stuttgart
Batas B1 secara sintaktis termasuuk ke B2 namun dekat ke B3
atau awal/akhir ucapan Ich mochte B1 am nachsten Dienstag B2 zwischen drei B2 und sechs Uhr B2
von Hamburg B2 nach Ulm B1 fahren (I would like B1 next Tuesday B2 between three B2 and six o’clock B2 from
Hamburg B2 to Ulm B1 to go)
Batas B0 yag tidak termasuk ke B1, B2, B3
3. Eksperimen Persepsi
Untuk verifikasi dijalankan eksperimen dengan 10 pendengar ‘naif’ yang : diberikan ucapan-ucapan tanpa tanda-tanda baca diminta untuk menandai jarak antara 2 kata jika
terasa ada ‘potongan’ diinstruksikan untuk tidak bergantung pada
pengetahuan mereka tentang struktur kalimat
Data persepsi dibandingkan dengan bagian-bagian berlabel dari batas-batas frasa Skor tiap batas frasa yg memungkinkan: 0 (tanpa
tanda) – 10 (seluruh subjek dalam tes merasakan suatu batas frasa sebagai tanda prosodik)
Hasil: Distribusi B0,B1,B3 sesuai dugaan dan
berkerumun di batas kiri dan batas kanan
4. Pengelompokan Otomatis atas Batas-Batas Frasa
Kontur F0 diperhitungkan menggunakan algoritma
Untuk tiap batas kata, sekumpulan fitur-fitur prosodik diperhitungkan: Panjang jeda Durasi dari pangkal silabel sebelum batas, rata-rata
dan standar deviasi durasi Energi dan posisi frame relatif ke batas, energi rata-
rata dari 2 silabel ke kiri dan ke kanan batas Koefisien regresi linier dari kontur F0 Onset, minimum, maximum, dan offset F0 serta
posisi mereka pada sumbu axis waktu relatif ke batas
Penggolong polinomial kuadratik dilatih untuk membedakan 3 kelompok B0+B1, B2, B3.
Training database terdiri atas 6900 ucapan ERBA dari 69 penutur
Kumpulan tes terdiri atas 1000 ucapan ERBA dari 10 penutur yang digunakan untuk eksperimen persepsi
Tingkat pengenalan: 81% (rata-rata 51%) kemungkinan apriori 71% (rata-rata 69%) distribusi sama
5. Penutup
Akan dibangun model intonasi yang memadukan batas-batas frase dan aksen-aksen frase
Akan dikembangkan metode yang memungkinkan untuk mengenerasi secara otomatis label-label referensi frasa berdasarkan corpus teks seperti ERBA (dimana batas-batas frase prosodik telah ditandai)
Harapan: mendapatkan perbaikan lebih lanjut dengan melihat aksen-aksen frasa dan menambahkan fitur-fitur suprasegmental baru ke vektor fitur.
TERIMAKASIH