Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Uçtan Uca Anahtar Sözcük AramaAlican Gök ve Murat SaraçlarBoğaziçi Üniversitesi, Elektrik Elektronik Bölüm Başkanlığı[email protected], [email protected]
1. ÖzetBu çalışmada, klasik otomatik konuşma tanıma (OKT) tabanlı sistemlerin aksine, düşük gözetimle eğitilmiş bir uçtan uca anahtar sözcük aramasistemi tanıtılmaktadır. Bu sistem üç alt-sistemden oluşmaktadır. İlki, konuşmayı sabit boyutlu bir gömme kullanarak geriçatmak için eğitilmiş,özyinelemeli sinir ağı (RNN) tabanlı bir akustik özgizyazıcı; ikincisi ise karakter seviyesinde evrişimli sinir ağı - özyinelemeli sinir ağı(CNN-RNN) tabanlı, sorgu terimleri için sabit boyutlu bir gömme çıkartan bir dil modelidir. Bu iki gömme farklı gösterim uzaylarında oluklarıiçin, anahtar sözcüğün konuşmada yer alıp almadığını öngören üçüncü bir ileri beslemeli sinir ağına girdi olarak eklenmektedir. Klasik OKT-tabanlısistemlere göre çok daha hızlı eğitilebilen bu uçtan uca sistem, özellikle dağarcık dışı terimlerin bulunmasında önemli derecede iyileşme sağlamaktadır.
2. Anahtar Sözcük Arama Nedir?Anahtar Sözcük Arama (ASA) metin olarak verilen bir sorgu terimininkonuşma verisi içerisinde aranması işlemidir.
3. Ses Girdisinin ModellenmesiBu ağın amacı, anahtar sözcüklerin taratılacağı, farklı uzunluklarda ola-bilen ses dizilerini betimleyen sabit boyutlu gömmeler elde etmektir. Göze-timsiz eğitilen bu özgizyazıcıda girdi olarak ses dizilerinin posteriorgramıya da çok dilli darboğaz öznitelikleri kullanılabilir. Önerdiğimiz modelintemeli, [1] numaralı çalışmaya dayanmaktadır.
1x
eh1
Bx
e
Bh
Sx
e
Sh
Tx
e
Th
d
Bh 1
d
Shd
Bh
Bx 1ˆ
Bx Sx
GizyazıcıRNN
GizçözerRNN
Akustik Gömme
Akustik girdi dizisi
Geriçatılmış dizi
4. Metin Sorgunun ModellenmesiBenzer şekilde, farklı uzunluklarda olabilenanahtar sözcükleri sabit boyutlu bir uzaydagöstermek için aşağıdaki karakter-tabanlı dilmodeli kullanılmıştır. Bu ağ, hedef dile ait her-hangi bir grup yazı dizisi ile gözetimsiz olarakeğitilir.
2h Nh1h
1c
GizçözerRNN
Geriçatılmışharf dizisi
2c Nc
Sorgu gömmesi
Zamandaen büyük havuzlama
Harf dizisi girdisi
Evrişim katmanı
1c 2c Nc
5. Anahtar Sözcük Arama AğıAnahtar sözcüğün taranacağı ses ile yazılı sözcüğün gömmeleri bu nihaiağda birleştirilir. İleri beslemeli bu ağ, olumlu ve olumsuz örneklerle göze-timli bir biçimde eğitilir.
1x
eh1
Bx
e
Bh
Sx
e
Sh
Tx
e
ThGizyazıcı
RNN
Akustik gömme
Akustik girdi dizisi
Zamandaen büyük havuzlama
Harf dizisi girdisi
Evrişim katmanı
1c 2c Nc
İşitsel gizyazıcı
Sorgu gömmesi
Yazılı sorgu gizyazıcısı
İfade sorguyu içeriyorsa: 1 içermiyorsa: 0
Anahtar Sözcük AramaSinir Ağı
6. Sonuçlar ve Tartışma• Türkçe dili için, 10’ar saatlik eğitim ve sınama verileri ile eğitilmiş ve sınanmıştır.
• Eğitilmesi günler süren OKT-tabanlı daha karmaşık sistemlerin aksine birkaç saatte eğitilebilenbu sistem, bilgimiz dahilinde gerçekçi ölçevler ile sınanmış, uçtan uca yapay sinir ağı tabanlıilk büyük dağarcıklı ASA çalışmasıdır.
• Sistemimiz klasik OKT-tabanlı sistemlerle birleştirildiğinde [2], sistemimizin ASA başarımınıözellikle dağarcık dışı (DD) terimlerde önemli derecede arttırdığı görülmüştür.
– MTWV: Tüm anahtar sözcüklere aynı eşik değeri ile elde edilen tespit başarımı,– OTWV: Farklı sözcükler için en iyi eşik değeri ile elde edilen tespit başarımı,– STWV: Sahte alarmlara maliyet uygulanmaksızın elde edilen tespit başarımı.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
MTWV
OTWV
STWV
7. Kaynakça[1] K. Audhkhasi, A. Rosenberg, A. Sethy, B. Ramabhadran, and B. Kingsbury. End-to-end ASR-free keyword search from speech. IEEE Journal of Selected Topics
in Signal Processing, 11(8):1351–1359, Dec 2017.[2] B. Gündoğdu, B. Yusuf, and M. Saraçlar. Fusion of event detection systems: An application to keyword search. In 2018 26th Signal Processing and Communication
Application Conference (SIU), May 2018.