1
Uçtan Uca Anahtar Sözcük Arama Alican Gök ve Murat Saraçlar Boğaziçi Üniversitesi, Elektrik Elektronik Bölüm Başkanlığı [email protected], [email protected] 1. Özet Bu çalışmada, klasik otomatik konuşma tanıma (OKT) tabanlı sistemlerin aksine, düşük gözetimle eğitilmiş bir uçtan uca anahtar sözcük arama sistemi tanıtılmaktadır. Bu sistem üç alt-sistemden oluşmaktadır. İlki, konuşmayı sabit boyutlu bir gömme kullanarak geriçatmak için eğitilmiş, özyinelemeli sinir ağı (RNN) tabanlı bir akustik özgizyazıcı; ikincisi ise karakter seviyesinde evrişimli sinir ağı - özyinelemeli sinir ağı (CNN-RNN) tabanlı, sorgu terimleri için sabit boyutlu bir gömme çıkartan bir dil modelidir. Bu iki gömme farklı gösterim uzaylarında olukları için, anahtar sözcüğün konuşmada yer alıp almadığını öngören üçüncü bir ileri beslemeli sinir ağına girdi olarak eklenmektedir. Klasik OKT-tabanlı sistemlere göre çok daha hızlı eğitilebilen bu uçtan uca sistem, özellikle dağarcık dışı terimlerin bulunmasında önemli derecede iyileşme sağlamaktadır. 2. Anahtar Sözcük Arama Nedir? Anahtar Sözcük Arama (ASA) metin olarak verilen bir sorgu teriminin konuşma verisi içerisinde aranması işlemidir. 3. Ses Girdisinin Modellenmesi Bu ağın amacı, anahtar sözcüklerin taratılacağı, farklı uzunluklarda ola- bilen ses dizilerini betimleyen sabit boyutlu gömmeler elde etmektir. Göze- timsiz eğitilen bu özgizyazıcıda girdi olarak ses dizilerinin posteriorgramı ya da çok dilli darboğaz öznitelikleri kullanılabilir. Önerdiğimiz modelin temeli, [1] numaralı çalışmaya dayanmaktadır. 1 x e h 1 B x e B h S x e S h T x e T h d B h 1 d S h d B h B x ˆ 1 ˆ B x S x ˆ Gizyazıcı RNN Gizçözer RNN Akustik Gömme Akustik girdi dizisi Geriçatılmış dizi 4. Metin Sorgunun Modellenmesi Benzer şekilde, farklı uzunluklarda olabilen anahtar sözcükleri sabit boyutlu bir uzayda göstermek için aşağıdaki karakter-tabanlı dil modeli kullanılmıştır. Bu ağ, hedef dile ait her- hangi bir grup yazı dizisi ile gözetimsiz olarak eğitilir. 2 h N h 1 h 1 ˆ c Gizçözer RNN Geriçatılmış harf dizisi 2 ˆ c N c ˆ Sorgu gömmesi Zamanda en büyük havuzlama Harf dizisi girdisi Evrişim katmanı 1 c 2 c N c 5. Anahtar Sözcük Arama Ağı Anahtar sözcüğün taranacağı ses ile yazılı sözcüğün gömmeleri bu nihai ağda birleştirilir. İleri beslemeli bu ağ, olumlu ve olumsuz örneklerle göze- timli bir biçimde eğitilir. 1 x e h 1 B x e B h S x e S h T x e T h Gizyazıcı RNN Akustik gömme Akustik girdi dizisi Zamanda en büyük havuzlama Harf dizisi girdisi Evrişim katmanı 1 c 2 c N c İşitsel gizyazıcı Sorgu gömmesi Yazılı sorgu gizyazıcısı İfade sorguyu içeriyorsa: 1 içermiyorsa: 0 Anahtar Sözcük Arama Sinir Ağı 6. Sonuçlar ve Tartışma Türkçe dili için, 10’ar saatlik eğitim ve sınama verileri ile eğitilmiş ve sınanmıştır. Eğitilmesi günler süren OKT-tabanlı daha karmaşık sistemlerin aksine birkaç saatte eğitilebilen bu sistem, bilgimiz dahilinde gerçekçi ölçevler ile sınanmış, uçtan uca yapay sinir ağı tabanlı ilk büyük dağarcıklı ASA çalışmasıdır. Sistemimiz klasik OKT-tabanlı sistemlerle birleştirildiğinde [2], sistemimizin ASA başarımını özellikle dağarcık dışı (DD) terimlerde önemli derecede arttırdığı görülmüştür. MTWV: Tüm anahtar sözcüklere aynı eşik değeri ile elde edilen tespit başarımı, OTWV: Farklı sözcükler için en iyi eşik değeri ile elde edilen tespit başarımı, STWV: Sahte alarmlara maliyet uygulanmaksızın elde edilen tespit başarımı. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 MTWV OTWV STWV 7. Kaynakça [1] K. Audhkhasi, A. Rosenberg, A. Sethy, B. Ramabhadran, and B. Kingsbury. End-to-end ASR-free keyword search from speech. IEEE Journal of Selected Topics in Signal Processing, 11(8):1351–1359, Dec 2017. [2] B. Gündoğdu, B. Yusuf, and M. Saraçlar. Fusion of event detection systems: An application to keyword search. In 2018 26th Signal Processing and Communication Application Conference (SIU), May 2018.

byoyo.cmpe.boun.edu.trbyoyo.cmpe.boun.edu.tr/posterler/alican_gok-byoyo18.pdf · Created Date: 20180702002340Z

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: byoyo.cmpe.boun.edu.trbyoyo.cmpe.boun.edu.tr/posterler/alican_gok-byoyo18.pdf · Created Date: 20180702002340Z

Uçtan Uca Anahtar Sözcük AramaAlican Gök ve Murat SaraçlarBoğaziçi Üniversitesi, Elektrik Elektronik Bölüm Başkanlığı[email protected], [email protected]

1. ÖzetBu çalışmada, klasik otomatik konuşma tanıma (OKT) tabanlı sistemlerin aksine, düşük gözetimle eğitilmiş bir uçtan uca anahtar sözcük aramasistemi tanıtılmaktadır. Bu sistem üç alt-sistemden oluşmaktadır. İlki, konuşmayı sabit boyutlu bir gömme kullanarak geriçatmak için eğitilmiş,özyinelemeli sinir ağı (RNN) tabanlı bir akustik özgizyazıcı; ikincisi ise karakter seviyesinde evrişimli sinir ağı - özyinelemeli sinir ağı(CNN-RNN) tabanlı, sorgu terimleri için sabit boyutlu bir gömme çıkartan bir dil modelidir. Bu iki gömme farklı gösterim uzaylarında oluklarıiçin, anahtar sözcüğün konuşmada yer alıp almadığını öngören üçüncü bir ileri beslemeli sinir ağına girdi olarak eklenmektedir. Klasik OKT-tabanlısistemlere göre çok daha hızlı eğitilebilen bu uçtan uca sistem, özellikle dağarcık dışı terimlerin bulunmasında önemli derecede iyileşme sağlamaktadır.

2. Anahtar Sözcük Arama Nedir?Anahtar Sözcük Arama (ASA) metin olarak verilen bir sorgu terimininkonuşma verisi içerisinde aranması işlemidir.

3. Ses Girdisinin ModellenmesiBu ağın amacı, anahtar sözcüklerin taratılacağı, farklı uzunluklarda ola-bilen ses dizilerini betimleyen sabit boyutlu gömmeler elde etmektir. Göze-timsiz eğitilen bu özgizyazıcıda girdi olarak ses dizilerinin posteriorgramıya da çok dilli darboğaz öznitelikleri kullanılabilir. Önerdiğimiz modelintemeli, [1] numaralı çalışmaya dayanmaktadır.

1x

eh1

Bx

e

Bh

Sx

e

Sh

Tx

e

Th

d

Bh 1

d

Shd

Bh

Bx 1ˆ

Bx Sx

GizyazıcıRNN

GizçözerRNN

Akustik Gömme

Akustik girdi dizisi

Geriçatılmış dizi

4. Metin Sorgunun ModellenmesiBenzer şekilde, farklı uzunluklarda olabilenanahtar sözcükleri sabit boyutlu bir uzaydagöstermek için aşağıdaki karakter-tabanlı dilmodeli kullanılmıştır. Bu ağ, hedef dile ait her-hangi bir grup yazı dizisi ile gözetimsiz olarakeğitilir.

2h Nh1h

1c

GizçözerRNN

Geriçatılmışharf dizisi

2c Nc

Sorgu gömmesi

Zamandaen büyük havuzlama

Harf dizisi girdisi

Evrişim katmanı

1c 2c Nc

5. Anahtar Sözcük Arama AğıAnahtar sözcüğün taranacağı ses ile yazılı sözcüğün gömmeleri bu nihaiağda birleştirilir. İleri beslemeli bu ağ, olumlu ve olumsuz örneklerle göze-timli bir biçimde eğitilir.

1x

eh1

Bx

e

Bh

Sx

e

Sh

Tx

e

ThGizyazıcı

RNN

Akustik gömme

Akustik girdi dizisi

Zamandaen büyük havuzlama

Harf dizisi girdisi

Evrişim katmanı

1c 2c Nc

İşitsel gizyazıcı

Sorgu gömmesi

Yazılı sorgu gizyazıcısı

İfade sorguyu içeriyorsa: 1 içermiyorsa: 0

Anahtar Sözcük AramaSinir Ağı

6. Sonuçlar ve Tartışma• Türkçe dili için, 10’ar saatlik eğitim ve sınama verileri ile eğitilmiş ve sınanmıştır.

• Eğitilmesi günler süren OKT-tabanlı daha karmaşık sistemlerin aksine birkaç saatte eğitilebilenbu sistem, bilgimiz dahilinde gerçekçi ölçevler ile sınanmış, uçtan uca yapay sinir ağı tabanlıilk büyük dağarcıklı ASA çalışmasıdır.

• Sistemimiz klasik OKT-tabanlı sistemlerle birleştirildiğinde [2], sistemimizin ASA başarımınıözellikle dağarcık dışı (DD) terimlerde önemli derecede arttırdığı görülmüştür.

– MTWV: Tüm anahtar sözcüklere aynı eşik değeri ile elde edilen tespit başarımı,– OTWV: Farklı sözcükler için en iyi eşik değeri ile elde edilen tespit başarımı,– STWV: Sahte alarmlara maliyet uygulanmaksızın elde edilen tespit başarımı.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

MTWV

OTWV

STWV

7. Kaynakça[1] K. Audhkhasi, A. Rosenberg, A. Sethy, B. Ramabhadran, and B. Kingsbury. End-to-end ASR-free keyword search from speech. IEEE Journal of Selected Topics

in Signal Processing, 11(8):1351–1359, Dec 2017.[2] B. Gündoğdu, B. Yusuf, and M. Saraçlar. Fusion of event detection systems: An application to keyword search. In 2018 26th Signal Processing and Communication

Application Conference (SIU), May 2018.