4
Otomatik Konuşma Bölütlemede Dudak Görüntülerinin Kullanımı Using Visual Information in Automatic Speech Segmentation Eren Akdemir, Tolga Çiloğlu Elektrik ve Elektronik Mühendisliği Bölümü Orta Doğu Teknik Üniversitesi {akdemir,ciltolga}@metu.edu.tr Özetçe Bu çalışmada, konuşma sinyali bölütlemede ağız hareketlerine ait görüntü bilgisi kullanımının katkısı incelenmiştir. Konuşma sinyallerinin bölütlenmesi, konuşma işleme ile ilgili alanlarda gereksinim duyulan bir işlemdir. Konuşma tanıma sistemlerin eğitilmesinde, yapay konuşma üretiminde kullanılan veritabanlarının sesbirimlere ayrılmasında önemli yer tutar. Alt dudak ve üst dudağın hareketleri saklı Markov modeli kullanan bir otomatik bölütleme sistemine dâhil edilmiştir. Otomatik bölütleme sisteminin modellerinin üretilmesi ve test edilmesinde, eşzamanlı elektromanyetik artikülatograf ve konuşma verileri, içeren MOCHA-TIMIT veritabanı kullanılmıştır. Alt ve üst dudağın hareketleri öznitelik vektörlerine eklenerek, sistemin ortalama hatası %10 azaltılmıştır. Sesler sınıflara ayrılarak yapılan incelemeler sonucunda, yeni öznitelik vektörlerinin sadece belirli sözcük gruplarının sınırlarının bulunmasında kullanılmasıyla ortalama hata %12 azaltılmıştır. Abstract In this study, the use of visual information in automatic speech segmentation is investigated. Automatic speech segmentation is an essential task in speech processing systems. It is needed in speech recognition systems for training in speech synthesis systems for obtaining appropriate data and etc. The motions of upper and lower lips are incorporated into a hidden Markov model based segmentation process. MOCHA-TIMIT database, which involves simultaneous articulatograph and microphone recordings, was used to develop and test the models. Different feature vector compositions are proposed for incorporation of visual parameters to the automatic segmentation system. Average error of the system with respect to manual segmentation is decreased by 10.1%. The results are examined in a boundary-class dependent manner, and the performance of the system in different boundary types is discussed. After analyzing the boundary-class dependent performance, the system performance is increased by 12.1% by using the feature vector in only selected boundaries. 1. Giriş Konuşma sinyallerinin sesler, heceler, kelimeler ve benzeri ses birimlerine bölütlenmesi, konuşma işleme sistemlerinde gereksinim duyulan bir işlemdir. Konuşma bölütleme sistemleri verilen konuşma verisi ve fonetik çevrim kullanılarak, konuşmadaki fonetik sınırların bulunmasını sağlar. Birçok konuşma işleme uygulamasında geniş bir bölütlenmiş konuşma veritabanına ihtiyaç duyulmaktadır. Örneğin günümüzde yaygın olarak kullanılan, veri birleştirme tabanlı (data driven, concatenation based) konuşma sentezleme (TTS) sistemlerinde oldukça büyük miktarda bölütlenmiş konuşma verisi kullanılmaktadır. Ayrıca bu sistemleri değişik sesler ve hatta değişik dillere uyarlama gereksinimleri de ihtiyaç duyulan bölütlenmiş konuşma verisi miktarını birkaç kat arttırmaktadır. Daha kaliteli konuşma bölütleme sistemlerinin oluşturulması, diğer konuşma işleme sistemlerinin başarısını da oldukça arttıracaktır. Konuşma işleme uygulamalarında yaygın olarak kullanılan Saklı Markov Modeli (HMM) , otomatik konuşma bölütleme sistemlerinde de en sık kullanılan modeldir [1], [2], [3]. Bu yöntemde HMM konuşma tanıma sistemleri, verilen konuşma verisi ve konuşma verisinin fonetik çevrimi, zorla hizalama (forced alignment) yapılarak eşleştirilir. Konuşma bölütleme sistemlerinde, teksesli ikisesli ve üçsesli birçok HMM modeli kullanılmakla birlikte, teksesli modellerin başarımı daha yüksektir [3]. Bir diğer yaygın yöntem ise Dinamik Zaman Bükme (Dynamic Time Warping, DTW) algoritması kullanılarak, fonetik sınırları bilinen yapay konuşma sinyaliyle, fonetik sınırları bulunmaya çalışılan ses sinyalinin eşlenmesi suretiyle yapılan otomatik bölütlemedir. Bu iki yaygın yöntemi inceleyen ve birbirleriyle karşılaştıran bir çalışma [3]’de bulunabilir. Birçok çalışmada görüntü bilgisi konuşma tanıma sistemlerinde kullanılmıştır [4], [5], [6], [7]. Görüntü bilgisinin özellikle gürültülü çevre koşullarında konuşma tanıma başarımını arttırdığı saptanmıştır [4], [5]. Fakat literatürde, görüntü bilgisinin konuşma bölütleme sistemlerinde kullanıldığı bir çalışmaya henüz rastlanmamıştır. Görüntü bilgisinin otomatik konuşma bölütleme sistemlerinin başarımına katkısını saptamak için, HMM tabanlı bir konuşma bölütleme sistemi kullanılmıştır. Sistemin kullandığı öznitelik vektörleri olan Mel Frekans Kepstral Katsayılarına (MFCC) alt ve üst dudağın yer bilgileri eklenerek yeni öznitelik vektörleri oluşturulmuş, ve fonetik sınırlardaki ortalama hatanın dayanak sisteme göre %10 azaldığı gözlenmiştir. Daha 978-1-4244-1999-9/08/$25.00 ©2008 IEEE

[IEEE 2008 IEEE 16th Signal Processing, Communication and Applications Conference (SIU) - Aydin, Turkey (2008.04.20-2008.04.22)] 2008 IEEE 16th Signal Processing, Communication and

  • Upload
    tolga

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: [IEEE 2008 IEEE 16th Signal Processing, Communication and Applications Conference (SIU) - Aydin, Turkey (2008.04.20-2008.04.22)] 2008 IEEE 16th Signal Processing, Communication and

Otomatik Konuşma Bölütlemede Dudak Görüntülerinin Kullanımı

Using Visual Information in Automatic Speech Segmentation

Eren Akdemir, Tolga Çiloğlu

Elektrik ve Elektronik Mühendisliği Bölümü Orta Doğu Teknik Üniversitesi

{akdemir,ciltolga}@metu.edu.tr

Özetçe Bu çalışmada, konuşma sinyali bölütlemede ağız hareketlerine ait görüntü bilgisi kullanımının katkısı incelenmiştir. Konuşma sinyallerinin bölütlenmesi, konuşma işleme ile ilgili alanlarda gereksinim duyulan bir işlemdir. Konuşma tanıma sistemlerin eğitilmesinde, yapay konuşma üretiminde kullanılan veritabanlarının sesbirimlere ayrılmasında önemli yer tutar. Alt dudak ve üst dudağın hareketleri saklı Markov modeli kullanan bir otomatik bölütleme sistemine dâhil edilmiştir. Otomatik bölütleme sisteminin modellerinin üretilmesi ve test edilmesinde, eşzamanlı elektromanyetik artikülatograf ve konuşma verileri, içeren MOCHA-TIMIT veritabanı kullanılmıştır. Alt ve üst dudağın hareketleri öznitelik vektörlerine eklenerek, sistemin ortalama hatası %10 azaltılmıştır. Sesler sınıflara ayrılarak yapılan incelemeler sonucunda, yeni öznitelik vektörlerinin sadece belirli sözcük gruplarının sınırlarının bulunmasında kullanılmasıyla ortalama hata %12 azaltılmıştır.

Abstract In this study, the use of visual information in automatic speech segmentation is investigated. Automatic speech segmentation is an essential task in speech processing systems. It is needed in speech recognition systems for training in speech synthesis systems for obtaining appropriate data and etc. The motions of upper and lower lips are incorporated into a hidden Markov model based segmentation process. MOCHA-TIMIT database, which involves simultaneous articulatograph and microphone recordings, was used to develop and test the models. Different feature vector compositions are proposed for incorporation of visual parameters to the automatic segmentation system. Average error of the system with respect to manual segmentation is decreased by 10.1%. The results are examined in a boundary-class dependent manner, and the performance of the system in different boundary types is discussed. After analyzing the boundary-class dependent performance, the system performance is increased by 12.1% by using the feature vector in only selected boundaries.

1. Giriş Konuşma sinyallerinin sesler, heceler, kelimeler ve benzeri ses birimlerine bölütlenmesi, konuşma işleme sistemlerinde gereksinim duyulan bir işlemdir. Konuşma bölütleme

sistemleri verilen konuşma verisi ve fonetik çevrim kullanılarak, konuşmadaki fonetik sınırların bulunmasını sağlar. Birçok konuşma işleme uygulamasında geniş bir bölütlenmiş konuşma veritabanına ihtiyaç duyulmaktadır. Örneğin günümüzde yaygın olarak kullanılan, veri birleştirme tabanlı (data driven, concatenation based) konuşma sentezleme (TTS) sistemlerinde oldukça büyük miktarda bölütlenmiş konuşma verisi kullanılmaktadır. Ayrıca bu sistemleri değişik sesler ve hatta değişik dillere uyarlama gereksinimleri de ihtiyaç duyulan bölütlenmiş konuşma verisi miktarını birkaç kat arttırmaktadır. Daha kaliteli konuşma bölütleme sistemlerinin oluşturulması, diğer konuşma işleme sistemlerinin başarısını da oldukça arttıracaktır. Konuşma işleme uygulamalarında yaygın olarak kullanılan Saklı Markov Modeli (HMM) , otomatik konuşma bölütleme sistemlerinde de en sık kullanılan modeldir [1], [2], [3]. Bu yöntemde HMM konuşma tanıma sistemleri, verilen konuşma verisi ve konuşma verisinin fonetik çevrimi, zorla hizalama (forced alignment) yapılarak eşleştirilir. Konuşma bölütleme sistemlerinde, teksesli ikisesli ve üçsesli birçok HMM modeli kullanılmakla birlikte, teksesli modellerin başarımı daha yüksektir [3]. Bir diğer yaygın yöntem ise Dinamik Zaman Bükme (Dynamic Time Warping, DTW) algoritması kullanılarak, fonetik sınırları bilinen yapay konuşma sinyaliyle, fonetik sınırları bulunmaya çalışılan ses sinyalinin eşlenmesi suretiyle yapılan otomatik bölütlemedir. Bu iki yaygın yöntemi inceleyen ve birbirleriyle karşılaştıran bir çalışma [3]’de bulunabilir. Birçok çalışmada görüntü bilgisi konuşma tanıma sistemlerinde kullanılmıştır [4], [5], [6], [7]. Görüntü bilgisinin özellikle gürültülü çevre koşullarında konuşma tanıma başarımını arttırdığı saptanmıştır [4], [5]. Fakat literatürde, görüntü bilgisinin konuşma bölütleme sistemlerinde kullanıldığı bir çalışmaya henüz rastlanmamıştır. Görüntü bilgisinin otomatik konuşma bölütleme sistemlerinin başarımına katkısını saptamak için, HMM tabanlı bir konuşma bölütleme sistemi kullanılmıştır. Sistemin kullandığı öznitelik vektörleri olan Mel Frekans Kepstral Katsayılarına (MFCC) alt ve üst dudağın yer bilgileri eklenerek yeni öznitelik vektörleri oluşturulmuş, ve fonetik sınırlardaki ortalama hatanın dayanak sisteme göre %10 azaldığı gözlenmiştir. Daha

978-1-4244-1999-9/08/$25.00 ©2008 IEEE

Page 2: [IEEE 2008 IEEE 16th Signal Processing, Communication and Applications Conference (SIU) - Aydin, Turkey (2008.04.20-2008.04.22)] 2008 IEEE 16th Signal Processing, Communication and

sonra sesler 6 gruba ayrılmış ve görüntü bilgisinin katkısı bu ses gruplarının sınırlarında ayrı ayrı incelenmiştir. Makalenin ikinci bölümünde kullanılan otomatik konuşma bölütleme sistemi anlatılmıştır. 2.1.de kullanılan veri tabanından bahsedilmiştir, 2.2.de kullanılan yöntem anlatılmış ve 2.3.de önerilen öznitelik vektörleri tanıtılmıştır. 2.4.de önerilen öznitelik vektörleri kullanılarak elde edilen sonuçlar verilmiştir, 2.5. de bu sonuçlar ses sınıflarına göre incelenmiştir. 3. bölümde ise sonuçlar tartışılmıştır.

2. HMM Konuşma Bölütleme Sistemi Konuşma sinyali, ses yolunun gırtlaktan gelen dürtülerle uyarılması sonucu oluşur. Konuşma sinyalini oluşturan, ses yoluna şeklini veren artikülatörlerin durumlarıdır. Bu yüzden artikülatörlerin durumlarının bilinmesi konuşma sistemlerine katkı sağlayacaktır. Fakat artikülatörler ağız içinde bulunduğundan konumlarının saptanması kolay değildir. Konuşma sırasında dudakların durumlarının saptanması gelişen teknolojiyle birlikte oldukça kolaylaşmıştır. Bu sebeple görüntü bilgisi birçok konuşma tanıma sisteminde kullanılmaya başlamıştır. Görüntü bilgisi özellikle ortam gürültüsünün fazla olduğu durumlarda ve birden fazla konuşmanın üst üste binebildiği durumlarda konuşma tanıma sistemlerinin başarımlarını arttırmıştır [4], [5]. Görüntü bilgisinin kullanılmasının bir diğer avantajı da akustik ve görsel verinin birbirlerini tamamlayıcı nitelikte olmasıdır [5], [6]. Bu çalışmada alt ve üst dudağın dikey konumları bir HMM otomatik bölütleme sisteminde kullanılmıştır.

Şekil 1: MOCHA-TIMIT veritabanından bir örnek (Veritabanındaki bir cümlenin akustik verisi, ona ait

laryngograph verisi, ve alt ve üst dudağın dikey konumları).

2.1. Veritabanı

Çalışmada 460 İngilizce cümleden oluşan ve bir erkek ve bir bayan konuşmacının kayıtlarından oluşan MOCHA-TIMIT veritabanı [8] kullanılmıştır. Veritabanı, 16 kHz de kayıt edilmiş konuşma ve laryngograph verileri ve 500 Hzde kayıt edilmiş Elektromanyetik Artikülatograf (EMA) verilerinden

oluşmaktadır. EMA verileri; üst ön dişler, alt ön dişler, üst dudak, alt dudak, dil ucu, dilin orta noktası, dilin arka tarafının ve yumuşak damağın yatay ve dikey konumlarını içermektedir. Bu veriler bahsi gecen artikülatörlerin orta noktalarına birer elektromanyetik alıcılar yerleştirilerek bulunmuştur. Şekil 1. de veritabanından alınan bir ses dosyası, ona ait laryngograph verisi ve alt ve üst dudağın dikey konumları gösterilmiştir.

2.2. Yöntem

Konuşma bölütleme sistemi HTK [9] kullanılarak oluşturulmuştur. MOCHA-TIMIT veritabanından alınan erkek konuşmacıya ait 420 cümle sistemin eğitilmesinde kullanılmıştır. MFCC öznitelik vektörleri kullanılarak veritabanındaki 43 ses için (@, @@, a, aa, ai, b, ch, d, dh, e, ei, eir, f, g, h, i, i@, ii, iy, jh, k, l, m, n, ng, o, oi, oo, ou, ow, p, r, s, sh, t, th, u, uh, uu, v, w, y, z, zh) HMM modelleri oluşturulmuştur. Veritabanındaki diğer 40 cümle ise test amacıyla kullanılmıştır.

2.3. Öznitelik Vektörlerinin Oluşturulması

Alt ve üst dudağın konumları 39 elemandan oluşan MFCC öznitelik vektörüyle birleştirilmiştir. Oluşturulan yeni öznitelik vektörleriyle kurulan sistemlerin bulduğu fonetik sınır değerleri elle işaretlenmiş veritabanındaki sınır değerleriyle karşılaştırılarak bu sistemlerin performansları ölçülmüştür. Yeni öznitelik vektörleri iki şekilde oluşturulmuştur; dudak konumları birlikte ya da ayrı ayrı MFCC öznitelik vektörlerinin elemanlarının yerine koyulmuş ve öznitelik vektörünün boyu korunmuş ya da öznitelik vektörünün sonuna eklenerek, 40 ya da 41 elemanlı öznitelik vektörleri oluşturulmuştur. Oluşturulan öznitelik vektörleri şu şekildedir. 1. MFCC_0_D_A: Bu öznitelik vektörü dayanak olarak

kullanılmıştır. 12 MFCC, 1 enerji katsayısı, bunların türevleri ve ikinci türevlerinden oluşmaktadır. (39 elemanlı)

2. MFCC_0_D: 12 MFCC, 1 enerji katsayısı, bunların türevlerinden oluşmaktadır. (26 elemanlı)

3. MFCC_0_D_A-uly-lly: Alt ve üst dudağın dikey konumları (lly, uly) MFCC_0_D_A vektörünün 37nci ve 38inci elemanlarının yerlerine koyulmuştur.

4. MFCC_0_D_A -lly: Alt dudağın dikey konumu MFCC_0_D_A vektörünün 38inci elemanının yerine koyulmuştur.

5. MFCC_0_D_A -uly: Üst dudağın dikey konumu MFCC_0_D_A vektörünün 38inci elemanının yerine koyulmuştur.

6. MFCC_0_D_A -lly-dlly: Alt dudağın dikey konumu ve onun türevi MFCC_0_D_A vektörünün 37nci 38inci elemanlarının yerine koyulmuştur.

7. MFCC_0_D_A -uly-lly-derivatives: Alt ve üst dudağın dikey konumları (lly, uly) ve onların türevleri MFCC_0_D_A vektörünün 35, 36, 37 ve 38inci elemanlarının yerlerine koyulmuştur.

8. MFCC_0_D_A+lly: Alt dudağın dikey konumu MFCC_0_D_A vektörünün 40ıncı elemanı olarak sonuna eklenmiştir.

0 0.5 1 1.5 2 2.5 3

0 Audio

0 0.5 1 1.5 2 2.5 30

laryngograph

0 0.5 1 1.5 2 2.5 30 5

10 uly (mm)

0 0.5 1 1.5 2 2.5 3-40 -30 -20

lly(mm)

0 0.5 1 1.5 2 2.5 3

sil breath

sil i

z dh

i s

s ii

s oo

s

ei f

Page 3: [IEEE 2008 IEEE 16th Signal Processing, Communication and Applications Conference (SIU) - Aydin, Turkey (2008.04.20-2008.04.22)] 2008 IEEE 16th Signal Processing, Communication and

9. MFCC_0_D_A+uly: Üst dudağın dikey konumu MFCC_0_D_A vektörünün 40ıncı elemanı olarak sonuna eklenmiştir.

10. MFCC_0_D_A+uly+lly: Alt ve üst dudağın dikey konumları (lly, uly) MFCC_0_D_A vektörünün sonuna eklenmiştir.

11. MFCC_0_D_A+lly+dlly: Alt dudağın dikey konumu ve onun türevi MFCC_0_D_A vektörünün sonuna eklenmiştir.

12. MFCC_0_D_A+uly+duly: Üst dudağın dikey konumu ve onun türevi MFCC_0_D_A vektörünün sonuna eklenmiştir.

13. MFCC_0_D_A+(uly-lly): Alt ve üst dudağın dikey konumları arasındaki fark MFCC_0_D_A vektörünün sonuna eklenmiştir.

14. MFCC_0_D_A+lly+llx: Alt dudağın yatay ve dikey konumları MFCC_0_D_A vektörünün sonuna eklenmiştir.

Tablo 1: Farklı Öznitelik Vektörleri İçin Sınır

Hatalarının Mutlak değerlerinin Ortalamaları Öznitelik Vektörü Sınır

Hatalarının Mutlak

değerlerinin Ortalaması

Hatanın Varyansı (X10-4)

Ortalama hatadaki

Değişikliğin Yüzdesi

1 MFCC_O_D_A 9.9 2.09 -

2 MFCC_0_D 11.5 3.36 -18.2

3 MFCC_0_D_A-uly-lly 9.1 1.59 8.1

4 MFCC_0_D_A-lly 9.0 1.93 6.1

5 MFCC_0_D_A-uly 9.7 1.67 2.0

6 MFCC_0_D_A –lly-dlly 9.2 1.63 8.1

7 MFCC_0_D_A-uly-lly-derivatives 9.7 2.27 2.0

8 MFCC_0_D_A+lly 8.9 1.51 10.1

9 MFCC_0_D_A+uly 9.6 1.6 3.0

10 MFCC_0_D_A+uly+lly 8.9 1.59 10.1

11 MFCC_0_D_A+lly+dlly: 9.3 1.65 6.1

12 MFCC_0_D_A+uly+duly: 10.7 1.89 -8.1

13 MFCC_0_D_A+(uly-lly): 9.2 1.64 7,1

14 MFCC_0_D_A+lly+llx: 9.1 1.84 8.1

15 MFCC_0_D_A+distlips: 9.1 1.60 8.1

16 MFCC_0_D_A+lly+distlips: 9.1 1.84 8.1

15. MFCC_0_D_A+distlips: : Alt ve üst dudak arası

Euclid uzaklığı MFCC_0_D_A vektörünün sonuna eklenmiştir.

16. MFCC_0_D_A+lly+distlips: Alt dudağın dikey konumu ve dudaklar arası Euclid uzaklığı MFCC_0_D_A vektörünün sonuna eklenmiştir.

2.4. Otomatik Bölütleme Sonuçları

Önerilen öznitelik vektörleriyle çalışan otomatik konuşma bölütleme sistemlerinin ortalama hataları, bu hataların varyansları ve ortalama hataların dayanak sisteme göre değişimleri Tablo 1. de gösterilmiştir. En düşük ortalama hata alt dudağın dikey pozisyonunun tek başına ya da üst dudağın dikey konumuyla birlikte MFCC _0_D_A vektörüne eklenmesiyle elde edilmiştir. Uzunluğu 39 olan öznitelik vektörleri için de yine alt dudağın dikey konumunu kullanan vektörle en düşük ortalama hata gözlenmiştir. Dudak parametrelerinin MFCC _0_D_A hem eklenerek hem de elemanlarıyla yer değiştirilerek test edilmesinin sebebi öznitelik vektörünün boyunun sabit olmak zorunda olduğu sistemler için de bir öneride bulunabilmektir. Deneyler her iki durum için de alt dudağın dikey konumunu kullanan vektörlerin en iyi sonucu verdiğini göstermiştir.

Tablo 2: Ses Sınıflarına Göre Sınır Hatasını Değişimi

Hatanın

Mutlak

Değerlerinin

Ortalamasın

daki Değişim

(%)

Sessizlik Ünlü Patlamalı Akışkan Sürtüşmeli Genizsi

Sessizlik -

(0/0)

-4.2

(116/15)

3.3

(204/15)

-

(18/0)

-12.3

(66/8)

0.7

(16/2)

Ünlü 20.7

(50/10)

2.6

(1140/ 117)

5.6

(1715/

107)

2.5

(615/66)

7.3

(1111/78)

40.1

(936/74)

Patlamalı-12.3

(114/7)

10.0

(1922/ 118)

-0.9

(363/ 16)

-4.1

(430/ 18)

17.6

(320/ 16)

75.0

(60/4)

Akışkan -0.2

(58/4)

16.9

(952/75)

-16.9

(92/8)

-452

(9/2)

-14.6

(61/6)

-

(14/0)

Sürtüşmeli42.6

(148/14)

8.1

(948/ 77)

18.1

(448/18)

-24.1

(89/6)

-0.1

(131/9)

-14.2

(115/9)

Genizsi 12.9

(50/5)

36.2

(489/50)

28.9

(387/15)

0

(25/3)

6.7

(190/16)

0.8

(27/3)

2.5. Sınır Hatalarının Ses Sınıflarına Göre İncelenmesi

Bir önceki bölümde en düşük ortalama hatayı sağlayan MFCC_0_D_A+lly vektöründen elde edilen sınır değerleri,

Page 4: [IEEE 2008 IEEE 16th Signal Processing, Communication and Applications Conference (SIU) - Aydin, Turkey (2008.04.20-2008.04.22)] 2008 IEEE 16th Signal Processing, Communication and

ses sınıflarının birbirleriyle olan sınırları göz önüne alınarak incelenmiştir. Sesler; ünlüler, patlamalılar, akışkanlar, sürtüşmeliler ve genizsiler olmak üzere 5 sınıfa ayrılmıştır. Her sınıf arası sınır için, sınır hatalarının mutlak değerlerinin ortalamaları hesaplanmıştır, Tablo 2 de bu hataların dayanak sisteme göre yüzde değişimi ve eğitim ve test verilerinde görülme sayıları verilmiştir. Sonuçlar incelendiğinde ünlüyle başlayan tüm sınırlarda ortalama hatada az ya da çok bir azalma görülmüştür. Ünlüyle başlayan sınırların veritabanında diğer sınırlara göre çok daha fazla görülmesi bu azalmanın sebeplerinden biridir. Sesli-sesli sesli-akışkan sınırlarında ses yolundaki değişikliğe ağız içindeki artikülatörler sebep olmaktadır, bu sınırlarda dudak hareketleri belirleyici değildir. Bu sınırlarda dudak hareketlerinin otomatik bölütlemeye katkıda bulunması beklenmemektedir, bu yüzden bu sınırlardaki başarımda küçük artışlar (%2.6, %2.5) gözlenmiştir. Bunun yanında ünlü-sessiz, ünlü-genizsi sınırlarında sistem başarımı oldukça(%20.7, %40.1) artmıştır. Ayrıca eğitim ve test verilerinin nispeten yüksek olduğu sınırların çoğunda %10 dan %42.6 ya kadar değişen başarım artışları gözlenmiştir. Başarımın düştüğü sınırlarda ise eğitim ve test verilerinin yetersiz olduğu görülmektedir (Eğitim veritabanında 100den az görülen ve test verilerinde 10un altında görülen sınırlar).

2.6. Görüntü Bilgisinin Sınır Sınıfına Bağlı Olarak Kullanılması

Önceki bölümde bahsedildiği üzere, dudaklar tüm ses sınıflarının sınırları için belirleyici özelliğe sahip değillerdir. Bazı ses geçişleri dudaklarda hiçbir hareket olmadan, sadece ağzın içindeki değişiklerle sağlanabilir. Bu sebeple görüntü bilgisinin kullanımının tüm sınırlar için fayda sağlanması beklenmez. 2.5. de elde edilen sonuçlar da göz önüne alınarak başarım artışı görülen sınırlar için görüntü bilgisi eklenmiş öznitelik vektörü, diğer sınırlar içinse dayanak sistemde kullanılan öznitelik vektörü kullanılmıştır. Sonuç olarak dayanak sistemin ortalama sınır hatası yaklaşık %12 düşürülmüştür (Tablo 3).

Tablo 3. Ortalama Mutlak Sınır hataları

Ortalama

Mutlak Sınır

hatası (ms)

Dayanak Sistem 9.9

Alt dudağın dikey konumu eklenmiş 8.9 (10.1 %)

Alt dudağın dikey konumu seçilen

sınır türleri için eklenmiş

8.7 (12.12 %)

3. Sonuçlar Bu çalışmada, dudak konumlarının otomatik konuşma bölütlemeye katkısı incelenmiştir. Görüntü bilgisi birçok

konuşma tanıma sisteminde kullanıldığı halde konuşma bölütleme için henüz kullanılmamıştır. BU çalışmada sunulan sonuçlar bu alanda dünyadaki ilk sonuçlardır. Deney sonuçları alt dudağın dikey konumunun kullanılan yöntem ile otomatik konuşma bölütleme sisteminin başarımını %12ye kadar arttırabildiğini göstermiştir. Uygun bir veritabanıyla daha kapsamlı görüntü bilgisi kullanılabilecek ve başarımda daha büyük artışlar elde dilebilecektir. Daha kapsamlı görüntü bilgisi kullanımı için çalışmalar sürmektedir. Ayrıca bu veritabanında daha fazla cümle bulunacak ve bu sayede az görülen sınır tipleri için de daha sağlıklı sonuçlar elde edilecektir. .

4. Kaynakça [1] Malfrere, F., Deroo, O., Dutoit, T., Ris, C., 2002.

Phonetic alignment: speech synthesis-based vs. Viterbi-based. In:Speech Communication, Volume 40, Issue 4, pp. 503-515.

[2] Brugnara F., Falavigna D., Omologo M., 1993. Automatic segmentation and labeling of speech based on Hidden Markov Models. In: Speech Communication, Volume 12, Issue 4, pp. 357-370.

[3] Kawai H., Toda T. 2004. An evaluation of automatic phone segmentation for concatenative speech synthesis. In: Acoustics, Proceedings. (ICASSP '04). IEEE International Conference on Speech, and Signal Processing.

[4] Kaynak, M.N., Qi Zhi, Cheok, A.D., Sengupta, K., Zhang Jian, Ko Chi Chung, 2004. Analysis of lip geometric features for audio-visual speech recognition. In: Systems, Man and Cybernetics, Part A, IEEE Transactions on, Vol.34, Iss.4, pp.: 564- 570.

[5] Yuhas, B.P., Goldstein, M.H., Jr., Sejnowski, T.J., Jenkins, R.E., 1990. Neural network models of sensory integration for improved vowel recognition. In: Proceedings of the IEEE, Vol.78, Iss.10, pp.:1658-1668.

[6] Chen T., Rao, R.R., 1998. Audio-visual integration in multimodal communication. In: Proceedings of the IEEE, Vol.86, Iss.5, pp.:837-852.

[7] Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari, A., and Zhou, J., 2000. Audio-visual speech recognition, Final Workshop 2000 Report , Center for Language and SpeechProcessing, The Johns Hopkins University, Baltimore, 2000 (http: //www.clsp.jhu.edu/ws2000/finalreports/avsr/).

[8] http://www.cstr.ed.ac.uk/research/projects/artic/mocha.html

[9] Young S., Evermann G., Kershaw D., Moore G., Odell J., Ollason D., Povey D., Valtchev V., Woodland P., 2002. The HTK Book (for HTK Version 3.2). Cambrige University Engineering Department.