23

Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer
Page 2: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer
Page 3: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Copyright© 2006 - Muğla University

Bu bildiri kitapçığında yer alan makalelerin bilim ve dil bakımından sorumluluğu yazarlara aittir. Bildiri kitapçığında yer alan makaleler kaynak gösterilmeden kullanılamaz.

Authors are responsible for the content of their articles. Articles published here could not be used without referring to this issue.

ISBN: 975-7207-70-5

Muğla University Printing Office, 2006

Page 4: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Organized by

Muğla University,

Research and Application Centre for Informatics

Ege University,

International Computer Institute

Conference Chair Turhan Tunalı, Ege University

Program Committee Chairs Bahar Karaoğlan, Ege University

B.Taner Dinçer, Muğla University

Organizing Committee From Muğla University From Ege University

B.Taner Dinçer

Osman Keleş

Zeynep Koroğlu-Dinçer

Özkan Aslan

Nida Gökçe

Ebru Yakar

Bahar Karaoğlan

İlker Kocabaş

Geylani Kardaş

Müge Fesçi-Sayıt

Page 5: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Advisory Board Ethem Alpaydın Boğaziçi Univ. H. Altay Güvenir Bilkent Univ. Cüneyt Güzeliş Dokuz Eylül Univ. Uğur Halıcı Middle East Tech. Univ. Kemal Oflazer Sabancı Univ. Cem Say Boğaziçi Univ. Programme Committee Adnan Acan Eastern Mediterranean Univ. Rahib Abiyev Near East Univ. Levent Akın Boğaziçi Univ. Varol Akman Bilkent Univ. Novruz Allahverdi Selçuk Univ. Ferda Alpaslan Middle East Tech. Univ. Sabri Arık Istanbul Univ. Volkan Atalay Middle East Tech. Univ. Muhammed Cinsdikici Ege Univ. İlyas Çiçekli Bilkent Univ. B.Taner Dinçer Muğla Univ. Günhan Dündar Boğaziçi Univ. Mübariz Eminov Muğla Univ. İ. Cem Göknar Doğuş Univ. Fikret Gürgen Boğaziçi Univ. H. Altay Güvenir Bilkent Univ. Uğur Halıcı Middle East Tech. Univ. Malcom Heywood Dalhousie Univ., CA Bahar Karaoğlan Ege Univ. Bora İ. Kumova Izmir Instit. of Tech. Kemal Leblebicioğlu Middle East Tech. Univ. Kemal Oflazer Sabancı Univ. Tuncer Ören Univ. of Ottawa, CA Yusuf Öztürk San Diego State Univ. Mehmet Ali Salahli Çanakkale Onsekiz Mart Univ. F. Acar Savacı Izmir Instit. of Tech. Cem Say Boğaziçi Univ. Vedat Tavşanoğlu Yıldız Teknik Univ. Turhan Tunalı Ege Univ. Müştak Yalçın İstanbul Tech. Univ. Adnan Yazıcı Middle East Tech. Univ. Jacek M. Zurada Univ. of Louisville, USA

Page 6: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Sponsored by

Muğla University

Ege University

TÜBİTAK - The Scientific and Technological

Research Council of Turkey

Page 7: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer
Page 8: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Contents Global Exponential Stability of Neural Networks with Multiple Time Varying Delays ................................................................................................................. Tolga Ensari, Sabri Arik

1

New Results for Global Stability of Cellular Neural Networks with Discrete Time Delays ......................................................................................................... Sibel Senan, Sabri Arik, Vedat Tavsanoglu

9

Türkçe Cümlelerin Kural Tabanlı Bağlılık Analizi ............................................ Gülşen Eryiğit, Eşref Adalı, Kemal Oflazer

17

3D Visualization Of Brain Slices by Using Computer Techniques .................... Baki Koyuncu, Alper Pahsa

25

Salient Region Extraction from Endoscopic Images .......................................... Abdülkadir Sengür, İbrahim Türkoğlu , M. Cevdet İnce, İ. Halil Bahçelioğlu

33

Design of a Single Phase Neuro-Fuzzy Controlled Uninterruptible Power Supply ................................................................................................................. Ismail Atacak, Omer Faruk Bay

41

An Infrastructure for Turkish Prosody Generation in Text-to-Speech Synthesis M. Oguzhan Kulekci, Kemal Oflazer

49

Design of PID-like Neuro-Fuzzy controller for induction motor ....................... Murat Sönmez, Mustafa Nil, Ismet Kandilli, Mehmet Yakut

57

Validity Measure For Gray-Level Image Clustering: A Comparative Study ..... Ibrahim Turkoglu

67

System Identification by using Cascade Modeling Technique with Bezier Curve Nonlinearity Representations ................................................................... Erdem Turker Senalp, Ersin Tulunay, Yurdanur Tulunay

75

Complex Systems Modeling by Using ANFIS ................................................... Hanbay Davut, Turkoglu Ibrahim,, Demir Yakup

83

GRNN and PNN on the Diagnosis of Gastric Cancer ........................................ Sultan Aldırmaz, Tülay Yıldırım

91

Fuzzy Based Cutting Parameter Selection For Turning Machining ................... Hamamci Emre, Ilkaz Sinan, Celik Abdurrahman S., Kayacan M. Cengiz, Colak Oguz, Bekci Ufuk

99

A Prototype Machine Translation System Between Turkmen and Turkish ....... Ahmet Cuneyd Tantug, Esref Adalı, Kemal Oflazer

109

Page 9: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

An Adaptive Wavelet Entropy Method for Intelligent Digital Modulation Classification ...................................................................................................... Engin Avci, Zeynep Bicer, Sultan Erdem Yakut

117

Türkçe-İngilizce için İstatistiksel Bilgisayarlı Çeviri Sistemi ............................ İlknur Durgar El-Kahlout, Kemal Oflazer

125

Predator-Prey Problem: Recursive Evolution of Homogeneous Predator and Prey Strategies by Genetic Programming ........................................................... Ulas Beldek, Kemal Leblebicioglu

133

A Novel IR Approach To Derive Rules ............................................................. Tugba Dalyan, Nevcihan Duru

141

A Novel Approach to Optimization of a Microwave Amplifier ......................... Yavuz CENGİZ, Filiz GÜNEŞ

151

A Fuzzy Logic Inference System for Maximum Power Point Tracking in Photovoltaic Energy Generation ......................................................................... H. Tarik Duru

159

Farklı Ozellik Vektorleri ile Turkce Dokumanlarin Yazarlarinin Belirlenmesi Mehmet Fatih Amasyali, Banu Diri

167

A Wavelet Neural Network for Intelligent Modeling ......................................... Hanbay Davut, Turkoglu İbrahim, Demir Yakup

175

Probabilistic Face Pose Estimation ..................................................................... Tolga Inan, Ilkay Ulusoy, Ugur Halici

183

Path Planning Among Polygonal Obstacles In Non-uniform Cost Environment Serkan Ensoner, Aybars Ugur

191

Çok-Etmenli Yazılım Sistemleri için Yürütülen Modelleme Dili Çalışmaları ve Bunların Anlamsal Web Desteği Perspektifinde Değerlendirilmesi .................. Geylani Kardas, Oguz Dikenelli

199

Altsözcüksel Birimlerle Türkçe için Sözcüksel Islevsel Gramer Gelistirilmesi Özlem Çetinoglu, Kemal Oflazer

207

Duyarlılık ve Normalize Sıralama: Gövdelemenin Türkçe Arama Motorları üzerindeki Etkisi ................................................................................................. Remziye Zeden, Esra Ayalp, Yıltan Bitirim, Hayri Sever

215

Anlamsal Web Mimarisi İçin Güvenilir Ontoloji Eşleme Platformu Gerçekleştirimi ....................................................................................................Dilek TAPUCU, Murat Osman ÜNALIR

223

Page 10: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Fault Diagnosis in an Induction Motor with Fuzzy Discrete Event System Approach ............................................................................................................. Kemal Leblebicioglu, Kilic Erdal

231

HW/SW Codesign of FPGA-based Neural Networks ........................................ Alper Ucar, Ali Ziya Aklar

239

Classification of Turkish Songs according to Makams by using n grams .......... Adil Alpkocak, Ali Cenk Gedik

247

Yapay Sinir Ağları ile Türkiye İthalat ve İhracatının 2020 Yılına Kadar Tahmini ............................................................................................................... Öznur İŞÇİ, Nevin GÜLER, Ebru YAKAR

257

Kelime Sayısı-Kelime Dağarcığı İlişkisinin Belirlenmesi .................................. Senem Kumova Metin, Bahar Karaoğlan, Taner Dinçer

269

Clustering Word Pairs to Answer Analogy Questions ....................................... Ergun Bicici, Deniz Yuret

277

Page 11: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Kelime Sayısı-Kelime Dağarcığı İlişkisinin Belirlenmesi 1

Senem Kumova Metin1, Bahar Karaoğlan2, Bekir Taner Dinçer3

1 İzmir Ekonomi Üniversitesi, 35330 Balçova, İzmir, Türkiye [email protected]

2 Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsü, 35100, Bornova, İzmir, Türkiye [email protected]

3 Muğla Üniversitesi, İstatistik Bölümü, 48000, Kötekli, Muğla, Türkiye [email protected]

Özet. Doğal Dil İşleme çalışmalarında dilin modellenmesi ve bir metnin taşıdığı enformasyon miktarının belirlenmesi aşamasında temel bir unsur olan kelime sayısı-kelime dağarcığı ilişkisi, bu çalışmada Türkçe metinler üzerinde araştırılmıştır. Çalışma ile hâlihazırda var olan, test amaçlı kullanılan derlemlerde, kelime formları (gövde, yüzey formu), derlem içeriği ve derlem boyutunun kelime dağarcığı üzerine etkileri ortaya konulmuştur.

1. Giriş

Doğal Dil İşleme (DDİ), bilgisayarların doğal dilleri insanlar kadar iyi anlaması ve kullanabilmesi amacıyla, dillerin sayısal ortamlarda temsili, işlev ve yapılarının daha iyi anlaşılması konuları üzerinde çalışan bilim dalıdır. Bu alanda yürütülen çalışmalar farklı konuları içeren, farklı insanlar tarafından hazırlanmış, metinlerden oluşan derlemler üzerinden yürütülür. Bu metinlerin taşıdıkları enformasyon miktarı ve amaçladığı fikri vermekteki becerisi, metnin uzunluğu ve metin içinde kullanılan farklı kelimelerin sayısı ile yakından alakalıdır. Bu sebeple bir metnin içerdiği kelime sayısı (N) ve kelime dağarcığı (V) arasındaki ilişkinin belirlenmesi dilin modellenmesi çalışmalarında önemli bir basamaktır. Bu ilişkinin saptanması, doğal dil çalışmalarında dili temsil eden bir araç olarak kullanılan derlemlerin değerlendirilmesi ve genişletilmesi; metinlerin yazar, konu vb. gibi özelliklere göre sınıflandırılması; metinlerin taşıdıkları enformasyon miktarının ölçülmesi konularında önem kazanmıştır [8] [9] [10]. Yazılı metinlerin içerdikleri konular ve yazarlara ait özellikler kelime dağarcığındaki farklılıklar ile gözlenebilir. Şöyle ki her yazarın veya konunun kendine has belli bir kelime dağarcığı vardır. Bu dağarcığın belirlenmesi ile metinlerin konulara veya yazarlara göre gruplandırılması mümkün olmaktadır. Bu konuda Tuldava (1980)

1 Bu çalışma 104E120 numaralı “Zipf Kanunları Esasında Güncel Yazılı Türkçe’nin Nicel

Dilbilim Ölçütleri” projesi kapsamında TÜBİTAK tarafından desteklenmektedir.

269

Page 12: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

çalışmasında farklı diller (Çekce, Rusça, İngilizce gibi) ve konulardan oluşan örnek metin grupları üzerinde toplam kelime sayısı (N) ve kelime dağarcığı (V) arasındaki ilişkiyi belirlemiştir. N-V arasında oluşturulan denkleme ait ilgili parametrelerin, konu ve dil farklılıkları ile değiştiğini araştırmasında ortaya koymuştur. Doğal dil çalışmalarında, belli bir yöntemle organize edilmiş metinlerden oluşan derlemler dili modelleyen bir araç olarak kullanılır. Bu sebeple derlemlerin, yeterli sayıda farklı kelime içermesi dili en iyi şekilde modellemesi açısından beklenen bir özelliktir. Aynı zamanda, derlemlere yeni metin parçalarının eklenmesi esnasında, eklenecek metnin derleme katacağı yeni kelimeler ve bu kelimelerin miktarı da önemli diğer bir husustur. Çünkü enformasyon miktarını yeteri kadar veya hiç artırmayan bir metin, derlemi büyütmek dışında bir etki yaratamaz. Tüm bu gereksinimler kelime sayısı ile kelime dağarcığı arasındaki ilişkinin belirlenmesi ihtiyacını ortaya çıkarır.

Makale içinde sırasıyla çalışma içinde kullanılan derlemler, kelime dağarcığı–kelime sayısı ilişkisinin belirlenmesi ve sonuç kısımları bulunmaktadır.

2. Derlemler

Derlemler (corpora), doğal dil işleme, bilgi geri getirim, hesaplamalı dil bilim alanlarında çeşitli sistemlerin geliştirilmesi veya sınanması sırasında kullanılan metin gruplarıdır. Derlemler, belli bir yöntemle organize edilmiş, rasgele seçilmiş veya doğal olarak varolan metin grupları ile oluşturulabilmektedir. Derlemler ile ilgili bir başka tanım da şöyledir [3]:

“… Dilbilim analizlerinde kullanılmak üzere bir dilin alt grupları veya verilen dili temsil ettiği kabul edilen metin grupları …”

Çalışmada daha önce başka araştırmalar tarafından hazırlanmış Türkçe derlemlerden faydalanılmıştır. Bunlar: Bilkent derlemi ve ODTÜ derlemidir. Bilkent derlemi Bilkent Üniversitesi’nde hesaplamalı dil-bilim çalışmalarının sonucu otomatik işaretlenmiş bir derlemdir [4]. Derlemin içeriği, hazırlandığı yıllarda çıkan gazete yazıları ve makalelerden oluşmaktadır. Bilkent derlemi Dinçer (2004) tarafından gerekli düzeltmelerin yapıldığı son haliyle kullanılmıştır. Bilkent derleminde kelimelere ait yüzey formları (surface form), yani çekim ve yapım ekleri alan kökler, bulunduğu gibi bu kelimelere ait gövdeler de bulunmaktadır. Çalışma içinde derlem, kelimelerin hem yüzey formları hem de gövdeleri kullanılarak değerlendirilmiştir.

270

Page 13: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Bilkent derlemi ~736341 adet toplam kelime; kelimelerin gövdelenmiş halleri dikkate alındığında ~25474 adet farklı kelime (kelime dağarcığı), yüzey formu dikkate alındığında ise ~110467 adet farklı kelimeden oluşmaktadır. ODTÜ derlemi yüzey formunda (surface form) bulunan yani çekim ve yapım ekleri taşıyan toplam ~1987447 kelimeden oluşmaktadır. Bu derlem için kelime dağarcığı ~241057 adet kelimedir. Derlem içinde pek çok farklı konuda metin bulunmaktadır. ODTÜ ve Bilkent derlemleri ile yapılan çalışmada 102-112 adet örnek kelime sayısı– kelime dağarcığı çifti kullanılmıştır.

3. Kelime Dağarcığı–Kelime Sayısı İlişkisinin Belirlenmesi

Kelime dağarcığının (V) kelime sayısı (N) ile orantılı bir artışı olduğu araştırmacılar arasında kabul gören bir saptamadır. Bu konuda hem deneysel hem rasyonel yöntemlerle pek çok denklem geliştirilmiştir. Kelime dağarcığı – kelime sayısı ilişkisinin belirlenmesinde Yule dağılımı veya Zipf kanunlarını temel alan karmaşık modeller (Kalinin, Orlov, Debowski vb.) geliştirildiği gibi deneysel olarak bu ilişkinin belirlenmesini benimseyen araştırmalar da bulunmaktadır [10]. Yapılan çalışmalar sonucundaki ilk deneye dayalı modellerde denklem 3.1’de gösterildiği üzere N ve V arasındaki ilişkinin doğrusal bir ilişki olduğu kabullenilmiştir. Ancak derlem boyutlarının ve çeşitliliğinin artması N-V arasındaki ilişkinin verilen denklem yerine üstel bir fonksiyonla tanımlanması gerekliliğini doğurmuştur.

NρV ⋅= 1ρ < (3.1)

Tuldava (1980) çalışmasında dilden bağımsız bir ilişki saptamaya çalışmıştır. İlk olarak Weillbul dağılımının bir türevi olan denklem 3.2’ yi geliştirmiştir. Ancak Tuldava deneye dayalı değerler üzerinde bu denklemi değerlendirdiğinde denklemin orta uzunluktaki metinlerde olumlu sonuçlar vermesine rağmen ekstrapolasyon için uygun olmadığını görmüş ve çalışmasında sonuç denklem olarak 3.3’ ü kullanmıştır.

BNαNVln ⋅=

(3.2)

BNlnαNVln ⋅−=

(3.3)

Denklem 3.3’ de ‘α’ ve ‘B’ parametreleri konu, dil ve yazar gibi bir takım özelliklere bağımlı parametrelerdir. Çalışma içinde denklem 3.3 temel alınarak Türkçe için ilgili

271

Page 14: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

parametreler saptanmış ve gerçek kelime dağarcığı değerleri ile bu denkleme bağlı olarak üretilen tahmini kelime dağarcığı değerleri kıyaslanmıştır.

4. Sonuç

ODTÜ ve Bilkent derlemleri için V-N değerlerinden α ve B parametreleri en küçük kareler yöntemi kullanılarak tahminlendiğinde çizelge 4.1‘de verilen sonuçlar elde edilmektedir.

Çizelge 4.1 Denklem 3.3’ün Türkçe derlemler üzerinde değerlendirilmesi sonucu elde edilen parametreler listesi

Derlem B α Bilkent

(gövde formu) 2.1602 0.0124

Bilkent (yüzey formu) 2.9688 0.0009

ODTÜ 2.9753 0.0008 Çizelge 4.1’ de belirtilen B ve α değerleri ile tahmini kelime dağarcığı (V’) belirlenerek derlemlerdeki gerçek değerler ile kıyaslanabilir. Örnek değerler üzerinde yapılan bu çalışmada hata oranları Bilkent (yüzey formu) ve ODTÜ derlemleri için çizelge 4.2’ de gösterilmektedir.

Çizelge 4.2 ODTÜ ve Bilkent derlemlerinde V-N ilişkisinin değerlendirilmesi. Bilkent (yüzey formu) derlemi için B=2.9688 ve α=0.0009, ODTÜ derlemi için B=2.9753 ve α=0.0008 olarak alınmıştır.

ODTÜ Bilkent (yüzey formu)

N V V' HATA V V' HATA 500 390 421 8,05% 376 416 10,64%

1000 743 792 6,53% 710 779 9,72% 2000 1359 1467 7,92% 1286 1432 11,35% 5000 2926 3238 10,68% 2890 3123 8,06%

10000 4997 5784 15,76% 5182 5509 6,31% 25000 10893 12113 11,20% 10881 11300 3,85% 50000 19707 20712 5,10% 18929 18958 0,15% 75000 27622 28075 1,64% 25307 25373 0,26% 100000 33997 34682 2,01% 31123 31040 -0,27% 200000 56693 56799 0,19% 49522 49539 0,03%

272

Page 15: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

300000 74957 74984 0,04% 64267 64198 -0,11% 400000 90448 90861 0,46% 76867 77025 0,21% 500000 104021 105148 1,08% 88176 88015 -0,18% 600000 118670 118244 -0,36% 97990 98090 0,10% 650000 124822 124428 -0,32% 102733 102802 0,07% 700000 130113 130402 0,22% 107267 107329 0,06% 732000 134143 133894 -0,19% 110103 110136 0,03% 750000 135943 136185 0,18% - 111687 - 900000 154838 152543 -1,48% - 123893 - 1000000 165487 162742 -1,66% - 131418 - 1550000 211904 211617 -0,14% - 166643 -

Bilkent derleminde kelimelerin yüzey formları ve gövde formlarının etkilerinin gözlenmesi için ise çizelge 4.3 hazırlanmıştır.

Çizelge 4.3 Bilkent derleminde Tuldava (1980) çalışmasında kullanılan V-N ilişkisinin değerlendirilmesi. Bilkent (yüzey formu) derlemi için B=2.9688 ve α=0.0009, Bilkent (gövde formu) derlemi için B=2.1602 ve α=0.0124 olarak alınmıştır.

Bilkent ( gövde formu)

Bilkent ( yüzey formu)

N V V' HATA V V' HATA 500 260 266 2,31% 376 416 10,64% 1000 482 453 -6,02% 710 779 9,72% 2000 802 756 -5,74% 1286 1432 11,35% 5000 1731 1440 -16,81% 2890 3123 8,06%

10000 2628 2288 -12,94% 5182 5509 6,31% 25000 4429 4089 -7,68% 10881 11300 3,85% 50000 6568 6187 -5,80% 18929 18958 0,15% 75000 7979 7806 -2,17% 25307 25373 0,26%

100000 9243 9163 -0,87% 31123 31040 -0,27% 500000 20819 20957 0,66% 88176 88015 -0,18% 600000 22878 22843 -0,15% 97990 98090 0,10% 650000 23781 23713 -0,29% 102733 102802 0,07% 700000 24693 24540 -0,62% 107267 107329 0,06% 732000 25373 25050 -1,27% 110103 110136 0,03% 750000 - 25331 - - 111687 - 900000 - 27516 - - 123893 - 1000000 - 28844 - 131418 1550000 - 34892 - 166643

273

Page 16: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Çizelge 4.2 ve 4.3’ de N kelime sayısını, V derlemlerdeki gerçek kelime dağarcığı sayısını, V’ denklem 3.3’ e bağlı olarak bulunan tahmini kelime dağarcığı sayılarını ifade etmektedir. Hata oranları V’/V-1 değerinden bulunmuştur. Hata hanesinde negatif işaretli değerler tahminlenen değerin gerçek değerden küçük olduğunu, pozitif işaretli değerler ise tahminlenen değerin gerçek değerden büyük olduğunu simgelemektedir. Bilkent (yüzey formu) ve ODTÜ derlemleri değerlendirildiğinde (çizelge 4.2) toplam kelime sayısının (N) yüksek değerleri için kelime dağarcığının düşük bir hatayla tahminlendiği, düşük değerleri için ise tahminlemenin yüksek hatalar verdiği görülmektedir. Kelime sayısının (N) düşük değerleri için dil yeterince modellenememekte ve metinler anlam bütünlüğünü sağlayacak uzunluğa erişememektedir. Bu durum çizelge 4.2‘ de N’ in düşük değerleri için V’ tahminlemesindeki yüksek sapma miktarlarını açıklamaktadır. ODTÜ derleminde, çeşitli konulardaki metinler, konu sırasına bağlı olmaksızın derlem içine yerleştirilmiştir. Bilkent derlemi ise sadece derlemin hazırlandığı yıllardaki gazete yazılarını ihtiva etmektedir. Bu sebeple Bilkent derlemi ODTÜ derlemine oranla daha düşük kelime dağarcığına sahip olmaktadır. Her iki derlem için denklem 3.3 ile tahminlenen parametreler arasındaki farklılığın bu konu çeşitliliğinin bir sonucu olduğu düşünülmektedir. Bilkent (yüzey formu) ve ODTÜ derlemi için N-V ve elde edilen N-V’ eğrileri logaritmik olarak şekil 4.1’ de gösterilmektedir.

274

Page 17: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

Şekil 4.1 Bilkent (yüzey formu) ve ODTÜ derlemlerinde tahminlenen kelime dağarcığı-toplam kelime sayısı ve gerçek kelime dağarcığı- toplam kelime sayısı eğrilerinin logaritmik düzende gösterimi

Çalışmada Bilkent derlemi için yüzey formu ve gövde formu üzerinden elde edilen parametrelerin birbirinden oldukça farklı olduğu (çizelge 4.1) ortaya çıkmıştır. Derlemlerin yapısal farklılıkları kelime dağarcığı artışını etkileyeceği için bu beklenen bir sonuçtur. Derlemin yüzey formunda aynı gövdeye sahip kelimeler çekim ekleri sebebiyle farklı kelime olarak alınmaktadır. Örneğin “ev, evde, evden” kelimeleri aynı gövdeye (“ev”) sahip olmasına rağmen farklı kelimeler olarak değerlendirilir. Bu nedenle Bilkent derleminin yüzey formunun kelime dağarcığı artış hızı, gövde formuna oranla daha yüksek olmaktadır. Bu durum şekil 4.2’de görülmektedir.

Tuldava (1980) farklı diller ve konulara sahip örnek metinler üzerinde yaptığı çalışmada, metinlerin yüzey formlarını kullanmıştır. Bilkent derleminin gövde ve yüzey formundan elde edilen sonuçlar değerlendirildiğinde ortaya çıkan diğer bir gerçek ise Türkçe için denklem 3.3’de verilen eşitliğin derlemin yüzey formunu daha az hata ile modellediğidir.

Şekil 4.2 Bilkent derleminin yüzey formu ve gövde formu için kelime dağarcığı - toplam kelime sayısı eğrilerinin logaritmik düzende gösterimi

Yapılan çalışma sonucunda, derlemlerdeki konu çeşitliliğinin ve kelime formlarındaki farklılığın, kelime dağarcığının miktarına ve artış hızına olan etkisi Türkçe derlemler

275

Page 18: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

üzerinde gösterilmiştir. Bunun yanısıra, kelime sayısı – kelime dağarcığı ilişkisinin belirlenmesinde önemli bir unsurun da derlem boyutu olduğu ortaya çıkmıştır.

İleriki çalışmalarda derlemlerin dili modellemekteki başarısı ve derlemlerin kıyaslanması çalışmalarında bu sonuçlardan yola çıkarak konu dağılımı ve dolayısıyla içerik zenginliği için denklem 3.3’de verilen parametrelerin bir ölçek olarak kullanılması planlanmaktadır

Kaynaklar

[1] Debowski, L., 2002, Zipf’s law against the text size: A half rational model, Glottometrics 4, 12p.

[2] Dinçer, T., 2004, Türkçe için istatistiksel bir bilgi geri-getirim sistemi, Doktora Tezi,

U.B.E., Ege Üniversitesi [3] Francis, W.N., H.Kucera ,1964, Brown Corpus Manual: Manual of Information to

accompany Standard Corpus of Present Day Edited American English, for use with Digital Computers, Department of Linguistics, Brown University

[4] Hakkani-Tür, D.Z. , Oflazer, K., and Tür, G., 2002, Statistical morphological

disambiguation for agglutinative languages, Computers and the Humanities [5] Kilgarriff, A. and Rose, T., 1998, Measures for corpus Similarity and homogenity, ITRI-

98, Brighton, 6p. [6] Kornai, A., 2002, How many words are there?, Glottometrics 2002/4, 61-86p [7] Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language

Processing. The MIT Press, Cambridge, Massachusetts, London, England. [8] Stamatatos, E., Fakotakis, N., Kokkinakis, G. , 1999, Automatic Authorship Attribution,

Proceedings of the 9th Conference of the European Chapter of the Association for Computational Linguistics, Bergen , pp 158-164

[9] Stamatatos, E., Kokkinakis, G., Fakotakis, N., 2000, Automatic text categorization in

terms of genre and author, Computational Linguistics, 26(4), pp 471-495 [10] Tuldava, J., 1980, A Mathematical Model of the Vocabulary-Text Relation, COLING,

1980, 600-604 p..

276

Page 19: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

*r'-

Kon TallqsA

Turhan TUNALIEge Universitesi, Uluslararasl Bilgisayar Enstitilsu MLidiLru

gener OKTIKMuola Univeritesi Rektort (Presiderrt of Mu$la University)

(Director 0f lnternational in st itute,

10:30 11 :00

Davetli I{ 1:00 12:00

Roni RO$ENFELDSr-:hool of Cornpute'r $cience, Carnegie lVlellon Univetsity

"From Natural Language to the Language of Life"

Eoot

troEo

kanr ion Ghaioturum'13:30 14:50

Eoou

fiU'

{ GRNN and PNN on the Diagnosis of Gastric Cancer

Sultan Aldtrmaz, Tulay Ylldlrlm

2 Salient Region Extraction from Endoscopic lmages

Abdulkadir Sengtir, lbrahim T0rko$lu . M Cevdet lnce, i. Halil Bahgeiiogln

3 ed Visualization Of Brain Slices hy Using Computer Techniques

Baki Koyuncu, AlPer Pahsa

4 Design of PtDlike Neuro-Fuzzy controller for induction rfiotor

Murat Siinmez, Muotafa Nil, lsmet Kandilli, Mehmet Yakut

1S:30 17:00 ssl0n ChaiOtururfi

I Design of a Single Phase Neuro-Fuzzy Controlled Uninterruptibl€ Power $upply

ismail Atacak, 0mer Faruk Bay

Z Design of PlDJike Neuro-Fuzzy controller for inductlon motor

Murat Sdnmez, Mustafa Nil, lsmet Kandilli, Mehmet Yakut

3 New Results {or Global Stabllity ol Cellutar Neural Networks with Discrete Time Delays

Sibel Senan, Sabri Ank, Vedat TavEano$lu

4 Yapay Sinir A$larr ile Tiirkiye ithalat ve ihracatrnrn 2020 Yrhna Kadar Tahmini

Oznur i$Qi, Nevin GULER, Ebru YAKAR

z-zod

aooG

o,fiq,

{wod

N

G

a

oou.

o(E

U)

-JuRe 21,2A0$ -

Page 20: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

.ff

TalKon

Rich KORFUCLA Computei Science Department, University of California

"Recent Frogress in Heuristic Search"

9:30 10:30

11:00 12:00 Oturum kant Chai

ooN,

o(ovt

1 A Novel Approach to Optirnization of a Microwave Annplilier

YaVUz CENGiZ, Fi|iz GUNE$

2 AFuzzy Logic lnference System for Maximum Power Point Tracking in Photovoltaic Energy

GenerationH. Tarik Duru

3 Complex Systems Modeling by Using ANFIS

Hanbay Davut, Turkoglu lbrahim, Demir Yakup

t3:30 15:{0 Oturunr kanr Session

E0od

o6tl,

1 Global Exponential Stabiiity of Neural i'Jetworks with Multiple Time Vary;ng Delays

Toiga Eisaft, Sab:-i Arlr<

I Fuzzy Logic Based Cutting Parametel Selection For Turntng Operations

Hamamci Emre, llkaz Sinan, Celik Abdunahman S , Kayacan M Cengiz, Colak Ogirz' Bekci Ufuk

3 An Adaptiva Wavelet Entropy Method for lntelligent Digital MorJulation Classification

Engin Avci" Zeynep Bicer, Sultan Erdem Yakut

4 Predator-Prey Problem: Recursive Evolution of Homogeneous Predator End Prey Strategies by

Genetic ProgrammingUlas Beldek. K.emai Leblebicioglu

Oturum15:30 17:00

z.zod

att)

o(E

o(,}q,

o-

{oed

N

G

E

a

Eoou

otsrn

{ A Novel 1R Approach To Derive Rules

Tugba Dalyan, Nevcihan Duru

2 Validity Measure for Gray-l-evel lmaqe Clustering: A Comparative Study

lbrahim Turkoglu

3 System ldentification by using Cascade Modeling Technique with Bezier Curve Nontrinearity

RepresentationsErdem Turker Senalp, Ersin Tulunay, Yurdanur Tulunay

4 A Wavetet Neural Network lor lntelligeltt Modeling

Hanbay Davul, Turkogill iL:rahim, Demir Yakup

Page 21: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

"Day - June 22, ?006 -

d Talkvetli Kon I

Rich KORFUCLA Ccmputer Science Department, University of California

9:30 {0:30

12:00 ChainrOturum

'l Duyarlrhk ve Nornralize Stralama: Govdeletnenin TtirkEe Ararna Motorlarl Uzerindeki Etkisi

R€n1zty€ Zeden, Esra Ayalp. Ylltan Bitirlm, Hayri Sev€r

! Farklr Ozel!ik Vektorleri ile Turkce Dokumanlarit: Yazarlarinin Belirlenmesi

Mehnret Fatin Amasyali, Banu Diti

3 Kelime Saylsr"Kelime Ca(arcr$t iligxisinin Belirlenmesi

Senem Kumova ltletin, Bahar KaraoQlan, Taner Dinger

(a{

Eoou(\o$@

s$ionrum13 4:

(\

oo0rFI

oGo

1 Tiirkge Cijmlelerin Kulral Tabanh Bagiiltk Analizi

3-lSen Ernlgil EEref Adair, F"ema eflaze:'

2 An lnfrastructure for Turkish Prosody Generation in Text'to-Speech Synthesis

M Oguzhan Kuiekcr, Kemal Oflazer

3 A Prototype Machine Translation tystetn Between Turkmen and Turkish

Ahmet Cuneyd TantuU, Esref Adalt. Kerrral Oflazer

4 istatistiksel geviri Sisterni igin TUrkr;e ve lngilizce Metinlerin ESle$tirilmesi

ilknur Durgar El-Kahlout, Kemal oflazer

eha15:30 16:30 Oturum

o.-.!Zsd

tr,

tl,

o(E

{}{,q,

n*

'5c06

€(,trT

o

a (\Eoot!

$t

o(Efi

{ Altsrizcijksel Birimlerle Tairkqe iqin Sdzctlksel lslevsel Gramer Gelistirilmesi ]

6zie..n Qetinoglu, Kernal Oflazer

2 Classification of Turkish Songs according to Makams by using n grams

Adil Alpkocak, Ali Cenk Gedik

3 Learning to Answer Word Analogy Questions

Ergun Bicici, Deniz Yuret

4 Anlamsal Web FJlimarisi igin Giivenilir Ontoloji ESleme Platformu GerqekleEtirirni

Dilek TAPUCU. I\4urat Osman UNALIR

5 qok-Etmenii Yaztllm Sistemleri isin Y,lrutulen Modelleme Oili Sahsrnatart ve Bunlartn An[anrsal lrjeh

Deste$i Perspektilinde DegerlendirilmesiGeylani Karcjas, Oguz Dikenelli

Page 22: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

- June3 2006 - F

9:30 10:30

i-layri$EVERDepartment c{ Computer Englneering, BaSkent University

"Recent Advanees in lnformation Retrieval"

kanl ion ChaiOturum11:00 t 2:20

1 Fault D€tection in an lnduction Motor with Fuzzy Uiscrete Event System Approach

Erdal Kilic, Kemal Leblebicioglu

2 Prahabilistic Face Pose Eslimation

Tolga inan ilkav Ulusoy, Ugur Haltct

3 Path Planning Among Polygonal Obslacles ln Non'uniforrn Cost Environment

Serkan Ensoner, AYbars Ugur

4 HWSW Codesign of FPGA-based Neural Networks

Alper- Ucar. Ali ZlYa Alkar

{oaU

N

gE

$,

EoE,

oEti,

Page 23: Copyright© 2006 - Muğhomes.ieu.edu.tr/skumova/makaleler/E6.pdf · Organized by Muğla University, Research and Application Centre for Informatics Ege University, International Computer

9:30 10:30 Davetli Konuqmacl (lnvited Talk)

HayTiSEVERDepartment of Computer Engineeilng, BaEkent University

"Recent Advances in lnformation Retrieval"

'=^'= .E

iabLu=

E>:! E"dy:o

ltoEE.Ert5EA(E!E8

11 :00 12:00 Hesaplamah Bigirnbilim Egitimi : 1. Krslm(Computational ll4orphology Tutorial - Pa* 1)

Kemal OflazerDepartment of Computer Science & Engineering, Sabancr University

Hesaplanrah Biqimbilim E[itirni : 2. Kislm(Corn pirtatiorrai I\,4orpho io gy Tutoria i - P ar1. 2i

KemalOflazerDepartment of Computer Science & Engineering, Sabanci University

fittroou,$t

oitsa

13:30 15:00

c\t

Eoox"$ttroGU'

- June 2006 -