Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Copyright© 2006 - Muğla University
Bu bildiri kitapçığında yer alan makalelerin bilim ve dil bakımından sorumluluğu yazarlara aittir. Bildiri kitapçığında yer alan makaleler kaynak gösterilmeden kullanılamaz.
Authors are responsible for the content of their articles. Articles published here could not be used without referring to this issue.
ISBN: 975-7207-70-5
Muğla University Printing Office, 2006
Organized by
Muğla University,
Research and Application Centre for Informatics
Ege University,
International Computer Institute
Conference Chair Turhan Tunalı, Ege University
Program Committee Chairs Bahar Karaoğlan, Ege University
B.Taner Dinçer, Muğla University
Organizing Committee From Muğla University From Ege University
B.Taner Dinçer
Osman Keleş
Zeynep Koroğlu-Dinçer
Özkan Aslan
Nida Gökçe
Ebru Yakar
Bahar Karaoğlan
İlker Kocabaş
Geylani Kardaş
Müge Fesçi-Sayıt
Advisory Board Ethem Alpaydın Boğaziçi Univ. H. Altay Güvenir Bilkent Univ. Cüneyt Güzeliş Dokuz Eylül Univ. Uğur Halıcı Middle East Tech. Univ. Kemal Oflazer Sabancı Univ. Cem Say Boğaziçi Univ. Programme Committee Adnan Acan Eastern Mediterranean Univ. Rahib Abiyev Near East Univ. Levent Akın Boğaziçi Univ. Varol Akman Bilkent Univ. Novruz Allahverdi Selçuk Univ. Ferda Alpaslan Middle East Tech. Univ. Sabri Arık Istanbul Univ. Volkan Atalay Middle East Tech. Univ. Muhammed Cinsdikici Ege Univ. İlyas Çiçekli Bilkent Univ. B.Taner Dinçer Muğla Univ. Günhan Dündar Boğaziçi Univ. Mübariz Eminov Muğla Univ. İ. Cem Göknar Doğuş Univ. Fikret Gürgen Boğaziçi Univ. H. Altay Güvenir Bilkent Univ. Uğur Halıcı Middle East Tech. Univ. Malcom Heywood Dalhousie Univ., CA Bahar Karaoğlan Ege Univ. Bora İ. Kumova Izmir Instit. of Tech. Kemal Leblebicioğlu Middle East Tech. Univ. Kemal Oflazer Sabancı Univ. Tuncer Ören Univ. of Ottawa, CA Yusuf Öztürk San Diego State Univ. Mehmet Ali Salahli Çanakkale Onsekiz Mart Univ. F. Acar Savacı Izmir Instit. of Tech. Cem Say Boğaziçi Univ. Vedat Tavşanoğlu Yıldız Teknik Univ. Turhan Tunalı Ege Univ. Müştak Yalçın İstanbul Tech. Univ. Adnan Yazıcı Middle East Tech. Univ. Jacek M. Zurada Univ. of Louisville, USA
Sponsored by
Muğla University
Ege University
TÜBİTAK - The Scientific and Technological
Research Council of Turkey
Contents Global Exponential Stability of Neural Networks with Multiple Time Varying Delays ................................................................................................................. Tolga Ensari, Sabri Arik
1
New Results for Global Stability of Cellular Neural Networks with Discrete Time Delays ......................................................................................................... Sibel Senan, Sabri Arik, Vedat Tavsanoglu
9
Türkçe Cümlelerin Kural Tabanlı Bağlılık Analizi ............................................ Gülşen Eryiğit, Eşref Adalı, Kemal Oflazer
17
3D Visualization Of Brain Slices by Using Computer Techniques .................... Baki Koyuncu, Alper Pahsa
25
Salient Region Extraction from Endoscopic Images .......................................... Abdülkadir Sengür, İbrahim Türkoğlu , M. Cevdet İnce, İ. Halil Bahçelioğlu
33
Design of a Single Phase Neuro-Fuzzy Controlled Uninterruptible Power Supply ................................................................................................................. Ismail Atacak, Omer Faruk Bay
41
An Infrastructure for Turkish Prosody Generation in Text-to-Speech Synthesis M. Oguzhan Kulekci, Kemal Oflazer
49
Design of PID-like Neuro-Fuzzy controller for induction motor ....................... Murat Sönmez, Mustafa Nil, Ismet Kandilli, Mehmet Yakut
57
Validity Measure For Gray-Level Image Clustering: A Comparative Study ..... Ibrahim Turkoglu
67
System Identification by using Cascade Modeling Technique with Bezier Curve Nonlinearity Representations ................................................................... Erdem Turker Senalp, Ersin Tulunay, Yurdanur Tulunay
75
Complex Systems Modeling by Using ANFIS ................................................... Hanbay Davut, Turkoglu Ibrahim,, Demir Yakup
83
GRNN and PNN on the Diagnosis of Gastric Cancer ........................................ Sultan Aldırmaz, Tülay Yıldırım
91
Fuzzy Based Cutting Parameter Selection For Turning Machining ................... Hamamci Emre, Ilkaz Sinan, Celik Abdurrahman S., Kayacan M. Cengiz, Colak Oguz, Bekci Ufuk
99
A Prototype Machine Translation System Between Turkmen and Turkish ....... Ahmet Cuneyd Tantug, Esref Adalı, Kemal Oflazer
109
An Adaptive Wavelet Entropy Method for Intelligent Digital Modulation Classification ...................................................................................................... Engin Avci, Zeynep Bicer, Sultan Erdem Yakut
117
Türkçe-İngilizce için İstatistiksel Bilgisayarlı Çeviri Sistemi ............................ İlknur Durgar El-Kahlout, Kemal Oflazer
125
Predator-Prey Problem: Recursive Evolution of Homogeneous Predator and Prey Strategies by Genetic Programming ........................................................... Ulas Beldek, Kemal Leblebicioglu
133
A Novel IR Approach To Derive Rules ............................................................. Tugba Dalyan, Nevcihan Duru
141
A Novel Approach to Optimization of a Microwave Amplifier ......................... Yavuz CENGİZ, Filiz GÜNEŞ
151
A Fuzzy Logic Inference System for Maximum Power Point Tracking in Photovoltaic Energy Generation ......................................................................... H. Tarik Duru
159
Farklı Ozellik Vektorleri ile Turkce Dokumanlarin Yazarlarinin Belirlenmesi Mehmet Fatih Amasyali, Banu Diri
167
A Wavelet Neural Network for Intelligent Modeling ......................................... Hanbay Davut, Turkoglu İbrahim, Demir Yakup
175
Probabilistic Face Pose Estimation ..................................................................... Tolga Inan, Ilkay Ulusoy, Ugur Halici
183
Path Planning Among Polygonal Obstacles In Non-uniform Cost Environment Serkan Ensoner, Aybars Ugur
191
Çok-Etmenli Yazılım Sistemleri için Yürütülen Modelleme Dili Çalışmaları ve Bunların Anlamsal Web Desteği Perspektifinde Değerlendirilmesi .................. Geylani Kardas, Oguz Dikenelli
199
Altsözcüksel Birimlerle Türkçe için Sözcüksel Islevsel Gramer Gelistirilmesi Özlem Çetinoglu, Kemal Oflazer
207
Duyarlılık ve Normalize Sıralama: Gövdelemenin Türkçe Arama Motorları üzerindeki Etkisi ................................................................................................. Remziye Zeden, Esra Ayalp, Yıltan Bitirim, Hayri Sever
215
Anlamsal Web Mimarisi İçin Güvenilir Ontoloji Eşleme Platformu Gerçekleştirimi ....................................................................................................Dilek TAPUCU, Murat Osman ÜNALIR
223
Fault Diagnosis in an Induction Motor with Fuzzy Discrete Event System Approach ............................................................................................................. Kemal Leblebicioglu, Kilic Erdal
231
HW/SW Codesign of FPGA-based Neural Networks ........................................ Alper Ucar, Ali Ziya Aklar
239
Classification of Turkish Songs according to Makams by using n grams .......... Adil Alpkocak, Ali Cenk Gedik
247
Yapay Sinir Ağları ile Türkiye İthalat ve İhracatının 2020 Yılına Kadar Tahmini ............................................................................................................... Öznur İŞÇİ, Nevin GÜLER, Ebru YAKAR
257
Kelime Sayısı-Kelime Dağarcığı İlişkisinin Belirlenmesi .................................. Senem Kumova Metin, Bahar Karaoğlan, Taner Dinçer
269
Clustering Word Pairs to Answer Analogy Questions ....................................... Ergun Bicici, Deniz Yuret
277
Kelime Sayısı-Kelime Dağarcığı İlişkisinin Belirlenmesi 1
Senem Kumova Metin1, Bahar Karaoğlan2, Bekir Taner Dinçer3
1 İzmir Ekonomi Üniversitesi, 35330 Balçova, İzmir, Türkiye [email protected]
2 Ege Üniversitesi, Uluslararası Bilgisayar Enstitüsü, 35100, Bornova, İzmir, Türkiye [email protected]
3 Muğla Üniversitesi, İstatistik Bölümü, 48000, Kötekli, Muğla, Türkiye [email protected]
Özet. Doğal Dil İşleme çalışmalarında dilin modellenmesi ve bir metnin taşıdığı enformasyon miktarının belirlenmesi aşamasında temel bir unsur olan kelime sayısı-kelime dağarcığı ilişkisi, bu çalışmada Türkçe metinler üzerinde araştırılmıştır. Çalışma ile hâlihazırda var olan, test amaçlı kullanılan derlemlerde, kelime formları (gövde, yüzey formu), derlem içeriği ve derlem boyutunun kelime dağarcığı üzerine etkileri ortaya konulmuştur.
1. Giriş
Doğal Dil İşleme (DDİ), bilgisayarların doğal dilleri insanlar kadar iyi anlaması ve kullanabilmesi amacıyla, dillerin sayısal ortamlarda temsili, işlev ve yapılarının daha iyi anlaşılması konuları üzerinde çalışan bilim dalıdır. Bu alanda yürütülen çalışmalar farklı konuları içeren, farklı insanlar tarafından hazırlanmış, metinlerden oluşan derlemler üzerinden yürütülür. Bu metinlerin taşıdıkları enformasyon miktarı ve amaçladığı fikri vermekteki becerisi, metnin uzunluğu ve metin içinde kullanılan farklı kelimelerin sayısı ile yakından alakalıdır. Bu sebeple bir metnin içerdiği kelime sayısı (N) ve kelime dağarcığı (V) arasındaki ilişkinin belirlenmesi dilin modellenmesi çalışmalarında önemli bir basamaktır. Bu ilişkinin saptanması, doğal dil çalışmalarında dili temsil eden bir araç olarak kullanılan derlemlerin değerlendirilmesi ve genişletilmesi; metinlerin yazar, konu vb. gibi özelliklere göre sınıflandırılması; metinlerin taşıdıkları enformasyon miktarının ölçülmesi konularında önem kazanmıştır [8] [9] [10]. Yazılı metinlerin içerdikleri konular ve yazarlara ait özellikler kelime dağarcığındaki farklılıklar ile gözlenebilir. Şöyle ki her yazarın veya konunun kendine has belli bir kelime dağarcığı vardır. Bu dağarcığın belirlenmesi ile metinlerin konulara veya yazarlara göre gruplandırılması mümkün olmaktadır. Bu konuda Tuldava (1980)
1 Bu çalışma 104E120 numaralı “Zipf Kanunları Esasında Güncel Yazılı Türkçe’nin Nicel
Dilbilim Ölçütleri” projesi kapsamında TÜBİTAK tarafından desteklenmektedir.
269
çalışmasında farklı diller (Çekce, Rusça, İngilizce gibi) ve konulardan oluşan örnek metin grupları üzerinde toplam kelime sayısı (N) ve kelime dağarcığı (V) arasındaki ilişkiyi belirlemiştir. N-V arasında oluşturulan denkleme ait ilgili parametrelerin, konu ve dil farklılıkları ile değiştiğini araştırmasında ortaya koymuştur. Doğal dil çalışmalarında, belli bir yöntemle organize edilmiş metinlerden oluşan derlemler dili modelleyen bir araç olarak kullanılır. Bu sebeple derlemlerin, yeterli sayıda farklı kelime içermesi dili en iyi şekilde modellemesi açısından beklenen bir özelliktir. Aynı zamanda, derlemlere yeni metin parçalarının eklenmesi esnasında, eklenecek metnin derleme katacağı yeni kelimeler ve bu kelimelerin miktarı da önemli diğer bir husustur. Çünkü enformasyon miktarını yeteri kadar veya hiç artırmayan bir metin, derlemi büyütmek dışında bir etki yaratamaz. Tüm bu gereksinimler kelime sayısı ile kelime dağarcığı arasındaki ilişkinin belirlenmesi ihtiyacını ortaya çıkarır.
Makale içinde sırasıyla çalışma içinde kullanılan derlemler, kelime dağarcığı–kelime sayısı ilişkisinin belirlenmesi ve sonuç kısımları bulunmaktadır.
2. Derlemler
Derlemler (corpora), doğal dil işleme, bilgi geri getirim, hesaplamalı dil bilim alanlarında çeşitli sistemlerin geliştirilmesi veya sınanması sırasında kullanılan metin gruplarıdır. Derlemler, belli bir yöntemle organize edilmiş, rasgele seçilmiş veya doğal olarak varolan metin grupları ile oluşturulabilmektedir. Derlemler ile ilgili bir başka tanım da şöyledir [3]:
“… Dilbilim analizlerinde kullanılmak üzere bir dilin alt grupları veya verilen dili temsil ettiği kabul edilen metin grupları …”
Çalışmada daha önce başka araştırmalar tarafından hazırlanmış Türkçe derlemlerden faydalanılmıştır. Bunlar: Bilkent derlemi ve ODTÜ derlemidir. Bilkent derlemi Bilkent Üniversitesi’nde hesaplamalı dil-bilim çalışmalarının sonucu otomatik işaretlenmiş bir derlemdir [4]. Derlemin içeriği, hazırlandığı yıllarda çıkan gazete yazıları ve makalelerden oluşmaktadır. Bilkent derlemi Dinçer (2004) tarafından gerekli düzeltmelerin yapıldığı son haliyle kullanılmıştır. Bilkent derleminde kelimelere ait yüzey formları (surface form), yani çekim ve yapım ekleri alan kökler, bulunduğu gibi bu kelimelere ait gövdeler de bulunmaktadır. Çalışma içinde derlem, kelimelerin hem yüzey formları hem de gövdeleri kullanılarak değerlendirilmiştir.
270
Bilkent derlemi ~736341 adet toplam kelime; kelimelerin gövdelenmiş halleri dikkate alındığında ~25474 adet farklı kelime (kelime dağarcığı), yüzey formu dikkate alındığında ise ~110467 adet farklı kelimeden oluşmaktadır. ODTÜ derlemi yüzey formunda (surface form) bulunan yani çekim ve yapım ekleri taşıyan toplam ~1987447 kelimeden oluşmaktadır. Bu derlem için kelime dağarcığı ~241057 adet kelimedir. Derlem içinde pek çok farklı konuda metin bulunmaktadır. ODTÜ ve Bilkent derlemleri ile yapılan çalışmada 102-112 adet örnek kelime sayısı– kelime dağarcığı çifti kullanılmıştır.
3. Kelime Dağarcığı–Kelime Sayısı İlişkisinin Belirlenmesi
Kelime dağarcığının (V) kelime sayısı (N) ile orantılı bir artışı olduğu araştırmacılar arasında kabul gören bir saptamadır. Bu konuda hem deneysel hem rasyonel yöntemlerle pek çok denklem geliştirilmiştir. Kelime dağarcığı – kelime sayısı ilişkisinin belirlenmesinde Yule dağılımı veya Zipf kanunlarını temel alan karmaşık modeller (Kalinin, Orlov, Debowski vb.) geliştirildiği gibi deneysel olarak bu ilişkinin belirlenmesini benimseyen araştırmalar da bulunmaktadır [10]. Yapılan çalışmalar sonucundaki ilk deneye dayalı modellerde denklem 3.1’de gösterildiği üzere N ve V arasındaki ilişkinin doğrusal bir ilişki olduğu kabullenilmiştir. Ancak derlem boyutlarının ve çeşitliliğinin artması N-V arasındaki ilişkinin verilen denklem yerine üstel bir fonksiyonla tanımlanması gerekliliğini doğurmuştur.
NρV ⋅= 1ρ < (3.1)
Tuldava (1980) çalışmasında dilden bağımsız bir ilişki saptamaya çalışmıştır. İlk olarak Weillbul dağılımının bir türevi olan denklem 3.2’ yi geliştirmiştir. Ancak Tuldava deneye dayalı değerler üzerinde bu denklemi değerlendirdiğinde denklemin orta uzunluktaki metinlerde olumlu sonuçlar vermesine rağmen ekstrapolasyon için uygun olmadığını görmüş ve çalışmasında sonuç denklem olarak 3.3’ ü kullanmıştır.
BNαNVln ⋅=
(3.2)
BNlnαNVln ⋅−=
(3.3)
Denklem 3.3’ de ‘α’ ve ‘B’ parametreleri konu, dil ve yazar gibi bir takım özelliklere bağımlı parametrelerdir. Çalışma içinde denklem 3.3 temel alınarak Türkçe için ilgili
271
parametreler saptanmış ve gerçek kelime dağarcığı değerleri ile bu denkleme bağlı olarak üretilen tahmini kelime dağarcığı değerleri kıyaslanmıştır.
4. Sonuç
ODTÜ ve Bilkent derlemleri için V-N değerlerinden α ve B parametreleri en küçük kareler yöntemi kullanılarak tahminlendiğinde çizelge 4.1‘de verilen sonuçlar elde edilmektedir.
Çizelge 4.1 Denklem 3.3’ün Türkçe derlemler üzerinde değerlendirilmesi sonucu elde edilen parametreler listesi
Derlem B α Bilkent
(gövde formu) 2.1602 0.0124
Bilkent (yüzey formu) 2.9688 0.0009
ODTÜ 2.9753 0.0008 Çizelge 4.1’ de belirtilen B ve α değerleri ile tahmini kelime dağarcığı (V’) belirlenerek derlemlerdeki gerçek değerler ile kıyaslanabilir. Örnek değerler üzerinde yapılan bu çalışmada hata oranları Bilkent (yüzey formu) ve ODTÜ derlemleri için çizelge 4.2’ de gösterilmektedir.
Çizelge 4.2 ODTÜ ve Bilkent derlemlerinde V-N ilişkisinin değerlendirilmesi. Bilkent (yüzey formu) derlemi için B=2.9688 ve α=0.0009, ODTÜ derlemi için B=2.9753 ve α=0.0008 olarak alınmıştır.
ODTÜ Bilkent (yüzey formu)
N V V' HATA V V' HATA 500 390 421 8,05% 376 416 10,64%
1000 743 792 6,53% 710 779 9,72% 2000 1359 1467 7,92% 1286 1432 11,35% 5000 2926 3238 10,68% 2890 3123 8,06%
10000 4997 5784 15,76% 5182 5509 6,31% 25000 10893 12113 11,20% 10881 11300 3,85% 50000 19707 20712 5,10% 18929 18958 0,15% 75000 27622 28075 1,64% 25307 25373 0,26% 100000 33997 34682 2,01% 31123 31040 -0,27% 200000 56693 56799 0,19% 49522 49539 0,03%
272
300000 74957 74984 0,04% 64267 64198 -0,11% 400000 90448 90861 0,46% 76867 77025 0,21% 500000 104021 105148 1,08% 88176 88015 -0,18% 600000 118670 118244 -0,36% 97990 98090 0,10% 650000 124822 124428 -0,32% 102733 102802 0,07% 700000 130113 130402 0,22% 107267 107329 0,06% 732000 134143 133894 -0,19% 110103 110136 0,03% 750000 135943 136185 0,18% - 111687 - 900000 154838 152543 -1,48% - 123893 - 1000000 165487 162742 -1,66% - 131418 - 1550000 211904 211617 -0,14% - 166643 -
Bilkent derleminde kelimelerin yüzey formları ve gövde formlarının etkilerinin gözlenmesi için ise çizelge 4.3 hazırlanmıştır.
Çizelge 4.3 Bilkent derleminde Tuldava (1980) çalışmasında kullanılan V-N ilişkisinin değerlendirilmesi. Bilkent (yüzey formu) derlemi için B=2.9688 ve α=0.0009, Bilkent (gövde formu) derlemi için B=2.1602 ve α=0.0124 olarak alınmıştır.
Bilkent ( gövde formu)
Bilkent ( yüzey formu)
N V V' HATA V V' HATA 500 260 266 2,31% 376 416 10,64% 1000 482 453 -6,02% 710 779 9,72% 2000 802 756 -5,74% 1286 1432 11,35% 5000 1731 1440 -16,81% 2890 3123 8,06%
10000 2628 2288 -12,94% 5182 5509 6,31% 25000 4429 4089 -7,68% 10881 11300 3,85% 50000 6568 6187 -5,80% 18929 18958 0,15% 75000 7979 7806 -2,17% 25307 25373 0,26%
100000 9243 9163 -0,87% 31123 31040 -0,27% 500000 20819 20957 0,66% 88176 88015 -0,18% 600000 22878 22843 -0,15% 97990 98090 0,10% 650000 23781 23713 -0,29% 102733 102802 0,07% 700000 24693 24540 -0,62% 107267 107329 0,06% 732000 25373 25050 -1,27% 110103 110136 0,03% 750000 - 25331 - - 111687 - 900000 - 27516 - - 123893 - 1000000 - 28844 - 131418 1550000 - 34892 - 166643
273
Çizelge 4.2 ve 4.3’ de N kelime sayısını, V derlemlerdeki gerçek kelime dağarcığı sayısını, V’ denklem 3.3’ e bağlı olarak bulunan tahmini kelime dağarcığı sayılarını ifade etmektedir. Hata oranları V’/V-1 değerinden bulunmuştur. Hata hanesinde negatif işaretli değerler tahminlenen değerin gerçek değerden küçük olduğunu, pozitif işaretli değerler ise tahminlenen değerin gerçek değerden büyük olduğunu simgelemektedir. Bilkent (yüzey formu) ve ODTÜ derlemleri değerlendirildiğinde (çizelge 4.2) toplam kelime sayısının (N) yüksek değerleri için kelime dağarcığının düşük bir hatayla tahminlendiği, düşük değerleri için ise tahminlemenin yüksek hatalar verdiği görülmektedir. Kelime sayısının (N) düşük değerleri için dil yeterince modellenememekte ve metinler anlam bütünlüğünü sağlayacak uzunluğa erişememektedir. Bu durum çizelge 4.2‘ de N’ in düşük değerleri için V’ tahminlemesindeki yüksek sapma miktarlarını açıklamaktadır. ODTÜ derleminde, çeşitli konulardaki metinler, konu sırasına bağlı olmaksızın derlem içine yerleştirilmiştir. Bilkent derlemi ise sadece derlemin hazırlandığı yıllardaki gazete yazılarını ihtiva etmektedir. Bu sebeple Bilkent derlemi ODTÜ derlemine oranla daha düşük kelime dağarcığına sahip olmaktadır. Her iki derlem için denklem 3.3 ile tahminlenen parametreler arasındaki farklılığın bu konu çeşitliliğinin bir sonucu olduğu düşünülmektedir. Bilkent (yüzey formu) ve ODTÜ derlemi için N-V ve elde edilen N-V’ eğrileri logaritmik olarak şekil 4.1’ de gösterilmektedir.
274
Şekil 4.1 Bilkent (yüzey formu) ve ODTÜ derlemlerinde tahminlenen kelime dağarcığı-toplam kelime sayısı ve gerçek kelime dağarcığı- toplam kelime sayısı eğrilerinin logaritmik düzende gösterimi
Çalışmada Bilkent derlemi için yüzey formu ve gövde formu üzerinden elde edilen parametrelerin birbirinden oldukça farklı olduğu (çizelge 4.1) ortaya çıkmıştır. Derlemlerin yapısal farklılıkları kelime dağarcığı artışını etkileyeceği için bu beklenen bir sonuçtur. Derlemin yüzey formunda aynı gövdeye sahip kelimeler çekim ekleri sebebiyle farklı kelime olarak alınmaktadır. Örneğin “ev, evde, evden” kelimeleri aynı gövdeye (“ev”) sahip olmasına rağmen farklı kelimeler olarak değerlendirilir. Bu nedenle Bilkent derleminin yüzey formunun kelime dağarcığı artış hızı, gövde formuna oranla daha yüksek olmaktadır. Bu durum şekil 4.2’de görülmektedir.
Tuldava (1980) farklı diller ve konulara sahip örnek metinler üzerinde yaptığı çalışmada, metinlerin yüzey formlarını kullanmıştır. Bilkent derleminin gövde ve yüzey formundan elde edilen sonuçlar değerlendirildiğinde ortaya çıkan diğer bir gerçek ise Türkçe için denklem 3.3’de verilen eşitliğin derlemin yüzey formunu daha az hata ile modellediğidir.
Şekil 4.2 Bilkent derleminin yüzey formu ve gövde formu için kelime dağarcığı - toplam kelime sayısı eğrilerinin logaritmik düzende gösterimi
Yapılan çalışma sonucunda, derlemlerdeki konu çeşitliliğinin ve kelime formlarındaki farklılığın, kelime dağarcığının miktarına ve artış hızına olan etkisi Türkçe derlemler
275
üzerinde gösterilmiştir. Bunun yanısıra, kelime sayısı – kelime dağarcığı ilişkisinin belirlenmesinde önemli bir unsurun da derlem boyutu olduğu ortaya çıkmıştır.
İleriki çalışmalarda derlemlerin dili modellemekteki başarısı ve derlemlerin kıyaslanması çalışmalarında bu sonuçlardan yola çıkarak konu dağılımı ve dolayısıyla içerik zenginliği için denklem 3.3’de verilen parametrelerin bir ölçek olarak kullanılması planlanmaktadır
Kaynaklar
[1] Debowski, L., 2002, Zipf’s law against the text size: A half rational model, Glottometrics 4, 12p.
[2] Dinçer, T., 2004, Türkçe için istatistiksel bir bilgi geri-getirim sistemi, Doktora Tezi,
U.B.E., Ege Üniversitesi [3] Francis, W.N., H.Kucera ,1964, Brown Corpus Manual: Manual of Information to
accompany Standard Corpus of Present Day Edited American English, for use with Digital Computers, Department of Linguistics, Brown University
[4] Hakkani-Tür, D.Z. , Oflazer, K., and Tür, G., 2002, Statistical morphological
disambiguation for agglutinative languages, Computers and the Humanities [5] Kilgarriff, A. and Rose, T., 1998, Measures for corpus Similarity and homogenity, ITRI-
98, Brighton, 6p. [6] Kornai, A., 2002, How many words are there?, Glottometrics 2002/4, 61-86p [7] Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language
Processing. The MIT Press, Cambridge, Massachusetts, London, England. [8] Stamatatos, E., Fakotakis, N., Kokkinakis, G. , 1999, Automatic Authorship Attribution,
Proceedings of the 9th Conference of the European Chapter of the Association for Computational Linguistics, Bergen , pp 158-164
[9] Stamatatos, E., Kokkinakis, G., Fakotakis, N., 2000, Automatic text categorization in
terms of genre and author, Computational Linguistics, 26(4), pp 471-495 [10] Tuldava, J., 1980, A Mathematical Model of the Vocabulary-Text Relation, COLING,
1980, 600-604 p..
276
*r'-
Kon TallqsA
Turhan TUNALIEge Universitesi, Uluslararasl Bilgisayar Enstitilsu MLidiLru
gener OKTIKMuola Univeritesi Rektort (Presiderrt of Mu$la University)
(Director 0f lnternational in st itute,
10:30 11 :00
Davetli I{ 1:00 12:00
Roni RO$ENFELDSr-:hool of Cornpute'r $cience, Carnegie lVlellon Univetsity
"From Natural Language to the Language of Life"
Eoot
troEo
kanr ion Ghaioturum'13:30 14:50
Eoou
fiU'
{ GRNN and PNN on the Diagnosis of Gastric Cancer
Sultan Aldtrmaz, Tulay Ylldlrlm
2 Salient Region Extraction from Endoscopic lmages
Abdulkadir Sengtir, lbrahim T0rko$lu . M Cevdet lnce, i. Halil Bahgeiiogln
3 ed Visualization Of Brain Slices hy Using Computer Techniques
Baki Koyuncu, AlPer Pahsa
4 Design of PtDlike Neuro-Fuzzy controller for induction rfiotor
Murat Siinmez, Muotafa Nil, lsmet Kandilli, Mehmet Yakut
1S:30 17:00 ssl0n ChaiOtururfi
I Design of a Single Phase Neuro-Fuzzy Controlled Uninterruptibl€ Power $upply
ismail Atacak, 0mer Faruk Bay
Z Design of PlDJike Neuro-Fuzzy controller for inductlon motor
Murat Sdnmez, Mustafa Nil, lsmet Kandilli, Mehmet Yakut
3 New Results {or Global Stabllity ol Cellutar Neural Networks with Discrete Time Delays
Sibel Senan, Sabri Ank, Vedat TavEano$lu
4 Yapay Sinir A$larr ile Tiirkiye ithalat ve ihracatrnrn 2020 Yrhna Kadar Tahmini
Oznur i$Qi, Nevin GULER, Ebru YAKAR
z-zod
aooG
o,fiq,
{wod
N
G
a
oou.
o(E
U)
-JuRe 21,2A0$ -
.ff
TalKon
Rich KORFUCLA Computei Science Department, University of California
"Recent Frogress in Heuristic Search"
9:30 10:30
11:00 12:00 Oturum kant Chai
ooN,
o(ovt
1 A Novel Approach to Optirnization of a Microwave Annplilier
YaVUz CENGiZ, Fi|iz GUNE$
2 AFuzzy Logic lnference System for Maximum Power Point Tracking in Photovoltaic Energy
GenerationH. Tarik Duru
3 Complex Systems Modeling by Using ANFIS
Hanbay Davut, Turkoglu lbrahim, Demir Yakup
t3:30 15:{0 Oturunr kanr Session
E0od
o6tl,
1 Global Exponential Stabiiity of Neural i'Jetworks with Multiple Time Vary;ng Delays
Toiga Eisaft, Sab:-i Arlr<
I Fuzzy Logic Based Cutting Parametel Selection For Turntng Operations
Hamamci Emre, llkaz Sinan, Celik Abdunahman S , Kayacan M Cengiz, Colak Ogirz' Bekci Ufuk
3 An Adaptiva Wavelet Entropy Method for lntelligent Digital MorJulation Classification
Engin Avci" Zeynep Bicer, Sultan Erdem Yakut
4 Predator-Prey Problem: Recursive Evolution of Homogeneous Predator End Prey Strategies by
Genetic ProgrammingUlas Beldek. K.emai Leblebicioglu
Oturum15:30 17:00
z.zod
att)
o(E
o(,}q,
o-
{oed
N
G
E
a
Eoou
otsrn
{ A Novel 1R Approach To Derive Rules
Tugba Dalyan, Nevcihan Duru
2 Validity Measure for Gray-l-evel lmaqe Clustering: A Comparative Study
lbrahim Turkoglu
3 System ldentification by using Cascade Modeling Technique with Bezier Curve Nontrinearity
RepresentationsErdem Turker Senalp, Ersin Tulunay, Yurdanur Tulunay
4 A Wavetet Neural Network lor lntelligeltt Modeling
Hanbay Davul, Turkogill iL:rahim, Demir Yakup
"Day - June 22, ?006 -
d Talkvetli Kon I
Rich KORFUCLA Ccmputer Science Department, University of California
9:30 {0:30
12:00 ChainrOturum
'l Duyarlrhk ve Nornralize Stralama: Govdeletnenin TtirkEe Ararna Motorlarl Uzerindeki Etkisi
R€n1zty€ Zeden, Esra Ayalp. Ylltan Bitirlm, Hayri Sev€r
! Farklr Ozel!ik Vektorleri ile Turkce Dokumanlarit: Yazarlarinin Belirlenmesi
Mehnret Fatin Amasyali, Banu Diti
3 Kelime Saylsr"Kelime Ca(arcr$t iligxisinin Belirlenmesi
Senem Kumova ltletin, Bahar KaraoQlan, Taner Dinger
(a{
Eoou(\o$@
s$ionrum13 4:
(\
oo0rFI
oGo
1 Tiirkge Cijmlelerin Kulral Tabanh Bagiiltk Analizi
3-lSen Ernlgil EEref Adair, F"ema eflaze:'
2 An lnfrastructure for Turkish Prosody Generation in Text'to-Speech Synthesis
M Oguzhan Kuiekcr, Kemal Oflazer
3 A Prototype Machine Translation tystetn Between Turkmen and Turkish
Ahmet Cuneyd TantuU, Esref Adalt. Kerrral Oflazer
4 istatistiksel geviri Sisterni igin TUrkr;e ve lngilizce Metinlerin ESle$tirilmesi
ilknur Durgar El-Kahlout, Kemal oflazer
eha15:30 16:30 Oturum
o.-.!Zsd
tr,
tl,
o(E
{}{,q,
n*
'5c06
€(,trT
o
a (\Eoot!
$t
o(Efi
{ Altsrizcijksel Birimlerle Tairkqe iqin Sdzctlksel lslevsel Gramer Gelistirilmesi ]
6zie..n Qetinoglu, Kernal Oflazer
2 Classification of Turkish Songs according to Makams by using n grams
Adil Alpkocak, Ali Cenk Gedik
3 Learning to Answer Word Analogy Questions
Ergun Bicici, Deniz Yuret
4 Anlamsal Web FJlimarisi igin Giivenilir Ontoloji ESleme Platformu GerqekleEtirirni
Dilek TAPUCU. I\4urat Osman UNALIR
5 qok-Etmenii Yaztllm Sistemleri isin Y,lrutulen Modelleme Oili Sahsrnatart ve Bunlartn An[anrsal lrjeh
Deste$i Perspektilinde DegerlendirilmesiGeylani Karcjas, Oguz Dikenelli
- June3 2006 - F
9:30 10:30
i-layri$EVERDepartment c{ Computer Englneering, BaSkent University
"Recent Advanees in lnformation Retrieval"
kanl ion ChaiOturum11:00 t 2:20
1 Fault D€tection in an lnduction Motor with Fuzzy Uiscrete Event System Approach
Erdal Kilic, Kemal Leblebicioglu
2 Prahabilistic Face Pose Eslimation
Tolga inan ilkav Ulusoy, Ugur Haltct
3 Path Planning Among Polygonal Obslacles ln Non'uniforrn Cost Environment
Serkan Ensoner, AYbars Ugur
4 HWSW Codesign of FPGA-based Neural Networks
Alper- Ucar. Ali ZlYa Alkar
{oaU
N
gE
$,
EoE,
oEti,
9:30 10:30 Davetli Konuqmacl (lnvited Talk)
HayTiSEVERDepartment of Computer Engineeilng, BaEkent University
"Recent Advances in lnformation Retrieval"
'=^'= .E
iabLu=
E>:! E"dy:o
ltoEE.Ert5EA(E!E8
11 :00 12:00 Hesaplamah Bigirnbilim Egitimi : 1. Krslm(Computational ll4orphology Tutorial - Pa* 1)
Kemal OflazerDepartment of Computer Science & Engineering, Sabancr University
Hesaplanrah Biqimbilim E[itirni : 2. Kislm(Corn pirtatiorrai I\,4orpho io gy Tutoria i - P ar1. 2i
KemalOflazerDepartment of Computer Science & Engineering, Sabanci University
fittroou,$t
oitsa
13:30 15:00
c\t
Eoox"$ttroGU'
- June 2006 -